所有文章 > 正文

KDD Oral 解读 | TIMME: 应用于推特用户意识形态分类的多任务多关系嵌入模型

作者: 肖之屏

时间: 2020-08-03 14:26

作者采集整理了真实的推特数据并且进行了意识形态分类,实验表明TIMME模型优于其他最先进的模型。

肖之屏1宋卫平2,许皓彦3,任致澄1孙怡舟1

1加州大学洛杉矶分校计算机系

2北京大学计算机科学技术系

3.浙江大学控制科学与工程学院

本文被收录于KDD’20 Applied Data Science Track,并入选口头报告(Top5%)。

文章:TIMME: Twitter Ideology-detection via Multi-task Multi-relational Embedding

数据和代码(Github):https://github.com/PatriciaXiao/TIMME (从推特官方接口获取的20000个点的社交关系图,于2019年3月整理完毕)

论文简介视频:https://web.cs.ucla.edu/~patricia.xiao/projects/timme/KDD2020_TIMME.mp4

1-Cq2kDKSdk0.png

摘要:社交网络上的意识形态分类任务有很广阔的应用场景,也面临着一些挑战。本文从推特获取了数据,并拟用图嵌入模型解决此问题。主流的图嵌入模型研究仅关注规模小而稀疏,并且标签丰富的数据集,比如学术网络数据。而在真实应用场景中,存在规模更大且连接稠密,但是标签稀疏的数据,比如社交网络数据。这种大而稠密的数据使得主流嵌入模型效率很低,并且非常容易产生过拟合现象。另外,真实数据具有不完全性和异质性的特点,给图嵌入模型带来极大的挑战。能够解决此类问题的模型,理论上可以推广到任意的真实社交网络数据。本文提出了一种多任务多关系的嵌入模型,利用多种关系类型作为补充来处理规模大而标签稀疏的图数据,进一步提出了可以使得本模型能在特征缺失的情况下使用不完整的特征进行学习的方法。针对规模大而关系异质的问题,本文首先采用多关系的图卷积网络对特征进行编码;同时为了解决缺失特征的问题,当特征不完整时,将缺失部分的特征视作可训练的参数。然后采用多任务解码器,让多个任务互相协助,从而解决标签稀疏的问题。作者采集整理了真实的推特数据并且进行了意识形态分类,实验表明TIMME模型优于其他最先进的模型。

本文的代码和数据都已经公布,欢迎读者推广应用于其他真实社交网络数据的用户分类问题。

一、意识形态分析

2-3VeN5FG7bJ.png

图1.  Twitter上不同关系类型的一个例子

意识形态的分析是一个至关重要的课题。问卷调查等传统的方法十分耗时耗力,故难以形成规模并得到及时的结果。

电子信息时代,社交网络的普及,使得快速并且大量地采集普通人的意见成为可能,例如推特就是非常出色的意见采集来源。绝大部分美国政客都会在推特上开设并验证自己的官方账号,如果人们知道政客的党派,就可以给相关相关账号贴上意识形态(保守派或者自由派)的标签。图1是Twitter上不同关系类型的一个例子,其中德里凯森是自由派(左),罗莎是保守派(右),伊莎贝尔没有明显的派别倾向。

本文将用户视为节点,用户间的互动关系,例如图1中的关注、转发、提到、回复、喜欢等互动视为边,将意识形态分析视作实体分类(entity classification)问题。看起来这是一种经典的图数据,似乎可用图嵌入模型进行节点的分类,从而完成意识形态分析这个任务。

但是,推特用户间存在多种互动关系,是一种异构信息网络,因而有别于现有的绝大多数图数据。另外,推特数据的标签非常稀少,代表用户间互动关系的连边非常稠密。而且因为真实的推特数据集存在非常严重的数据缺失问题,例如,很多用户账号会被注销或被锁住,导致无法获取这些用户数据。这些特征给人们带来了特殊的挑战,迫切需要设计专门针对此类问题的模型。

3-dTPbtQcWsI.png

图2.数据集的统计信息

1. 数据集:

本文将作者收集并整理的推特数据集和代码一起公开了出来,统计信息如图2所示,希望能够对后续的研究者们起到一定帮助作用。本文数据集的一些棘手的特征,譬如特征的缺失和标签的极端稀疏,正是普遍存在于绝大多数真实社交网络数据上的客观挑战。

(1) 数据集的节点由政治家以及他们的部分存在关注或者被关注关系的一阶邻居构成,边是这些政治家之间存在的关系。

(2) 根据对节点不同的筛选标准,本文构建了4个不同大小的数据集。

(3) 关于数据的收集和整理,详见论文附录部分,本文的数据可以从https://github.com/PatriciaXiao/TIMME/tree/master/data直接获取。

2. 提出了TIMME模型:

(1) TIMME的encoder和decoder部分都同时考虑了多种关系以及这些关系之间的互相影响。

(2) TIMME使用了多任务学习的框架,引入链路预测(link prediction)任务,从而极大缓解了单纯依靠节点标签所要面临的监督信息不足的问题。

(3) 当有一部分节点的特征(feature)无法获取,从而输入特征部分缺失的时候,TIMME可以灵活地将缺失部分的特征视作可学习的参数。因为参数变多,这部分有一些特殊处理,在论文中有所阐述,读者也可以参考代码实现细节。

(4) 实验中,作者发现模型并不需要目前较好质量的特征(由基于文本的GloVe平均值构成),所以本文的实验结果全部采用的是独热(one-hot)向量作为输入特征。

(5) 实验表明,TIMME比现存的最好模型都更加适合处理推特上的意识形态分析问题。

(6) 理论上,TIMME并不局限于处理意识形态分析问题。它可以用来处理标签极其稀疏的、关系类型多样的图模型中的实体分类问题。而且随着节点数增加,TIMME的时间复杂度是线性增长的。

三、模型概览

4-WkZobWAhar.png

图3. TIMME模型的架构

TIMME模型如图3所示,模型由encoder和decoder组成。encoder由两层多关系卷积层构成。灰色块代表缺失的特征,本文将缺失特征视为可学习参数,或者采用独热编码。而decoder主要有两种不同的结构。其中,第一种模型结构TIMME基于R个链路预测任务和1个实体分类任务互相独立的前提假设而提出;第二种结构TIMME-hierarchical假定R个链路预测任务相互独立,但是实体分类任务可以利用链路预测任务的学习结果间接完成。第二种结构的好处在于它可以获得每种关系类型对于实体分类任务的重要性。换言之,TIMME-hierarchical可以揭示用户间的不同互动方式对其意识形态影响。

5-WtFfqinfGq.png

图4.多任务框架的TIMME和TIMME- hierarchy两种类型的解码器

四、实验分析

TIMME模型在链路预测和实体分类任务上的表现胜过了所有baseline模型。而且TIMME不需要很精准的调参。

有相当多的推特用户在个人账号的信息页提供了自己所在的州,甚至是郡县市的信息,本文把这部分的用户信息加以整理,结合模型的预测结果,进行一个粗略的意识形态分布预测,如图5所示。

6-BeD17UK3tl.png

图5.推特上美国各州意识形态

一些摇摆州(也就是在民主党和共和党之间倾向不明显,意识形态比较暧昧)的郡县级(郡县——county,是美国的选区单位,一般比市大)预测结果也很有参考价值。其中,弗洛里达洲就是其中一个比较典型的摇摆州。

7-hykkibU7RN.png

图6.  推特上美国弗洛里达州的意识形态

本文还有许多其他有意思的实验发现,包括但不限于:

· 推特上的激进派(民主党)的存在感比保守派(共和党)强很多,如果完全根据社交网络数据进行预测,保守派的势力可能会被低估。

· 对于意识形态的预测问题而言,最可靠的关系类型往往是关注(follow)关系。

· 转发(retweet)和提及(mention)关系的存在使得喜欢(like)存在的可能性变高。

· 在此问题中,边的关系已经十分可靠,文本信息并非十分必要。

更多KDD2020 相关信息敬请查看:https://www.aminer.cn/conf/kdd2020

相关阅读

你关心的这些CCF A类会议,AMiner都替你备好了!

ACL 2020 | 消除文本分类问题中歧视现象的研究

SIGIR 2020|乘风破浪的AI华人学者们

[关于转载]:本文原载于“机器学习研究组订阅号”微信公众号,转载本文请联系原作者获取授权。谢谢您的合作。

推荐阅读 更多