所有文章 > 正文

CIKM2021 | 基于主题感知注意力网络的信息传播预测模型

作者: 北邮 GAMMA Lab

时间: 2021-09-27 14:19

CIKM2021 | 基于主题感知注意力网络的信息传播预测模型

论文解读者:王浩

题目:Neural Information Diffusion Prediction with Topic-Aware Attention Network

会议:CIKM 2021

信息传播预测任务的主要目标是预测信息项如何在一组用户中传播。近年来,随着深度学习的巨大成功,神经网络在信息传播建模中得到了广泛的应用。然而,在真实的信息传播场景中,用户对不同主题的信息项可能会有不同的行为模式。现有的基于神经网络的模型无法建模特定主题下的传播模式和依赖关系,而传统的非神经方法已经证明了主题对用户的影响。在本文中,我们提出了主题感知注意力网络(TAN),以利用特定主题下的传播建模和深度学习技术。我们通过注意力机制将主题上下文和用户/位置依赖合并到用户表示中,从而联合建模信息项的文本内容以及级联序列数据。其次,时间衰减聚合模块被进一步用于集成用户表示从而获取级联表示,可以分别编码特定主题下的传播依赖。

1 引言

下一个用户预测作为一种流行的微观级联预测任务在近年来得到了广泛的研究。这个问题被定义为给定信息项随时间排序的用户感染序列,预测下一个被感染的用户(按照惯例,研究人员将使用“感染”、“激活”或“影响”来描述用户与信息项存在交互)。

随着深度学习技术的发展,一些文献将信息传播级联建模为感染序列,采用循环神经网络取得了良好的效果。虽然级联通常表示为一个用户序列,按感染时间戳排序,但真实的传播过程通常不是严格有序的,其依赖于未观察到的用户连接图。因此,其他一些研究采用注意力机制捕获非顺序长期传播依赖。然而,现有的基于神经网络的方法假设所有信息项的传播行为和模式是同质的。这种假设在现实世界中可能不成立。从直观上看,用户的兴趣通常是多种多样的,根据信息项的主题,用户的传播行为也可能是多种多样的。例如,用户可能分别在不同的主题下关注不同人然后转发不同信息,因此具有特定于主题的依赖关系。图1展示了一个关于信息传播的传统建模和主题感知建模的玩具示例。图1 (a)介绍信息传播分析中下一次感染用户预测这一典型问题。图1(b)中的传统建模通常忽略传播信息项的文本内容,导致从不同的主题学习混合依赖关系。相比之下,主题感知建模旨在显式的解耦特定主题下的传播依赖,从而能够更准确地预测,如图1(c)所示。

在本文中,我们提出了一种基于主题感知的注意力网络(TAN),结合主题特定的传播建模以及深度学习技术的优势。具体而言,我们设计了一种新颖有效的主题感知注意力机制,将主题上下文和传播历史上下文整合到用户表示中进行预测。主题上下文支持针对特定主题的传播模式建模,而传播历史上下文可以进一步分解为用户依赖建模和位置依赖建模。随后,我们可以使用编码得到的用户上下文来构建多主题下的用户表示。然后,我们通过一个时间衰减聚合模块进一步集成用户表示,从而获取级联表示。其中,所有这些模块都是由信息传播的特征驱动的。因此,我们提出的TAN可以更好地拟合真实世界的扩散数据,并更准确地预测。此外,在传统的主题感知模型中需要使用预定义好的主题分布,而在本工作中主题可以自动学习。在三个公共数据集上的实验结果表明,我们提出的模型在信息传播预测方面比最新的基线方法具有更好的性能。消融研究和所学主题的分析进一步证明了我们的有效性。

2 模型介绍

在本节中,我们将从形式化传播预测问题开始,并引入我们的嵌入策略,将用户/位置/文本信息编码到向量中。然后我们将提出主题感知的注意力层,旨在捕捉不同主题的历史出传播依赖和时间衰减效应。最后,我们的模型将通过给定的主题感知的注意层获取多主题级联表示,继而预测下一个受感染用户。我们提出的TAN的完整结构如图所示。

2.1问题定义

给定用户集合U,级联集合V和传播信息集合M,M中第i个信息项的传播序列可以被定义为级联,其中元组表示用户在¥t_j^i¥时刻被转发,且序列按照感染时间排序。传播预测任务定义为给定级联的传播文本和先前的感染用户序列,预测下一个感染用户,其中。

2.2嵌入层

如图所示,我们针对每一个用户分别学习其在多个不同主题下的潜入表示,即 , 其中 是用户在第k个主题下的用户嵌入。同时相比于其他方法我们还额外学习了位置嵌入以及文本嵌入。其中文本嵌入获取方式为通过BERT对传播信息文本的语义信息进行编码。

2.3主题感知注意力层:

在本小节中,我们将进一步将各种上下文信息编码为用户表示,然后结合时间衰减权重聚合用户表示,为每个主题生成级联表示。

用户表示增强

我们分别将主题上下文和传播历史上下文合并到多主题用户表示中。传播历史上下文可以进一步分解为用户依赖和位置依赖。受多头注意力机制的启发,我们将一个主题作为一个特定的头(head),并在每个主题中分别执行注意力机制来提取用户和位置依赖关系。

1)主题上下文

基于传播文本的嵌入,我们提出在第k个主题下,如果用户嵌入与文本嵌入存在较高的相似度,则加强用户的嵌入。具体来说,我们对每个主题k计算和之间的余弦相似度,并用一个softmax函数对其进行归一化:

然后集合主题上下文的用户嵌入可以表示为。我们可以发现当第k个主题对应的用户嵌入与的余弦相似度越大,分配的权重越大,该主题下的用户嵌入被进一步加强。

2)传播历史上下文

传播历史上下文的目标是提取与刻画和用户感染相关的用户。具体而言,我们采用注意力机制来建模用户依赖关系,并给予这些可能影响感染的用户更多的注意力权重。形式上,级联序列中与先前用户的依赖的注意力分数可以由下面公式计算:

除了用户间的依赖关系,我们还需要建模与用户无关的位置依赖,例如每一个用户更可能受嘴贱感染用户以及源头用户的影响。不同于以往直接对预定义的位置嵌入和用户嵌入相加,我们采用与用户依赖建模类似的方法计算位置依赖分数。这样,我们的方法可以更好地捕获与用户无关的位置依赖性,以获得更好的预测性能。

用户与用户之间完整的注意力分数α可以用来描述传播历史上下文,并通过以下公式计算:

其中α是从位置m到位置j的位置依赖分数。

3)完整的上下文感知的多主题用户表示

为了充分利用主题和传播历史上下文,我们将第k个主题中的用户表示为先前感染用户的加权和。

其中是由注意力分数计算得到的权重。请注意,我们还可以将上述操作的多个层叠加起来,以获取更加精准的表示。在这种情况下,主题上下文的权重和位置依赖得分α在不同的层之间共享。

基于时间衰减聚合获取级联表示

在提取多用户在多主题下表示后,我们需要将它们聚合以获得多个主题下的级联表示。我们假设用户的影响会随时间衰减,并在计算用户嵌入时共同考虑时间衰减和传播依赖的权重。

1)时间衰减影响建模 具体来说,受deephawkes的启发,我们对每个主题采用了非参数化的时间衰减建模策略。形式上,给出历史感染的级联序列,首先将连续时间衰减转化为离散时间间隔,然后对于每个主题,每个时间间隔都有相应的可学习权重λ。

2)计算多主题下的级联表示 完整的聚合权重为在传播历史权重的基础上加上额外的一项:然后β将通过softmax函数对进行归一化。最后,对于每个主题k,我们计算以β为权重的的加权和,并采用带有ReLU激活函数的前馈神经网络赋予模型非线性。主题感知注意力层的输出为级联表示,可以表示为.

2.4 训练目标以及模型细节

给定级联序列,通过衡量用户嵌入和级联嵌入的相似性来参数化下一个感染用户的概率。如下所示,级联与用户u_(n+1)^i的交互概率可以表示为:

除此之外,我们希望每个主题子空间反应不同的语义,并且不同用户在同一主题下的嵌入应该尽可能相似。因此,我们设置K个主题原型嵌入并且鼓励k主题下的用户嵌入与对应主题原型相似。形式化,我们目标是最大化:

3 实验

3.1 主实验

下表展示了所有方法在三个数据集上的传播预测性能。最后一行表示TAN相对于最佳性能基线方法的相对改进。在所有三个数据集上,TAN均显著优于所有最先进的基线方法。如表4所示,对于𝑀𝑅𝑅和𝐴@𝑘分数,相比于最佳性能基线的相对改进至少为5%。这些指标的改进证明了我们提出的模型的有效性。

3.2 多兴趣用户分析

由于TAN的提出是为了模拟特定主题的传播行为和依赖关系,因此它应该比基线方法更适合于预测具有多种兴趣的用户。为了证明这种能力,我们只在多兴趣用户数据上评估TAN和所有基线方法。如下表所示,我们报告了三个数据集上前5%的多兴趣用户的结果。对于所有的方法,我们可以观察到,由于主题特定建模的挑战,所有指标都出现了显著的下降。与基线方法相比,我们的模型在𝑀𝑅𝑅上有超过25%的提升,在𝐴@10指标上增加了20%。

3.3 消融研究

在本小节中,我们通过删除一些组件来比较几种TAN的变体。变体移除通过将主题数设置为1来移除主题特定建模的影响,从而用来评估注意力机制的好处; 直接将位置嵌入与主题嵌入相加用于验证位置依赖建模方式; 移除时间衰减影响模块来评估其重要性;并且忽略文本输入然后使用均匀主题分布。此外,为了研究注意力机制带来的改进,我们提出了两种基于RNN的方法,RNN+doc和GRU+doc,直接拼接BERT的文本嵌入和RNN隐藏状态编码,并采用一个全连接层进行预测。消融研究的实验结果见下表。

二维码 扫码微信阅读
推荐阅读 更多