所有文章 > 正文

回顾常用的概率话题模型

作者: 侯磊

时间: 2019-06-25 16:28

新闻和UGC话题分析旨在帮助用户概要性地了解新闻报道和用户讨论的主要内容,通常利用统计概率模型对新闻和UGC进行话题建模。

本文简要回顾常用的概率话题模型(Latent Dirichlet Allocation[4]),在此之前,我们首先介绍用到的变量标记(见下表)。



概率话题模型LDA

Latent Dirichlet Allocation (简称LDA)模型将文档和词映射到隐含语义空间, 利用隐含话题(语义空间的维度)表示文档,能够很好地对文档进行话题总结, 近些年在文本分析领域,尤其是新闻和UGC的话题分析方面应用非常广泛。



LDA生成过程如图2.1所示,它假设文档都是由若干隐含话题组成的,而文档中的词是由这些隐含话题以一定概率生成的。每个隐含话题z和词w分别服从多项分布θ 和φ,而这两个分布又服从参数为α和β的Dirichlet先验分布。模型的求解过程是对参数θ和φ的估计,其目标是最大化zw的联合概率,即:


LDA通常通过变分期望最大化[4](Variational Expectation Maximization)和吉布斯采样[5](Gibbs Sampling)进行参数估计。吉布斯采样为词随机分配初始话题,构建马尔可夫链,通过不断迭代采样来逼近目标话题分布。利用公式(2-1)推导话题分布后验概率p(zi = k|z¬i, w)如下:



其中

分别表示词wi采样为话题k的次数和文档d中话题k的采样次数,符号¬表示当前词不参与计数。通过迭代不断更新nwzndk两个矩阵,最后使用如下公式估计模型参数θ和φ:




新闻和UGC话题分析属文本流话题建模范畴,根据研究所处理的文本流数量,我们将已有工作分为单流话题建模和多流话题建模:单流话题建模主要是新闻流的话题分析,多数流话题建模则会同时对一个/多个新闻流和用户生成内容流进行话题分析。


单流话题建模


单流话题建模是对LDA模型在时间因素方面的扩展。根据对时间信息的使用方式,我们将现有研究分为三类:

1. 时间与话题建模分离:此类方法是在话题分析时不考虑时间信息,通过预处理和/或后处理将时间信息与话题分析结果融合。典型的做法是先根据文档的时间标签将其进行离散化成若干时间片,然后独立地处理每个时间片内的文档,最后通过计算跨时间片的话题相似度建立话题间的时序联系。

2. 时间作用于词语生成:这类方法通常假设时间为连续值,利用时间信息影响传统模型中词语的产生方式。典型的算法是Wang等提出的时序话题模型[6] (Topic over Time),他们假设文档中单词的生成同时受词语的语义相关性和时间标签两个因素控制,从而把连续的时间信息引入模型的生成过程中。具体生成过程如图2.2 所示,其中时间信息服从贝塔分布,由于引入时间标签, 话题采样的后验概率为:



3.时间作用于模型超参:这类方法同样是将时间信息作用于生成过程,不同之处在于它们通常假设时间信息是离散的,而且不直接作用于词语的生成, 而是作用于控制话题和词语生成的超参数。典型方法是Blei等在2006年提出的动态话题模型[7](Dynamic Topic Model,简称DTM),如图2.3所示,其基本思想是将高斯状态空间模型(Gaussian State Space Model)作用于话题相关的多项分布或逻辑正态分布的参数,以此控制离散文档序列中话题的变化。以话题分布的超参数α 为例,DTM认为当前时间段的超参数αt服从均值为αt−1的正态分布,即:

αtt−1 ∼ N(αt−1, δ2I)


类似思想的模型还有在线话题模型[8] (Online LDA),其生成模型中参数的初值同样是通过继承历史时间片的建模结果来确定的,但是在继承方式上不是采用的引入概率分布的形式,而是通过历史值加权估计。以话题内词分布矩阵φ为例,当前时间片的第k个话题词分布先验βtk是由该话题对应的历史分布决定的,通过引入权重稀疏ω,我们可以按照下式估计βtk:


βtk = Bt−1kωδ


其中Bt−1k被称作进化矩阵,每一列代表一个时间片上第k个话题的词分布,δ控制使用历史值的个数,表示估计当前时间片的词分布时所依赖多久之前的分布。

多流话题模型

对于新闻和用户生成内容的同时建模,除了数据流内部的时序影响,还要两个流之间的相互作用。Zhao等人[9]以纽约时报和推特为例,研究传统新闻和用户生成内容对新闻事件的传播偏好,主要回答以下几个问题:推特是否能够覆盖所有类型的新闻话题以及两种媒体在话题分布上是否一致;什么类型的话题在两类媒体中分布差异较大;什么类型的新闻容易引起用户关注,传播更广。分析过程中没有利用时间信息,而是针对推特的短文本性质提出了Twitter-LDA,该模型是作者话题模型(Author Topic Model,简称ATM)的一个变种。ATM首先对文档的作者采样,然后根据作者在隐含话题上的分布再继续话题和词的采样。 而Twitter-LDA考虑到推文一般较短,涵盖的话题有限,所以增加每条推文仅属于一个话题的约束,其生成过程如图2.4。最后结果表明:新闻和推特在信息覆盖范围上差别不大,但话题类型各有侧重,推特更倾向于日常生活和流行事件,而新闻多报道世界性重大事件;推特中庆典、节日、品牌广告等内容在新闻中鲜有提及;虽然推特在重大事件上的比重不大,但是用户间的转发行为还是在一定程度上有助于相关信息的传播。类似地,Petrovic等人[10] 从覆盖率和及时性两方面研究了在线新闻和推特在突发事件传播中的差异。

通过对27个突发事件在8个典型新闻门户和推特上报道情况的人工分析,他们得出,覆盖率方面,新闻和推特对于重大突发事件均能够及时报道,同时推特对于区域性、影响面较小的事件覆盖程度较好;及时性方面,对于重大突发事件,新闻和推特的报道速度相差不大, 但需要指出的是,对于体育赛事和灾难事故,推特比新闻具有更好的“嗅觉”,相应的报道及时性稍有领先。


上述工作还是对新闻和用户生成内容分别建模,而且没有考虑时间因素。 Hong等[11]在他们分析工作的基础上,假设新闻和UGC在话题层面的共性和差异性并存,并提出时序集合模型(Temporal Collection Model)对新闻和用户生成内容的文档序列同时建模。其基本思想是通过伯努利分布生成的开关变量控制话题产生自共有话题池还是私有话题池(如图2.5),话题采样的后验概率为:


其中x = sx = c分别表示私有和共有话题,γ为开关变量x先验贝塔分布的参数。 在对时间信息的使用方面,他们采用的是上述提到时序文档话题建模的第三种方式。具体地,他们定义时间相关的话题流行度函数类控制话题的演变。该方法实现简单、容易扩展,而且能够处理较大规模的数据(例如他们实验采用23万余篇雅虎新闻和173万条推文),但是其本质上还是没有考虑新闻和UGC在生成过程中的相互依赖关系。


参考文献

[4] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. Journal of Machine Learning Research, 2003, 3:993–1022.

[5] Griffiths T L, Steyvers M. Finding scientific topics. Proceedings of the National Academy of Sciences, 2004, 101(suppl 1):5228–5235.

[6] Wang X, McCallum A. Topics over time: a non-markov continuous-time model of topical trends. Proceedings of the 12th ACM SIGKDD international conference on Knowledge dis- covery and data mining, Philadelphia, USA, 2006. 424–433.

[7] Blei D M, Lafferty J D. Dynamic topic models. Proceedings of the 23rd international confer- ence on Machine learning, Philadelphia, USA, 2006. 113–120.

[8] AlSumait L, Barbara ́ D, Domeniconi C. On-line lda: Adaptive topic models for mining text streams with applications to topic detection and tracking. Data Mining, 2008. ICDM’08. Eighth IEEE International Conference on, Pisa, Italy, 2008. 3–12.

[9] Zhao W X, Jiang J, Weng J, et al. Comparing twitter and traditional media using topic models. Proceedings of the 33rd European Conference on Information Retrieval, Dublin, Ireland, 2011. 338–349.

[10] Petrovic S, Osborne M, McCreadie R, et al. Can twitter replace newswire for breaking news? Proceedings of the 7th international AAAI Conference on Weblogs and Social Media, Wash- ington, USA, 2013. 713–716.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多