所有文章 > 正文

融合实体的事件话题知识学习其一:事件实体话题知识学习

作者: 胡琳梅

时间: 2019-07-09 15:22

本⽂的主要贡献如下: 考虑实体在事件中的重要性,提出融合实体的事件话题知识学习;提出事件实体话题模型EETM 来建模事件⽂档的⽣成过程,先⽣成⽂档的实体,再⽣成词。

事件通常由⼀序列新闻⽂档报道其发⽣、发展、结束等过程,囊括各种不同话题。由于话题模型已被成功应⽤于挖掘⽂档集合中潜在的话题,我们使⽤话题模型从事件包含的⽂档集合中学习事件话题知识。传统话题模型没有考虑事件的命名实体信息,命名实体(简称实体)如⼈名、点、时间、组织机构在新闻事件中起着重要的作⽤,传达了事件的关键信息。考虑到实体在新闻事件中的重要性,我们提出了融合实体的事件实体话题模型EETM 和层次实体话题模型HETM 来分别学习事件话题集合和层次话题知识。

其中事件实体话题模型(Event Entity Topic Model,EETM),从事件包含的新闻⽂档集合学习话题知识。其展现的实体、实体话题、话题和词之间的依赖关系如图3.1(d) 所⽰。EETM 假设事件的新闻⽂档内容通常是围绕实体⽣成的,能充分体现实体的重要性。具体地,EETM 假设当写⼀篇事件新闻⽂档时,通常先决定⼈物、时间、地点、组织机构等实体,然后再围绕这些实体⽣成话题,最后根据话题⽣成词。如图3.1(d) 所⽰,EETM 建模实体话题作为词话题上的混合,能够更好地建模实体话题,词话题以及它们之间的关联关系。

事件实体话题知识学习

这⼀节,介绍事件实体话题知识学习,该任务以事件E = {d1, d2, ..., dm} 包含的新闻⽂档集合作为输⼊,输出包括实体话题集合˜T = {˜t1, ˜t2, ..., ˜t ˜K),其中实体话题为实体上的概率分布,和词话题集合T = {t1, t2, ..., tK },其中词话题ti 表⽰为词上的概率分布。

由于话题模型已被成功应⽤于挖掘⽂档集合中的潜在话题,我们使⽤话题模型从事件的新闻⽂档集合中学习事件话题知识。考虑到实体在事件中的重要性,我们提出了事件实体话题模型。接下来我们详细介绍模型。

事件实体话题模型

本⼩节中,我们介绍事件实体话题模型EETM。在已有模型LDA[27] 中,实体和词都被当成词来看,只有⼀层话题隐含层。其基本思想是为了⽣成新闻⽂档中的每个词(包括实体),⾸先要从⼀个基于所有隐含话题的多项分布中选择⼀个话题,然后从该话题对所有单词的概率分布中采样⼀个单词出来。词话题到词上的分布选择⼀个词。具体地,事件⽂档集合D ⽣成过程如下:

为了求解模型参数,我们采⽤常⽤的Gibbs 采样算法。算法基本思想是⾸先根据条件概率公式3-1,对每个⽂档中的每个实体ei 采样⼀个实体话题。

然后,对于每⼀个词wi,根据条件概率公式3-2,同时采样⼀个实体话题和词话题。通过⼀定次数的迭代,收敛后可计算出模型中的参数。

实验设置

数据集: 我们从NewsMiner 收集了三个数据集。Dataset1 是智利地震事件新闻集合,包含632 篇智利地震的新闻报道。Dataset2 包含各种国内事件相关的新闻,共700 篇⽂档。Dataset3 包含三个事件的新闻⽂档,分别是青海震、2013 年两会、清华⼤学相关的新闻⽂档,共1800 篇。我们对三个数据集都进⾏以下与处理:1)使⽤中科院分词⼯具ICTCLAS 进⾏分词和命名实体识别;2)去除停⽤词,最后得到Dataset1 有5,482 个词、1,657 个实体,Dataset2 有15,862 个词、5,357 个实体;Dataset3 有19,597 个词, 10,981 个实体。

基线模型:我们将EETM 和当前最先进的以下⼏个⽅法对⽐。LDA:LDA 是最常⽤的话题模型,在LDA 中,实体被当成词⼀样对待。CorrLDA2:CorrLDA2 模型已被证明⽐其他实体话题模型如SwitchLDA、CI-LDA、CorrLDA1 等更适⽤于实体建模[31],因此我们只采⽤实体话题模型CorrLDA2作为基线⽅法。

评价指标:我们采⽤困惑度和熵作为评价指标。困惑度:困惑度是常⽤的衡量话题模型对数据的拟合程度的指标,困惑度越低,表⾯模型对数据拟合成都越好。平均熵:我们通过计算实体话题的平均熵来衡量实体话题的纯净度,熵越低,表⽰实体话题越纯净,聚类效果越好。其计算⽅式如下:

其中 p˜z¹eº 表⽰实体 e 在实体话题 ˜z 中的概率,等于 ˜ ϕe˜z。平均sKL(symmetric Kullback-Leibler) 距离:我们通过sKL 衡量两个实体话题(实体上的概率分布)的差异情况,sKL 越⼤,表⽰两个实体话题间的距离越⼤,聚类效果越好。其计算⽅式为:

根据已有的研究⼯作[77],我们设置LDA 的参数为 alpha = 50/K, beta = 0.1。类似地,CorrLDA2 的参数alpha = 50/˜K ,gamma = 50/K,eta = 0:1。对于超参数K,我们通过设置不同的K 值如5,10,15,20,25,30 等等,寻找使得困惑度最低的K 值。具体⽅法是,我们采取10 份交叉验证,使⽤LDA 模型,对不同K 值进⾏实验,选择平均困惑度最低的K 值。图3.4展⽰了LDA 模型在三个数据集上随着话题个数K 改变的趋势,可以看出三个数据集上最合适的使得困惑度最低的话题个数分别为10、35、45。为了公平对⽐,我们设置模型CorrLDA2 和EETM 在三个数据集上的话题个数也为10、35、45。同样,使⽤10 份交叉验证,对不同的实体话题个数进⾏实验,根据困惑度确定实体话题个数。我们通过实验得到三个数据集上使得困惑度最低的实体话题个数分别为10、30、35。

实验结果

定量分析: 表3.1列出了三个模型在不同数据集上的困惑度。可以看出,我们提出的模型在三个数据集上都有最低的困惑度,体现了模型能够最好地拟合数据,也证实了我们的假设的合理性即事件的新闻⽂档的⽣成过程中,先⽣成实体(⼈物、时间、地点、组织机构等),再围绕实体⽣成词,描述发⽣的事情。

表3.2给出了实体话题的平均熵和sKL 距离。可以看出,我们提出的EETM 模型相⽐实体话题模型CorrLDA2 得到的实体话题的平均熵低,实体话题间的平均sKL 距离⼤,表明实体话题类内距离⼩,类间距离⼤。因此,说明EETM 模型通过以实体为中⼼能够更好地对实体进⾏聚类,更适⽤于新闻事件等关注实体的数据。

定性分析:EETM 模型能够将⽂档建模成实体话题上的混合,将实体话题建模成词话题的混合,图3.5展⽰了EETM 在Dataset1 和Dataset2 上的部分结果,上⼀层展⽰了实体话题,下⾯⼀层是词话题,每个话题⽤概率最⼤的前15 个词表⽰,并⼈⼯给出标签,边上的值是词话题在实体话题上出现的概率。如图3.5(a) 所⽰,

智利地震事件中的“智利地震华⼈情况”实体话题中,我们可以看到“智利”, “中国”, “外交部”等实体,该实体话题中,“华⼈伤亡”这⼀话题出现概率为73%,“地震情况”话题出现概率为16%。如图3.5(b) 所⽰,“外访”实体话题包括实体“习近平”,“拉美”,和词话题“国际合作”最相关。实体话题“深圳”60% 是关于话题“体制改⾰”,30% 关于“经济发展”。从这些结果可以看出,EETM 能够很好地建模实体和实体之间的关联关系,获得⾼质量的实体话题,并且能够建模实体话题和话题之间的关系。我们还将EETM的话题结果和CorrLDA2得到的话题结果进⾏对⽐,如图3.6所⽰,左边是CorrLDA2 的话题结果,右边是EETM 的话题结果,上⾯⼀层是话题,下⾯⼀层是与话题最相关的实体话题。可以看到针对Dataset1 上的“海啸预警”话题,EETM 模型将⽇本相关的地名聚到⼀起, ⽽corrLDA2 将很多相关的国家聚到⼀类,EETM 模型对实体聚类效果更好。针对Dataset2 上的“盗墓”话题,CorrLDA2的结果包含“⾷品”、“安全”等不相关的词,实体话题包含的实体也⽐较杂,⽽EETM的结果显然更具可读性,词话题的词都与“盗墓”相关,实体话题的实体都与“曹操”相关。由此可知,EETM ⽐CorrLDA2 在实体聚类,以及建模实体话题和词话题之间的关系表现更好。

结论

本节,我们提出了事件实体话题模型EETM,学习事件话题知识。实验证明,我们的模型EETM 相⽐基线模型有更低的困惑度,能更好的拟合数据。其次,EETM能更好地建模实体话题、词话题以及实体话题和词话题之间的关系,更适⽤于新闻等关注实体的数据。

[27] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. Journal of machine Learning research, 2003, 3:993–1022.

[77] Griffiths T L, Steyvers M. Finding scientific topics. Proceedings of the National academy of Sciences, 2004, 101(suppl 1):5228–5235.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多