所有文章 > 正文

实体链接:候选实体排序

作者: 张江涛

时间: 2019-07-04 13:11

候选实体排序被认为是实体链接最关键的模块。所采用的方法大体可以分为三类。

候选实体生成的目的是要尽可能多的发现给定实体名称可能的链接对象,以提高实体链接的准确率,同时又尽可能把不相关的实体排除出去,以减小排序空间。

实体链接将出现在文本中给定的实体名称链接到给定知识库对应的实体,它是连接非结构化 web 数据到结构化知识库的桥梁。其挑战主要来自两个方面:一词多义和多词同义。通常包含两个模块:(1)候选实体生成:为文本中给定的实体名称生成可能链接的候选实体集合; (2)候选实体排序:对候选实体集合中的实体进行排序,从中选出正确的链接对象。

给定实体名称 m,通过候选实体生成模块生成了候选实体集合 Em = {e1,e2,···,e|Em|},在大多数情况下,该集合的大小 |Em| > 1,比如 Heng Ji 等 人[73] 发现,在 TAC-KBP2010 数据集中,候选实体合的平均大小为 12.9,而在 TAC-KBP2011 数据集中这个数字增加到 13.1。因此,候选实体排序被认为是实体链接最关键的模块。所采用的方法大体可以分为三类。

传统监督学习方法

这类方法利用传统的监督学习方法,在标注数据集上进行训练,学习如何在候选实体集合中选出正确的实体进行链接。可分为以下三种方法:

二分类方法: 很多研究者 [22,64,66,67,71,74,75] 将候选实体的排序问题当做二分类问题。 给定实体名称和候选实体的对 ⟨m, ei⟩, eiEm,通过训练二分类器决定 m 是否指 向 ei。常用的二分类器是 SVM[22,64,67,75],二元逻辑分类器(binary logistic classifier) [66,71],贝叶斯分类器(Naive Bayes classifier )和最近邻分类器(K-Nearest Neighbors classifier)[74] 。如果一个实体名称被分类为多个候选实体,则采用基于置信度的方 法或者采用 SVM 排序(ranking)选出最优的一个。

排序学习方法: 二分类方法没有考虑候选实体间的相互关系,且存在训练样本正负例不平衡的问题,因此,研究者们[21–23,62,67,72,76–79] 利用排序学习(learning to rank)框架,使用最大间隔学习方法从训练数据中直接学习候选实体的偏序关系, 从中选出得分最高的实体。假设实体名称 m 正确的链接实体是 em,模型假设 em 的得分要远高于其他所有候选实体 e Em, e ≠ em 的分数,可形式化表示为:



ξm,i ≥ 0 的条件下,最小化目标函数||w||22 + α ∑m,eξ m,e来学习权重 w。其中 α 是均衡因子。

集体排歧方法: 前面提到的两种方法通常是对单个实体名称进行排歧,没有考虑同一上下文环境中共现实体名称之间的相互依赖关系。因此,很多研究者 [60,80–83]提出了集体排歧的方法(collective ranking methods)。该类方法基于主题一致性假 设:出现在同一文档内的各个实体名称具有主题一致性,即它们倾向于指向主题 一致的实体。在这个假设的基础上,通过构建各类概率模型和图模型,比如 Pair- wise Graph[60],entity-mention Graph[80],Referent Graph[81] 等,然后利用集体推理 算法[84,85] 同时对图中所有实体名称进行链接。这类方法大多都会利用三个方面的 特征:基于先验的实体流行度特征,基于上下文相似度的文本特征以及基于维基 百科超链接结构的实体相关度特征等[80,81]。此外,由于不同的上下文实体对当前链接的影响程度不同,部分研究者对上下文信息进行选择和过滤,如文献[86] 引入注意力机制(attention mechanism)对主题一致性进行修正,对同一上下文中不同实体的重要性进行区分。每一个实体名称的链接分值仅依赖于上下文中的一部分 “重要”实体,而不是所有的上下文实体。文献[87] 则基于多数上下文信息对当前实体名称排歧无关的假设,提出一种选择性扩展(selective extension)的贝叶斯模型 Plato,训练过程以一种半监督的方式进行,从维基百科的标注数据出发,然后扩展到大规模未标注的 web 文档。这类改进方法在 TAC-KBP 2010,2011 和 2012 等数据集上获得了非常好的性能。


非监督方法

由于监督方法需要依赖于高质量的标注数据,因此有的研究者尝试使用非监督方法进行实体链接。大体可以分为两类。

基于向量空间模型的方法: 其主要思想是分别构建实体名称与候选实体的向量 表示,然后计算这两个向量的相似度,从中选出相似度最大的实体作为链接对象。这类方法的主要区别在于向量表示以及相似度计算。对于实体名称的向量表示,主要围绕上下文抽取相关信息,如限定窗又内的所有词 [25] 、上下文中出现的实体名称集合[63] 以及上下文中包含的维基百科概念[70] 等。而对于候选实体的向量表示, 利用的信息包括候选实体所属维基百科的概念 [70] 、信息框(infobox)中的属性值 [25] 以及维基页面的标签(tag)[63] 等。

基于信息检索的方法: 一些研究者 [26,67,68,74,88] 将候选实体的排序问题当做基于排序的信息检索问题来处理。首先为每一个候选实体的页面(文档)建立索引,然后将每一个需要链接的实体名称及其上下文作为一个查询对索引文档进行检索,最后将返回结果中具有最高相关度的文档(候选实体)作为链接对象,通常采用基于统计语言模型的信息检索方法进行候选实体的排序,比如 KL-散度减缩模型[89]


表示学习方法


近年来,基于深度神经网络的表示学习方法在 NLP 的诸多任务中取得巨大成功,越来越多的研究者将表示学习方法应用于实体链接任务中 [27,28,90–94] 。表示学习方法将词、句子或者文档表示为一个连续向量空间中的低维实值向量,能够有效的表征其隐含的语义关系,因此,这类方法的核心就是如何将文本中的实体名称和知识库中的候选实体在同一个向量空间中进行嵌入表示学习。


文献[27] 提出了一种利用神经网络对实体名称、上下文以及候选实体三者联合表示学习的方法。其框架如图2.4所示:

模型的输入包括上下文 c、实体名称 m 以及候选实体 e 三部分,对于上下文, 模型同时考虑词的语义信息以及位置信息,采用卷积神经网络解决变长文本的问 题。对于实体名称,取构成词的平均词嵌入向量。然后将实体名称和上下文组成一个向量对,使用低秩神经张量网络(low-rank neural tensor network)对这两个向量进行语义组合得到向量 vmc。对于候选实体 e,则分别进行该候选实体名称的词嵌入表示以及所属类的类别表示,同样采用低秩神经张量网络进行语义组合得到向量 ve,最后计算 vmc 和 ve 的余弦相似度。模型的训练采用如下基于排序的损失函数:


其中 e 是标注数据中正确的链接实体,e是在知识库中随机挑选的其他实体。文章采用维基百科的锚文本进行训练,在 TAC-KBP 2009 和 2010 数据集上进行实验验证,其结果优于传统的特征工程方法。文献[28] 则受 skip-gram 模型的启发,提出了一个基于扩展 skip-gram 的词嵌入和实体嵌入的联合学习模型。该模型能够同时将词和实体映射到一个连续的空间向量,相似的词和实体在空间中距离相近。它由三个子模型组成:skip-gram 词嵌 入模型 Lw,基于维基百科链接结构的知识库图模型 Le,基于锚文本的上下文模型 La,得到联合模型的目标函数为:



文章使用负采样方法在维基百科上进行训练,联合学习词和实体的嵌入表示。 文中使用词嵌入和实体嵌入的相似度作为特征,同时搭配使用一些其他传统的特征进行实体链接,在 CoNLL 2003 和 TAC-KBP 2010 数据集上获得了很好的性能。


[28] Yamada I, Shindo H, Takeda H, et al. Joint learning of the embedding of words and entities for named entity disambiguation. Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning, CoNLL 2016, Berlin, Germany, August 11-12, 2016, 2016. 250– 259.

[29] Guo S, Chang M, Kiciman E. To link or not to link? A study on end-to-end tweet entity linking. Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics, Proceedings, June 9-14, 2013, Westin Peachtree Plaza Hotel, Atlanta, Georgia, USA, 2013. 1020–1030.

[30] Sil A, Yates A. Re-ranking for joint named-entity recognition and linking. 22nd ACM Inter- national Conference on Information and Knowledge Management, CIKM’13, San Francisco, CA, USA, October 27 - November 1, 2013, 2013. 2369–2374.

[31] Dutta S, Weikum G. C3EL: A joint model for cross-document co-reference resolution and entity linking. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015, Lisbon, Portugal, September 17-21, 2015, 2015. 846–856.

[32] Stern R, Sagot B, Béchet F. A joint named entity recognition and entity linking system. Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data, 2012. 52–60.

[110] Chapman W W, Chu D, Dowling J N. Context: An algorithm for identifying contextual features from clinical text. Proceedings of the Workshop on BioNLP 2007: Biological, Translational, and Clinical Language Processing, 2007. 81–88.

[111] Humphreys B L, Lindberg D A B, Schoolman H M, et al. The unified medical language systeman informatics research collaboration. Journal of the American Medical Informatics Association, 1998, 5(1):1–11.

[112] D’Souza J, Ng V. Sieve-based entity linking for the biomedical domain. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, ACL 2015, July 26-31, 2015, Beijing, China, Volume 2: Short Papers, 2015. 297– 302.

[113] Leaman R, Islamaj Doan R, Lu Z. Dnorm: disease name normalization with pairwise learning to rank. Bioinformatics, 2013, 29:2909–2917.

[114] Zheng J, Howsmon D, Zhang B, et al. Entity linking for biomedical literature. BMC Med. Inf. & Decision Making, 2015, 15(S-1).

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多