所有文章 > 正文

实体链接:候选实体生成

作者: 张江涛

时间: 2019-07-04 11:11

候选实体生成的目的是要尽可能多的发现给定实体名称可能的链接对象,以提高实体链接的准确率,同时又尽可能把不相关的实体排除出去,以减小排序空间。

实体链接将出现在文本中给定的实体名称链接到给定知识库对应的实体,它是连接非结构化 web 数据到结构化知识库的桥梁。其挑战主要来自两个方面:一词多义和多词同义。通常包含两个模块:(1)候选实体生成:为文本中给定的实体名称生成可能链接的候选实体集合; (2)候选实体排序:对候选实体集合中的实体进行排序,从中选出正确的链接对象。

本文主要为大家介绍候选实体生成这个模块,常见方法分为以下三种。

基于名称字典的构建方法

该方法被应用于几乎所有的实体链接系统[29,60–65]。其主要思想是充分利用维基百科提供的各类信息,包括重定向页面、排歧页面、锚文本等构建实体名称与所有可能链接的实体的映射关系字典 D,然后利用 D 中的信息生成候选实体集合。D = {⟨keyi,valuei⟩|i = 1,2,··· ,|D|},其中 key = {keyi|i = 1, 2, · · · , |D|} 是实体名称集合,包含了大量实体名称变种如缩略语、昵称、别名等。 实体名称keyi 对应的映射值valuei ={ei1|i=1,2,···,|valuei|}即为keyi 可能链接的候选实体集合。

基于上下文的扩充法

人们常用缩略语或者实体全名的部分词去指代实体,而在上下文中常常伴随出现它们对应的全名,因此,有的研究者利用上下文信息去寻找这些缩略语或者局部词对应的实体全名,以扩充实体名称字典 D。文献[65–69] 通过构建启发式规则搜索实体全名,如利用邻接括号;搜索连续“N”个词的首字母与缩略语是否相匹配;判断一个子串是否出现在实体全名中等。但这类基于启发式规则的方法对于一些复杂缩略语的全名扩充难以奏效,比如“CCP”的全称是“Communist Party of China”。因此,有的研究者[23] 提出基于监督学习的复杂缩略语扩充方法。通过预先定义一些策略在整个文档中寻找缩略语的所有可能全称生成候选集合。然后构建特征向量在标注数据集上训练分类器,对每一个候选全名打分,输出得分最高者。



基于搜索引擎的构建方法

这类方法[66,70–72] 借助搜索引擎 google,将实体名称及简短的上下文一起提交给 Google API,然后将返回结果中的 wikipedia 页面作为候选实体,或者将 Google API 的搜索限定在 wikipedia 站点,对返回结果做一些过滤生成候选实体。

[61] Gattani A, Lamba D S, Garera N, et al. Entity extraction, linking, classification, and tagging for social media: A wikipedia-based approach. PVLDB, 2013, 6:1126–1137.

[62] Bunescu R C, Pasca M. Using encyclopedic knowledge for named entity disambiguation. EACL 2006, 11st Conference of the European Chapter of the Association for Computational Linguistics, Proceedings of the Conference, April 3-7, 2006, Trento, Italy, 2006.

[63] Cucerzan S. Large-scale named entity disambiguation based on wikipedia data. EMNLP- CoNLL 2007, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, June 28-30, 2007, Prague, Czech Republic, 2007. 708–716.

[64] Zhang W, Su J, Tan C L, et al. Entity linking leveraging automatically generated annotation. COLING 2010, 23rd International Conference on Computational Linguistics, Proceedings of the Conference, 23-27 August 2010, Beijing, China, 2010. 1290–1298.

[65] Zheng Z, Li F, Huang M, et al. Learning to link entities with knowledge base. Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics, Proceedings, June 2-4, 2010, Los Angeles, California, USA, 2010. 483–491.

[66] Lehmann J, Monahan S, Nezda L, et al. LCC approaches to knowledge base population at TAC 2010. Proceedings of the Third Text Analysis Conference, TAC 2010, Gaithersburg, Maryland, USA, November 15-16, 2010, 2010.

[67] Zhang W, Tan C L, Sim Y C, et al. NUS-I2R: learning a combined system for entity linking. Proceedings of the Third Text Analysis Conference, TAC 2010, Gaithersburg, Maryland, USA, November 15-16, 2010, 2010.

[68] Gottipati S, Jiang J. Linking entities to a knowledge base with query expansion. Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, EMNLP 2011, 27-31 July 2011, John McIntyre Conference Centre, Edinburgh, UK, A meeting of SIGDAT, a Special Interest Group of the ACL, 2011. 804–813.

[69] Cucerzan S. TAC entity linking by performing full-document entity extraction and disambigua- tion. Proceedings of the Fourth Text Analysis Conference, TAC 2011, Gaithersburg, Maryland, USA, November 14-15, 2011, 2011.

[70] Han X, Zhao J. Nlpr_kbp in TAC 2009 KBP track: A two-stage method to entity linking. Proceedings of the Second Text Analysis Conference, TAC 2009, Gaithersburg, Maryland, USA, November 16-17, 2009, 2009.

[71] Monahan S, Lehmann J, Nyberg T, et al. Cross-lingual cross-document coreference with entity linking. Proceedings of the Fourth Text Analysis Conference, TAC 2011, Gaithersburg, Maryland, USA, November 14-15, 2011, 2011.

[72] Dredze M, McNamee P, Rao D, et al. Entity disambiguation for knowledge base population. COLING 2010, 23rd International Conference on Computational Linguistics, Proceedings of the Conference, 23-27 August 2010, Beijing, China, 2010. 277–285.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多