所有文章 > 正文

浅谈跨语言知识对齐的研究成果

作者: 张研

时间: 2019-06-27 16:52

跨语言知识对齐是一个比较大的领域范畴,本节主要介绍其中一些跨语言知识对齐的研究成果。

跨语言本体对齐

相比于在线社区知识库,本体具有较高的数据质量和良好的组织结构,本体匹配领域同样存在多语言的情况。因此有研究者提出了跨语言本体匹配的方法[28–30]。 SOCOM[31] 是一个跨语言本体对齐的系统,它主要使用机器翻译的方法解决语言鸿沟问题。同一个概念往往有多个翻译结果,使用本体匹配技术对这些候选结果进行对齐。使用中文本体 CSWRC 和英文本体 SWRC 进行了跨语言本体匹配的实验,证明他们的方法能够取得比较好的效果。WikiMatch[32] 借助维基百科中的跨语言链接作为外部资源进行多语言本体匹配。他们的基本思路是,直接使用对应语言的维基百科搜索待匹配的概念名,然后利用维基百科现有的跨语言链接,计算两个搜索结果集合的相似度,用来进行本体匹配。Santos 等人[33] 实现了一个跨语言本体匹配的 API 用于对齐英语、法语和葡萄牙语本体。

同时,在跨语言本体对齐领域,OAEI 竞赛有专门的子任务 MultiFarm 用于 评价各个参赛系统[34],有很多相关研究方法使用该数据集对效果进行评估,例如 WikiMatch [32] 使用的就是 OAEI 2011 MultiFarm 的数据集。

维基百科中的知识对齐

维基百科作为目前最大的多语言在线百科知识库,存在有大量的多语言知识。 因此,在维基百科上的知识对齐吸引了大量的研究者。根据所对齐目标的不同,我们分别就实体和属性进行相关工作的介绍。


跨语言实体对齐: 随着维基百科的不断发展,越来越多的研究者注意到维基百科中词条跨语言链接的重要价值,例如上文提到的跨语言本体匹配方法 WikiMatch, 就以维基百科跨语言链接作为外部依赖资源。因此,发现维基百科中缺失的跨语言链接逐渐成为一个比较热门的研究问题,并产生了一些重要的研究成果。

Sorg 等人[35] 提出了一种发现英语和德语维基跨语言链接的方法,他们的方法使用了文章中的链接和文本生成特征,并使用 SVM 训练了一个二分类器用于预测缺失的链接。Oh 等人[36] 提出了一种发现英语和日语之间跨语言链接的方法,他们的方法也基于 SVM 的二分类器,但是引入了一些维基百科内部特征,例如共同使用的图片。因此,他们的方法存在扩展性差的问题(只能用于维基百科跨语言实体对齐的任务)。

Wang 等人[37] 提出了一种基于因子图的跨语言链接方法(Linkage Facotr Graph,LFG),他们的方法引入了 4 个与语言种类无关的特征:入链特征、 出链特征、类别特征和作者兴趣特征。同时定义了实例对之间的因子关系,以发现更多的跨语言语义等价关系。由于他们的方法不依赖于维基百科独有特征(词条内容链接和分类是百科知识库的通用特征),因此可以迁移到其他知识库上。最终,使用 LFG 成功对齐英文维基百科与中文百度百科 21 万多对实体词条。由于 LFG 比较依赖于词条的链接相似度,当词条中链接个数较少时,则方法的效果会明显下降。针对这个问题,Wang 等人[38] 进一步地提出了一种迭代式的跨语言实体对齐方法,该方法首先尝试发现更多的内部链接,然后基于这些链接计算链接相似度特征,最后使用回归模型预测跨语言实体对齐关系。

同时,本领域出现了很多基于维基百科跨语言实体链接的实用项目。DBpedia [4] 是一个知名的基于多语言维基百科的知识库,它从维基百科中获取数据源,经过抽取、融合、推断等过程,构建成一个结构化的多元知识库,同时提供给用户终端方便易用的数据获取接口。HeiNER[39] 是一个多语言的命名实体资源库,可以用来将一种语言上的命名实体翻译成其他语言,该项目也基于维基百科的跨语言链接进行构建。BabelNet [40] 是一个基于维基百科和 WordNet 的多语言的知识库,在不同语言上提供了大量的实体及概念信息,以及它们之间的语义关联。

Xlore[10] 是一个英中双语的知识库,其来源包括中英维基百科、百度百科和互动百科。Xlore利用中英维基百科的跨语言链接,启发式地发现不同百科之间的跨语言链接,从而建立具有高度一致性的知识库。总而言之,维基百科包含了丰富的实体信息及多语言语义信息,发觉潜在的跨语言链接不仅能够丰富维基百科本身的内容,同时也可以作为基础资源提供给更多的在线应用。

跨语言属性对齐: 信息框是维基百科中实体的结构化信息,包含大量语义信息并能够较方便地使用计算机进行处理。然而,维基百科官方没有显式的提供跨语言属性的匹配关系(词条页面有实体的跨语言链接),而属性对齐具有跨语言知识 融合和共享很有意义。因此,已有一些工作针对维基百科的跨语言属性对齐问题。

Adar 等人[41] 定义了 26 种特征,包括 n-gram 等,然后使用一种有监督的分类方法来对齐多语言信息框。他们使用英语、德语、法语和西班牙语的维基百科作为实验数据,并进行了10 叠交叉验证的实验,达到了 90.7% 的准确率。Bouma 等人[42] 提出了一种基于属性值的方法。他们首先将信息框属性值进行了基本的分类和归一化,例如:数字、数据类型、单元等等。然后根据这些属性值的等价性在英语和荷兰语维基百科之间进行属性对齐工作。

Rinser 等人[43] 提出了一种基于实例的属性对齐方法,他们首先使用基于图的强连通分支的方法对齐多种语言维基百科的是实体,然后根据属性值和实体对齐结果对属性进行对齐。

总结以上方法,我们认为这些方法主要使用了属性的直接特征(ad-hoc feature), 即属性本身的信息,例如属性的定义域、值域、标签等等。传统方法主要基于这些信息进行相似度计算,然后使用分类方法预测属性的等价关系。显然,相比维基百科实体,属性具有更少的的文本和结构信息(词条有摘要、描述、链接等,但属性本身不具备这些信息),只使用属性的直接特征预测属性的语义等价关系很难取得令人满意的效果。因此本文使用了基于因子图的模型解决属性对齐问题,该模型不仅可以集成属性对的直接特征,同时可以建模属性对之间的互关系,从而提升方法的整体效果。

参考文献

[35] Sorg P, Cimiano P. Enriching the crosslingual link structure of wikipedia-a classification-based approach. Proceedings of the Aaai Workshop on Wikipedia & Artifical Intelligence, 2008.

[36] Oh J H, Kawahara D, Uchimoto K, et al. Enriching multilingual language resources by dis- covering missing cross-language links in wikipedia. Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology-Volume 01. IEEE Computer Society, 2008. 322–328.

[37] Wang Z, Li J, Wang Z, et al. Cross-lingual knowledge linking across wiki knowledge bases. International Conference on World Wide Web, 2012. 459–468.

[38] Wang Z, Li J, Tang J. Boosting cross-lingual knowledge linking via concept annotation. International Joint Conference on Artificial Intelligence, 2013. 2733–2739.

[39] Wentland W, Knopp J, Silberer C, et al. Building a multilingual lexical resource for named entity disambiguation, translation and transliteration. International Conference on Language Resources and Evaluation, Lrec 2008, 26 May - 1 June 2008, Marrakech, Morocco, 2008. 3230–3237.

[40] Navigli R, Ponzetto S P. Babelnet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network. Artificial Intelligence, 2012, 193:217–250.

[41] Adar E, Skinner M, Weld D S. Information arbitrage across multi-lingual wikipedia. Inter- national Conference on Web Search and Web Data Mining, WSDM 2009, Barcelona, Spain, February, 2009. 94–103.

[42] Bouma G, Duarte S, Islam Z. Cross-lingual alignment and completion of wikipedia tem- plates. Proceedings of the Third International Workshop on Cross Lingual Information Access: Addressing the Information Need of Multilingual Societies. Association for Computational Linguistics, 2009. 21–29.


[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多