所有文章 > 正文

基于知识图谱表示学习的语义链接关系预测

作者: 王志刚

时间: 2019-08-09 17:19

本文提出一种基于知识图谱表示学习的语义链接关系预测方法:针对传统关系抽取方法面临数据稀疏的问题,提出基于文本辅助的知识图谱表示学习的方法,引入文本上下文信息扩充知识图谱的语义信息,解决了现有表示学习方法效果受知识图谱结构稀疏制约的问题,同时模型对同一关系的多向量表示能力大幅度提升了复杂语义链接关系的预测能力。在多个标准数据集上语义链接关系预测任务的实验表明,该方法成功解决了上述问题,并显著优于当前最优方法,应用于跨语言知识图谱构建中具有一定价值。

研究背景

知识图谱通过语义链接关系Rl实现对现实世界的多维度描述,给定两个同一语言的实体e1εe2 ε,若存在(e1,r, e2),则表示实体e1到实体e2之间存在语义链接关系rRl。例如(“邱勇”,president of,“清华大学”)表示实体“邱勇”是“清华大学”的“校长”,(“邱勇”,bornAt,“四川省”)表示实体“邱勇”“出生于”“四川省”。Wiki知识资源中的信息框(Infobox)是跨语言知识图谱中语义链接关系的重要来源[1-3],然而由于结构化信息框的编辑难度较大,实体间的语义链接关系大量缺失。文献[4]统计发现在维基百科六个主要的语言版本中,仅有32.8%的词条包括结构化信息框,而中文维基百科中包括信息框的词条甚至不足20%。因此,进一步补充语义链接关系数量是跨语言知识图谱构建中亟待解决的问题。

以知识图谱中语义链接关系的三元组(e1,r, e2)(头实体、关系、尾实体)为输入,知识图谱向量化表示学习旨在为每个实体e1(或e2)学习一个低维向量表示e1 (或e2),其基本思路是定义语义链接关系r相关的得分函数 fr(e1, e2)使正确的三元组在表示空间中最小化该得分函数,知识图谱向量化表示真正实现了知识图谱从符号化到可计算化的跃迁。通过使用得分函数fr(e1, e2)衡量正确三元组存在的可能性,知识图谱表示学习已成为知识图谱语义链接关系预测的重要方法,同时其在文本分类和信息抽取中也取得了惊人的成果[5-8]。

在当前知识图谱向量化表示学习的方法中,基于平移的方法将每个关系视作一个从头实体到尾实体的平移操作(translation),其语义链接关系预测性能优异。受word2vec[9]结果启发,TransE[6]优化目标是使正确的三元组(e1,r, e2)所得向量化表示满足e1 + re2约束。TransE的模型简单、 高效,但对一对多、多对一和多对多的语义链接关系预测能力不足。为解决该问题,一些方法利用数学变换生成关系r相关的实体向量,以允许一个实体对于不同的关系拥有不同的表示:TransH[7]利用超平面映射生成关系相关的实体向量,TransR[8]利用空间变换生成关系相关的实体向量。文献[7,8]中所得语义链接关系预测结果均得到大幅度提升,然而,当所预测链接关系的目标可能有多个实体正确时,其预测能力依旧难以令人满意,多个标准数据集上的平均前十命中率(Hits@10)仅仅约为50%[8]。

另一方面,以上方法直接从知识图谱的图结构进行向量化表示学习,其性能受到图谱结构窄疏性制约,知识图谱结构窄疏性尤其在领域相关和非英文的知识 图谱上尤为严重[4]。TransE的性能受知识图谱结构窄疏性影响严重,在使用同一个测试数据集的语义链接关系预测任务中,其平均排序(Mean Rank)随着知识图谱结构稠密逐步变优,在FB3K、FB6K和FB9K上训练的结果分别为102.7、81.9以及79.5。

研究方法

为解决一对多、多对一和多对多语义链接关系预测能力不足以及受图谱结构稀疏性制约导致学习性能有限的问题,本文提出一种利用大规模文本语料中丰富的文本上下文信息辅助进行知识图谱向量化表示的方法,以完成缺失语义链接关系预测的任务。受远程监督方法[10](Distant Supervision)的启发,我们发现实体在文本中的上下文信息对于实体间语义链接关系的建模具有重要作用[11-13]。如图1所示,文本上下文(词集合)揭示了实体“Avatar”可能是一个电影(film),实体“James Cameron”可能是一个导演(direct),两个实体间公共的文本上下文表明二者的关系可能是导演(direct)关系。

a6.png

图1 文本辅助的知识图谱表示学习示意图

具体地,我们提出一种文本辅助的知识图谱表示学习(Text-Enhanced Knowledge Emberdding)方法以完成语义链接关系的预测[14]。给定待向量化表示的知识图谱和一个文本语料,首先对语料库语义化标注知识图谱中存在的实体,进而构建一个由实体和词组成的共现网络,从而使知识图谱结构和文本上下文信息建立关联;根据此共现网络定义实体和关系的文本上下文表示,并将文本表示融入到知识图谱结构中;最后,采用一个标准的基于平移模型[6-8]的优化过程完成实体和关系的向量化表示学习。所提方法的核心思路为:

  • 将三元组(e1,r, e2)中关系r的文本上下文定义为e1和e2文本上下文的交集,使得同一个关系在不同的头尾实体对中可以拥有不同的向量化表示,从而提高一对多、多对一和多对多语义链接关系的预测能力。
  • 将文本上下文引入到知识图谱的实体和关系中,极大程度地扩展了知识图谱的语义信息,从而解决知识图谱由于结构窄疏造成的预测性能有限的问题。
  • 基于TransE、TransH和TransR的优化框架分别实现了多种TEKE方法,并在由WordNet和Freebase生成的标准数据集上进行了语义链接关系预测的多组实验。实验表明,所提TEKE方法可以有效提高一对多、多对一和多对多语义链接关系的预测能力,并有效克服知识图谱结构窄疏性带来的制约。

主要的贡献包括:

  • 提出一个文本辅助的知识图谱表示学习方法,通过文本上下文信息的引入扩充了知识图谱的语义信息,有效解决了知识图谱表示学习效果受知识图谱结构窄疏性制约的问题。
  • 所提方法中的文本上下文信息使得同一个关系在不同的头尾实体对中可以拥有不同的向量化表示,从而大幅度提升了一对多、多对一和多对多语义链接关系的预测能力。
  • 我们在多个标准数据集上进行了精心的实验,结果表明所提TEKE方法有效解决了以上两个问题,并大幅度优于当前最优方法。

总结

针对语义链接关系确实的问题,我们在文中提出一种基于跨语言知识校验的上下位语义关系识别方法:一种基于知识图谱表示学习的语义链接关系预测方法:针对传统关系抽取方法面临数据稀疏的问题,提出基于文本辅助的知识图谱表示学习的方法TEKE,引入文本上下文信息扩充了知识图谱的语义信息,解决了现有表示学习方法效果受知识图谱结构窄疏制约的问题,同时模型对同一关系的多向量表示能力大幅度提升了复杂语义链接关系的预测能力。我们在基于wordNet和Freebase的多个标准数据集上进行语义链接关系预测的实验,证明我们的方法显著优于当前最优方法TransH、TransR,有效提高了一对多、多对一和多对多的复杂语义链接关系的预测能力,并有效解决了知识图谱结构窄疏导致的预测性能低下的问题。

参考文献

[1] Wu F, Weld D S. Autonomously semantifying wikipedia. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon Portugal: As-sociation for Computing Machinery, 2007. 41-50.

[2] Wu F, Hoffmann R, Weld D S. Information extraction from wikipedia:moving down the long tail. Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Las Vegas, Nevada, USA: Association for Computing Machinery

2008.731-739.

[3] Wu F, Weld D S Open information extraction using wikipedia. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden: The Association for Computer Linguistics, 2010. 118-127.

[4] Wang Z, Li Z, Li J, et al. Transfer learning based cross-lingual knowledge extraction for wikipedia. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia. Bulgaria: The Association for Computer Linguistics. 2013. 641-650.

[5]Socher R, Chen D, Manning C D, et al. Reasoning with neural tensor networks for knowled ge base completion. Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS 2013), Lake Tahoe, Nevada, United States: Curran Associates, Inc, 2013. 926-934.

[6] Bordes A, Usunier N, Garcia-duran A, et al. Translating embeddings for modeling multi relational data. Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS 2013), Lake Tahoe, Nevada, United States: Curran Associates, Inc, 2013 2787-2795.

[7] Wang Z, Zhang J, Feng J, et al. Knowledge graph embedding by translating on hyperplanes Proceedings of the Twenty-eighth AAAI Conference on Artificial Intelligence, Quebec City,Quebec, Canada: Association for the Advancement of Artificial Intelligence, 2014. 1112-1119.

[8] Lin Y, Liu Z, Sun M, et al. Learning entity and relation embeddings for knowledge graph completion. Proceedings of the Twenty-ninth AAAI Conference on Artificial Intelligence,Austin,Texas,USA:Association for the Advancement of Artificial Intelligence,2015.2181-2187.

[9] Mikolov T, Sutskever I, Kai C, et al. Distributed representations of words and phrases and their compositionality. Proceedings of the 27th Annual Conference on Neural Information Processing Systems(NIPS 2013), Lake Tahoe, Nevada, United States: Curran Associates, Inc 2013.3111-3119.

[10] Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data. Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP Singapore: Association for Computer Linguistics, 2009. 1003-1011.

[11] Zhang D, Yuan B, Wang D, et al. Joint semantic relevance learning with text data and graph knowledge. Proceedings of the 53st Annual Meeting of the Association for Computational Linguistics, Beijing, China: Association for Computational Linguistics, 2015. 32-40.

[12] Wang Z, Zhang J, Feng J, et al. Knowledge graph and text jointly embedding. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar:Association for Computational Linguistics, 2014. 1591-1601.

[13] Zhong H, Zhang J, Wang Z, et al. Aligning knowledge and text embeddings by entity de-scriptions. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal: Association for Computational Linguistics, 2015. 267-272.

[14] Wang Z, Li J Z. Text-enhanced representation learning for knowledge graph. Proceedings of the Twenty-fifth International Joint Conference on Artificial Intelligence, New York, NY, USA:IJCAIAAAI Press 2016. 1293-1299.

推荐阅读 更多