所有文章 > 正文

IJCAI2019 | RDGCN:关系感知下的异构知识图谱实体对齐

作者: 李成江

时间: 2019-08-28 10:28

实体对齐(Entity alignment)是将来自不同知识图谱的具有相同真实世界身份的实体链接起来的任务,当前主流的研究趋势为使用表示学习的方法来进行实体对齐。但现有模型往往难以恰当地捕捉多关系知识图谱中常见的复杂关系信息。因此本文提出一种新的关系感知对偶图卷积网络(Relation-aware Dual-Graph Convolutional Network,RDGCN),通过知识图谱及其对偶的关系图谱之间的注意力交互,来充分地利用关系的信息,进一步捕获相邻结构信息,以学习更好的实体表示。

论文题目: Relation-Aware Entity Alignment for Heterogeneous Knowledge Graphs

论文作者: Yuting Wu, Xiao Liu, Yansong Feng, Zheng Wang, Rui Yan and Dongyan Zhao

论文地址:https://www.ijcai.org/proceedings/2019/0733.pdf

研究动机

知识图谱(Knowledge graph,KG)对构建如知识问答、文本分类、推荐系统这样的NLP应用有十分重要的作用。然而不同知识图谱所包含的知识通常是不完整的,彼此间可能存在互补的知识,需要融合。而实体对齐,就是将不同知识图谱进行对齐的一项有效技术。

基于表示学习的实体对齐方法能较小限度地引入人工设计的特征,且更易于拓展到更大规模的知识图谱上,所以成为近年来众多学者研究的焦点。但这些方法大多使用诸如TransE[1]这样的模型作为知识图谱表示的关键组成,而TransE中包含一个很强的假设,即所学到的向量表示需满足:h(头实体)+r(关系)≈t(尾实体),这就使得这类方法难以对知识图谱中的复杂关系信息(如三角结构)进行建模。如下图所示,(a)图中的实体和关系需要满足v1+ra≈v2,v2+ra≈v3,可以推出v1+2ra≈v3,这与图谱中存在的v1+ra≈v3所矛盾。

b12.png

另一类基于图卷积网络(Graph convolutional network,GCN)[2]的方法,如GCN-Align[3],由于基础的GCN处理的就是无向的图,所以也没有对知识图谱不同的关系边进行考虑。虽然R-GCN[4]引入关系来影响邻居实体对中心实体的权重,但模型需要大量参数,训练十分缓慢,难以运用到真实场景中。对偶原始图卷积网络(Dual-Primal Graph CNN,DPGCNN)[5]是一个解决复杂关系表示的方法,其通过将原图取对偶,得到以关系为节点、实体为边的对偶图用于关系的学习。

本文作者受DPGCNN的启发,提出RDGCN,贡献可总结为如下三点:

(a)构建对偶图。通过原始图谱和对偶图谱之间不断的交互,达到对复杂关系建模的目的,也增强了节点获取到的邻居结构信息。

(b)拓展原DPGCNN为一个边可加权的模型。

(c)在GCN中引入了公路门(highway gates)[7]控制误差的积累。

在公开的跨语言实体对齐评测数据集DBP15K上,RDGCN比其他模型的效果有显著提升。

提出方法

RDGCN的框架可以分三个部分:对偶图的构建,对偶图与原始图的交互,和结构信息集成。总的框架图如下:

b13.png

1.对偶图的构建

定义原始图谱为Ge=(Ve,Ee),其中Ve为两个图谱的实体集合,Ee为两个图谱的关系集合。则对偶图谱为Gr=(Vr,Er),其中Vr为以关系作为节点的集合,若两个不同的关系分别有同一个头实体(或尾实体)连接,则这两个关系节点间有一条边,构成集合Er

区别于DPGCNN中构建对偶图谱的方法,作者为Er中的边根据拥有相同头实体/尾实体的比重计算了不同的权重,计算方式如下:

b14.png

其中wijr为关系节点vir到vjr的边权重,Hi和Ti分别为关系ri所连接的头尾实体集合。

2.对偶图与原始图的交互

得到两个图(原始图和对偶图)之后,作者使用图注意力机制(Graph attention mechanism)来学习两个图中节点的表示,并利用注意力机制来体现对偶-原始之间的交互。所以RDGCN的每个对偶-原始交互层,由一个对偶注意力层和一个原始注意力层组成。

对偶注意力层(Dual Attention Layer)

Xr∈R(m×2d)为对偶关系图Gr的节点表示矩阵。这里作者使用的与带注意力机制的图卷积网络(Graph attention network,GAT)[6]相似的方式计算注意力得分,稍微不同的是,注意力得分是由原始注意力层的表示计算而来:

b15.png

其中η为Leaky ReLU,σr为ReLU,xjr为Xr的第j行(即第j个关系),Nir是第i个关系的邻居关系集合,ar为向量到标量映射的全连接层,ci的计算来自前一层原始注意力层里学习到的实体表示Xe(这也更能体现出与原始图的交互),模型里并没有直接的给出关系的向量表示,所以作者使用与关系ri相连的头尾实体近似估计ci,计算方式如下:

b16.png

若对偶注意力层为网络的第一层,就会出现没有先前的Xe用于计算。所以需要给定一个初始化的原始注意力层表示矩阵X(e_init)用以启动计算。

原始注意力层(Primal Attention Layer)

与GAT相似,原始注意力层的注意力得分计算方式如下:

b17.png

公式中的函数与对偶注意力层的定义相同。初始的原始注意力层表示矩阵X^(e_init)则通过实体名称的向量表示(GloVe)得到。为了直接体现实体语义的信息,原始注意力层的最终输出xqe定义为:

b18.png

其中β为权重超参。

3.结构信息集成

对偶图与原始图进行多轮交互之后,我们能从原始图中得到关系感知的实体表示。这里作者使用了结合公路门的双层GCN来进一步集成结构信息。GCN的每一层卷积函数定义如下:

b19.png

为了控制噪音的积累,作者在每层GCN之间增加公路门开进行噪音控制:

b20.png

4.对齐与训练

由于已经得到了每一实体在同一向量空间的表示,对齐实体对的获得则可以通过两个图谱彼此实体间的距离来获得,越近的实体对,越有可能对齐。距离度量公式为:

b21.png

同样的,训练的时候也是最小化已知的等价实体对的实体间距离,优化目标为Margin-based的损失函数:

b22.png

其中γ为分离间隔超参。这里负例的生成采用了[8]的最近邻居负采样。

实验分析

数据集方面,作者使用了实体对齐任务被广泛使用的跨语言数据集DBP15K对RDGCN进行评测。

b23.png

评测指标方面,使用Hits@k。指标越大,表明模型效果越好。

Baseline方面,使用了:将图谱进行向量表示后直接对齐的JE[9];将两个向量空间进行线性变换,从而达到对齐目的的MTransE[10];迭代式增加训练数据的IPTransE[11];结合属性信息进行对齐的JAPE[12];使用受限的Margin ranking loss的BootEA[8];基于图卷积网络的实体对齐模型GCN-Align[3]。

消融模型包括:GCN-s:使用实体名称初始化,但未添加公路门的两层GCN模型;R-GCN-s:使用实体名称初始化,但未添加公路门的两层R-GCN模型;HGCN-s:使用实体名称初始化,添加公路门的两层GCN模型;RD:RDGCN移除模型中的GCN。

实体对齐结果如下表所示:

b24.png

可以看到,RDGCN在每个数据集的各项评测指标都显著优于Baselines。HGCN-s优于GCN-s和R-GCN-s,体现出公路门对噪音控制的作用,以及实体名称的GloVe词向量对对齐也有很大帮助。这是大多同期工作都没有考虑的语义特征。RDGCN优于RD,体现出GCN对集成原始图谱和对偶图谱的结构信息有很积极的作用。

除了实验结果,作者还统计了评测数据集中具有TransE无法建模的三角结构的实体数量,以及训练种子与测试集比重变化对模型效果的影响,结果如下:

b25.png

可以看到,种子数量对模型效果影响符合我们的直观感觉:初始种子越多,模型效果越好。但值得注意的是,即使种子数量较少时(10%),RDGCN也有很好的效果。图3(d)对RDGCN和BootEA在三个数据集中具备三角结构的实例中对齐的准确率做了统计。三角结构的实例还是占据了数据集不小的比重,RDGCN由于考虑了复杂关系的建模,在这部分数据上的结果也明显优于BootEA。

作者还给出一个案例分析,如下所示。两个子图谱的中间实体不是等价实体,但诸如BootEA之类的方法会倾向于认为两个实体等价。引入了关系和实体的交互,RDGCN能准确的对齐其周围实体,而认为中间实体非等价实体。

IJCAI 2019涌现出很多实体对齐相关的文章,我们也将近年来基于表示学习的实体对齐方法做了整理,欢迎大家关注:https://github.com/THU-KEG/Entity_Alignment_Papers

参考文献

[1] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Oksana Yakhnenko. Translating embeddings for modeling multi-relational data. In NIPS, pages 2787-2795, 2013.

[2] Thomas N. Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. In ICLR, 2017.

[3] Zhichun Wang, Qingsong Lv, Xiaohan Lan, and Yu Zhang. Cross-lingual knowledge graph alignment via graph convolutional networks. In EMNLP, pages 349-357, 2018.

[4] Michael Schlichtkrull, Thomas N Kipf, Peter Bloem, Rianne Van Den Berg, Ivan Titov, and Max Welling. Modeling relational data with graph convolutional networks. In European Semantic Web Conference, pages 593-607. Springer, 2018.

[5] Federico Monti, Oleksandr Shchur, Aleksandar Bojchevski, Or Litany, Stephan Gu ?nnemann, and Michael M Bronstein. Dual-primal graph convolutional networks. arXiv preprint arXiv:1806.00770, 2018.

[6] Petar Velicˇkovic ?, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio`, and Yoshua Bengio. Graph Attention Networks. In ICLR, 2018.

[7] Rupesh Kumar Srivastava, Klaus Greff, and Ju ?rgen Schmidhuber. Highway networks. arXiv preprint arXiv:1505.00387, 2015.

[8] Zequn Sun, Wei Hu, Qingheng Zhang, and Yuzhong Qu. Bootstrapping entity alignment with knowledge graph embedding. In IJCAI, pages 4396-4402, 2018.

[9] YanchaoHao,YuanzheZhang,ShizhuHe, Kang Liu, and Jian Zhao. A joint embedding method for entity alignment of knowledge bases. In CCKS, 2016.

[10] Muhao Chen, Yingtao Tian, Mohan Yang, and Carlo Zaniolo. Multilingual knowledge graph embeddings for cross-lingual knowledge alignment. In IJCAI, 2017.

[11] Hao Zhu, Ruobing Xie, Zhiyuan Liu, and Maosong Sun. Iterative entity alignment via joint knowledge embeddings. In IJCAI, pages 4258-4264, 2017.

[12] Zequn Sun, Wei Hu, and Chengkai Li. Cross-lingual entity alignment via joint attribute preserving embedding. In ISWC, pages 628-644, 2017.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多