所有文章 > 正文

浅谈本体实例匹配的相关研究

作者: 张研

时间: 2019-06-26 17:34

本体匹配相关研究很多,方法技术也比较完善。随着链接数据(Linked Data) 项目的发展 ,本体匹配研究领域吸引了大量研究者。

2013 年,Shvaiko 等人对本体匹配方法的关键技术和面临的挑战做了比较详尽的总结[15],他们的报告对当前本体匹配系统和方法进行了分析对比,得到的结论是本体匹配技术已经趋于成熟,而在当前大规模数据的环境下,更应关注这些方法的可用性。


本体实例匹配属于知识库对齐的一个重要领域,在这个命题下,有相关研究者做了总结[14],相比于本体匹配,实例匹配具有一些独有的特点:数据质量一般远大于本体模式层,相应的,数据质量一般也会低于概念层;同时,本体匹配的结果可以有多种语义关系,例如“等价”、“覆盖”、“相关”等等,而实例匹配一般来说只关心“等价”关系。


另外,实例匹配在数据库领域也会称作共指消解(Entity Resolution)[16,17],共指消解的主要目的是发现数据库中描述现实世界同一个实体的一组记录。

实例匹配方法

如表 2.1所示,目前已有许多实例匹配算法,根据匹配方法的不同主要分为以下几种:


1. 基于文本的方法[18]:

这一类方法主要利用实例的相关描述及文本属性值的相似度判别实例之间的语义等价关系,例如实例的标签、描述等。对于跨语言实例匹配任务,一般采用机器翻译工具将这些文本翻译成同种语言。基于文本的方法具有共同的出发点:具有相同或相近文本特征的实例更有可能具有语义等价关系。但是这种方法存在其局限性:1. 跨语言情况下,方法的效果非常依赖于翻译工具的效果。2. 短文本(例如实例的标签)的语义相似度衡量本身具有很大的难度。


2.基于结构的方法[19]:

这一类方法主要利用本体实例层的语义结构关系进行实例匹配,相关的算法有相似度传播算法及迭代匹配算法等。其中,相似度传播算法的基本方法是:首先计算实例之间的相似度矩阵,然后根据根据实例构成的数据图结构,沿着边的方向对相似度进行传播,该方法的基本思想是实例的相似度会影响与其相邻的实例相似度。迭代匹配算法基本方法是:每次迭代匹配一部分实例或属性,然后根据将其加入匹配参考集合中,用于下一次迭代计算实例相似度,从而发现更多的匹配对,该方法对匹配精度要求比较高,否则会造成误差积累问题。

3.基于机器学习的方法[20,21]

这一类方法有两种思路,第一种是基于实例对的等价关系预测方法,该方法首先从实例对抽取特征,例如实例对相似度特征, 然后使用二分类器进行预测。第二种上基于表示学习的方法,该方法使用实例各种相关信息,学习实例的向量表示,然后直接利用该表示进行实例匹配。 机器学习方法降低了人工参与,减少了对本体背景知识的要求,但同时,对训练数据的数量和数量都产生了一定的要求。

实例匹配系统

基于以上方法,研究者们提出了许多有效的实例匹配系统,图 2.1 是一些已有实例匹配系统的对比。比较著名的有:


实例匹配系统Silk[22]使用基于相似度聚合的方法,对齐不同类型的实例。Silk 首先针对不同的数据类型计算不同的相似度矩阵,然后采用聚合方法合并这些相似度矩阵用以发现数据连接。同时,Silk 实现了迭代式的半监督匹配策略,每次迭代发现一些等价的匹配对,同时通过用户交互界面,允许用户参与对这些匹配对及匹配方法进行修改,以加入下一次迭代中。


LFM (learning-based domain-free matcher)[23] 使用了一种二分类有监督学习方法,判别一对实例等价与否。首先,LFM 针对不同的数据类型使用了不同 的相似度计算函数,然后将这些相似度构成一个相似度向量用以训练二分类 器。由于 LFM 是一个监督模型,因此在没有训练数据的时候不能工作。同时,为了解决候选匹配过多的问题,LFM 也使用了基于关键字的倒排索引方式进行预匹配。

Linked-MDB[24] 是一个影视领域的实例匹配系统,主要用于对齐导演、演员和制片商等等类型的实例,其算法主要是基于实体的相似度。由于其具有明显的领域特征,一些领域相关规则在判定等价关系时可以直接使用。该课题组将链接好的影视数据发布在互联网上,以供用户查询及研究使用。


EROSM[25]使用一个两层的自编码器[26],将不同类型的实体描述信息(例如 ID、标签、描述)融合在一起,无监督地学习得到一个向量表示,这样一来,将匹配问题转换为向量相似度计算问题。该方法的基本思想是:实例不同的信息是对该实例从不同的角度进行的刻画,传统方法将这些信息分开进行计算,没有考虑这些信息之间的互关系。使用自编码器可以无监督地学习这些实例的嵌入式表示,从而将不同的信息整合成统一的表示,这种表示可以直接进行相似度计算,也可以使用有监督的分类方法预测等价关系。然而这些方法系统面对数据的易变性和多语言性以及实例匹配任务的多样性,没有提出针对性的解决方案,受这些方法的启发,并结合实例匹配研究的现状和基本问题,本文提出了的实例匹配系统 RiMOM-IM 和查询驱动的算法。我们的方法具有以下优势:


a.针对不同实例匹配任务及多语言环境,可动态制定匹配策略及组件,从而在不同的任务上都能取得良好的表现。
b.使用查询和倒排索引的方法减少内存消耗,显著加速实例匹配过程,有效减少了大规模实例匹配的计算时间。

实例匹配数据集


在本体匹配和实例匹配领域,OAEI (Ontology Alignment Evaluation Initiative) 是一个国际性的竞赛[27],每年举办一次,主办方会提供标准数据集用于评测各个参赛系统。同时,在其官网上也可以下载到往年的数据和答案集,对本体匹配和实例匹配研究者们有很大的帮助。


[19] Böhm C, Melo G, Naumann F, et al. Linda: distributed web-of-data-scale entity matching. Pro- ceedings of the 21st ACM international conference on Information and knowledge management. ACM, 2012. 2104–2108.

[20] Ngomo A N, Lyko K. Unsupervised learning of link specifications: deterministic vs. non- deterministic. Proc. 8th International Workshop on Ontology Matching, Sydney (AU), 2013. 25–36.

[21] Rong S, Niu X, Xiang E W, et al. A machine learning approach for instance matching based on similarity metrics. Proc. 11th International Semantic Web Conference (ISWC), Boston (MA US). 2012: 460–475.

[22] Volz J, Bizer C, Gaedke M, et al. Discovering and maintaining links on the web of data. Proc. 8th International Semantic Web Conference, Chantilly (VA US), 2009. 650–665.

[23] Nguyen K, Ichise R, Le H B. Learning approach for domain-independent linked data instance matching.Proc.ACMSIGKDDWorkshoponMiningDataSemantics.ACM,2012. 7.

[24] Hassanzadeh O, Consens M P. Linked movie data base. LDOW, 2009.

[25] Xiang C, Jiang T, Chang B, et al. Ersom: A structural ontology matching approach using automatically learned entity representation. Conference on Empirical Methods in Natural Language Processing, 2015. 2419–2429.

[26] Coates A, Ng A Y, Lee H. An analysis of single-layer networks in unsupervised feature learning. Journal of Machine Learning Research, 2011, 15:215–223.

[27] Achichi M, Cheatham M, Dragisic Z, et al. Results of the ontology alignment evaluation initiative 2016. 11th ISWC workshop on ontology matching (OM). No commercial editor., 2016. 73–129.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多