所有文章 > 正文

同名排歧算法综述:基于有监督、无监督、约束条件

作者: 王雪至

时间: 2019-06-11 11:47

总体上,已有的同名排歧算法可以分为三类:基于有监督学习的,基于无监督学习的,以及基于约束条件的。

基于有监督学习的方法(比如[1])从手工标注的训练数据中对于每个作者名字学习出一个特定的分类模型。然后这个模型被用来预测每篇论文的所属集合。

基于无监督学习的方法(比如[2,4,6,10,11])利用聚类算法或者话题模型 (topic model)对论文进行聚类。在不同聚类集合中的论文即对应不同的实体。

基于约束条件的方法也利用了聚类算法。它和无监督学习方法的区别在于用户提供的约束被用来指导聚类,使得最后的结果更好(比如[12,13])。

基于有监督学习的同名排歧

基于有监督学习的算法要求我们首先得到标注的数据,但标注数据在有些时候是非常耗时间的且很容易出错。比如标注论文,如果一个名字包含超过500篇论文的话,对其进行分类和标注就非常困难了。所以标注论文集合的时候我们花了很长时间针对一个相对较大的集合(100个作者名字,每个名字平均60篇论文)进行手工分类,并拿它来作为评价的标准。


训练集合要求数据量足够大,否则不能训练出一个比较好的模型,也没有办法得到比较好的分类结果。所以一般提出有监督学习的方法都是能够比较容易得到训练数据的情况,比如以下第一个例子中直接将Wikipedia页面作为训练数据构造词典和相关关系,第二个例子中将文章中出现的缩略词与完整形式的直接对应作为训练数据。


Bunescu和Pasca[14]提出了一个基于SVM核模型的方法,利用在线百科全书中知识的高涵盖率和丰富结构来实现实体的区分。这个方法的目标是探查出一个名字是否对应着词典里面的一个实体,以及将共享同一个名字的多个实体区分开。作者首先从Wikipedia里面提取出一个实体词典D,其中每一个词典项d D可以映射到一个可以被Wikipedia定义的实体集合d.E。为了得到这个映射,论文首先确定某一个实体e的标题e.title是否是一个合适的名字。然后d.E就可以这样确定:一个实体e包括在d.E中当且仅当d = e.title,其中d e.R (e.Re的Redirect Pages,即重定向页面),或者d e.D (e.De的Disambiguation Pages,即排歧页面)。然后作者利用正文相似度来确定这个实体是否对应于一个查询q,即具有最高分数的(q, ek)。这里的分数是通过查询q的内容和实体e的正文的余弦相似度计算出来的,其中权重是由tf*idf模型确定的。作者提出kernel方法是由于在错误分析中发现(1)文章可能太短或不完整;(2)文章是采用了同义词或词组的分析才对应到查询中相关的概念上的。然而,这个方法也有局限性:在Wikipedia上没有数据的信息就无法被区分。这样对于不是特别有名的作者就很不利,尤其是新进入到学术领域的作者。

Yu等人[15]提出了基于监督学习的方法来根据有歧义缩略词出现的上下文区分它们的完整形式。由于有些缩写词的完整形式在上下文中就直接显示出来了, 这些信息就用作模型的训练数据。作者给每个特定的缩写词都对应了一个可能的完整形式集合。然后作者采用了有监督的机器学习方法来确定这些缩写词的 完整形式,即利用它们的上下文来计算tf*idf相似度。这个工作在信息获取和数据挖掘中是非常有用的,因为在大多数情况下我们都没法做到将缩写词和它们的完整形式对应起来实现替代搜索。然而,这个方法也有局限性:需要训练数据才能得到相关的模型,而在很多其他情况下训练数据是很难获取的,比如在我们的论文数据集中。

基于无监督学习的同名排歧

由于有监督学习方法的局限性,对于很多排歧问题又产生了无监督学习的方法。这种方法不需要获得训练数据,所以也不存在训练模型不够好导致预测结果不好,或者过拟合的问题。因而这种方法扩展性比较好,较容易地在不同的应用中实现。

R. Bekkerman和A. McCallum[5] 提出了两种基于无监督学习的方法来解决将跟同个名字相联系的网页对应到真正的实体上。第一种方法是基于网页的链接结构的。作者定义两个网页是互相链接的,如果它们都包含指到相同页面的链接,或者它们都可以由同一个网页链接到,或者两者可以通过一定数量的链接互相跳转到。由于url可能会引起歧义,作者对每个文档的链接结构(Link Structure, LS(d))做了如下处理:


LS(d) = (links(d) ∩ TR(D)) ∩ url(d) (2-1)

其中url(d)返回链接d的URL中包含第一级目录的的域名(domain),links(d)是链接页面d中返回的链接集合,TR(D)指的是Trsuted URLs,即{url(di)} \ POPPOP是常见(Popular)的URL集合。然后两个网页d1, d2是互相链接的当且仅当:



同时作者用了一个tf*idf的变种(googledf (w)是Google搜索w的预计结果个数) 作为决定两个聚类是否应该合并的距离衡量标准。




进一步地,作者提出了一个A/CDC的聚类方法,它是基于词在相似文档上的分布也是非常相近的这一点。通过基于一个聚类系统在另一个系统上的条件概率,逐渐拆分所有词的集合以及合并文档的集合,这个方法可以在不同的数据集上取得很好的结果。

Yin等人[4]提出了一个无监督的区分个体的方法DISTINCT,这个方法直接取数据库中的一部分可区分的物体作为训练数据(但无需手工标注),然后应用SVM来确定不同连接的权重。由于数据库中的数据连接信息总是稀疏且互相交织,DISTINCT结合了两种不同的方法来衡量数据的相似度,一是邻居元组(Neighbor Tuple, NB)的相似度[16],二是关系数据图中两条记录的随机游走概率[17]。其中引用之间的相似度以Jaccard相似度[18]定义,而两个引用r1, r2在Jaccard相似度中的系数,由它们关于集合连接路径P的相似度(Set Resemblance)定义:


然后两个引用总的相似度:


其中w(P)是路径P的权重。


这两种衡量标准是互补的:邻组相似度利用了相邻的信息,随机游走概率利用了连接的强度。所以两个集合总的相似度就可以表示为:


其中Resem(C1, C2)是集合中所有引用相似度的平均值,WalkProb(C1, C2)是两个集合之间总的随机游走概率。另一方面,由于不同类型的连接可能有不同的语义和不同程度的重要性,DISTINCT利用了SVM来学习出一个模型,以此确定不同类型连接的权重。最后,论文使用层次聚类来不断将相似的集合合并,其中集合的相似度使用平均连接(集合中所有元素的平均相似度)和团体相似度 (将集合作为一个整体),这种方法具有更高的抗噪声能力。

基于约束条件的同名排歧

无监督学习虽然可扩展性很好,但是仅仅依赖于数据本身的特征,要想做好分类还是比较困难的。尤其在很多时候用户可以提供一定的限制,或者数据中存在一定的规则。所以就相应出现了基于约束条件的方法,即在无监督学习的基础上加上一定的约束条件,引导聚类结果向更好的方向发展。

Basu等人[12] 提出基于无监督学习的聚类可以根据加入成对的约束来提高性能。所谓成对的约束,是指事先确定成对的例子应该被分为同一类或者不同的类。论文提出一个基于半监督学习的聚类方法,即应用隐马尔可夫随机场 (HMRF)来提供原则性的框架,然后将约束加入到原本的聚类过程中。这个模型可以很好地把约束和在欧几里得空间的学习结合起来,而且允许使用一些很常见的聚类变换标准。


Duo等人[13]形式化了一个基于HMRF的半监督学习框架,并将论文之间的相互信息定义为约束条件。即在给定论文条件下,最大化论文所属标签Y的条件概率:


其中lixi的标签,D(xi, yli )是论文xi和研究者yli (以被分配的论文集合表示)之间的距离,D(xi, xj)是论文xi, xj之间的论文集合, ck是约束条件,wkck的权重, Z是归一化因子。然后采用EM(Expectation Maximization)方法来学习距离测量标准的参数。在这一步中,距离函数D(xi, xj)定义为:



其中A是参数矩阵。然后对论文进行重新分配,每篇论文xi被分配给最小化下面函数的yh :


在M步骤中同时更新研究者代表(即分配好的论文集合):



[1] D. M. McRae-Spencer and N. R. Shadbolt. Also by the same author: Ak- tiveauthor, a citation graph approach to name disambiguation. In JCDL’06, pages 53- 54, 2006.
[2] R. C. Bunescu and M. Pasca. Using encyclopedic knowledge for named entity disambiguation. In EACL’06, 2006.
[3] Y. F. Tan, M.-Y. Kan, and D. Lee. Search engine driven author disambiguation. In JCDL’06, pages 314-315, 2006.
[4] Z. Chen, D. V. Kalashnikov, and S. Mehrotra. Adaptive graphical approach to entity resolution. In JCDL’07, pages 204-213, 2007.
[5] H. Yu, W. Kim, V. Hatzivassiloglou, and J. Wilbur. A large scale, corpus-based approach for automatically disambiguating biomedical abbreviations. ACM Trans. Inf. Syst., 24(3):380-404, 2006.
[6] S. E. Whang, D. Menestrina, G. Koutrika, M. Theobald, and H. Garcia-Molina. Entity resolution with iterative blocking. In SIGMOD’09, pages 219-232, 2009.
[7] P. T. Davis, D. K. Elson, and J. L. Klavans. Methods for precise named entity matching in digital collections. In JCDL’03, pages 125-127, 2003.
[8] S. Cucerzan. Large-scale named entity disambiguation based on wikipedia data. In EMNLP’07, pages 708-716, 2007.



[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。







二维码 扫码微信阅读
推荐阅读 更多