所有文章 > 正文

结合图信息或外部信息的同名排歧

作者: 王雪至

时间: 2019-06-11 16:17

过去在结合图信息或外部信息来帮助同名排歧上也有一些工作。一方面,聚类和分类很容易跟图模型联系起来,图模型的快速发展也给利用图模型来解决聚类或分类问题提供了可能。另一方面,很多时候一些外部信息也是可以利用的,比如利用搜索引擎的方法。

结合图信息的同名排歧

McRae-Spencer和Shadbolt[19]提出了一个基于图模型的方法在大型的引用关系网络中,利用自己引用和合作者关系来实现同名排歧。这个方法可以获得很高的precision但是相对比较低的recall。开始每篇论文放在一个大小为1的集合 中,然后不断地对每一篇论文及其他论文进行检测,看是否有自己引用、合作者、以及相同源URL的关系。这些步骤需要进行同名检验,即完全具有不同名字作者不应该被合到同一个集合当中,然而,这个方法也有一定的局限性:首先,自己引用是不常见的;其次,合作者虽然很有用,但是人们越来越倾向于与更多人合作,因而现在的合作网络有扩大而且稀疏的趋势。第三,源URL虽然可能有用但不够实际,比如我们已经有了论文集合想继续做排歧的情况,或者,在我们的例子中,从DBLP取得的数据只包含合作者、论文标题、会议和年 份的信息,要再取得每篇论文的源URL是非常不实际的。

在图模型的发展中,谱聚类也是一个解决聚类问题的方法。谱聚类通过计算与给定图模型相关的拉普拉斯矩阵的特征值和特征向量,可以根据谱信息构 造数据集合。 Hui等人[2]提出了一个Kway谱聚类的方法,首先利用一个作者的论文特征(包括合作者名字、论文标题和论文发表的会议或期刊)构建矩阵A, 其中以tf*idf计算向量的权重。之后计算ATAk个最大特征向量来实现最小化费用函数。最后利用QR分解来实现集合的聚类。

结合外部信息的同名排歧

在[3]中提出了一个基于搜索引擎的聚类方法。它将每篇论文的引用文献作为相关URL,并将它们搜索引擎返回的IHF(Inverse Host Frequency,如果某个host在搜索引擎返回来的结果中出现频率越低的话,这个IHF值越高)作为权重。这篇论文的想法主要是,当在搜索引擎中查找一个关键词的时候,从少见的网页中返回的结果要比在常见的网页中返回的结果更可靠。作者将这个观察形式化为IHF:



算法是对于每一个引用文献c,我们在搜索引擎中查询这篇引用文献c的标题, 就可以得到一系列相关的URL。然后这篇引用文献就用一个以IHF为权重的特征向量表示。基于这个特征向量我们可以计算成对的余弦相似度,最后利用聚类算法来得到K个集合。这个算法的局限性在于:在搜索引擎中查询非常耗时间;而且我们需要获取的URL数量也很难决定,如果获取的URL数量过少的话, 很可能两个特征向量没有同时不为0的分量,造成最后的相似度为0。


[2] R. C. Bunescu and M. Pasca. Using encyclopedic knowledge for named entity disambiguation. In EACL’06, 2006.

[3] Y. F. Tan, M.-Y. Kan, and D. Lee. Search engine driven author disambiguation. In JCDL’06, pages 314-315, 2006.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。




二维码 扫码微信阅读
推荐阅读 更多