所有文章 > 正文

作者同名排歧的相关研究

作者: 王妍

时间: 2019-05-23 15:22

本节首先介绍同名排歧的近年来的研究和进展。同名排歧算法可以从有无监督分为三大类---有监督、无监督和半监督方法。在介绍算法的同时,简要归纳了各自的优缺点。

本节首先介绍同名排歧的近年来的研究和进展。同名排歧算法可以从有无监督分为三大类---有监督、无监督和半监督方法。在介绍算法的同时,简要归纳了各自的优缺点。

有监督的同名排歧算法

本小节首先介绍有监督的同名排歧方法。该类方法是有监督的算法,需要人工标注的训练数据。数据表示为(Ai,Bi),其中Ai表示输入的记录特征,而Bi表示该记录的标签。具体在作者同名排歧的任务中,记录即指论文,而标签是指现实世界的作者身份。为了得到高质量的标签,目前只能通过专家人工标注得到。通过有标签的数据,可以训练出分类器。举例说明,输入的特征可以是论文的一些属性,比如作者列表、发表会议、发表年份、关键词等等。而类别标签是作者的真实身份,一般用一个唯一的ID表示。

Wang et al.[4]提出了一种增强树(boosting tree)的分类方法用于同名排歧任务。这个方法主要包括四个步骤:名称和从属关系过滤,相似性得分计算,作者筛选和增强树分类。在第一步中,作者通过名字和机构关系进行过滤。而在第二步中,作者提取了六个论文特征,并基于这些特征计算两个论文之间的相似度。第三步根据每个作者的错误率进行筛选,错误率低的作者将通过最后一步增强树分类器来直接判别。而错误率高的作者则需要通过人工整理标注来达到较高的准确率。该方法的缺点是它不能对错误率较高的作者进行分类,需要人工的检查和干预。

Tran et al.[5]提出了一种基于深度神经网络的方法,可以从任意的实际数据集中自动提取出有用特征,并消除作者姓名的歧义。此方法包含两个主要步骤。在第一个步骤中,将两个记录的元数据作为输入,并学习出它们的关系表示。该记录对的表示可以通过多种方法学习得到,在文中,作者使用了字符串匹配的算法来表示两个记录的关系。根据他们的描述,这个过程可以在任何数据集上自动学习。在第二步骤中,将得到的记录对的表示作为输入特征,经过几层全连接层,学习隐层中的特征,最后输出结果表示这两个记录是否为同一个作者,以消除作者名字的歧义。前馈深度神经网络的最后一层的输出是一个概率,表示了两个作者名记录是否实际上属于同一作者。他们利用多层深度神经网络的模型来提高算法的表示能力和泛化能力。而在这个框架中,如何找到最优的隐层个数和单元数是一项复杂而重要的任务,影响了最后的排歧性能,需要大量的实验和经验。


Han et.al[6]提出了两种有监督的超限学习机算法。第一个是对每个名字a学习一个分类器(One Classifier for Each Name,OCEN);第二个是对所有名称学习一个统一的分类器(One Classifier for All Names,OCAN)。在OCEN中,对于每个名字,分类器都是提取一些特征作为输入来进行训练的。在推理的时候,输入一篇论文的特征,分类器就可以输出它作者的身份。他们使用作者姓名、论文标题的单词,会议标题的单词作为输入分器的属性特征。然后,通过主成分分析降低特征的维数。最后,利用超限学习机法对优化问题进行求解。


在OCAN中,他们训练一个统一的分类器,该分类器的目标是预测两个给定记录是指同一个实体,还是指代两个不同的实体。这个策略背后的思想是,对每个记录中的实体提取出它的特征表示。这个分类器不涉及任何特定的名字,这使它能够用于消除所有名字的歧义。在这个方法中,他们衡量了两个实体的相似性,从而判断他们是否为同一个实体。具体来说,特征的构造是通过计算两个不同记录中,作者姓名、标题单词和地点单词之间相似性来获得。更进一步,作者提出了增强的特征提取方法,进一步利用了不同记录的关系信息。最后,将超限学习机方法应用于所提出的问题,并找到最优解进行预测。OCEN和OCAN两种策略都基于极端学习机(ELM),它比支持向量机(SVM)和最小二乘支持向量机(LS-SVM)具有相似或更好的泛化性能和更快的学习速度。可是这个方法不能处理数据缺失的问题。另外,基于相似度的特征构造方法,使得如果两个记录有相同或相似的标题,它将无法区分。

Onoderaet.al[7]提出了一种方法,用于区分目标作者(“真实”文章)与其他同名作者(“虚假”文章)。他们通过两个步骤的筛选,从629000篇检索到的论文中,找到真正的作者论文。为了从大量检索到的文章中提取真实文章,包括许多错误文章,应用了两个过滤阶段。在第一阶段,如果检索到的论文的机构地址与源论文的机构地址相似度较低,或者检索到的论文与源论文的会议之间没有过引用关系,则将其过滤掉。在第二阶段,对检索到的论文进行人工判断,并且在人工标注的数据上训练一个逻辑回归判别器。显著有用的判别特征包括共同的合著者、地址相似性、标题相似性,以及检索到的论文和源论文之间的引用关系。此外,据证明,如果检索到的文章被其源文章引用,则该文章几乎肯定是正确的。该研究中提出的方法在处理大量文章时会很有效,这些文章的主题领域和机构地址差异很大。

Huynh et al.[8]提出了五种监督机器学习算法,包括随机森林、支持向量机、K-最近邻、C4.5(决策树)和Naïve Bayes(朴素贝叶斯)解决作者同名歧义问题。他们使用列文斯坦(Levenshtein Similarity)相似性计算特征之间的相似性。他们提出了一组论文数据的特征用于训练分类器,并在三个数据集上测试提出的模型。缺点是该方法需要用非常具体、整洁的数据集来训练模型。当数据存在噪声时,可能会影响模型的性能。

无监督的同名排歧算法

无监督学习的目标是找到数据潜在的模式,从而对新的数据实例的进行预测。无监督学习的假设是输入空间本身存在一个结构。在统计学中,这叫做密度估计(densityestimation)。在同名排歧的各种无监督学习算法中,最重要的部分便是确定用于衡量记录(论文)之间的相似性度量方法或者相似函数。另外一个关键挑战在于如何确定集群(簇)的数量和合适的相似度阈值。


Wu et.al[9]提出了结合DS理论(Dempster-Shafer Theory)和香农熵(Shannon entropy)的无监督聚类算法来解决作者姓名排歧。在第一个步骤中首先提取一些高级特征,例如机构、会议、共同作者、引用关系、网络关系、以及他们的相关性等。在下一步骤中,通过DST和SE来融合这些特征,并得到一个表示所有论文两两相似程度的矩阵。矩阵中的每个元素表示对应的两篇论文属于同一个作者的置信函数。最后,他们应用基于DST的自下而上的迭代聚类算法来进行作者姓名排歧。在聚类的过程中,他们使用了三种不同的收敛条件--即,预设的簇的个数,证据的个数,以及簇之间的距离。

Tang et.al[10]提出了用一个统一的基于概率模型的框架来解决同名排歧问题。他们将消除歧义的问题归纳形式化为马尔可夫随机场的问题。数据在局部属性和关系上表现出相互依赖性。基本理念是,若两个记录有相似的内容和相似的关系,则它们属于同一作者。在第一步中,他们对每篇论文提取了六个不同属性(标题词、会议名称、出版年份、摘要、作者、参考文献)。然后定义了两篇论文之间关系的类型,包括共同发表会议、共同作者、共同引用等。这些不同类型的关系有不同的权重,需要优化和求解。作者探索了一种估计人数K的动态算法和一种用于参数估计的两步算法。与现有方法相比,所提出的方法在名称消歧方面可以实现更好的性能,因为该方法利用了论文分配排歧的相互依赖性。

Schulz et.al[11]提出了另一个算法,不仅能够进行同名排歧,而且能够预测作者的h-index值,并将其应用于完整的Web of Science(WoS)引文索引。首先,作者计算出论文两两之间的相似度。相似度的计算是基于共同作者的个数,共同引用的个数,同时引用该两篇论文的论文个数特征。然后执行一个两步聚类算法。具体来说,如果这两篇论文的相似度超过一个阈值,则在论文之间添加一条边。通过这种方式,可以构造一个图,其中每个连通分量可以被认为是同一个作者。这些连接形成了许多簇,如果两个簇之间的相似性高于一个阈值,则添加一条边。然后这些相连的簇被合并为一个更大的簇。不同的簇是表示不同的作者所写的论文集合。此参数化模型基于预测h-index值来进行参数优化,倾向于正确分配引用关系较多的论文。

半监督的同名排歧算法

监督技术的主要缺点是它们需要大量标记的训练数据。而在作者同名排歧的任务中,标注需要一定的专业知识和人力资源。同样,在无监督技术中,找到最佳的簇数和相似度阈值是一个很大的挑战。为了克服监督算法和非监督算法的这些缺点,引入了半监督技术。在半监督算法中,作者希望通过结合使用少量标记的训练数据与未标记的数据,来获得良好的准确性。在几乎所有的半监督算法中,一个关于数据一致性的假设是,彼此接近或具有相似结构的数据实例更可能具有相同的标签。文献中已经报道了这类算法的一些应用和优越的性能。

Levin et al.[12]提出了一个两步骤的半监督算法来消除数据库中作者的歧义。在第一阶段,他们使用基于引用的规则以及其他一些简单的规则来自动生成用于有监督训练的标记数据。然后,将这些通过规则生成的正负例数据作为训练数据,训练基于特征的有监督分类器,并用于在更大的未标记数据集中的作者聚类。他们利用大量的特征来计算衡量两个论文之间的相似性,并解决了优化问题,找到排歧之后的作者。他们在汤森路透网(Thomson Reuters’Web of Knowledge)的数据集上评估了这个模型。

另外,Ferreira et al.[13]提出了一种新颖的三步自我训练算法,用于作者名称消歧-SAND(selftraining associative name disambiguator)。所用数据只有关于论文的最基本信息。在第一步中,基于共同作者的启发式算法能够产生高度纯粹(虽然是碎片化的)聚类。然后选择最具代表性的这些聚类用于第三步训练作者分配的分类器。第三步采用了最先进的转换消歧方法,能够检测未包含在任何训练示例中的作者,并将可靠的预测结合到训练数据中。他们在DBLP数据集上测试验证了他们的新模型。和其他基线方法相比,他们的模型取得了更好的结果。但是,在这个模型中,在第一阶段找到准确的簇是一项较为困难的任务。

基于图的同名排歧算法


Tang,Walsh[14]提出了完全基于图的技术。大多数方法,如Fan et al.完[15]和Wang et al.[16]首先构造一个图,然后利用图结构信息计算节点的相似程度。然后,他们使用机器学习算法对这些结果进行聚类,来进行同名排歧。一些研究者提出,图结构是作者同名歧义问题的自然表示,它考虑了问题丰富的语义信息。它们将作者名字表示为节点,它们的共同著作关系表示为它们之间的边。在构造图的基础上,采用基于图的相似性度量进行消歧。

Levin,Heuser[17]提出了构造作者合著网络,以及利用作者姓名之间的句法相似性,来消除三个不同的DL数据集中作者同名的歧义问题。他们认为,如果他们在图上有密切的关系和很小的距离,那他们指代同一个作者。实验表明,超过三个人的路径在名称消歧问题上开始失去显著性。此外,如果连接两位作者的路径越多,则意味着它们的关联性更强。他们定义了多个基于图结构的度量标准来度量作者之间的相似性和距离,并将这些指标与传统指标相结合,定义了相似函数。最后,他们定义了五个相似性的度量函数:一个是句法匹配的相似度,另外四个是关系匹配的相似度。他们的研究结果表明,这种方法显著提高了基于句法的相似性度量的性能。

Fan et al.[15]提出了一种基于图的名字消歧(GHOST)框架方法。在该模型中,他们使用无向图来描述论文之间的关系。每一个顶点表示一个论文,图中的边显示了合著者的关系。然后,通过迭代查找有效路径、计算相似性、相似性传播算法进行聚类,并且最后一步利用用户反馈作为辅助工具来提高同名排歧的性能。他们使用pubmed和dblp数据集进行了评估,结果表明他们所提出的方法在精度和召回方面都明显优于其他方法。但是,这种方法的缺点是不能处理离群值。

Amancio et.al[18]提出了一种基于合著图拓扑特征的图算法来解决DLS中的同名问题。在该方法中,他们利用了协作图的拓扑特征以及作者之间的协作模式。在他们提出的算法中,第一步是根据作者之间的协作强度形成加权网络。然后利用邻域度、邻域强度、聚类系数、平均最短路径长度等拓扑特征对网络进行表征。在分类器中,采用模糊k-nn算法对同名作者进行消歧。该方法在arxiv数据集的子集上进行了验证,并证明了拓扑特征可以提高排歧结果的准确性。在这些拓扑特征中,平均最短路径长度是最显著的消歧特征。

另外,Shin et.al[19]提出了利用作者、合著者和论文标题信息的作者姓名消歧(GFAD)的图模型。他们证明了这个框架是鲁棒的和独立于数据集的,因为它只需要作者姓名、合著者姓名和论文标题信息,这些信息在所有的DLS中都是可获取的。他们在无向图中对作者和他们之间的合著关系进行建模,其中顶点表示作者名,边表示合著关系。对于同名歧义的问题,通过分割多个非重叠的合著者循环网络,可以得到每个循环对应一个唯一的作者。对于名字变形的问题,通过将名称类似并连接到同一个定点的多个不同节点合并为一个节点,识别出那些实际

2.1 活动时间分布[21]

2.2 活动地点分布[21]

表示同一个作者的不同节点。但是该模型也存在缺点,当同一作者写的两篇论文的标题词相似度很低,或是在作者姓名非常模糊的情况下也会失败。此外,由于它使用了Johnson[20] 算法进行循环查找,因此计算成本太高。

[4] Wang J, Berzins K, Hicks D, et al. A boosted-trees method for name disambiguation[J]. Scientometrics, 2012, 93(2): 391–411.

[5] Tran H N, Huynh T, Do T. Author name disambiguation by using deep neural network[C]// Asian Conference on Intelligent Information and Database Systems. [S.l.]: Springer, 2014: 123–132.

[6] Han D, Liu S, Hu Y, et al. Elm-based name disambiguation in bibliography[J]. World Wide Web, 2015, 18(2): 253–263.

[7] Onodera N, Iwasawa M, Midorikawa N, et al. A method for eliminating articles by homonymous authors from the large number of articles retrieved by author search[J]. Journal of the American Society for Information Science and Technology, 2011, 62(4): 677–690.

[8] Huynh T, Hoang K, Do T, et al. Vietnamese author name disambiguation for integrating publications from heterogeneous sources[C]//Asian Conference on Intelligent Information and Database Systems. [S.l.]: Springer, 2013: 226–235.

[9] Wu H, Li B, Pei Y, et al. Unsupervised author disambiguation using dempster–shafer theory [J]. Scientometrics, 2014, 101(3): 1955–1972.

[10] Tang J, Fong A C, Wang B, et al. A unified probabilistic framework for name disambiguation in digital library[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(6): 975–987.

[11] Schulz C, Mazloumian A, Petersen A M, et al. Exploiting citation networks for large-scale author name disambiguation[J]. EPJ Data Science, 2014, 3(1): 11.

[12] Levin M, Krawczyk S, Bethard S, et al. Citation-based bootstrapping for large-scale author disambiguation[J]. Journal of the American Society for Information Science and Technology, 2012, 63(5): 1030–1047.

[13] Ferreira A A, Veloso A, Gonçalves M A, et al. Self-training author name disambiguation for information scarce scenarios[J]. Journal of the Association for Information Science and Technology, 2014, 65(6): 1257–1278.

[14] Tang L, Walsh J. Bibliometric fingerprints: name disambiguation based on approximate struc- ture equivalence of cognitive maps[J]. Scientometrics, 2010, 84(3): 763–784.

[15] Fan X, Wang J, Pu X, et al. On graph-based name disambiguation[J]. Journal of Data and Information Quality (JDIQ), 2011, 2(2): 10.

[16] Wang X, Tang J, Cheng H, et al. Adana: Active name disambiguation[C]//2011 IEEE 11th international conference on data mining. [S.l.]: IEEE, 2011: 794–803.

[17] Levin F H, Heuser C A. Evaluating the use of social networks in author name disambiguation in digital libraries[J]. Journal of Information and Data Management, 2010, 1(2): 183.

[18] Amancio D R, Oliveira Jr O N, Costa L d F. Topological-collaborative approach for disam- biguating authors’names in collaborative networks[J]. Scientometrics, 2015, 102(1): 465–485.

[19] Shin D, Kim T, Choi J, et al. Author name disambiguation using a graph model with node splitting and merging based on bibliographic information[J]. Scientometrics, 2014, 100(1): 15–50.

[20] Johnson D B. Finding all the elementary circuits of a directed graph[J]. SIAM Journal on Computing, 1975, 4(1): 77–84.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

推荐阅读 更多