所有文章 > 正文

10万奖金等你拿!智源•AMiner同名消歧竞赛来了

作者: 学术君

时间: 2019-10-11 11:13

日前由北京智源人工智能研究院与AMiner共同举办的OAG-WhoIsWho系列竞赛正式启动,同时发布了大规模姓名排歧数据集OAG – WhoIsWho。

当大家搜索论文时,往往会去Google Scholar、PubMed、AMiner这样的学术搜索平台上进行检索。不过,由于这些学术系统内部的数据量十分巨大,比如AMiner大约有13亿个作者档案,超过2亿篇论文,以致于作者同名的情景非常常见。

如何快速且准确地解决同名消歧问题(Name Disambiguation, aiming at disambiguating WhoIsWho)目前仍有很大的障碍。有时我们会看到以下情况:

微信图片_20191011105535_wps图片.jpg

由于论文分配算法的局限性,现有的学术系统内部存在着大量的同名论文分配错误情况;此外,每天还会有大量新的论文录入系统。故如何维护作者档案的一致性以及准确快速地将新论文分配到系统中已有的作者档案中,是现有的线上学术系统亟待解决的难题。 

为了解决这一问题,日前由北京智源人工智能研究院与AMiner共同举办的OAG-WhoIsWho系列竞赛正式启动,同时发布了大规模姓名排歧数据集OAG – WhoIsWho

据调研,该数据集是目前为止发布的人工标注数据规模最大的姓名消歧数据集哦!(之后我们还计划以增量的方式继续发布更多的人工标注的姓名排歧数据集并辅以OAG-WhoIsWho系列竞赛,尽请期待!) 

此次竞赛希望提出一种解决问题的模型,可以根据论文的详细信息以及作者与论文之间的联系,区分属于不同作者的同名论文,最终获得良好的论文消歧结果。

本次竞赛时间为9月30日-12月2日,总奖金10万元!欢迎感兴趣的小伙伴积极报名参与!

竞赛详情可查看:https://www.biendata.com/competition/aminer2019/

微信图片_20191011105541.jpg

根据姓名排歧任务的不同应用情景,竞赛同步开放了两个评测任务。

任务一:论文的冷启动消歧(Name Disambiguation from Scratch)任务描述:给定一堆拥有同名作者的论文,要求返回一组论文聚类,使得一个聚类内部的论文都是一个人的,不同聚类间的论文不属于一个人。最终目的是识别出哪些同名作者的论文属于同一个人。 参考方法:解决这一问题的常用思路就是通过聚类算法,提取论文特征,定义聚类相似度度量,从而将一堆论文聚成的几类论文,使得聚类内部论文尽可能相似,而类间论文有较大不同,最终可以将每一类论文看成属于同一个人的论文。[1] 是一篇经典的使用聚类方法的论文,它使用了图聚类的思想,利用论文之间的结构以及属性关系去构建统一的概率图,随后通过算法估计了聚类人数K,最后使用图聚类算法去解决问题。有些工作考虑了传统特征的局限性,所以利用了低维语义空间的向量表示方法,通过将论文映射成低维空间的向量表示,从而基于向量使用聚类方法 [2]。

参考文献:

[1]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987. 

[2]. Yutao Zhang, Fanjin Zhang, Peiran Yao, and Jie Tang. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).

任务二:论文的增量消歧(Continuous Name Disambiguation)

任务描述:线上系统每天会新增大量的论文,如何准确快速地将论文分配到系统中已有作者档案中,这是线上学术系统最亟待解决的问题。所以问题抽象定义为:给定一批新增论文以及系统已有的作者论文集,最终目的是把新增论文分配到正确的作者档案中。 参考方法:增量消歧任务与冷启动消歧的任务不同,它是基于有一定作者档案,然后对新增论文进行分配。所以,容易直接想到的方法就是将新增的论文与已有的作者档案进行比较,提取合作者,单位机构或者会议期刊之间相似度的传统特征,随后利用svm之类的传统分类器进行分类。还可以利用基于低维空间的向量表示方法,通过将作者与论文表示成低维向量,使用监督学习方法进行特征提取及模型训练。 

参考文献:

[1]. Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'2008). pp.990-998. 

[2]. Yutao Zhang, Fanjin Zhang, Peiran Yao, and Jie Tang. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18). 

[3]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987. 

[4]. Xuezhi Wang, Jie Tang, Hong Cheng, and Philip S. Yu. ADANA: Active Name Disambiguation. In Proceedings of 2011 IEEE International Conference on Data Mining (ICDM'11), pages 794-803. 

[5]. https://biendata.com/competition/scholar2018/data/ 

[6]. The Microsoft Academic Search Dataset and KDD Cup 2013 

[7]. Wang, F. , Li, J. , Tang, J. , Zhang, J. , & Wang, K. . (2008). Name Disambiguation Using Atomic Clusters. Web-Age Information Management, 2008. WAIM '08. The Ninth International Conference on.


如有任何问题,请发邮件至support@biendata.com,或加入比赛的微信讨论群。


加入微信讨论群请添加请添加数据竞赛小助手“学术君”(ID:AMiner308)为微信好友并在申请时备注“竞赛+机构+姓名”,由小助手统一添加进群。

微信图片_20191011105548.jpg

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多