所有文章 > 正文

清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0版本”

作者: 张帆进

时间: 2019-02-28 10:56

开放学术图谱 (OAG)是一个大型学术知识图谱。它连接了两个亿级学术图谱:微软学术 (Microsoft Academic Graph,MAG)和AMiner 。 近日,清华大学和微软研究院联合发布了OAG v2,包含7亿多实体数据和20亿关系,其中包括AMiner的2.8亿实体数据(包括:作者、论文、会议、话题)和微软学术的4亿多实体。OAG v2实现了两个数据集中实体的自动匹配链接。OAG v2也是之前发布的OAG v1的一个更新版本。

免费下载网址

https://www.openacademic.ai/oag/

OAG v1


2017年8月,清华大学和微软研究院联合发布的OAG v1,具体来说包含了来自MAG的166,192,182篇论文和来自AMiner的154,771,162篇论文的元数据信息。经过集成这些数据信息,生成了两个学术图谱之间近64,639,608对链接(匹配)关系。

OAG v1在过去一年多的时间里吸引了约40,000次下载。这次,OAG v2在OAG v1的基础上增加了作者以及出版地点相关的数据。

OAG v2


OAG v2包含了更多类型实体(作者,出版地点,论文)以及相应的匹配关系。OAG v2定义的问题如下图所示。


上面的表格介绍了OAG目前有约7亿实体数量,不同实体相互联系构成一个大规模异构网络。图中间表示作者名字的歧义性。图下面展示了不同类型实体的异构性,因此匹配不同类型的实体需要考虑其不同的特点。

OAG致力提供完全开放、免费的公开学术图谱。截止2019年1月,OAG包括约7亿实体和约20亿实体之间的链接关系。OAG v2的统计数据如下面三个表所示。MAG和AMiner两个学术图谱都在不断演变,OAG v2采用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。

注:对于作者匹配,学者们只考虑了论文数不少于5的作者。将论文数量较少的作者排除后,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。

挑战与困难

建设亿级开放学术图谱是一项极具挑战的研究工作。下面举例说明主要的难点所在:


1. 实体异

OAG中不同类型的实体具有异构性,它们都有各自不同的特征。例如,出版地点的主要属性是名称,而论文有不同类型的属性,如题目,作者列表,年份等。此外,不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc;出版地点有全称或缩写等多种形式。

2. 实体歧义

同一名称可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说,相同的题目也可能代表不同的论文,如在KDD 2016中收集了两篇题为“robust influence maximization”的不同论文。

3. 大规模匹配

要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以已经公布的论文数据为例,AMiner和MAG各自有约1.7亿和2亿篇论文,因此需要设计一个高效的匹配框架。

为此,学者们尝试结合哈希算法,不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(出版地点,论文和作者)。

评估

学者们评估了少部分匹配关系(大约1,000个出版地点/论文/作者匹配对),准确率如表4所示。

开放学术图谱是开放学术组织(Open Academic Society)的一个重要项目。它是由微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。开放学术图谱以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标。

OAG可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等。

详细信息欢迎访问:

https://aminer.org/open-academic-graph

或 

https://www.openacademic.ai/oag/   

参考文献

[1] Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June (Paul) Hsu, and Kuansan Wang. 2015. An Overview of Microsoft Academic Service (MAS) and Applications. In Proceedings of the 24th International Conference on World Wide Web (WWW ’15 Companion). ACM, New York, NY, USA, 243-246. [PDF ][System ][API ]

[2] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). pp.990-998. [PDF ] [Slides ] [System ] [API ]

[关于转载]:本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“SciTouTiao”微信公众号。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多