所有文章 > 正文

《人工智能之图数据库》发布:热点前沿新鲜出炉!

作者: 小雨

时间: 2020-07-27 12:22

免费下载

图数据库作为存储和分析之间关系的系统,因其高性能、轻量级等优势,越来越受到业界关注,特别是在大数据处理方面,更是优势明显,被广泛应用于反欺诈、推荐引擎和知识图谱等多个场景。近日,清华大学人工智能研究院、清华-中国工程院知识智能联合研究中心和智谱AI联合发布了《人工智能之图数据库》报告。报告围绕图数据库的基本概念、技术发展、产业应用、人才概况和热点趋势这五大方面进行深入挖掘。滑至本文底部可直接获得下载方式。

图数据关系为何可以高效处理数据“关系”?

顶点和边的图模型相比于表模型更符合人的思维方式。比如我们面对面用纸笔交流介绍社交网络关系,会自然而然地使用点边的方式画出来,这正是图模型。图数据库是基于图模型,使用图结构进行语义操作的数据库。如果采用关系型数据,先将人物建表,再将关系建表,最后将数据进行映射,需要高度的抽象思维。在图数据上进行分析查询时,可以直观地通过点边连接的拓扑结构,交互式找到想要的数据。因此有一种说法是:与关系型数据库相比,图数据库关系才是真的处理“关系”的。

例如下面是一个图数据库在“反医保欺诈”的应用案例,如果需要找到某个医生看诊病人的个人信息,图数据库使用类似指针直接跳转访问,在查询时间上比关系数据库通常有 2 到 3 个数量级的性能优势而关系型数据库处理不可避免要用到表的 JOIN 操作,非常影响性能。从本质上说,一个表代表一个类型的数据,一个顶点代表一个特定的数据,意味着关系数据库更关注数据的类型,而图数据库更关注数据的个体,识别其关联关系。

图1 图模型示例

图数据库应用之“断案”美国总统选举操纵

社交网络天然具备图数据结构,无需再为关系型数据建立图模型。无论是针对已经声明的社交关系(例如微信朋友圈),还是根据行为推理出潜在社交关系,图数据库都可以很好地为企业的创新社交网络应用做出贡献。

有报道称,某黑客团体利用在社交网络工具推特(Twitter)上发推文(Tweets)的方式操作美国 2016 年的大选。在美国政府介入调查之际,大量的推文和账号已经被删除,如何恢复和分析数据?如何找到黑客团队的运作方式?他们如何渗透到日常美国人的在线对话中并试图影响公众舆论?图数据库就成为回答这些问题的有力工具。美国新闻媒体NBC News就使用图数据库供应商Neo4j的产品和技术得出结论[1]。

其中某图数据库供应商的方案体现为:

1、构建图模型后,展示了推文、用户(有些已经被识别为黑客账号)、主题、标签、源应用程序和链接之类实体之间的关系;

2、中心度算法用来测量顶点的中心度;

3、社区发现算法揭示了频繁交互的用户网络;

4、发现最具影响力的潜在黑客;

5、PageRank 算法确定在群中最有影响力的账号。

黑客还会留下其他的线索,例如一般的用户会用移动设备发推文,而黑客一般会用Web客户端。根据推文数量暴涨的时间规律,也可以发现黑客所在的时区信息。

谁在图数据库领域最能打?

2000 年之后,随着社交网络等真实大图数据的迅猛增长和相关应用需求的推动,越来越多的学者将目光放在图数据库的理论及应用研究当中,图数据的相关研究工作重新成为热点。与此同时,全球范围内,图数据库领域的学科发展呈现出不同趋势,不同国家和研究机构的学者数量与论文数量差异较大,同时人才不断流动。在此背景下,《人工智能之图数据库》报告依托清华大学唐杰教授自主研发的“科技情报大数据挖掘与服务系统平台”(简称 AMiner),以及第三方机构研报、媒体报道等公开资料,对于图数据库领域的人才概况和热点趋势进行了详尽的分析。

该报告参考 h-index、发表论文数、论文被引频次等指标,对学者信息进行筛选,比较和分析了图数据库领域人才在全球和国内的分布概况,技术领先国家、机构信息,领域的技术研究发展趋势,学者画像,人才迁徙和专利趋势等。

如图 2,报告对图数据库领域前 10 个国家论文发表数量和人才数量的情况进行了总结。美国的论文数量和人才数量位于全球第一,遥遥领先于排位第二的中国,随后为德国、英国、法国等欧洲国家。

图2 图数据库领域 Top10 国家论文发表数量和人才数量对比

将论文映射到各个单位机构中,统计每个机构的论文发表数量、学者数量以及 h-index,并按照论文发表数量从高到低对机构进行排序。美国、中国、德国、英国和法国拥有世界上最多的顶尖科研机构。其中在美国排名前三的顶尖机构分别为加利福尼亚大学、斯坦福大学、布朗大学。在中国排名前三的顶尖机构分别为北京大学、香港中文大学、香港科技大学。

图3 图数据库领域学术机构对比

根据图数据库的关键词,从 AMiner 数据库中查找数据生成趋势图,可以看出查询语言的研究热度一直位居图数据库领域的首位。

图4 图数据库的热点趋势图

“学者画像”是 AMiner 平台的核心服务功能之一,其具体示例如图 5 所示。学者画像的特色在于除了提供专家学者如姓名、单位、地址、联系方式、个人简介、教育经历等个人基本信息之外,还利用团队多年的命名排歧相关技术基础,建立了较为完全的学者—论文映射关系,分析挖掘学者学术评价、研究兴趣发展趋势分析、学者合作者关系网络等信息。

图5 图数据库领域学者个人信息示例

此外,报告对图数据库领域的学者的迁徙路径进行分析,如下图所示,美国图数据库领域人才的流失和引进相对比较均衡,作为图数据库领域人才流动大国,人才输入和输出都大幅度领先,且从数据来看人才流入大于人才流出。中国、英国、德国和法国都落后于美国,中国和英国有轻微的人才流失现象,而法国有少量的人才流入。

图6 图数据库全球学者迁徙图

根据“图数据库”领域关键词,从 AMiner 数据库中搜索 2000 年至 2019 年图数据库相关专利在全球范围内的申请情况。从各省排名来看,当前申请人(专利权人)主要分布于北京、广东、江苏、上海等具有一定经济基础,科技投入度高的发达省市。

图7 中国图数据库相关专利各省排名

更多内容欢迎下载报告全文进行阅读。

参考资料:

[1] https://neo4j.com/case-studies/nbc-news/,NBC News

《人工智能之图数据库》报告全文

《人工智能之人机交互》报告全文

《人工智能之学术搜索》报告全文

《人工智能之机器学习》报告全文

往期回顾:

1956年以来首次!今年诺贝尔奖宴会取消,奖项10月5日起公布

橡树岭实验室、阿美石油、MIT、密歇根交通部和阿贡实验室联合开发机器学习模型预测交通能源需求

科研经费申请被拒之后,你还可以做这些

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
下载报告
推荐阅读 更多