所有文章 > 正文

智库丨数据挖掘专家在全球华人专家库中的分布

作者: 学术玄

时间: 2019-06-21 20:37

全球华人专家库收集华人资讯,按照所属机构、投稿会议等对华人学者经划分。近年来人工智能领域的数据挖掘发展状况良好,涌现大批数据挖掘专家,本文对数据挖掘专家在全球华人专家库中的位置进行说明。

全球华人专家库所属的AMiner团队曾经对数据挖掘概念进行分析,数据挖掘(Data Mining),是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的一个关键步骤。数据挖掘的广义观点:从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程,是一类深层次的数据分析方法1。数据挖掘是一门综合的技术,涉及统计学、数据库技术和人工智能技术的综合,它的最重要的价值在于用数据挖掘技术改善预测模型。

早期数据挖掘并不是作为单独学科存在,追溯到 30 年前,Gregory I. Piatetsky-Shapiro(也是 KDnuggets 的创始人)等人于 1989 年 8 月在美国底特律的国际人工智能联合会议(IJCAI)上召开了一个专题讨论会(workshop),首次提出了知识发现(Knowledge Discovery in Data-base,KDD)这一概念。KDD 涉及数据库、机器学习、统计学、模式识别、数据可视化、高性能计算、知识获取、神经网络、信息检索等众多学科和技术的集成,再后来的 30 年间 KDD 逐渐形成了一个独立、蓬勃发展的交叉研究领域。后来经过若干年的培育,1995 年,在加拿大蒙特利尔正式召开了第一届“知识发现和数据挖掘”国际学术会议 KDD。1995 年在美国计算机 ACM 年会上,开始把数据挖掘视为知识发现 KDD 的一个基本步骤。随后成立了 ACM 专委会 SIGKDD 以及对应的国际数据挖掘与知识发现大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 简称 SIGKDD),到目前为止 SIGKDD 已是数据挖掘领域的顶级国际会议。会议内容涵盖数据挖掘的基础理论、算法和实际应用。

数据挖掘的对象可以是任何类型的数据源,可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、web 数据,此类包含半结构化数据甚至是异构型数据的数据源。发现知识的方法可以是数字的、非数字的,也可以是归纳的,最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。数据挖掘并不是KDD,下表对两者的区别进行统计。

数据挖掘其实是知识发现的工程之一。

国际知识发现与数据挖掘大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,简称 SIGKDD)是数据挖掘领域的顶级国际会议,由 ACM 的数据挖掘及知识发现专委会负责协调筹办。会议内容涵盖数据挖掘的基础理论、算法和实际应用,SIGKDD主会期间,除了学术研究论文,自 2010 年起还设有面向工业和政府应用的专题研讨会,以及工业应用博览的邀请报告会。

SIGKDD 发展的历史可以追溯到 1989 年,一系列关于知识发现及数据挖掘的研讨会从那时开始组织。自 1995 年以来,SIGKDD 以大会的形式连续举办了 24 届,论文的投稿量和参会人数呈现出逐年累增的趋势。由于 SIGKDD 的学科交叉性和广泛应用性,吸引了来自统计、社会网络分析、机器学习、大数据挖掘、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互及高性能计算等众多领域的学者。

SIGKDD 每年的大会都会吸引大量的研究界和工业界的投稿。下图分别给出了KDD 近几年研究性论文(Research Track)和工业界论文(Industrial Track,最近改为 Applied Data Science Track)的投稿和录用情况。总的来说研究性论文投稿相对比较稳定,录用率也一直在 14%-20%之间;而工业界论文近年呈现明显快速增长趋势。尤其 2018 年达到近 500篇投稿。投稿录用率也降到 20%以下。这与近年深度学习、人工智能、大数据等相关算法在工业界大量应用密不可分。

上边提到的SIGKDD,全球华人专家库目前已找到2019届会议论文信息,将在接下来一个月时间中建立2019SIGKDD华裔作者库和2019SIGKDD学生一作智库,收录在数据挖掘领域杰出的华人学者。

AMiner统计数据挖掘全球 Top1000 学者机构分布,如下图所示。国内数据挖掘学者的分布主要在中科院,有10名定金的数据挖掘学者,欢迎访问全球华人专家库中国科学院智库查看各个学者信息。

除此之外,以下是有史以来在 SIGKDD 上发表论文的引用量排在前三名的学者,他们的信息分别可以在ACM Knowledge Discovery and DataMining智库、IEEE智库以及International World Wide Web Conferences智库中看到,当然,很多优秀的学者是同时存在多个智库中的。

对数据挖掘以及学者分布的介绍到这里结束,获得更多信息欢迎访问全球华人专家库

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多