所有文章 > 正文

智库丨自然语言处理的研究进展及人才分布

作者: 星期四

时间: 2019-07-04 10:33

Annual Meeting of the Association for Computational Linguistics会议是计算机领域自然语言处理的顶尖会议,会议7月28日召开,为期6天,到8月2日结束,收录论文列表已经公布,本文介绍自然语言处理的研究进展以及相关的人才分布。

自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是指人类社会约定俗成的,区别于如程序设计的语言的人工语言。在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的 80%以上。就计算机应用而言,据统计,用于数学计算的仅占 10%,用于过程控制的不到 5%,其余 85%左右都是用于语言文字的信息处理。

处理包含理解、转化、生成等过程。自然语言处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然语言文本的意义,自然语言生成则是指能以自然语言文本来表达给定的意图。下图是自然语言处理层次。

关于自然语言处理的发展历程,1950 年图灵提出了著名的“图灵测试”,这一般被认为是自然语言处理思想的开端,20 世纪 50 年代到 70 年代自然语言处理主要采用基于规则的方法,研究人员们认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,所以大量的研究员基于这个观点来进行研究,这时的自然语言处理停留在理性主义思潮阶段,以基于规则的方法为代表。但是基于规则的方法具有不可避免的缺点,首先规则不可能覆盖所有语句,其次这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学,因此,这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。

70 年代以后随着互联网的高速发展,丰富的语料库成为现实以及硬件不断更新完善,自然语言处理思潮由经验主义向理性主义过渡,基于统计的方法逐渐代替了基于规则的方法。贾里尼克和他领导的 IBM 华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从 70%提升到 90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。

从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到 2013 年的 word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN 已经是自然语言处理最常用的方法之一,GRU、LSTM 等模型相继引发了一轮又一轮的热潮。

在自然语言处理领域发展相对较好的公司如下。

自然语言处理的技术发展历程如下,左侧边栏显示在特定时间下自然语言处理的经典文章列表。

AMiner 基于发表于国际期刊会议的学术论文,对自然语言处理领域全球 h-index 排序top1000 的学者进行计算分析,绘制了该领域顶尖学者全球分布地图。

根据上图,我们可以得出以下结论——从国家来看,美国是自然语言处理研究学者聚集最多的国家,英国、德国、加拿大和意大利紧随其后;从地区来看,美国东部是自然语言处理人才的集中地,而西欧、美国西部等其他先进地区也吸引了大量自然语言处理的研究者。全球自然语言处理顶尖学者的 h-index 平均数为 59,h-index 指数大于 60 的学者最多占41%,h-index 指数在 40 到 60 之间的学者次之,占比 40%。

在自然语言处理领域研究成果较多,进展较好的学者有Dan Klein,其信息在ACL智库中收录,智库链接https://gct.aminer.cn/eb/gallery/detail/eb/5cc162316558b90bfa6f5f2d

此外,自然语言处理华人库专家地区统计如下,自然语言处理领域中华人专家在中国最多,美国次之。从地区来看,中国大陆是自然语言处理华人人才的最主要聚集地,尤其是北京、哈尔滨及东南沿海地区等具有自然语言处理学术基础的地区。美国东部和西部等其他地区排在其后。华人专家在中国流出量大于流入量,美国则正好相反,这也说明就自然领域而言,中国对人才的吸引力要小于美国。以下介绍国内自然语言处理研究的代表人物刘群老师。

刘群,中国科学院自然语言处理研究组组长,都柏林大学自然语言处理组组长、项目负责人。主要研究方向是中文自然语言处理,具体包括汉语词法分析、汉语句法分析、语义处理、统计语言模型、辞典和语料库、机器翻译、信息提取、中文信息处理和智能交互中的大规模资源建设、中文信息处理以及智能交互中的评测技术等。曾负责 863 重点项目“机器翻译新方法的研究”和“面向跨语言搜索的机器翻译关键技术研究”等,其信息位于全球华人专家库的ACL智库。

从知识产业角度来看,自然语言处理软件占有重要的地位,专家系统、数据库、知识库,计算机辅助设计系统(CAD)、计算机辅助教学系统(Cal)、计算机辅助决策系统、办公室自动化管理系统、智能机器人等,全都需要自然语言做人机界面。长远看来,具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引及自动文摘等领域,有着广阔的应用前景。

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多