所有文章 > 正文

自然语言处理应用技术存在于我们日常生活的哪些方面?

作者: 学术君 学术咖

时间: 2019-01-04 12:10

当自然语言处理技术与我们的日常生活碰撞时,会产生什么火花?

自然语言处理的研究领域极为广泛,各种分类方式层出不穷,各有其合理性。

我们以“Natural Language Processing”为关键词,通过AMiner对1962 – 2017年间自然语言处理领域论文的挖掘,我们总结出50年来,自然语言处理领域的起源关键词主要集中在artificial intelligence(人工智能)、computational linguistics(计算语言学)、linguistic theory(语言学理论)等领域。

注:每个彩色分支表示一个关键词领域,其宽度表示该关键词的研究热度。

各关键词在每一年份(纵轴)的位置是按照这一时间点上的热度高低进行排序的。


自然语言处理技术起源

我们按照中国中文信息学会2016年发布的《中文信息处理发展报告》,将自然语言处理的研究领域和技术进行以下分类,今天选取其中应用技术部分进行介绍。

自然语言处理技术分类

自然语言处理应用技术包括机器翻译、信息检索、情感分析、社会媒体处理等。

机器翻译

机器翻译(Machine Translation)是指运用机器,通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。

机器翻译是一门交叉学科(边缘学科),组成它的三门子学科分别是计算机语言学、人工智能和数理逻辑,各自建立在语言学、计算机科学和数学的基础之上。

机器翻译总体上可以从方法和媒介两个方面进行分类,如下图所示。

从方法的角度进行分类的话,可以分为基于理性的研究方法和基于经验的研究方法两种。

1.基于理性的研究方法

所谓“理性主义”的翻译方法,是指由人类专家通过编撰规则的方式,将不同自然语言之间的转换规律生成算法,计算机通过这种规则进行翻译。

这种方法理论上能够把握语言间深层次的转换规律,然而理性主义方法对专家有如下的要求。

  • 了解源语言和目标语言
  • 具备一定的语言学知识和翻译知识
  • 熟练掌握计算机的相关操作技能

这些因素都使得研制系统的成本高、周期长,面向小语种的翻译更是人才匮乏非常困难。

因此,翻译知识和语言学知识的获取成为基于理性的机器翻译方法所面临的主要问题。

2.基于经验的研究方法

所谓“经验主义”的翻译方法,指的是以数据驱动为基础,主张计算机自动从大规模数据中学习自然语言之间的转换规律。

如今,以数据驱动为基础的统计翻译方法逐渐成为机器翻译的主流技术,但是同时统计机器翻译也面临诸如数据稀疏、难以设计特征等问题。

而深度学习能够较好的缓解统计机器翻译所面临的挑战,基于深度学习的机器翻译现在正获得迅速发展,成为当前机器翻译领域的热点。

从媒介的角度进行分类的话,可以分为文本翻译、语音翻译、图像翻译以及视频和VR翻译等

1.文本翻译

目前,文本翻译最为主流的工作方式依然是以传统的统计机器翻译和神经网络翻译为主。

Google、Microsoft与国内的百度、有道等公司都为用户提供了免费的在线多语言翻译系统。

Google翻译

微软翻译

另外,即时通讯工具如Googletalk、Facebook等也都提供了即时翻译服务。

速度快、成本低是文本翻译的主要特点,而且应用广泛,不同行业都可以采用相应的专业翻译。

但是,这一翻译过程是机械的和僵硬的,在翻译过程中会出现很多语义语境上的问题,仍然需要人工翻译来进行补充。

2.语音翻译

语音翻译可能是目前机器翻译中比较富有创新意思的领域,吸引了众多资金和公众的注意力。

亚马逊的Alexa、苹果的Siri、微软的Cortana等,搜狗推出的机器同传技术,科大讯飞推出的“讯飞语音翻译”系列产品,以及与新疆大学联合研发的世界上首款维汉机器翻译软件。

同声传译广泛应用于国际会议等多语言交流的场景,但是人工同传受限于记忆、听说速度、费用偏高等因素门槛较高,

3.图像翻译

图像翻译方面也有不小的进展,谷歌、微软、Facebook和百度均拥有能够让用户搜索或者自动整理没有识别标签的照片的技术。

图像翻译技术的进步远不局限于社交类应用,医疗创业公司可以利用计算机阅览X光照片、MRI(核磁共振成像)和CT(电脑断层扫描)照片,阅览的速度和准确度都将超过放射科医师。

而且图像翻译技术对于机器人、无人机以及无人驾驶汽车的改进至关重要,福特、特斯拉、Uber、百度和谷歌均已在上路测试无人驾驶汽车的原型。

除此之外还有视频翻译和VR翻译也在逐渐应用中,但是目前的应用还不太成熟。

机器翻译这一话题AMnier研究报告系列第五期《机器翻译与人工智能研究报告》中有详细阐述,具体内容可在后台回复“机器翻译”获取研究报告。

信息检索

信息检索最早提出于20世纪50年代,是从相关文档集合中查找用户所需信息的过程。

90年代互联网出现以后,其导航工具——搜索引擎可以看成是一种特殊的信息检索系统,二者的区别主要在于语料库集合和用户群体的不同。

信息检索包括“存”与“取”两个方面

信息检索的基本原理是将用户输入的检索关键词与数据库中的标引词进行对比,当二者匹配成功时,检索成功。

检索标识是为沟通文献标引和检索关键词而编制的人工语言,通过检索标识可以实现“存”“取”的联系一致。

检索结果按照与提问词的关联度输出,供用户选择,用户则采用“关键词查询+选择性浏览”的交互方式获取信息。

以谷歌为代表的“关键词查询+选择性浏览”交互方式,用户用简单的关键词作为查询提交给搜索引擎,搜索引擎并非直接把检索目标页面反馈给用户,而是提供给用户一个可能的检索目标页面列表,

网络信息有着海量、分布、无序、动态、多样、异构、冗余、质杂、需求各异等特点。人们不再满足于当前的搜索引擎带来的查询结果。

情感分析

情感分析又称意见挖掘,是指通过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。

情感分析在一些评论机制的App中应用较为广泛,比如某酒店网站,会有居住过的客人的评价,通过情感分析可以分析用户评论是积极还是消极的,根据一定的排序规则和显示比例,在评论区显示。

这个场景同时也适用于亚马逊、阿里巴巴等电商网站的商品评价。

除此之外,在互联网舆情分析中情感分析起着举足轻重的作用,话语权的下降和网民的大量涌入,使得互联网的声音纷繁复杂,利用情感分析技术获取民众对于某一事件的观点和意见,准确把握舆论发展趋势,并加以合理引导显得极为重要。


2017年涉及话题舆情分析

2017年热点事件舆情分析


同时,在一些选举预测、股票预测等领域情感分析也逐渐体现着越来越重要的作用。

[关于转载]:本文为AMiner唯一官方微信公众号“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“SciTouTiao”微信公众号。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多