所有文章 > 正文

机器翻译的未来

作者: 学术白

时间: 2019-08-29 14:58

谷歌近日宣布推出一系列针对印度语言的新功能,以使其产品更具印度友好性。该公司已将神经机器翻译添加到谷歌翻译,Chrome浏览器,谷歌搜索和地图。Gboard键盘应用程序现在支持22种印度语言,该品牌还在Google搜索中添加了印地语词典。

点击下载《机器翻译与人工智能研究报告》

机器翻译(Machine Translation)是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译服务。

机器翻译的研究历史可以追溯到 20 世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946 年,第一台现代电子计算机 ENIAC 诞生,随后不久,信息论的先驱、美国科学家 W. Weaver 和英国工程师A. D. Booth 在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W. Weaver 发表《翻译备忘录》 ,正式提出机器翻译的思想。

我们用Trend analysis分析了机器翻译领域的研究热点。(链接

机器翻译.png

上图是当前该领域的热点技术趋势分析,通过Trend analysis分析挖掘可以发现当前该领域的热点研究话题有Natural Language Processing、Language Translation、Language Model、Language Identification、Speech Recognition等。

根据Trend analysis的分析结果我们发现神经网络是该领域的研究热点之一。近年来随着深度学习的研究取得较大进展,基于人工神经网络的机器翻译逐渐兴起。其技术核心是一个拥有海量结点(神经元)的深度神经网络,可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。实现了 “理解语言,生成译文”的翻译方式。这种翻译方法最大的优势在于译文流畅,更加符合语法规范,容易理解。相比之前的翻译技术,质量有“跃进式”的提升。

目前,广泛应用于机器翻译的是长短时记忆(LSTM)循环神经网络(RNN)。该模型擅长对自然语言建模,把任意长度的句子转化为特定维度的浮点数向量,同时“记住”句子中比较重要的单词,让“记忆”保存比较长的时间。该模型很好地解决了自然语言句子向量化的难题,对利用计算机来处理自然语言来说具有非常重要的意义,使得计算机对语言的处理不再停留在简单的字面匹配层面,而是进一步深入到语义理解的层面。

代表性的研究机构和公司包括,加拿大蒙特利尔大学的机器学习实验室,发布了开源的基于神经网络的机器翻译系统GroundHog。2015年,百度发布了融合统计和深度学习方法的在线翻译系统,Google也在此方面开展了深入研究。

随着互联网的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇,机器翻译技术也在促进政治、经济、文化交流等方面起到越来越重要的作用。

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多