所有文章 > 正文

搜狗CEO王小川 从产业的角度谈人工智能与自然语言处理的发展趋势

作者: 学术君 学术哥

浏览量: 55

时间: 2019-01-04 04:10

关键词: 王小川,搜狗,自然语言处理,搜索

王小川昨日为清华大学计算机科学与技术系60周年系庆做了学术报告,本文为你整理王小川的讲稿与重点。

王小川

全国政协委员,搜狗 CEO 。毕业于清华大学计算机科学与技术专业,拥有工学学士、工学硕士,以及EMBA学位。

他以创新为己任,先后发明了有5亿多用户在使用的搜狗输入法、搜狗搜索等互联网标志性产品,被公认为中文信息化的重大突破。

人工智能时代,他带领搜狗公司发展语音、图像、翻译等AI技术并率先实用化,带领搜狗公司成长为国内用户规模第四大互联网公司,以及赴美上市中国人工智能第一股。

昨日,王小川回到母校清华,进行了一场主题为《搜狗的人工智能之路与挑战》的学术报告。

本文将以第三人称,为你梳理王小川的演讲内容。

Part  1 AI布局的核心逻辑

王小川首先从大众的角度出发,提到AI对于我们来说可能是个又远又近的存在。近是因为大家可能在生活中会听到关于人工智能的信息,远则是因为大家其实并不了解AI。

并提出了一些我们都很好奇的问题,即“什么时候机器会取代人?什么时候人会失去工作。”

而他此次学术报告的目的就是想告诉大家AI落到实际应用产业里,到了什么程度?

即“空中的一个词”落到实际应用里面,我们怎么想它,怎么用它,讨论的是这样的一个边界。

他以搜狗个案的基本情况为例,正式开始了这场报告的核心内容:

国内互联网公司用户数量第四。

搜狗搜索:国内排名第二,市场份额18.2%

搜狗输入法:国内排名第一,日活数3.6亿 

他提出搜狗AI的使命是让表达和获取信息更简单。

输入法帮助你用语言表达信息,搜索帮助你用语言获取信息,

所以输入法跟搜索其实都是围绕语言来做处理的。

动物拥有听觉和视觉,但语言是人类独有的一种能力,人类能通过语言去描述世界、去掌握概念性的东西并且进行推理等......是更高层面的一种认知。

所以AI布局的核心逻辑是以语言为核心的, 而自然语言的处理更是被誉为“AI皇冠上的明珠”。

自然语言的处理分为两部分内容:

1.基础的向量处理:视觉跟听觉,通过这两者都可以将其变为语言。

听觉变为语言即语音识别,语言变声音即声音的合成。视觉变为语言有图像识别等......听觉跟视觉都被称之为感知问题, 也是一种基础的向量处理。

2.更复杂的符号问题:对话、翻译以及问答。

在经过深度学习以后,视觉和听觉其实更容易被解决。下图解释了以语言为核心,我们怎么看待AI在里面所起的作用,以及它几个系的分支。

Part  2 搜狗翻译硬件

王小川提到两年前在乌镇举行的第三届世界互联网大会上,搜狗“机器同传”首秀。

这是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示,效果可靠、准确率已接近人类同传翻译结果。

而如今机器的翻译技术发展更是突飞猛进。有时在飞机或者国外,在没有网的情况下,无法调取服务器数据。

所以搜狗旅行翻译宝不仅有实用感非常强的拍照翻译功能。

并且有离线的语音识别功能,无需储存大量音频,将语言模型进行裁剪装在一个小设备里。裁剪这件事对于技术来说也是一个很大的挑战。

搜狗旅行翻译宝的技术基础是人工智能网络模型,实际上用的是美国的网络架构,本土人工智能研究相对薄弱。

搜狗录音翻译笔最大的优势是能将录音实时同步至手机。

由于声音很难管理,声音的表现力及可检索性比较弱,搜狗录音翻译笔将声音结构化,旨在对声音进行更好的检索和管理。

王小川说道:“跨语言沟通的困难如果得到解决,能让华语世界连接全世界,让中国的文明跟世界文化有个更好的融合。”


Part  3 搜索的未来是问答

王小川表明“AI时代,搜索的未来是问答”


他提到去年AI智能参与的的一些很火的节目。

1.《最强大脑》,《一站到底》中——AI问答机器人搜狗汪仔,整个互联网都是它的数据库,它在特定的知识领域超过了人类。

2.年初直播平台答题分现金活动——汪仔直播答题助手,主要操作是将其他公司的视频流接入搜狗网络,数秒内给出直播app题目的答案;并且在与今日头条的博弈中,完善机器的学习。

他说道:“有些事情机器已经很好的解决了,就不用麻烦人了,就可以交给机器人做。例如汽车领域,没有谁现在还会试图去跟汽车比谁跑得快,我们可以退出某些机器人能做得比我们更好的领域 ”。

由于语法是人类独有的一种能力,不同语法有时候能表达同一意思,简单的语法可能对机器来说也是很困难的,所以当务之急是通过深度学习,让机器能处理一些复杂的语法结构。

对于机器人来说,搜索比阅读理解更难,阅读理解是一种封闭的环境,答案其实隐藏在阅读的文本之中,而搜索是一个逐渐开放的环境。

他总结道:“搜索到问答是AI时代很重要的功课。不是给你十个结果,而是可以开始给你一个具体的答案。

Part  4 输入法辅助对话

他提到目前在对话领域主要存在的三种对话类型:

1.任务型对话:主要目的是解决事情。

2.聊天机器人(主要任务是闲聊,例如微软小冰,其团队的kpi之一:“是别聊死了”,聊天聊得长也是他们优化的一个方向)

3.智能回复/辅助对话(人与人之间的中介,用于提升用户效率)

但是他也提到了输入法辅助对话今后面临的更多挑战:

1.个性化用户风格选择,例如“不认得”“不认识”“认不得”“我不认识啊”,看起来意思是差不多的,但其实是个人表达风格不同的一种差异。

2.个性化用户知识的自动抽取和应用,例如用户第一次被问“你家在哪”的时候,系统会记录用户所回复的内容;当用户第二次被问及“你家在哪”时,系统就会懂得自动把地址提供出来。

3.真实会话训练数据的自动构建,例如在群里对话或两人单独对话,我回答一句话其实是对他前面三句话的一个总回答,而机器无法做出理解。

4.设备本地计算模型,服务器压力过大。

王小川最后以贯穿搜狗精神的理念结束了此次报告,

第一是在智能硬件变得更强大的过程中,让人机交互变得更加容易自然。

第二是在垂直领域方面做更多的问答,以语言类为核心的知识计算。

他表明这同时也是搜狗对AI的一种理解。

Part  5 现场提问摘编

1.关于跨文化翻译:别用人的翻译规则去理解机器

有时候人觉得比较难的问题,例如词汇量,对于机器来说并不困难。

因此,在翻译供给不足、“自己英语不好,但没能力请翻译陪我”的场景之中,使用机器翻译会更加便利。

但是目前的机器翻译能力、创造性及应变能力还不足以取代优秀的人工翻译,去国外生活、研究一种文化这两种情况下,不适用于机器翻译。

2.关于机器翻译,需要解决的2个工程上的问题:

①加语料,用打补丁的方式去解决 语料是根本。

②在场景中实现个性化,从句子翻译走向篇章翻译。

3.关于用户隐私保护:

技术上的努力:没有出现“拖库”现象

理论上的努力:一方面,公司要克制,宁肯不收集数据也要避免收集烫手的数据,搞不好就被员工(泄露出去);

另一方面,用户也要克制,交出个性化获得便利的时候,不把数据泄露给其他机构可以实现,但是绝对的保密是做不到的,不要有过度的信息泄露危机感。

扫码微信阅读
[关于转载]:本文转载于学术君 学术哥,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。