刘知远、何中军等人论道自然语言处理的瓶颈与曙光 | 2020中国科技峰会-青年科学家沙龙 - 热点 - 科研解读

刘知远、何中军等人论道自然语言处理的瓶颈与曙光 | 2020中国科技峰会-青年科学家沙龙

作者: 学术头条

浏览量: 522

时间: 2020-09-29 06:19

关键词: 刘知远，何中军，青年科学家，产业界，自然语言处理

“2020中国科技峰会系列活动青年科学家沙龙—人工智能学术生态与产业创新”圆满召开。

2020年9月25日－9月26日，“2020中国科技峰会系列活动青年科学家沙龙—人工智能学术生态与产业创新”圆满召开。

本次活动由中国科学技术协会主办，清华大学计算机系、AI TIME、智谱·AI承办；活动围绕认知智能、自动驾驶、自然语言处理、计算机视觉、知识图谱、智慧人才等AI领域最前沿的学术发展和产业前沿，邀请了中科院、清华大学、北京大学、浙江大学、中国人民大学、哈尔滨工业大学等院校的青年科学家，以及来自阿里巴巴、百度等企业的青年企业家们共同参与讨论。

自然语言处理是人工智能的关键问题，深度学习技术在自然语言处理中对于数据的依赖性很高，目前的算法还存在着无法让机器人来理解自然语言这样一些问题。

在9月26日上午的圆桌论坛环节中，以“论道自然语言处理的瓶颈与曙光”为主题，邀请何中军、徐剑军、刘知远、兰艳艳四位专家学者，围绕“算法研究、人才培养、产业落地、未来发展”这四个大方向的诸多问题进行了思辩。

算法研究

算法研究的三个问题

一、结合知识与常识来发展NLP，是否是有价值的研究方向？

二、GPT-3将给NLP带来哪些影响，是开启未来的钥匙，还是“误入歧途”？

三、未来着重于哪些方法，有助于让机器从“感知”语言到“理解”语言？

第一个问题，几位专家都觉得把知识融合到自然语言处理的过程中来，还是有挺大的意义或者价值的。徐剑军认为，问题的答案是很明显的：要结合知识和NLP共同促进，现在工业落地的做法都是两边互相促进，把知识图谱建设起来的过程中，要用大量NLP的方法，建完之后又可以仿造NLP，让NLP在特定领域变得更加准确。

关于第二个问题，兰艳艳肯定了GPT-3产生的好的效果，同时也一针见血的指出来目前还存在的难题：没有常识，无法解读“言外之意”；刘知远认为：GPT-3是一个里程碑，但不是终点，在更多去利用现实世界数据的基础上，还是要能够尝试给机器构建出一个世界模型，让它具备抽象学习的能力，只有这样才能出现未来更智能的机器。

第三个问题，蓝艳艳认为：要实现从感知语言到临界语言，从NLP到NLU，除了知识和常识之外，未来要达到认知语言的状态还要结合多模态，还有结合人的整个活动的过程跟环境的标注，才能做好理解语言这件事情。

人才培养

Q1：未来五至十年内，NLP方向的人才培养方向是偏基础研究还是产业研究？需要在哪些方面提升？

Q2：对比学术界，产业界对NLP人才有何不同的需求和期待？

刘知远认为，中国这样一个大国，基础研究和产业研究应该都要有。

兰艳艳指出了目前的现实状况——老师与学生都是往应用方面走的更多，在此她也做出了呼吁：很多问题的产生是因为我们基础研究这件事情没有解决，鼓励更多人沉下心做偏基础方面的工作，可能会对这个方向的持续性发展产生更多的作用。第二个问题。在产业界，无论在产品部门、业务部门，研发部门，对于前沿的关注都是很强的，公司也会给NLP人才提供环境，让他去跟高校老师合作，或者自我成长，也有很多类似学术界的讨论论坛，毕业之后人才培养也是一个比较持续性的问题。

何中军提出了三点要求，一、既要脚踏实地做研究，也要面向用户、产业需求；二、要有“软”有“硬”，“软”即在学校打牢基础拥有软实力，“硬”即工作后有能解决需求的硬实力；三、快速的学习能力与迁移能力是很重要的，要“知其然，知其所以然”。

产业落地

Q1：目前产业界仍待解决的问题主要是什么？人才？技术？生态圈？

Q2：随着NLP技术发展和产业落地，如何能够更好保护用户的隐私？
Q3：NLP未来的落地场景，有哪些新的玩法？

徐剑军认为产业界的生态圈有待改善，一是社会对于AI或者NLP的过高期望值；二是业界去迎合期待值，设想过于理想化。应该给能够坐下来踏踏实实想攻克难题的人和团队有更好的机会和条件。在隐私方面，区块链确实是一个好的办法。

何中军认为，人才、技术、生态圈都是必须的，并不是选择题。第二个问题保护用户的隐私，其实从更大范围来说，强调的是自主可控，大到国家安全或者国家的隐私也需要保护起来。

刘知远提出了不同的看法，他认为国内产业界必须解决的问题是知识产业的问题，对创意，新的技术、新的想法的尊重，产业界需要一个这样的氛围。第二个问题用户隐私方面，欧洲有一种做法，美国有一种做法，中国是完全走自己的路；中国的大公司基本上是能够同时兼顾产业的发展和用户的个人隐私。第三个问题，刘知远觉得可能在一些具体的领域会去进行深度的融合，尤其是那些专门用语言或者是文本作为非常重要载体或者工具的，比如说法律、医疗等领域。

兰艳艳将第一个与第三个问题结合作出了回答：NLP在产业落地方面有两个比较大的问题，一个是场景，一个是基础。第三个问题，沿着信息检索这个方向“智能个人信息助理”在科研或者产业上或许都能成为比较大的场景。

Q1：当前的学术界有哪些研究或者趋势，会对NLP的发展产生什么新的影响？
Q2：NLP的发展进度会进一步对我们生活带来什么样的方便与冲击？

艳艳指出目前学术界的研究大热趋势就是“预训练”，往认知方向去走，在NLP这个领域产生一些新的推理任务，也是现在大家关注比较重要的点；还有跨模态的事情还是比较重要的。

刘知远表示第一个问题主要是因为学校研究有点跟工业界脱节的，需要考虑什么样的新的人才培养，或者研究的模式，能够让高校跟工业界有一个更好的互动。第二个问题，他认为自然语言处理包括两个，一个是自然语言的理解，一个是自然语言的生成，NLP的未来发展，应该发展到一个阶段就是NLG，就是自然语言的生成，未来社会的信息越来越多可能是由计算机生成的。会对人的主体地位造成一个冲击。

徐剑军认为这种担忧事实上还太早，NLP或者它的应用都缺乏情感，不管生成的文章也好还是对话也好，还是其他也好，始终让人觉得这就是台机器，缺乏情感的表达。但是如果这个问题解决了，可能会是一个很可怕的事情。

扫码微信阅读

[关于转载]：本文转载于学术头条，仅用于学术分享，有任何问题请与我们联系：report@aminer.cn。

当大型语言模型遇上信息检索评估：是颠覆还是革新？

AMiner AI

329

LLM在语言错误检测上的表现：有何亮点和不足？