所有文章 > 正文

大佬吵架什么样?LSTM之父发文抨击本田奖:请尊重原创!

作者: 蒋宝尚

时间: 2020-04-23 09:38

发明 LSTM 的大神 Jürgen Schmidhuber 和图灵三剑客在学术界的恩怨情仇是众所周知的事情了。

202004230301.jpg

2015 年的时候,在 Hinton、Bengio、LeCun 还未获得图灵奖之前,Jürgen 就曾发文炮轰三位大神联合发表于 Nature 的综述文章“Deep Learning”。

列出了九条条理由指责三巨头没有足够尊重前人的成果,没有提及深度学习之父、没有引用远古的 BP 思想等一些研究成果......

近日,Jürgen 再发博客批评 2019 年的本田奖颁给 Hinton,博客主题是“停止把奖项颁给错误的人”,针对 Hinton 获奖的六条理由,给出了六条批评意见。

Jürgen:Hinton 啥也不是 ,我才是奠基者!

在文章中,Jürgen 首先承认了 Hinton 在人工神经网络和深度学习方面做出了重大贡献,但批评本田奖的颁奖词把他人的根本发明归功于 Hinton。

整篇博客围绕“Hinton 白嫖了前人以及我的工作贡献,却只字未提”论点,以公开发表的论文以及新闻稿为论据,有理有据的展开了论证工作。

1、本田奖:Hinton 博士让深度学习广泛应用,包括创造了反向传播方法。

Jürgen:Hinton 和他同事确实对深度学习做出了某些重大贡献,例如波尔兹曼机、胶囊网络等技术,但是将反向传播归功于他完全错误。且不说 1985 年那篇“反向传播”文章中,Hinton 只是第二作者,而在这篇文章三年之前,将此方法用于神经网络的训练的思想就由 Paul Werbos 提出。

另外,1965 年,Ivakhnenko 和 Lapa 提出了第一个通用的、适用于任意多层的深层多层感知器的有效学习算法。Ivakhnenko 在 1971 年的论文已经描述了一个有 8 层的深度学习前馈网络,比 1985 年 Hinton 工作的要深得多.....

这些奠基性的工作,Hinton 近几年一嘴都没提过。

2、本田奖:2002 年,Hinton 提出了限制性波尔兹曼机器(RBM)的快速学习算法,此类方法让深度学习更加强大,也导致了目前的深度学习革命。

Jürgen:Hinton 的神经网络无监督的预训与当前的深度学习革命无关。而且,他的深度前馈神经网络是我 1991 年类似工作的翻版。

Hinton 在 2006 年的那份工作也和我使用的被称为神经历史压缩器类似。1993 年我的方法已经能够解决先前一些无法解决的“非常深度学习”任务,然后,我们用更好的,纯监督的 LSTM 代替了历史压缩器(history compressor)。所以说,我的实验室曾两次率先从无监督的转变监督学习,主导了 2010 年代初的深度学习革命。

3、本田奖:2009 年,Hinton 博士和他的两个学生利用多层神经网,在语音识别方面取得了重大突破,直接导致了语音识别能力的大幅提升。

Jürgen:这太扯了,最棒的端到端神经语音识别器是基于我的两个方法:1.长期短期记忆;2.连接主义时序分类算法。在 2017 年的时候,我们的团队就成功地将时序分类算法(CTC)训练的 LSTM 应用于语音。

到 2015 年时候,CTC-LSTM 大大改善了 Google 的语音识别技术。几乎所有的智能手机都支持这种功能。Google 的 2019 年设备语音识别(2019 年不再在服务器上)仍基于 LSTM。

4、本田奖:2012 年,Hinton 博士和另外两名学生的工作彻底改变了计算机视觉。

Jürgen:Hinton 的团队成功主要归功于用于加速 CNN 的 GPU。

2011 年的时候,我在瑞士的团队就做出了基于 GPU 的 CNN,称作 DanNet 的网络实际上是第一个突破,他比早期网络更加深,而且当时它就表明:深度学习的效果远远好于现有的最先进的图像识别对象。

DanNet 在 2011 年硅谷的 IJCNN 大会上大放异彩的成绩就充分说明了这一点。如今 IBM、西门子、谷歌和许多初创公司都在用这种方法。现代计算机视觉的大部分工作都是我 2011 年的延伸。

5、本田奖:Hinton 发明了“dropout”。

Jürgen:“dropout”实际上是 Hanson 早先的随机 Delta 规则的一种变体。Hinton 在 2012 年发表的论文并未引用这一点。

此外,我们已经在 2011 年证明,dropout 对于赢得计算机视觉竞赛并获得超过人类的成绩并不是必要的 ,唯一真正重要的任务是使 CNN 在 GPU 上更深、更快。

6、本田奖:Hinton 的贡献史无前例、不可或缺。

Jürgen:我才是!当前在计算机视觉、语音识别、语言处理、手写识别、机器人技术、游戏、医疗影像等领域产出的应用,其中 2~6 都依赖于我们的 LSTM。

网友评论:Schmidhuber 不正确!

这篇批判文章,距离本田奖的颁发已经有半年之久,经过这么长时间的准备,Schmidhuber 用近百篇参考文献证明,本田奖颁给 Hinton 就是个错误。

Schmidhuber 认为:Hinton 最引人注目的工作是推广了其他人创造的方法,而且从来没有在论文中提到来源。本田应该纠正这一点,不应该把不属于他的原创工作归结到他的身上,也不该让企业公关行为扭曲了科学事实。

此文一出迅速在 reddit 上面引起广泛讨论,批评支持皆有,但批评居多。大家都在说,发明人或许很重要,但是最重要的人是传播者,Hinton 获得多类奖项合情合理。

202004230302.jpg

Jürgen 很棒,但是没有三巨头,我们不会用 BP 来训练神经网络。

202004230303.jpg

BP 在数学上很普通,重要的是,Hinton 将它引入了神经网络!

202004230304.jpg

我们应该把奖颁给实际改变世界的人,而不是仅仅第一个发明或者发现事物的人!

202004230305.jpg

还有人提出疑问:那么我该在论文中引用 Schmidhuber 和 Hinton 么?

Schmidhuber:整个学术界都想遗忘的大神

在 2019 年,在图灵奖颁发给深度学习三巨头:Yoshua Bengio、Geoffrey Hinton、Yann LeCun 的时候,有不少人质疑为什么奖项不颁发给 Schmidhuber,若单论贡献 Schmidhuber 也是深度学习先驱者,他发明的 LSTM 对学术界和工业界的影响不亚于获图灵奖的某个人。

202004230306.jpg

国内著名学者周志华认为 LSTM 是教科书级的贡献。

做为瑞士 Dalle Molle 人工智能研究所的联合主任,除了在 1997 年提出 LSTM 之外,他还在 1992 年提出的一种 PM(Predictability Minimization)模型,或者或为 GAN 的变种。

2011 年 Jürgen Schmidhuber 还与他的博士后学生在 GPU 上实现 CNN(卷积神经网络)的显著加速,现在这种方法已经成为计算机视觉领域的核心。

202004230307.jpg

而在谷歌学术上,Schmidhuber 的 LSTM 就已经超越反向传播,登顶 20 世纪 AI 论文高引第一名。

如此优秀的学者,在学界总是充满争议,是因为他的研究总是和其他人的研究莫名撞车,不光和图灵奖三剑客有过纠纷,还曾跟 Ian Goodfellow 争吵过 GAN 到底算谁的。

202004230308.jpg

《硅谷钢铁侠》的作者在 2018 年 5 月写过一篇 Jürgen Schmidhuber 的特稿,题目是《这个人是 AI 圈想要忘记的教父》。

这篇文章提到,在大多数学术界之外,Schmidhuber 仍然很不为人知。主要是因为学术圈里的同伴不喜欢他,不少同行评价他自私、狡猾,给人带来痛苦。

由于 Schmidhuber 频繁在学术期刊和会议上怼研究人员,打断他人演讲要求同行承认他们借用甚至窃取了他的想法,后来业内创造了一个动词”Schmidhubered“,谁被别人攻击了就可以用 Schmidhubered。

LeCun 也曾在一封 email 回复中写道:“Jürgen 对众人的认可过于痴迷,总是说自己没有得到应得的很多东西。几乎是惯性地,他总是在别人每次讲话结束时都要站起来,说刚刚提出的成果有他的功劳,大体上看,这种行为并不合理。”

奖项是否能够代表贡献?

我们顺着 LeCun 的回复思考,痴迷于众人的认可是否重要?或者说奖项是否能够代表贡献?这个回答从历史的角度来看似乎能够说句“是”。

学过微积分的都知道,有个基本定理称为牛顿-莱布尼茨公式,牛顿和莱布尼兹在谁是微积的创立者上,二人曾争论不休。

鉴于当时牛顿皇家学会社会地位,如果莱布尼茨不拿出命来争,恐怕这个定理会被改名为牛顿公式,那么他的贡献也会被埋没。

定理的命名何不看做是一种奖项?能够让自己的工作得到别人的认可,知道自己研究能够带给别人帮助是顶尖科学家毕生的追求。

如果奖项不本着公平、公正的态度,如果奖项的评选让资本、势力来干预,那会寒了做科研人的心。

这种资本操控技术认可的例子在科学历史上不是没有发生过,例如还是青年的特斯拉就因为资本的势力被爱迪生将27项专利转入爱迪生通用公司。

获得资本加持的爱迪生如今还在小学教科书上表现为一生拥有 2000 多项发明、1000 多项专利,一天不申请专利就浑身难受的发明狂人。

事实上,爱迪生一生发明无数,但不少都是其公司工程师研究出来的,然后强行以他的名字申请专利。他抢先注册了不少别人的专利,从而构建了专利网络来打压对手。

而特斯拉晚年凄凉、穷困潦倒,最终死在了纽约一旅馆 3327 房间,并留下一大笔债务未还。

所以,强者愈强,弱者愈弱的马太效应在学界上也适用,如果在学术上能够获得非常多的奖项,那么更多的奖项也会随之而来,也会有更多的话语权。

LSTM 的发明人 Schmidhuber 的处境或许没有莱布尼兹和特斯拉那么困顿,那种声嘶力竭要求认可,要求有更多的“奖项”,要求在论文中尊重原创者的做法非常相似。

目前 Schmidhuber 的心情或许可以用下面的这张图片表现,虽然两者表达的不是一个事情,但都表现出了那种绝望,“我真只吃了一碗”可以换成“这项工作真是我的”。

202004230309.jpg

本文经授权转载自“AI科技评论”微信公众号,作者:蒋宝尚。感谢原作者的分享。

往期回顾:

学术界跨步产业界,这位创业的耶鲁博士怎么说?

直播预告:与清华重量级校友一起“论道 AI OPEN” | 清华计算机系“云校庆”系列活动

重磅:ICLR 高引华人榜单发布

[关于转载]:本文为“AI科技评论”微信公众号文章,转载本文请联系原作者获取授权。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多