所有文章 > 正文

北大林宙辰:追求机器学习研究的美感

作者: 智源社区

时间: 2021-09-18 14:11

我反对单纯以赚钱为目的的实习


在知乎上有人提问:如何评价北京大学林宙辰老师?
高赞答曰:功底深厚,难以望其项背。
这表现在几个方面——
1、从外界普遍的标准来看,自2000年至今,他的论文引用量已经高达2w+;同时也是IEEE、IAPR双料 Fellow,在 2015 年 ImageNet 大规模视觉识别竞赛中斩获桂冠。
2、另一方面,他作为北京大学数学系毕业的博士生,具有深厚的数学功底。相较于多数机器学习领域的研究者来说,他会更倾向于寻求性能背后的数学机理。
3、在人工智能的浪潮中岿然不动,潜心研究,教书育人,培养了大批高水平的学生,并打造出研究水平毫不输于CMU等名校的ZERO Lab。例如最近ZERO Lab 获得 了ECML 2021 最佳学生论文奖,这当然只是他们诸多奖项中的一个。为什么能够做到「功底深厚」?原因当然很多,「严谨、细致,追求研究美感」当属其中重要因素。在网络上有多篇关于林宙辰教授的采访文章,采访内容基本没有大而空泛的谈论,处处体现了林宙辰教授的「严谨、细致、追求研究美感」品质。
智源社区对林宙辰教授如何管理ZERO Lab进行采访,管中窥豹,略作参考。

采访人:林宙辰,北京大学教授
撰文:熊宇轩
编校:贾 伟


一、学生培养与实验室建设
熊宇轩:林老师的实验团队在计算机视觉、机器学习等领域都颇有建树,请问林老师组内的研究生是如何选定研究方向的?
林宙辰:我们实验室近几年的主要研究方向有一个转变的过程。我们团队早年间在计算机视觉领域的工作较多。但我本人最早的研究背景是基础数学,更习惯、也更擅长从数学的角度、从理论出发开展研究。
在我看来,计算机视觉领域主流的识别、检测等任务越来越偏向于工程化,相关的理论研究课题较少。因此,我们团队近年来的研究重心慢慢转向了机器学习,该领域有很多理论问题有待解决,研究谱域非常宽广,例如:可学习性、鲁棒性、泛化性等。
当然,我们仍然会研究计算机视觉领域中的一些课题,但方式是先开发通用的机器学习算法,然后将其应用到计算机视觉领域的问题上。相关的研究方向包括等变网络、隐式网路等,应用于图像识别、检测、分割等计算机视觉问题上。
我们团队偏向于招收数学理论基础较好的同学攻读研究生,我们会根据学生数学理论水平的高低、兼顾学生的主观意愿,为其安排合适的研究课题,做到因材施教。
熊宇轩:请问您的团队对学生的培养模式是怎样的?如何引导学生完成研究课题?
林宙辰:我们团队目前主要会给学生分配机器学习优化算法、等变网络、隐式网路、脉冲神经网络等方面的研究课题。
我们会让刚进组的学生首先跟着高年级同学开展初步的研究工作,观察他们的研究兴趣和长处,然后为他们定一个方向,找到一些具体的有价值的研究课题。
我个人会首先为学生提供一些研究思路,指引学生进行科学探索。在学生取得一些阶段性的实验结果后,我会进一步与其讨论。
我们基本上还是优先从方法论上取得突破,然后在计算机视觉任务上开展实验。
从理论出发分析问题,我们可以很清晰地找出某些方法的局限性,或发现推导过程中的关键问题,从而让学生重点攻克一些值得研究的难点。这样做出的研究成果适用范围也更加广泛。
熊宇轩:您和团队中的青年教师应该如何分工才更加有利于学生的培养?
林宙辰:在我的团队中,我会亲力亲为培养学生。青年教师会参与我与学生的一些讨论。我们会先讨论好有价值的问题,然后在一些具体的细节上,学生可能会更多地请教青年教师。
但毕竟我精力有限,以修改论文为例,在会议投稿 Deadline 来临的时候,面对组内十几篇需要投稿的论文,我也许没有足够的时间和精力对每一篇都进行反复的批改。这时,我就需要和青年教师相互配合,由青年教师先负责与学生进行多轮修改。
在修改论文的过程中,我会与青年教师和学生通过在线会议等方式沟通修改进展,讨论论文的 Idea、写作、实验结果等较为宏观的问题,在交稿前我会再深入地对论文把关,并且仔细地进行 Proof Reading。
此外,我也非常支持青年教师的成长,会给他们推荐一些实习生、提供一些经费上的支持。目前,北大的科研条件较之前又有了进一步的改善,非常有利于青年教师发展。
熊宇轩:许多博士毕业之后会选择谋求高校的教职,许多高校对青年教师都有较高的科研考核压力,请问林老师认为青年教师应该如何平衡科研和教学?
林宙辰:对于我自己组内有志于谋求高校教职的同学,我一般会建议他们去尽可能排名高的学校。这样,他们会将更多的精力投入到专业竞争中,而不是应付各种和专业无关的琐事,这样对他们的成长是最有利的。学生们在年轻的时候还是应该拼搏,不要贪图安逸。
在教学方面,青年教师应该达到学校的要求。实际上,教授一些专业课可以加深青年教师对专业知识的理解,发现一些之前没有意识到的问题,这对科研也具有促进作用。教师需要对课程有宏观的把握,将课程内容有机整合,形成完善的知识体系。
教师在教学过程中不应照本宣科,青年教师很难在照本宣科式的教学过程中提升自己。我鼓励大家根据课程的需要自编一些教材,在编制教材的过程中,老师们需要广泛收集资料、旁征博引、融会贯通,自身也会形成更加丰富、完善的知识结构。
此外,教师们在做科研时,尽管要面对一些外部压力,还是要多考虑自己的科研兴趣。
熊宇轩:研究生在攻读硕博学位时是否有必要去工业界实习?怎样的学生更适合去实习?
林宙辰:这个问题因人而异,需要考虑很多的因素(例如,研究所需的算力、电力资源等)。当然,最重要的还是要考虑接收实习的单位对学生的成长是否有促进作用。我反对自己的博士生单纯以赚钱或帮助未来找工作为目的去实习,更多的还是要考虑是否能在实习过程中得到专业方面的提升。
当然,我们也有一些成功的校企合作培养学生的例子。例如,我曾经将组里的博士生方聪送到曾就职于腾讯 AI Lab 的张潼老师那里实习,方聪在实习过程中的进步非常之快。对于硕士而言,他们的自由度相对较大一些,在科研任务不太紧急的情况下,如果他们有实习的要求,我可能会允许。

二、学术研究
熊宇轩:大的研究团队如何保证论文发表的数量和质量兼优?如何管控论文质量?
林宙辰:我自始至终都反对学生「灌水」。
在学生开始做课题之前,我通常会首先为他们指定有价值的研究课题,学生在做课题的过程中可能会产生一些新的想法,我会及时和他们交流,再次论证研究课题的价值。
我并不鼓励学生做一些增量化的工作,或者仅仅是与别人比拼谁能更快地实现许多人都能想到的新思路。
当然,学生也有很大的自由度,如果他们有非常好的研究思路,我也会支持他们做下去。
另一方面,我们鼓励组内外、校内外合作,希望大家能够取长补短,促进成果的产量和质量的提升。
在成果的归属方面,除非贡献确实不可区分,否则我们反对学生标注共同一作。我们希望培养出的学生能够有好的学习、科研态度,努力钻研,勤于实现好的 Idea。
熊宇轩:研究生需要怎样才能够做出原创性的工作?从只能做「a+b」的工作到做出原创性工作,需要怎样的成长?
林宙辰:首先,导师应该起关键性的作用,明了什么是原创性,然后严格把关,给予学生相应的督促。
此外,我们也非常鼓励学生与助理教授、年级较高的师兄讨论,以及实验室内外部学生之间的相互交流。
我本人平时也会经常在午餐时间与组里的助理教授、博士后针对学术问题进行天马行空的畅想,有时会迸发出一些值得去做的灵感,可能会让学生进一步实现它。
北大目前对科研人员的研究成果并没有定量的要求,我认为这种政策环境十分有利于原创性成果的产生。
高校在招聘教师的时候可以更加严格地把关,寻找真正具有科研兴趣和热情的高水平研究者,而在业绩考核的过程中会相对放开对成果数量的要求,让他们更加自由地探索。
尽管北大对成果的数量并没有硬性的定量化指标,但是大家都十分努力。当然,也应该为科研工作者提供基本的生活保障,可以在基本衣食无忧的条件下开展科学研究。
熊宇轩:会议论文和期刊论文在研究生的培养过程中分别有什么作用?
林宙辰:一般来说,期刊论文相较于会议论文更加完善。
目前,计算机界可能更加看重会议论文,会议论文的发表周期相对也较短。有时,学生做的研究工作内容较多,论文篇幅较长,或者课题不太适合投会议,我们也会撰写期刊论文。
熊宇轩:请问林教授如何看待目前预训练大模型的发展?大模型预训练和基于认知、因果、知识的小样本学习哪个更有前景?
林宙辰:首先,大模型是有用的。以人类智能为例,人类的经验和知识对智力有极大的帮助。
然而,如果粗暴地使用大模型,肯定会存在性能的瓶颈,只不过现在还没有显现出这种限制。如果模型的参数量再翻十倍,可能就会出现一些性能上的瓶颈。这类探索需要依靠工业界的力量展开,而学术界更多地可能还是寻找一些原理上的创新,寻找更加有效、鲁棒的计算机制。
此外,算力的增长也是非常重要的,同样的基本算法在不同的算力下的表现也存在一定的差异,目前的算力仍然不够。例如,在遗传算法中,搜索解空间的规模对最终解的质量有非常大的影响,即使使用相同的算法,不同的算力也可能会得到差异巨大的结果。
目前,有很多研究者都意识到因果、知识等方向可能具有不错的研究前景,但是还没有取得类似于深度学习这样的突破。我们应该更精细化地使用数据,而不是仅仅简单地堆砌算力,否则最终计算的效率会非常低。而这种理论性的创新也正是学术界相较于工业界的优势所在。


三、新书《机器学习中的加速一阶优化算法》
熊宇轩:林教授的新书《机器学习中的加速一阶优化算法》近期出版了。该书有中英文两个版本,请问其内容是否存在区别?
林宙辰:首先,相较于英文版,中文版的第一章补充了一些新的内容。
其次,我们在编写中文版的过程中进行了更加细致的勘误,所幸英文版没有关键性的错误。我在自己的网页上也针对英文版列出了一个勘误表。
熊宇轩:是怎样的契机促使林教授在繁忙的科研和教学工作中抽出时间编撰本书?
林宙辰:我在本书的前言中提到了这一点。在准备教学内容的过程中,我发现加速优化算法是很好的主题,很有趣也很实用。
近年来,机器学习研究社区在算法加速方面取得了很多重要的进展,我自己近年来也大量阅读了这个领域的研究论文,非常希望对相关知识进行整理,形成一本参考书,在教学和科研时可以很方便利用这些材料。
此外,在写书的过程中,我也需要对原材料进行消化,可以帮助自己对该领域有更深的了解和更全局的把握。
熊宇轩:CV、NLP 等人工智能应用领域的使用者应该如何更好地选择优化算法?
林宙辰:根据大量的实践,PyTorch、Tensorflow 等深度学习计算框架已经集成了许多优秀的优化算法,普通的使用者可以通过试错的方式来确定合适的优化算法,暂时不需要特别深入地了解其中的原理,或自己对优化算法做出改进。
我在《机器学习中的加速一阶优化算法》一书的结尾中提到,如果不能正确地使用加速算法,可能最终的优化过程还不如使用通常的算法快。
在本书中,我们给出了相关算法的伪代码框架,方便大家查询。有兴趣的读者也可以根据本书提供的伪代码实现这些算法。当然,对于一些特殊的问题来说,可能存在一些效果最好的优化算法,需要专门进行研究。
熊宇轩:本书为什么专门针对机器学习的一阶优化算法展开?一阶优化算法与其它阶上的优化算法、非梯度优化算法各有何利弊?
林宙辰:首先,一阶优化算法是当前机器学习优化算法中的主流方法。遗传算法等非梯度优化算法是启发式的,一般缺乏理论证明。我本人比较追求研究的美感,所以更加关注有理论证明的优化算法。
比较零阶、一阶、二阶优化算法,我们会发现:零阶优化算法的收敛速度是最慢的,但其每步迭代的代价是最低的。二阶优化算法每步迭代的代价最高,但收敛最快。一阶优化算法往往在收敛速度和单步代价之间可以实现最优的平衡。
就目前二阶优化而言,当计算规模较大时,一次迭代的计算开销就难以承受。因此大家往往考虑拟牛顿法,然而此类方法的理论分析往往需要较高的凸性和光滑性,尚未在现实应用中展示出有效性。
熊宇轩:本书的受众是哪些人群?会给他们带来怎样的收获?
林宙辰:本书的受众主要是计算数学、统计学、人工智能、信号处理等专业的高年级本科生或研究生。本书可以作为一本相关领域研究人员的较为完备的参考书,有助于他们更快地求解数学模型并到达优化算法研究的前沿。

二维码 扫码微信阅读
推荐阅读 更多