所有文章 > 正文

庖丁解牛剖析国际学术论文写作的快速入门

作者: BAAI

时间: 2020-04-18 18:11

2020 年 3 月 17 日,在超千人同时在线的“智源论坛·论文写作专题报告会”上,三位智源青年科学家分别进行了精彩的在线分享,题目分别为:中国科学院计算技术研究所研究员兰艳艳《论文写作小白的成长之路》、中国人民大学副教授赵鑫《谈如何写一篇合格的国际学术论文》、北京大学研究员施柏鑫《计算机视觉会议论文从投稿到接收》。

他们通过丰富的实战示例,分别从论文写作的润笔和修改技巧、论文写作的常用步骤与方法、论文投稿和审核中的关键注意事项等多种角度,详细解析了如何写好一篇优秀的国际学术论文,收到了直播间观众的热烈反响。我们将他们的演讲整理成文字,陆续发布。

202004180501.jpg

今天,我们将介绍智源青年科学家、中国人民大学副教授赵鑫《如何以初学者的身份写好一篇国际学术论文》。

赵鑫 智源青年科学家、中国人民大学副教授

2014 年获得北京大学计算机系统结构专业博士学位。主要从事面向复杂背景环境的用户兴趣建模和推荐系统的相关研究,在国内外著名学术期刊与会议上发表或者录用论文 70 篇。其中,以第一作者或通信作者身份发表 CCF A 类长文 20 篇,曾获得 CIKM2017 最佳短文候选、AIRS 2017 最佳论文等。发表在主题建模方面的论文《Comparing Twitter and Traditional Media Using Topic Models》单文被引用 1200 余次,所提出的 Twitter-LDA 模型已经成为短文本主题建模领域最重要的基准模型之一。累计谷歌学术引用超 3300 次。

本次报告中,赵鑫从一篇国际学术论文的通常逻辑布局入手:引言、相关工作、模型、实验、参考文献等,通过大量的实战示例,详细解析了它们的写作方法、技巧和注意事项等,此外还分享了他本人对于一些国际期刊的投稿经验。

需要说明的是,本次报告的示例主要以信息检索,自然语言处理以及数据挖掘的论文展开。同时赵鑫认为,国际论文不同领域的基本方法和思路都是相通的。写作堪称一门学术内功,需要时间加以修炼,报告人也在修炼途中;而且写作千人千面,没有绝对的正确和错误。本次报告仅作为他个人写作经验的一次交流分享。

下面让我们进入赵鑫演讲的精华要点部分。

202004180502.jpg

首先,赵鑫给我们介绍了两篇主要的示例论文,第 1 篇发表在 SIGKDD 2019 上,主题是基于背景信息的智能化路径搜索算法。作者将从起点到终点的路径搜索算法定义为 A* 算法,原始的 A* 算法会分解启发式搜索值为两个部分,其中 g 用来计算历史消耗,h 用来预估未来消耗,论文的新思路是采用了图神经网络进行计算,包括采用深度学习方法来计算其中的 g 以及 h。

第 2 篇发表在 SIGIR 2018 上,是基于知识属性的序列推荐算法。赵鑫指出,为了帮助论文初学者们快速入门,他接下来的内容风格可能会有点像“八股文”:按照论文的撰写顺序,介绍每一个部分该怎么写,有哪些规范、技巧或教训等。

202004180503.jpg

202004180504.jpg

引文:论文必须装点的“门面”

一般来讲,摘要部分只要不出现太大的失误就不会成为拒稿的因素,但引文部分如果把握不好就容易成为文章被拒的理由,或者让读者难以提起兴趣阅读该论文。引文部分主要具有以下作用:

1.交代研究任务,向读者传达作者的任务和目的;

2.阐述研究现状总结不足,说明目前状态,为读者提供研究背景的铺垫,带出论文研究的挑战和难点,如果论文需要解决的技术挑战重大,可以单独列出⼀段进行描述。但切忌单纯罗列工作,而不突出难点;

3.提出解决的新思路,主要是用来引出论⽂的解决思路;

4.给出新方案的设计,较为详细地介绍所提出思路的实现;

5.总结论文的贡献以及实验结论,这部分需要总结并且强调论⽂的贡献。

以第一篇示例论文(SIGKDD 19)为例,其在引文中首先介绍了个性化路径推荐问题,即给定路网结构,旨在解决生成特定用户的路径推荐问题。因而需要突出在大图以及路网上的复杂性等难点。其次是在引文中阐述了研究现状并总结出了不足,为读者做出了研究背景方面的铺垫。这部分不同于对相关工作的介绍,主要是总结已有算法的不足。传统启发式搜索如A*算法的好处在于大图上的有效性,而机器学习算法的优点在于突出了算法的灵活性。很自然地,引出能否结合两者的优点呢?这一想法通过加入在策略游戏上的过渡句来带出:同时结合 A* 算法与机器学习算法的优点。下面还是给出新方案的具体设计过程,即通过一句话说清楚算法的具体功能与设计思路。最终强调论文的贡献,尽量避免强调的贡献过多,细致强调一个贡献效果更好。

在引文中也特别需要注意讲究逻辑性,逻辑错误是目前许多同学都会出现的问题。常见的逻辑错误有以下几个方面:

1.因为模型 A 好使,所以用 A 做某任务。这是机器学习学生前期论文经常出现的错误。典型的错误如“因为 Deep Learning 好用,所以就可以用来完成某个任务”;

2.因为任务 B 没有人做,所以我做了。没有人做的事情很多,并不能体现出意义;

3.之前的人做了什么工作,我做了什么工作,我的比前人做得好。这种情况很容易出现缺乏解释性,强迫进行衔接;

4.这个任务很难,这篇论文我们这样解决了这个挑战。没有突出解决过程中的思路描述;

5.夸大自己模型的贡献、忽略别人的工作。这一定要和 related work 建立联系,不能夸大贡献。

引文的确需要适度的包装,不能够进行过度包装。过度包装是对于学术的很大不尊重,如随意给出主观的意见;随意给出一些非常泛化的词汇;随意夸大自己的模型,放大自己的贡献。例如"significantly improve"这样的副词+动词结构是较为不切实际的,需要慎用这样的词汇,所以需要就限定范围与条件进行说明。

引文的作用就是让大家容易读懂全文,从而起到一个铺垫的作用,包括:解释清楚“主要术语”;解释清楚模型的主要涉及思维以及技术路线。避免面面俱到,自我沉浸,可以通过多画图举例来说明解决方法;强调主要创新点,放在显眼位置。

综上所述,赵鑫对引文(Introduction)的写法“六句扩展法”进行了如下总结:

① 第一句写任务介绍以及研究意义

② 第二句概述研究现状以及存在主要的问题

③ 第三句写解决这些问题的研究挑战

④ 第四句写当前方法的主要出发点以及解决思路

⑤ 第五句写当前方法的主要技术方案

⑥ 第六句写总结、强调贡献

写出这六句话后,可以分别按段进行拓展,用以完成 introduction 的写作。

除此之外,在引文写作中还需要注意过渡词的使用,例如 yet、although 等。

在更高层级上去理解引文写作,这是一门讲故事的艺术。通过讲清楚故事让大家明白所做的事情,说清楚工作的重要性,让大家觉得结局思路好,工作有不可或缺性,甚至达到如沐春风的感觉。这需要把握引文写作的节奏感,需要交代背景,做好铺垫,解析细节,总结重点。

相关工作:分类整理,覆盖全面

论文写作中相关工作部分的要求,主要包括这四个方面:

① 尽量覆盖所有相关工作,其中可以匹配一些特定排版风格;多读论文;

② 进行细致的分类整理并突出相关之处

③ 强调差异与不同之处,例如主要任务,数据,算法的归纳与整理,这样可以写的非常高瞻远瞩并且浓缩;

④ 兼顾长写与短写,铺垫好足够的内容再展开相关工作。

在这个过程中,以下几点错误是较为常见的,我们需要特别避免:

  • 简单罗列阅读文章,并没有在平时读论文的过程中做到分类总结;
  • 没有讲清楚区别与联系,这体现了对论文进行分类总结的重要性;
  • 语法错误,论文的时态可以选择过去时或现在完成时,但切忌混乱使用时态;
  • 套用与滥用模板

定义:清楚明晰是关键

通常来说,定义部分主要具有以下三个作用:

① 介绍清楚所有术语,让符号符合人的直觉与常用思维(如首字母命名法);

② 给出所有符号的含义以及使用方式,好看、好记、成体系并活用上下标(推荐花书的符号参考,避免黑白式符号);

③ 形式化地描述清楚任务。

202004180505.jpg

在定义的写作中,其中需要注意或避免的问题有以下几个方面:

  • 一个符号多次使用,又代表不同意思
  • 全部使用未加粗的 notation 表示集合、矩阵等
  • 符号不遵照习惯使用
  • 频繁使用一些单词的缩写用于 notation (src,dest)
  • 频繁使用上下角标都存在的符号
  • 符号的数量过多
  • \log,\exp\min……这些数学符号都有规范的用法,不能直接写“log”之类,需要前面加一个斜杠代表数学公式。

模型部分:注重逻辑与收尾

模型部分的写作一定要强调逻辑,这对论文最终呈现出的质量极其重要。其中,最基本的逻辑形式分为总-分式和总-基础-增强式。总-分式的逻辑是指模型有若干个部分并对其分别加以介绍,各部分联系紧密且 title 比较清晰;总-基础-增强式是指首先概述一个基本模型,并在基本模型之上进行拓展。

202004180506.jpg

202004180507.jpg

在对模型进行收尾即在总结模型训练的过程中,可以通过加入模型分析、模型训练和模型学习等方面的介绍,用以对于模型进行完善、升级以及延伸。”可以将讨论主要放在以下几个方面:

  • 正确性证明
  • 时间复杂度
  • 完整的算法流程
  • 参数汇总+学习算法
  • 与之前工作的区别(突出创新性)
  • 与之前工作的联系(增强泛化性)
  • 模型可扩展的地方(堵漏)

实验部分:注重对比实验

在文章的实验部分,往往遵循如下的一般流程:数据集合(包括:评测指标和评测流程)、对比方法、主干实验分析、模型细致分析、定性实验,下面是各流程节点写作的详细方法:

1.数据集合,首先要在文章中写明原始数据来源,以及经过哪些预处理步骤得到最终用于评测的数据集。最终的数据还要列表进行诸如数据量类别数等的对比。一个小技巧是将表格中的数字右对齐,使用逗号表示法,如“200,000”,这样方便审稿人进行比较不同数据集合的大小。至于评测指标和评测流程,新任务的评测指标或流程,则要详细给出,老任务的则可以沿用已有指标。

2.对比方法时首先要简略的介绍 baseline,若有特殊实现或者重要参数需要指明。而后需要对 baseline 进行整体总结。最后可以利用表格的形式对不同方法的性能进行对比。

3.主干实验分析时首先自己要清楚实验目的,文章中对实验的分析是为了证明文章的贡献、发现或者结论。不要流水账一般,比如 A 比 B 好,B 比 C 好,而是要突出原因。此外若有些实验结果不如人意,也要进行分析。最后还要进行统计性检验证明提升有效。讲者举例如下,可以看到作者分析了过往方法的不足和优点,证明了自己方法的优越之处

202004180508.jpg

4.模型细致分析时可以通过 Ablation study 展开,也就是利用控制变量法对结果进一步分析,从而得出不同组件的贡献。此外还可以进行组件内部调节分析,以及不同参数或者不同数据处理下的对比分析。讲者举例如下,可以看到作者进行了不同组件贡献的分析,还有各个组件内部不同实现的分析。

202004180509.jpg

5.定性实验是指举例子进行实验说明。用例子来解释想法的有效性,或者解释结果显著提升是基于哪些场景,本质上是对引言中 motivation 的呼应。举例子时应该注意不要探索式的写,而要有核心驱动,也就是直截了当的去举例证明自己的 motivation。举例子的主要形式是一个图搭配一段描述。需要注意的是图的标题里要将图中的符号、颜色和整体场景设置等写清楚,而不能写在文本描述中,图本身要自洽。图画完之后要写一段对应的文本描述,首先写清楚目的,接着写清楚当前例子的整体故事,然后分解进关键部分,也就是图中哪些地方可以证明讲的故事,最后一句话进行总结。讲者举例如下,可以看到作者在图标题中将图中符号颜色等都进行了说明。

202004180510.jpg

而在文本描述中,也是先交待了故事整体,然后针对图的不同部分进行阐述,对文章的 motivation 进行验证,最后总结了文章提出模型的作用。

202004180511.jpg

摘要和总结:整体把握

写摘要应该是时间花费最少的,建议在文章完结后进行摘要写作。因为此时论文已经成型,方便你直接借鉴或者改动论文中一些已经很成熟的重要语句。摘要部分要注意讲清楚任务、方法和创新点,不要提实现细节,不需要代入,而是要直接了当地写。

总结也是一样,简要总结工作,不要再埋包袱、打伏笔,具体流程可以这样写:①具体任务、②解决方案、③实验结果、④未来扩展。需要注意的是,语法上,现在完成时和过去时都可以,但是不能混着用。

写作习惯:如何安排写作顺序

对于论文写作、修改时的流程,一般来说,我首先会花费半天时间写相关工作,之后会对问题定义和模型细节进行足够了解并且进行写作,随后将写作重点放在引言和实验部分,一般会在 2-3 日内完成初稿。初稿完成后会花费一天时间在引言和其他部分反复进行迭代修改,全文定稿,最后完成摘要和结论部分及修改相关工作(如下图)。

202004180512.jpg

对于论文写作、修改,推荐的方式如下图:

202004180513.jpg

在论文写作中应该避免的问题上,除了下图列出的一些问题,还涉及到了不同 section 题目之间要有关联性和逻辑性,同时要避免无意义的长句子,对于自己文章的贡献,应该在几句话内讲明白,不要舍本逐末罗列太多创新点。此外,要注意英语词汇的正确用法,避免缩写。

202004180514.jpg

此外,要使用英语词汇习惯的正式用法,避免缩写等(如下图)。

202004180515.jpg

建议:最快、最稳的论文写作学习法

演讲最后,赵鑫提纲挈领提了一系列“high level”的建议。

首先,是论文写作中一些“固定而正确”的实践建议,赵鑫解释说,“只有学会跑之后才能考虑飞翔”,初学论文者首先要像学习八股文一样进行论文写作。具体建议如下:

1.学一手好的 LaTex,建议模板化、流程化、标准化。同时观念上将写论文作为科研的一部分——只有做好了科研,才能写出好论文。

2.学会一些固定转折、承接、突出、总结、代入、发现、介绍等固定语句。

3.重学四级单词或者学术论文常用单词,了解这些词的准确用法。(可以写个程序,找出来最频繁的词汇,以及它们的搭配,对于自己使用的新搭配要小心)

4.建议学会一套好的画图技术、做表技术

5.相关工作应该平时准备好,对于 bib 提前找好

6.自己做拼写检查。

对于论文写作,最快的学习途径,赵鑫认为是不断地复盘:多写论文,然后找师长修改;赵鑫强调:“要珍惜每一次老师给你的修改。作为中国人,尽管老师难免可能会出现语病,但他毕竟写过的论文比你多,一定要好好琢磨他为什么这么做”。

对应的,对于论文写作最稳妥的学习途径,赵鑫建议寻找一些科普的文章,如一些大组的工作,从头到尾去学习写作、背诵甚至默写;此外还有一种“廉价”的方法,是读论文的时候不看 abstract,从而根据论文写 abstract,然后进行对比,这在本质上相当于是写论文然后找人修改的过程。

对于期刊论文的写作,赵鑫的建议包括如下要点:

1.学会把论文写长、但又看起来也不冗余。所以如何使用图表、公式,如何组织十分重要。

2.尽量把参考文献写全。

3.尽量把实验做全。

4.写好 Response 很重要。期刊论文的 response 和会议论文 rebuttal 的重要不同之处,要保证自己会进行修改。

202004180516.jpg

赵鑫的最后一个建议,是要养成写英文 note、特别是写数学推导 note 的习惯,比如对图神经网络等最新的算法或者模型进行总结或者推导等。这样一方面有利于对相关领域或知识进行有效梳理,另一方面有利于自己的复盘,可以有效提高英文的逻辑表达技能等。

Q&A

Q:先写中文还是翻译全英文?

A:如果英语不好,可以先写清楚中文的六句话然后再翻译。

Q:Related work 和 Introduction 的研究任务有什么区别?

A:Related work 是要突出覆盖性,Introduction 主要是强调现在已有的工作为什么解决不了当前的任务,没有必要面面俱到去介绍。再就是 Introduction 里面所有相关工作的介绍,都是为了突出你要自己的工作。

Q:论文比较时用自己复现的代码还是别人原始代码?

A:看原作者愿不愿意去 share,如果 share,建议用原始那个代码。

Q:先写内容还是先排版?

A:先写内容再排版,但是提前一定要做好模板,比如图应该怎么放,表怎么放,然后比如说哪个章节应该怎么写。

Q:写论文的时候一边看文献一边写,还是先看很多文献再写?

A:如果文献没看到足够多的时候,不建议写论文,因为文献不足够多的时候,可能你现在做的工作别人已经做过了。

Q:画图做表用什么软件更专业一些?

A:Visio、PPT。对于画图一定要留时间,画图最后一定要留出一天或者半天时间。

Q:读论文数学推导如何看?

A:建议大家都去看一下国外机器学习课程的数学推导 note。

Q:Note 要有什么模板?

A:随便去上一门国外的机器学习的课上,一般可以找到相应的作业 LaTex 模板,或者直接搜 note+tex+template。

Q:写 Related work 的时候,可以借用之前别人的句子或者微小的改动吗?

A:不建议完全去抄别人的,但是可以变一些句式,可以去做一个基本的命名。

Q:与 baseline 比较的时候,可以取人家的结果可以吗?

A:在通用的比较环境下,可以;如果使用了不同的实验设置,例如数据变动了,不要这么做。

Q:Reject 到 Resubmit 的文章,没有说出具体截止时间,一般多久结束?

A:半年。

Q:Note 有什么地方可以分享?

A:可以挂在一些网页,或者让你的老师帮你宣传一下,或者挂在一些公众号上都可以。

Q:怎么 follow 相关的研究的最新进展?

A:Google Scholar;大牛主页。

Q:怎么做论文分类汇总?

A:建议做重写摘要,或者试着对每一篇看过的论文用一两句话说清楚 contribution,然后再去做论文分类。

Q:博士期间应该注意数量和质量?

A:数量保证毕业,质量代表实力。

Q:如何找出大牛?

A:把现在领域的顶会论文,近五年的 paper 拿出来,然后做引用排序的 author list。

Q:Related work 可不可以不特别相关?

A:可以拓展,但不是不要故意占用空间。

Q:会议改期刊需要什么注意的?

A:一定要做有意义的增量。

Q:读论文的时候可以从哪些方面去找可以改进的地方?

A:只能多去思考。

Q:论文放在文件夹里有的时候会乱怎么办?

A:记在脑袋里。论文不多的时候,应该清楚地记得每一篇论文讲的什么东西。

Q:怎么增强理论基础?

A:建议先系统看几本书,或者做一些 note。

Q:模型中用的理论都是别人的还用写出来吗?

A:加一些引用。

Q:Sota 论文太多,怎么选 baseline?

A:大概归类,每一类都覆盖一些。

Q:实验效果好,但是没有理论支撑怎么办?

A:一定是没有想清楚整个模型的 contribution 是什么,建议多和交叉领域的同学去做一个结合,或者让老师去帮你想想。

此外 QA 环节中,赵鑫还提到以下几点:

1、建议大家读论文的时候,一定先有一个大概的 topic,把论文量首先积累到 50 篇,然后开始做一个分类的操作,然后做一个重写摘要的操作,这两个事情做完以后,论文基本上确定了。不要硬写论文,一定想清楚自己的 contribution 是不是已经足够了,或者自己是不是已经做好了写论文的准备,做好文献阅读的情况下才可以写论文。

2、论文中相关术语的缩写一定要和原始论文中的一样,比如 BERT 不是 Bert 或者 bert。

3、不要把图画得复杂,把故事说清楚,就是图要画得越简单越好,很多情况下是因为要讲的故事复杂它才复杂,千万不要把模型图画得太复杂。

本文经授权转载自北京智源人工智能研究院。感谢原作者的精彩分享。

往期回顾:

世卫组织反击美国:发布100天抗疫时间线关键点

《自然-人工智能》:AI助力 4D 核磁共振扫描,数据处理速度提高 30 倍!

科学家在蝙蝠身上又发现 6 种全新冠状病毒

[关于转载]:本文为“北京智源人工智能研究院”微信公众号文章,转载本文请联系原作者获取授权。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多