庖丁解牛剖析国际学术论文写作的快速入门

2020 年 4 月 18 日 学术头条

2020 年 3 月 17 日,在超千人同时在线的“智源论坛·论文写作专题报告会”上,三位智源青年科学家分别进行了精彩的在线分享,题目分别为:中国科学院计算技术研究所研究员兰艳艳《论文写作小白的成长之路》、中国人民大学副教授赵鑫《谈如何写一篇合格的国际学术论文》、北京大学研究员施柏鑫《计算机视觉会议论文从投稿到接收》。

 

他们通过丰富的实战示例,分别从论文写作的润笔和修改技巧、论文写作的常用步骤与方法、论文投稿和审核中的关键注意事项等多种角度,详细解析了如何写好一篇优秀的国际学术论文,收到了直播间观众的热烈反响。我们将他们的演讲整理成文字,陆续发布。


 
今天,我们将介绍智源青年科学家、中国人民大学副教授赵鑫《如何以初学者的身份写好一篇国际学术论文》。

赵鑫  智源青年科学家、中国人民大学副教授

2014 年获得北京大学计算机系统结构专业博士学位。主要从事面向复杂背景环境的用户兴趣建模和推荐系统的相关研究,在国内外著名学术期刊与会议上发表或者录用论文 70 篇。其中,以第一作者或通信作者身份发表 CCF A 类长文 20 篇,曾获得 CIKM2017 最佳短文候选、AIRS 2017 最佳论文等。发表在主题建模方面的论文《Comparing Twitter and Traditional Media Using Topic Models》单文被引用 1200 余次,所提出的 Twitter-LDA 模型已经成为短文本主题建模领域最重要的基准模型之一。累计谷歌学术引用超 3300 次。


本次报告中,赵鑫从一篇国际学术论文的通常逻辑布局入手:引言、相关工作、模型、实验、参考文献等,通过大量的实战示例,详细解析了它们的写作方法、技巧和注意事项等,此外还分享了他本人对于一些国际期刊的投稿经验。
 
需要说明的是,本次报告的示例主要以信息检索,自然语言处理以及数据挖掘的论文展开。同时赵鑫认为,国际论文不同领域的基本方法和思路都是相通的。写作堪称一门学术内功,需要时间加以修炼,报告人也在修炼途中;而且写作千人千面,没有绝对的正确和错误。本次报告仅作为他个人写作经验的一次交流分享。
 
下面让我们进入赵鑫演讲的精华要点部分。


首先,赵鑫给我们介绍了两篇主要的示例论文,第 1 篇发表在 SIGKDD 2019 上,主题是基于背景信息的智能化路径搜索算法。作者将从起点到终点的路径搜索算法定义为 A* 算法,原始的 A* 算法会分解启发式搜索值为两个部分,其中 g 用来计算历史消耗,h 用来预估未来消耗,论文的新思路是采用了图神经网络进行计算,包括采用深度学习方法来计算其中的 g 以及 h。

 

第 2 篇发表在 SIGIR 2018 上,是基于知识属性的序列推荐算法。赵鑫指出,为了帮助论文初学者们快速入门,他接下来的内容风格可能会有点像“八股文”:按照论文的撰写顺序,介绍每一个部分该怎么写,有哪些规范、技巧或教训等。

 


引文:论文必须装点的“门面”


一般来讲,摘要部分只要不出现太大的失误就不会成为拒稿的因素,但引文部分如果把握不好就容易成为文章被拒的理由,或者让读者难以提起兴趣阅读该论文。引文部分主要具有以下作用:

1. 交代研究任务 ,向读者传达作者的任务和目的;
2. 阐述研究现状总结不足 ,说明目前状态,为读者提供研究背景的铺垫,带出论文研究的挑战和难点,如果论文需要解决的技术挑战重大,可以单独列出⼀段进行描述。但切忌单纯罗列工作,而不突出难点;
3. 提出解决的新思路 ,主要是用来引出论⽂的解决思路;
4. 给出新方案的设计 ,较为详细地介绍所提出思路的实现;
5. 总结论⽂的贡献以及实验结论 ,这部分需要总结并且强调论⽂的贡献。
 
以第一篇示例论文(SIGKDD 19)为例,其在引文中首先介绍了 个性化路径推荐 问题,即给定路网结构,旨在解决生成特定用户的路径推荐问题。因而需要突出在大图以及路网上的复杂性等难点。其次是在引文中 阐述了研究现状并总结出了不足 ,为读者做出了研究背景方面的铺垫。这部分不同于对相关工作的介绍,主要是总结已有算法的不足。传统启发式搜索如A*算法的好处在于大图上的有效性,而机器学习算法的优点在于突出了算法的灵活性。很自然地,引出能否结合两者的优点呢?这一想法通过加入在策略游戏上的过渡句来带出:同时结合 A* 算法与机器学习算法的优点。下面还是给出新方案的具体设计过程,即通过一句话说清楚算法的具体功能与设计思路。最终强调论文的贡献,尽量避免强调的贡献过多,细致强调一个贡献效果更好。
 
在引文中也特别需要注意 讲究逻辑性 ,逻辑错误是目前许多同学都会出现的问题。常见的逻辑错误有以下几个方面:
 
1.因为模型 A 好使,所以用 A 做某任务。这是机器学习学生前期论文经常出现的错误。典型的错误如“因为 Deep Learning 好用,所以就可以用来完成某个任务”;
2.因为任务 B 没有人做,所以我做了。没有人做的事情很多,并不能体现出意义;
3.之前的人做了什么工作,我做了什么工作,我的比前人做得好。这种情况很容易出现缺乏解释性,强迫进行衔接;
4.这个任务很难,这篇论文我们这样解决了这个挑战。没有突出解决过程中的思路描述;
5.夸大自己模型的贡献、忽略别人的工作。这一定要和 related work 建立联系,不能夸大贡献。

引文的确需要 适度的包装 ,不能够进行 过度包装 。过度包装是对于学术的很大不尊重,如随意给出主观的意见;随意给出一些非常泛化的词汇;随意夸大自己的模型,放大自己的贡献。例如"significantly improve"这样的副词+动词结构是较为不切实际的,需要慎用这样的词汇,所以需要就限定范围与条件进行说明。

引文的作用就是让大家容易读懂全文,从而起到一个铺垫的作用,包括:解释清楚“主要术语”;解释清楚模型的主要涉及思维以及技术路线。避免面面俱到,自我沉浸,可以通过多画图举例来说明解决方法;强调主要创新点,放在显眼位置。
 
综上所述,赵鑫对引文(Introduction)的写法“六句扩展法”进行了如下总结:
 
①第一句写任务介绍以及研究意义
②第二句概述研究现状以及存在主要的问题
③第三句写解决这些问题的研究挑战
④第四句写当前方法的主要出发点以及解决思路
⑤第五句写当前方法的主要技术方案
⑥第六句写总结、强调贡献

写出这六句话后,可以分别按段进行拓展,用以完成 introduction 的写作。

除此之外,在引文写作中还需要注意过渡词的使用,例如 yet、although 等。

在更高层级上去理解引文写作,这是一门讲故事的艺术。通过讲清楚故事让大家明白所做的事情,说清楚工作的重要性,让大家觉得结局思路好,工作有不可或缺性,甚至达到如沐春风的感觉。这需要把握引文写作的节奏感,需要交代背景,做好铺垫,解析细节,总结重点。
 
相关工作:分类整理,覆盖全面


论文写作中相关工作部分的要求,主要包括这四个方面:
 
尽量覆盖所有相关工作 ,其中可以匹配一些特定排版风格;多读论文;
进行细致的分类整理并突出相关之处
强调差异与不同之处 ,例如主要任务,数据,算法的归纳与整理,这样可以写的非常高瞻远瞩并且浓缩;
兼顾长写与短写 ,铺垫好足够的内容再展开相关工作。
 
在这个过程中,以下几点错误是较为常见的,我们需要特别避免:

  • 简单罗列阅读文章 ,并没有在平时读论文的过程中做到分类总结;
  • 没有讲清楚区别与联系 ,这体现了对论文进行分类总结的重要性;
  • 语法错误 ,论文的时态可以选择过去时或现在完成时,但切忌混乱使用时态;
  • 套用与滥用模板

定义:清楚明晰是关键


通常来说,定义部分主要具有以下三个作用:
 
① 介绍清楚所有术语,让符号符合人的直觉与常用思维(如首字母命名法);
②给出所有符号的含义以及使用方式,好看、好记、成体系并活用上下标(推荐花书的符号参考,避免黑白式符号);
③形式化地描述清楚任务。


在定义的写作中,其中需要注意或避免的问题有以下几个方面:

  • ⼀个符号多次使用,又代表不同意思
  • 全部使用未加粗的 notation 表示集合、矩阵等
  • 符号不遵照习惯使用
  • 频繁使用⼀些单词的缩写用于 notation (src,dest)
  • 频繁使用上下角标都存在的符号
  • 符号的数量过多
  • \log,\exp\min……这些数学符号都有规范的用法,不能直接写“log”之类,需要前面加一个斜杠代表数学公式。
 
模型部分:注重逻辑与收尾


模型部分的写作一定要强调逻辑,这对论文最终呈现出的质量极其重要。其中,最基本的逻辑形式分为总-分式和总-基础-增强式。总-分式的逻辑是指模型有若干个部分并对其分别加以介绍,各部分联系紧密且 title 比较清晰;总-基础-增强式是指首先概述一个基本模型,并在基本模型之上进行拓展。



在对模型进行收尾即在总结模型训练的过程中,可以通过加入模型分析、模型训练和模型学习等方面的介绍,用以对于模型进行完善、升级以及延伸。”可以将讨论主要放在以下几个方面:

• 正确性证明
• 时间复杂度
• 完整的算法流程
• 参数汇总+学习算法
• 与之前工作的区别(突出创新性)
• 与之前工作的联系(增强泛化性)
• 模型可扩展的地方(堵漏)
 
实验部分:注重对比实验

在文章的实验部分,往往遵循如下的一般流程:数据集合(包括:评测指标和评测流程)、对比方法、主干实验分析、模型细致分析、定性实验,下面是各流程节点写作的详细方法:
 
1. 数据集合 ,首先要在文章中写明原始数据来源,以及经过哪些预处理步骤得到最终用于评测的数据集。最终的数据还要列表进行诸如数据量类别数等的对比。一个小技巧是将表格中的数字右对齐,使用逗号表示法,如“200,000”,这样方便审稿人进行比较不同数据集合的大小。至于评测指标和评测流程,新任务的评测指标或流程,则要详细给出,老任务的则可以沿用已有指标。
 
2. 对比方法 时首先要简略的介绍 baseline,若有特殊实现或者重要参数需要指明。而后需要对 baseline 进行整体总结。最后可以利用表格的形式对不同方法的性能进行对比。
 
3. 主干实验分析 时首先自己要清楚实验目的,文章中对实验的分析是为了证明文章的贡献、发现或者结论。不要流水账一般,比如 A 比 B 好,B 比 C 好,而是要突出原因。此外若有些实验结果不如人意,也要进行分析。最后还要进行统计性检验证明提升有效。讲者举例如下,可以看到作者分析了过往方法的不足和优点,证明了自己方法的优越之处。
 

 
4. 模型细致 分析时可以通过 Ablation study 展开,也就是利用控制变量法对结果进一步分析,从而得出不同组件的贡献。此外还可以进行组件内部调节分析,以及不同参数或者不同数据处理下的对比分析。讲者举例如下,可以看到作者进行了不同组件贡献的分析,还有各个组件内部不同实现的分析。
 


5. 定性实验 是指举例子进行实验说明。用例子来解释想法的有效性,或者解释结果显著提升是基于哪些场景,本质上是对引言中 motivation 的呼应。举例子时应该注意不要探索式的写,而要有核心驱动,也就是直截了当的去举例证明自己的 motivation。举例子的主要形式是一个图搭配一段描述。需要注意的是图的标题里要将图中的符号、颜色和整体场景设置等写清楚,而不能写在文本描述中,图本身要自洽。图画完之后要写一段对应的文本描述,首先写清楚目的,接着写清楚当前例子的整体故事,然后分解进关键部分,也就是图中哪些地方可以证明讲的故事,最后一句话进行总结。讲者举例如下,可以看到作者在图标题中将图中符号颜色等都进行了说明。
 


而在文本描述中,也是先交待了故事整体,然后针对图的不同部分进行阐述,对文章的 motivation 进行验证,最后总结了文章提出模型的作用。
 

 
摘要和总结:整体把握

写摘要应该是时间花费最少的,建议在文章完结后进行摘要写作。因为此时论文已经成型,方便你直接借鉴或者改动论文中一些已经很成熟的重要语句。摘要部分要注意讲清楚任务、方法和创新点,不要提实现细节,不需要代入,而是要直接了当地写。
 
总结也是一样,简要总结工作,不要再埋包袱、打伏笔,具体流程可以这样写:①具体任务、②解决方案、③实验结果、④未来扩展。需要注意的是,语法上,现在完成时和过去时都可以,但是不能混着用。
 
写作习惯:如何安排写作顺序


对于论文写作、修改时的流程,一般来说,我首先会花费半天时间写相关工作,之后会对问题定义和模型细节进行足够了解并且进行写作,随后将写作重点放在引言和实验部分,一般会在 2-3 日内完成初稿。初稿完成后会花费一天时间在引言和其他部分反复进行迭代修改,全文定稿,最后完成摘要和结论部分及修改相关工作(如下图)。



对于论文写作、修改,推荐的方式如下图:



在论文写作中应该避免的问题上,除了下图列出的一些问题,还涉及到了不同 section 题目之间要有关联性和逻辑性,同时要避免无意义的长句子,对于自己文章的贡献,应该在几句话内讲明白,不要舍本逐末罗列太多创新点。此外,要注意英语词汇的正确用法,避免缩写。

 


此外,要使用英语词汇习惯的正式用法,避免缩写等(如下图)。

 


建议:最快、最稳的论文写作学习法


演讲最后,赵鑫提纲挈领提了一系列“high level”的建议。
 
首先,是论文写作中一些“固定而正确”的实践建议,赵鑫解释说,“只有学会跑之后才能考虑飞翔”,初学论文者首先要像学习八股文一样进行论文写作。具体建议如下:
 
1.学一手好的 LaTex,建议模板化、流程化、标准化。同时观念上将写论文作为科研的一部分——只有做好了科研,才能写出好论文。
2.学会一些固定转折、承接、突出、总结、代入、发现、介绍等固定语句。
3.重学四级单词或者学术论文常用单词,了解这些词的准确用法。(可以写个程序,找出来最频繁的词汇,以及它们的搭配,对于自己使用的新搭配要小心)
4.建议学会一套好的画图技术、做表技术
5.相关工作应该平时准备好,对于 bib 提前找好
6.自己做拼写检查。
 
对于论文写作,最快的学习途径,赵鑫认为是不断地复盘:多写论文,然后找师长修改;赵鑫强调:“要珍惜每一次老师给你的修改。作为中国人,尽管老师难免可能会出现语病,但他毕竟写过的论文比你多,一定要好好琢磨他为什么这么做”。
 
对应的,对于论文写作最稳妥的学习途径,赵鑫建议寻找一些科普的文章,如一些大组的工作,从头到尾去学习写作、背诵甚至默写;此外还有一种“廉价”的方法,是读论文的时候不看 abstract,从而根据论文写 abstract,然后进行对比,这在本质上相当于是写论文然后找人修改的过程。
 
对于期刊论文的写作,赵鑫的建议包括如下要点:
 
1. 学会把论文写长、但又看起来也不冗余 。所以如何使用图表、公式,如何组织十分重要。
2. 尽量把参考文献写全
3. 尽量把实验做全
4. 写好 Response 很重要 。期刊论文的 response 和会议论文 rebuttal 的重要不同之处,要保证自己会进行修改。



赵鑫的最后一个建议,是要养成写英文 note、特别是写数学推导 note 的习惯,比如对图神经网络等最新的算法或者模型进行总结或者推导等。这样一方面有利于对相关领域或知识进行有效梳理,另一方面有利于自己的复盘,可以有效提高英文的逻辑表达技能等。

 

Q&A


Q:先写中文还是翻译全英文?

A:如果英语不好,可以先写清楚中文的六句话然后再翻译。

 

Q:Related work 和 Introduction 的研究任务有什么区别?

A:Related work 是要突出覆盖性,Introduction 主要是强调现在已有的工作为什么解决不了当前的任务,没有必要面面俱到去介绍。再就是 Introduction 里面所有相关工作的介绍,都是为了突出你要自己的工作。

 

Q:论文比较时用自己复现的代码还是别人原始代码?

A:看原作者愿不愿意去 share,如果 share,建议用原始那个代码。

 

Q:先写内容还是先排版?

A:先写内容再排版,但是提前一定要做好模板,比如图应该怎么放,表怎么放,然后比如说哪个章节应该怎么写。

 

Q:写论文的时候一边看文献一边写,还是先看很多文献再写?

A:如果文献没看到足够多的时候,不建议写论文,因为文献不足够多的时候,可能你现在做的工作别人已经做过了。

 

Q:画图做表用什么软件更专业一些?

A:Visio、PPT。对于画图一定要留时间,画图最后一定要留出一天或者半天时间。

 

Q:读论文数学推导如何看?

A:建议大家都去看一下国外机器学习课程的数学推导 note。

 

Q:Note 要有什么模板?

A:随便去上一门国外的机器学习的课上,一般可以找到相应的作业 LaTex 模板,或者直接搜 note+tex+template。

 

Q:写 Related work 的时候,可以借用之前别人的句子或者微小的改动吗?

A:不建议完全去抄别人的,但是可以变一些句式,可以去做一个基本的命名。

 

Q:与 baseline 比较的时候,可以取人家的结果可以吗?

A:在通用的比较环境下,可以;如果使用了不同的实验设置,例如数据变动了,不要这么做。

 

Q:Reject 到 Resubmit 的文章,没有说出具体截止时间,一般多久结束?

A:半年。

 

Q:Note 有什么地方可以分享?

A:可以挂在一些网页,或者让你的老师帮你宣传一下,或者挂在一些公众号上都可以。

 

Q:怎么 follow 相关的研究的最新进展?

A:Google Scholar;大牛主页。

 

Q:怎么做论文分类汇总?

A:建议做重写摘要,或者试着对每一篇看过的论文用一两句话说清楚 contribution,然后再去做论文分类。

 

Q:博士期间应该注意数量和质量?

A:数量保证毕业,质量代表实力。

 

Q:如何找出大牛?

A:把现在领域的顶会论文,近五年的 paper 拿出来,然后做引用排序的 author list。

 

Q:Related work 可不可以不特别相关?

A:可以拓展,但不是不要故意占用空间。

 

Q:会议改期刊需要什么注意的?

A:一定要做有意义的增量。

 

Q:读论文的时候可以从哪些方面去找可以改进的地方?

A:只能多去思考。

 

Q:论文放在文件夹里有的时候会乱怎么办?

A:记在脑袋里。论文不多的时候,应该清楚地记得每一篇论文讲的什么东西。

 

Q:怎么增强理论基础?

A:建议先系统看几本书,或者做一些 note。

 

Q:模型中用的理论都是别人的还用写出来吗?

A:加一些引用。

 

Q:Sota 论文太多,怎么选 baseline?

A:大概归类,每一类都覆盖一些。

 

Q:实验效果好,但是没有理论支撑怎么办?

A:一定是没有想清楚整个模型的 contribution 是什么,建议多和交叉领域的同学去做一个结合,或者让老师去帮你想想。

 

此外 QA 环节中,赵鑫还提到以下几点:


1、建议大家读论文的时候,一定先有一个大概的 topic,把论文量首先积累到 50 篇,然后开始做一个分类的操作,然后做一个重写摘要的操作,这两个事情做完以后,论文基本上确定了。不要硬写论文,一定想清楚自己的 contribution 是不是已经足够了,或者自己是不是已经做好了写论文的准备,做好文献阅读的情况下才可以写论文。

 

2、论文中相关术语的缩写一定要和原始论文中的一样,比如 BERT 不是 Bert  或者 bert。

 

3、不要把图画得复杂,把故事说清楚,就是图要画得越简单越好,很多情况下是因为要讲的故事复杂它才复杂,千万不要把模型图画得太复杂。


近期精彩集锦(点击蓝色字体跳转阅读):

公众号对话框回复“2020科技趋势”,获取《2020科技趋势报告》完整版PDF!

公众号对话框回复“AI女神”,获取《人工智能全球最具影响力女性学者报告》完整版

公众号对话框回复“AI10”,获取《浅谈人工智能下一个十年》主题演讲PPT!

公众号对话框回复“GNN”,获取《图神经网络及认知推理》主题演讲PPT!

公众号对话框回复AI指数”,获取《2019人工智能指数报告》完整版PDF!

公众号对话框回复“3D视觉”,获取《3D视觉技术白皮书》完整版PDF!



点击阅读原文,查看更多精彩!

登录查看更多
0

相关内容

赵鑫,京东算法工程师。负责推动京东推荐广告重排技术框架的搭建。主要研究方向为计算机视觉。在顶尖人工智能学术会议上发表多篇论文。参与围棋AI“星阵围棋”的核心研发工作,负责模型系统的搭建,并获得三次围棋AI世界冠军。
还在修改博士论文?这份《博士论文写作技巧》为你指南
【高能所】如何做好⼀份学术报告& 简单介绍LaTeX 的使用
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
98+阅读 · 2020年1月12日
【CCL 2019】刘康、韩先培:做失败科研的10个方法
专知会员服务
27+阅读 · 2019年11月12日
【CCL 2019】ATT-第19期:生成对抗网络 (邱锡鹏)
专知会员服务
49+阅读 · 2019年11月12日
【ASSIA】第12期智能自动化学科前沿讲习班——推荐系统
中国自动化学会
12+阅读 · 2019年10月11日
清华大学刘知远:如何写一篇合格的NLP论文
机器之心
10+阅读 · 2019年3月11日
学会期刊丨《中国人工智能学会通讯》2019年 第9卷 第02期
中国人工智能学会
7+阅读 · 2019年2月28日
机器翻译学术论文写作方法和技巧
清华大学研究生教育
11+阅读 · 2018年12月23日
AAAI 2018学术见闻——NLP篇
哈工大SCIR
5+阅读 · 2018年3月26日
博士团队带您入门机器学习,课程大优惠,限额30人,赶快上车啦!!!
AliCoCo: Alibaba E-commerce Cognitive Concept Net
Arxiv
13+阅读 · 2020年3月30日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年12月18日
dynnode2vec: Scalable Dynamic Network Embedding
Arxiv
14+阅读 · 2018年12月6日
Arxiv
5+阅读 · 2018年5月5日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关资讯
【ASSIA】第12期智能自动化学科前沿讲习班——推荐系统
中国自动化学会
12+阅读 · 2019年10月11日
清华大学刘知远:如何写一篇合格的NLP论文
机器之心
10+阅读 · 2019年3月11日
学会期刊丨《中国人工智能学会通讯》2019年 第9卷 第02期
中国人工智能学会
7+阅读 · 2019年2月28日
机器翻译学术论文写作方法和技巧
清华大学研究生教育
11+阅读 · 2018年12月23日
AAAI 2018学术见闻——NLP篇
哈工大SCIR
5+阅读 · 2018年3月26日
博士团队带您入门机器学习,课程大优惠,限额30人,赶快上车啦!!!
相关论文
Top
微信扫码咨询专知VIP会员