编者按:本文原作者Zachary Chase Lipton(http://zacklipton.com/)曾是美国加州大学圣迭戈分校计算机科学工程系的博士生,现在CMU Tepper商学院担任助理教授,同时还在机器学习部门任教,专注于机器学习领域的理论和实践研究。本文翻译自他的博文Heuristics for Scientific Writing (a Machine Learning Perspective),为我们介绍了机器学习论文写作时的注意事项。
原文地址:http://approximatelycorrect.com/2018/01/29/heuristics-technical-scientific-writing-machine-learning-perspective/
春节将至,大家还能静下心来写论文吗?随着新年的开启,各大顶会的论文提交截止日期也即将到来:ICML截稿日期为2月9日,KDD截止日期为2月11日,在这之后还有ACL、COLT、ECML、UAI以及NIPS……每场大会都会收到数千份论文,
随着开源软件、网络课程以及预印版文章的普及,越来越多的人开始对机器学习感兴趣,虽然成果不断丰富,但一个无法避免的事实是,很多论文由于书写的格式或技巧的不恰当,导致可读性不强,最终有可能影响评选结果,甚至被拒。即使在一些公认的有影响力的论文中,粗心大意的写作也会迷惑读者,甚至会被误以为是为了蒙骗某些奖学金而糊弄的论文。
但是,在我的学术生涯中,我对论文写作已经总结了一套十分详尽的攻略(在有些地方你可能会有不同意见)。在我读博期间从Charles Elkan教授那里学到了很多关于科学论文写作的重要启发式方法,每种都能提炼成精炼的语言。现在,当我和年轻的学生一起工作,指导他们如何写出清晰明了的论文时,我发现自己仍然在重复当年的写作方法,并且偶尔会有新发现。
文章周的每个建议都非常好记,都附有简短的解释。下面就让我们开始吧:
介绍
摘要不可能包括全文所有内容,它应该是能让人两分钟就看完的“广告”,是对整篇论文的精准提炼。详细来说有四条原则:
用一句话或一个短语把你的问题描述清楚
明确现有方法存在的问题
表明你的主要成果(也可以在开头写明)
用两三句话说说细节和主要数据等
下面是我读过的机器学习论文中最棒的摘要:
Mixtures of Gaussians are among the most fundamental and widely used statistical models. Current techniques for learning such mixtures from data are local search heuristics with weak performance guarantees. We present the first provably correct algorithm for learning a mixture of Gaussians. The algorithm is very simple and returns the true centers of the Gaussians to within the precision specified by the user, with high probability. It runs in time only linear in the dimension of the data and polynomial in the number of Gaussians.
-Sanjoy Dasgupta in “Learning Mixtures of Gaussians”
如果这里Sanjoy把开头两句话合并起来会不会更紧凑呢?“Current techniques for learning mixtures of Gaussians from data are local search heuristics with weak performance guarantees.”
也许有的人觉得不错,有的人会反对,认为本文的关键词“Mixture of Gaussians”就不起眼了。
如果论文结果需要定量表示,那么就在摘要和介绍中体现数字;如果论文里就一个简单公式,那就把它放在介绍里吧。人们只有感兴趣才会继续读下去,不要把这些信息都隐藏在论文中间。
“The last 10 years have witnessed tremendous growth in data and computers.” “Deep learning has had many successes at many things”.如果你的开头是这种通用型的,建议直接删掉。第一印象很重要,论文的第一句话往往是最关键的,千万不要浪费。
如果没有问题直接写出解决方法将会非常无聊,如果你的论文特别抽象,完全不接地气,那么在读者看来就像一篇纯数学论文。如果可以的话,用实际案例作为开场,将抽象的问题具体化,然后用实验丰富这一论文。
有的时候可能需要建立对照,但是不要重点描述反面的对象,尤其是你自己的想法。当你客观地描述论文时,丢掉那些间接的描述,直接说清楚你的目标是什么,不要说某物不是什么。
结构
一篇论文分为好几部分,每部分又包括好几段,段落是由句子构成的,句子又是由单词构成的。有些论文只看一眼结构就知道质量高不高。每一节应该像PPT上的目录一样清晰地排列,而且它们的名字应该属于同一类别。有时一段话可以只有两个句子,但是最好不少于三句。
即使一位“小白”读者略过了图表中的一些数字,他也应该明确地了解你在讲什么。任何关键的推论或技术细节都要体现在正文中,其中可以利用图表增强可视化。
同样的,数字也要与主题紧密相关。如果读者(或审稿人)跳过文字直接看图表,他们也应该大致理解讲了什么,并了解研究结果的意义。如果不明白y轴的分数是越高越好还是越低越好,则应配有说明文字。
但是也不要太夸张,说明文字不能太长,最好在1到3行之间。注意,计算机视觉领域的论文有时一整页都被图表占据,后面也没有说明。我个人不喜欢这种风格,但是也要根据实际情况决定。
论文铺垫不宜太长:(1)审稿人在每场会议上会阅读5至10篇论文,一年大概要读50至100篇相似领域的论文。重复的基础知识部分会让他们厌烦。(2)如果你的论文一共有8页,主要成果到第5页才展示出来的话,估计审稿人已经没有耐心再看下去了。
所以,一定要了解你的读者和论文的定位。你的摘要、介绍以及整篇论文都应该清晰地叙述主题。
一个好的审稿人会提出相关质疑来挑战论文,比如会问:“有没有可能这种方法仅仅是因为X才能使用?”如果你回答:“我不知道”或者“不是”的话,你的论文有可能会被拒绝。如果你能提前预料到会被问哪些问题,就写下来。如果你不知道答案,就做个试验找找答案。希望大家能意识到,做研究和写作是分不开的。
风格
在科学写作中,要用“我们(we)”作为叙述主体。这里的“我们”代表读者和作者双方一起。有的时候你可能需要阐述观点,所以要在文中表达清楚这些情况。
你必须保证,任何有相关知识的读者在读完你的整篇论文后,即使不认同你的观点、方法论选择或者价值观,也无法找出某一句话在表述上的错误。比如:“我们的方法X在大多数数据上比Y表现得要好。”这是真的吗?“大多数”什么数据集?审稿人是否能找到一个推翻这一结论的数据集?所以,最好把“大多数(most)”改为“很多(many)”,这样不管是定义还是反驳都更容易一些。
与上文类似,如果你对某一结论并不是100%肯定,那就不要轻易做出。少写一句也许不会被拒,但多写一句就很有可能被审稿人pass掉。
你可能会问:“审稿人也许不同意我的观点,是不是就意味着我不能在论文中写出来呢?”并非这样,例如你认为未来GANs在异常检测方面很有前景,但在文章中你应该这样写:“在我看来(in my opinion),GANs……”
语言
经验不足的写作者们总会错误地认为,长句能反映其遣词造句的能力。但是出色的科学论文大多用短句构成。如果不能把你的观点浓缩在一句话里,就试试把它们分开。技术协作要尽量简洁清楚,结论可以复杂,但是表述结论的话不能复杂。
例如:extremely、very、incredibly、completely、barely、essentially、rather、quite、definitely……
这些强调词有两点不好。首先,它们改变了句子的目的:“algorithm X provides a tight approximation”这听上去很有信心。如果加上一个修饰语“very”,就变成:“algorithm X provides a very tight approximation”总觉得有那么一点不确定性。另外,它们还能表达意见。例如:“Is the algorithm better?”是的。如果改成:“Is it much better?”这就是一种意见了,也许是在给自己挖坑。
写作中常见的错误是将动词和修饰语放到错误的主语上。例如:“the algorithm tries to X, or the data is biased.”这句话中,算法不能自己尝试(tries),主语应该是我们(we)建模者,而不是算法。
推论:每个动词都应有所属。没有主语的动词通常用于被动结构中(主要动词是“to be”)。比如:“LSTMs are claimed to X, Y, Z”,这句话里“claimed”的主语是谁?这一信息最好在其他地方交代清楚,一种方法是在后面加括号,附上解释信息;另一种方法要作者清楚地说明。
参考文献
你引用的文献的作者有可能就是你的审稿人哦。审稿人通常都会问你为什么没有引用某一作者的另外几个作品。如果与你的论文不相关,那就不要引用。如果它们是相关的,引用一下也没什么损失。这样做的话,你的论文结果不会太差,并且审稿人也许是你未来想要一起工作的人,引用他们的作品会引起他们的注意。
审稿人通常都比较懒,而且没有高强的记忆力。如果你的作品是建立在别人的成果之上,那么不要只引用与你相关的部分——那么只是对你工作内容的总结。而是当你在读到优于你自己的方法时引用整段文字。尤其是近些年(5~10年)的作品,它们可能还不常见,适合出现在引用最多的“相关研究”版块里。
这是一个非常实用的方法,适用于会议出版物,通常会议论文会限制参考文献的页数(一般是1或2页)。如果你漏了最重要的参考文献,审稿人是绝对不会放过你的。但是,如果漏了一些不太重要的文献,你可以说超出数目限制了(这是一个很好的借口)。所以如果你的参考文献太少的话,可就说不过去了。