6月2日下午,清华大学智能产业研究院(AIR)副院长刘洋应邀参加2021北京智源大会青源学术年会,并做主题为《如何撰写高质量科技论文》的演讲。
讲者介绍
刘洋,清华大学智能产业研究院副院长,清华大学计算机科学与技术系教授,国家杰出青年基金获得者。担任中国人工智能学会组织工作委员会副秘书长、中国中文信息学会计算语言学专委会常务副主任。研究方向是人工智能、自然语言处理与智慧医疗,获得国家科技进步二等奖1项、省部级科技奖励4项、重要国际会议优秀论文奖2项。曾担任清华大学计算机系人工智能研究所所长、国际计算语言学学会亚太分会执委兼秘书长、Computational Linguistics编委、中国中文信息学会青年工作委员会主任。
报告内容
一项研究工作从开始选题到形成论文发表需要经历诸多的流程,而论文的撰写是其中相当关键的一环。文章表达的清晰性和可读性有助于提升审稿人对研究工作的整体印象,使得论文更有可能被成功接收。刘洋老师在本次报告中从行文结构、遣词造句、图表规划等多种角度,对如何撰写高质量科技论文进行了经验分享。
在讲座的开始,刘洋老师指出了论文写作的核心观念,即论文不仅仅是对作者研究工作的整理罗列,更是向读者传递信息的载体,文章应当“全心全意为读者服务”。
围绕这一观念,一篇良好的文章需要遵循三项整体的写作原则:首先,文中信息的呈现应符合读者的认知惯性,深入浅出,引人入胜,帮助读者快速获取想要的信息;其次,行文应尽量降低读者的理解难度,可以合理利用图表等信息元素对文字说明进行辅助和补充;最后,应尽量提升读者阅读的愉悦感,使得读者能够清晰把握文章逻辑,进而获取到文章的核心思想。
阅读是读者从文章中获取信息,理解作者思想的过程;写作是作者将思想呈现为文章的过程
在把握行文的整体观念后,刘洋老师进一步分享了文章的各组成部分的写作技巧。
1)摘要
摘要是用几句话来简述文章的整体工作,这一部分的作用相当于文章的“广告”,读者通过摘要大致了解文章内容,并进一步决定是否阅读文章。因此,摘要的写作要求用语简单,浅显易懂。
2)引言
引言是文章的关键部分,是在题目和摘要之后对工作的进一步介绍。良好的引言能够清晰描述所做的工作,并充分论证工作的必要性和重要性,吸引读者深入阅读后续文章。严密的逻辑链有助于形成更好的行文框架,讲座中推荐的逻辑链分为三个层次,包括:
在形成整体框架后,引言中各段落的写作也可以应用一些技巧。每个段落的起始可以是一个论断性的中心句;下文中采用多个前人工作和具体实验数据作为支撑句,围绕中心句展开论证;段尾可以加上衔接句,与下一部分进行连接。
以下是讲座中给出的一个引言段落示例。红色部分是段落的中心句,指出了HMM模型和随机文法在序列处理问题上的广泛使用;蓝色部分是支撑句,从计算生物学、计算语言学和计算机科学领域对“广泛使用”的中心论点进行展开论证。
此外,在论文首页放置一个图表有助于提高文章可读性。讲座中指出了文章中不同信息元素易理解度的差异,图表相对于正文文本更易于读者一目了然地把握文章工作。适度使用图表能够改变文章的信息流,适应读者的阅读习惯,降低理解难度。
3)方法
方法是论文的核心部分。讲座中不建议直接在方法部分罗列公式和证明,而推荐利用Running Example等媒介,首先用通俗的语言描述研究问题和解决方案,而后再给出形式化表述。下面是讲座中给出的一个方法的例子,可以看到,红色部分的行文框架能够循序渐进地指引读者理解文章的研究方法,提高了文章的可读性。
4)实验
实验的充分性也在很大程度上决定了文章能否被录用。实验应当选取公认的标准数据集和当前最优的基线系统,提高实验的说服力。在结构上,通常首先在开发集上进行辅助实验,调节超参数的影响;而后在测试集上给出主实验结果,论证方法的有效性和泛用性。同时,需要给出显著性检验结果来证明提出方法显著超过基线方法。此外,实验图表的使用也应注意到下面的问题,来提高文章易读性:
在相关工作部分中,应当向读者(审稿人)展示作者对本领域有全面深刻的认知,并通过与前人工作的对比凸显本工作的创新性。避免遗漏关键文献、对前人工作简单堆砌,甚至通过批评攻击前人工作来说明本工作的优势。在相关工作每一部分的最后,应当指出本工作与前人工作的差异和创新之处。
讲座的最后,刘洋老师对学术论文的写作方法进行了总结。整体来看,写论文的本质在于向读者分享思想,呈现信息,因此,论文的写作应当符合读者认知惯性,降低阅读难度,提高读者阅读的愉悦感。在完成论文的过程中,应做好时间管理,尽早完成初稿写作以备后续的修改和实验补充;也应当听取不同背景读者的反馈意见,降低文章阅读的信息壁垒。最后,论文写作是科研工作的重要一环,但并不是工作的全部,开阔的视野、新颖的选题、严谨的态度和创新的方法在科研工作中都发挥着不可或缺的作用。
[1] Liang Huang. Forest Reranking:Discriminative Parsing with Non-Local Features. In ACL 2008.
[2] John Lafferty, Andrew McCallum, andFernando Pereira. Conditional Random Fields: Probabilistic Models for Segmentingand Labeling Sequence Data. In ICML 2003.
[3] Yang Liu, Tian Xia, Xinyan Xiao, andQun Liu. Weighted Alignment Matrices for Statistical Machine Translation. InEMNLP 2009.