ACL 开幕首日：评审制度改革，主题报告探讨 NLP 未来方向

2020 年 7 月 7 日 AI科技评论

作者 | 蒋宝尚、青暮

编辑 | 丛末

从今天开始，ACL 2020正式进入主会议日程！首日全体大会分为三个部分：开幕式、主席演讲、以及主题报告。

其中 Dan Jurafsky, Joyce Chai, Natalie Schluter, Joel Tetreault开幕式报告，介绍了这届ACL 论文情况；Hinrich Schütze 在主席演讲中，介绍了ACL 评审制度的改革：增加ACL Archives，接收因为25% Cut制度而被拒的论文；主题演讲则由Kathleen R. McKeown 带来，报告题目为《Rewriting the Past: Assessing the Field through the Lens of Language Generation》。

ACL论文情况：投稿创历史新高

ACL2020今年的论文提交数量创了新纪录，ACL2019 共接收了2906篇论文，今年则收到了来自57个国家的3429篇论文，比2019年增长了18％。下图展示了自2010年以来ACL的论文提交数量。

在短短10年中论文，ACL的论文提交数量增长了近3倍。

下图展示了提交数量超过200篇论文的5个领域。机器学习领域几乎每年都提交了近300篇论文，其它4个领域包括：对话和交互技术、机器翻译、信息提取和NLP应用。

今年提交的论文涉及25个主题，其中包含4个新主题：第一，道德和NLP主题，包含评估了NLP应用程序在社会中普及时相关的伦理学假设和后果的论文；第二，对NLP模型的解释和分析主题；第三，理论和形式主义主题；最后一个主题是盘点我们探索过的领域和我们将要探索的领域。

今年总共接收了778篇论文，创历史新高，其中长论文570篇，短论文208篇。论文总接收率是22.7%，与最近的三次ACL会议相近，长论文接收率为25.4%，短论文接收率为17.6％。下图展示了自2017年来ACL的论文接收率情况。

今年评审委员会的规模创历史新高，有9497个审稿人注册。最终2519名被选为主审稿人以及458名被选为次审稿人，299名被选为领域主席，40名被选为高级领域主席。

在主审稿人中，至少有四次评审经验的审稿人数量仅占35％（下图中蓝色和黄色部分）。因此，绝大多数审稿人经验相对较少。对于这一做法，ACL给出的解释是，因为评审质量不仅仅取决于那些有经验的人，也要为未进入过该领域的人积累更多的经验。这是一次新的尝试，探索如何通过指导和培训新的审稿人来提高审阅质量。

据悉，共有280名领域主席和290名新人审稿人参加了该计划。在审核期间，特别是在讨论过程中，领域主席直接与通讯作者联系，最后大会组委会会向领域主席和论文作者们寻求评审反馈。

下图是主要会议时间表，每个会议时长1小时。每篇论文都分配了其中两个会议。因此，你可以观看他们的预先录制的演讲，然后观看会议以直接与作者互动。这些会议还包括演示文件和研讨会。此外每天还有一个2个小时的全体会议（Plenary Session），大会的奖项都在全体大会中公布。

全体大会中会举办多个奖项的颁奖典礼，包括终身成就奖、杰出论文奖、时间考核奖和最佳论文奖。

全体会议的一大亮点是主题演讲。今年ACL请来了来自哥伦比亚大学的Kathleen R.McKeown教授，以及来自MIT的Josh Tenenbaum教授在会议上发言。

主席演讲：评审制度改革

Hinrich Schütze 还做了主席演讲，隆重感谢了ACL的大会主席以及程序主席，简要回顾了ACL的关键人物，同时也对ACL的审稿制度的改革进行了说明。

Hinrich Schütze表示，这是ACL第一次组织完全的在线会议，非常感谢Joyce Chai、Dan Jurafsky、Natalie Schluter、Joel Tetreault这四位主席，他们对ACL 2020 虚拟会议的召开起到了不可磨灭的作用。

同时ACL 还有一些关键的人物，做了非常多的后勤任务，如下张PPT所示，正是他们的存在，才组成了专业的组织。

在视频中，Hinrich Schütze还点出了负责可持续发展关键人物的Tim Baldwin，他指出，虽然可持续发展是一个新的角色，但是它的作用非常重要。

同时，Schütze还提到，由于一些原因，今年一整年对于ACL来说可能会一直面临财务危机，感谢David Yarowsky和Priscilla Rasmussen 在财务方面的支持。

今年的ACL在IT 基础设施方面有些非常重大的进步，这要感谢信息主任Nitin Madnani。

在感谢完“TACL”之后，Schütze介绍了ACL的审稿制度改革，整个方案分为短期和长期，短期方案在6月份通过，长期方案只是一项建议。

在短期方案中一个比较特殊的点是：会建立 ACL Archives，建立的动机是有很多好的论文因为没有它们没有达到25%的削减标准（因为它们没有达到25%的削减标准）。这里给出的建议是除了接收25%，还要发表额外的10%在ACL Archives。

当然，这是同行审议的另一种选择，这会导致35%的论文被接收，当然也没有人强制你在ACL Archives 上发表论文，一切都是自愿的，一切都在实验中。另外，值得一提的是，ACL Archives是独立于主会议之外的。

在最后，Schütze也介绍了接下来一些会议的举办时间与地点，包括EACL、NAACL、EMNLP等，Schütze还说，虽然这些会议有可能是线上举行，但还是希望有几场“实在”的线下会议。

主题报告：Rewriting the Past

在报告《Rewriting the Past: Assessing the Field through the Lens of Language Generation》中，Kathleen R. McKeown提到：近年来，自然语言处理领域通过使用神经网络取得了巨大的进步，几乎完全让这个领域变了模样。

当前需要审视了自然语言处理领域的现状及其与过去的联系，并且关注多种形式的语言生成。具体包括：神经网络在哪些方面特别成功？过去的方法在哪些方面可能仍有价值？以及如果要超越“当下”，需要转向什么方向？为了回答这些问题，McKeown对众多自然语言处理领域的专家进行了访谈。

McKeown表示，当他在1982年还是一位PHD学生的时时候，读过Warren Weaver写的一本关于机器翻译的思想的书，当时看起来不起眼，但是却是现在统计学和神经机器翻译研究背后的灵感来源。

书中提到，语言生成在一定程度上是rewriting，这有很多形式，可以是从结构化数据汇总进行生成，也可以是输入文本到输出摘要的rewriting等等。

而机器翻译也正是从一种从语言的输入rewriting到另外一种语言的输出。那么这语言生成形式未来会走向哪里呢？

McKeown 表示：他没办法很好的回答，所以他与机器翻译以及语言生成等方面专家进行了交谈，试图想找到该领域未来的走向。整个访谈分为过去、现在和未来三个维度。

McKeown的第一个问题是：神经网络当前最大的成就是什么，它们真正成功的地方在哪里？

McKeown先列举出了当前的神经网络的进展文章，例如抽取模型（Extractive models）中的LSTM Seq2Seq、RNN plus history、BERT for summarization等；摘要模型中的Attention based copy and coverage、BART:LSTM pre-trained language model等。上述这些工作非常复杂，也非常成功，那么神经网络的成功之处到底在哪？

MIT的Regina Barzilay表示 ，神经网络最大的成功就是催生了许多实用模型，这些模型的正在被数百万人使用，而我们之前的一些工作更多的是一种“研究模型”。

亚马逊AI的Ramesh Nallapati表示 ，当前在自然语言处理领域，即使背景知识很少的人也能部署模型，毕竟只要把他们当做“黑盒子”就行了。

康奈尔理工学院的Sasha Rush表示 ，他之前一直以为“翻译”是经验驱动型的领域，但是自从有人向他展示了基于注意力的翻译模型后，他完全转变了之前的看法。

MIT的Jacob Andreas表示 ，广义上的语言生成应用，无论是无条件的还是有条件的，神经网络比我们以前的结构化输入少得多。

微软研究员Michel Galley表示 ，“总结”和翻译是一种语义保存，当然了，深度学习虽然有改进，但在做语义保存的过程中也会有信息损失。另外，对话领域在深度学习出现之前，一直是靠经验直觉。

亚马逊的Dilek Hakkani-Tur表示， 从他第一次看到机器翻译中使用注意力机制开始，学习并“注意”对话历史的某些部分对追踪对话状态、生成与对话历史一致的响应等有很大的帮助。

Yejin Choi表示， NLP中的预训练模型取得了巨大的成功，对他个人来说，这些模型在生成连贯性文本方面的能力也非常强，这让他非常兴奋。

除了上述观点，其他观点有：神经网络是拟合高度非线性函数的唯一途径；对NLP的最大的影响来自单词语义的表征，因此，我们不能仅将单词视为小字符串，否则只能分析少量标签数据；神经网络方面最有潜力的是表征学习。

在上述专家发表完观点，McKeown总结道：深度学习已为机器翻译、文本摘要等领域创造了具有鲁棒性的方法，并且其成功背后的机制也多种多样，包括注意力、预训练语言模型、词嵌入、表征学习等，并根据大数据拟合高度非线性的函数。

第二个问题：回溯过去，语言学、哲学、以及心理学为NLP领域提供了怎样的认知方法？

McKeown表示，过去有很多这方面的文章，在提供程序约束（pragmatic constraints），中心理论将“注意力集中”相关联，以及在指称表达和语篇连贯方面提供了助力；哲学理论在表达艺术以及暗喻方面也提供了“推理”功能。

在20世纪90年代的时候，NLP的热门方法是大数据分析，倾向于用语料库分析词选择和词约束。这时候语言形式主义使用了功能性统一语法（functional unification grammar）。

1990~2000年这十年间是统计NLP的领域，这期间统计指标成了评价标准，随后研究方向转向了机器学习，生成模型和支持向量机成了主流方法。之后，NLP又有了结构性转变，最主要的标志是用经验方法处理自然语言。

那么在这期间，我们学到了什么呢？第一，系统建立在跨学科理论的基础上的；第二，处理自然语言的过程在那个需要将数据扩展到精心设计的语料库中；第三，NLP经历了全面的改革；第四，即使是新的统计方法也体现了跨学科理论。

第三个问题：未来的NLP会转向哪个方面？

首先，要向其他学科和传统人工智能学习；再者，我们遇到更难的问题时候，有一个中间表征非常重要；其次，词嵌入是否是正确的语义层次的总结？显然我们需要衡量最重要的东西；最后，也许符号或语义知识会很有用。

未来还有很多需要解决的问题，例如如何处理更小但更有趣的数据集？我们该怎样设计新颖有意义的任务？

在演讲的最后，McKeown总结道：现在对我们来说有个好消息是，稳健的语言生成模型现在已经是可得的；而未来的算法要从任务中学习而不是从数据集中学习。值得一提的是，跨学科的方法已经在领域内产生了巨大的影响。

ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行，因新冠肺炎疫情改为线上会议。为促进学术交流，方便国内师生提早了解自然语言处理（NLP）前沿研究，AI 科技评论将推出「ACL 实验室系列论文解读」内容，同时欢迎更多实验室参与分享，敬请期待！

点击"阅读原文"，直达“ACL 交流小组”了解更多会议信息。

登录查看更多

相关内容

ACL

关注 213

ACM Fellow罗杰波教授：如何做好一个AI领域审稿人？

专知会员服务

44+阅读 · 2020年7月15日

自然语言处理ACL2020最佳论文出炉！微软摘得最佳论文，Bengio论文获时间检验奖

专知会员服务

45+阅读 · 2020年7月9日

ACL2020 开始了！看这份Tutorial《开放域问答》，普林斯顿陈丹琦

专知会员服务

59+阅读 · 2020年7月5日

ACL2020接受论文列表公布，571篇长文208篇短文

专知会员服务

67+阅读 · 2020年5月19日

【WWW2020】可解释人工智能(XAI): 工业界挑战与经验教训，180页ppt

专知会员服务

261+阅读 · 2020年4月23日

自然语言处理顶会ACL2020放榜了，你的论文中了吗？因新冠将在线举办

专知会员服务

36+阅读 · 2020年4月5日

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

专知会员服务

60+阅读 · 2019年12月12日

【CCL 2019】2019信息检索趋势，山东大学教授任昭春博士

专知会员服务

30+阅读 · 2019年11月12日

【CCL 2019】中国计算语言学大会（CCL 2019）技术评测报告以及研讨会

专知会员服务

17+阅读 · 2019年11月11日

问答与对话-技术与系统之人工智能在人机对话系统中的技术现状与挑战【严睿】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

33+阅读 · 2019年10月23日

CIKM投稿数量1700篇，图神经网络成热门方向，最佳论文纷纷进行图研究

AI科技评论

9+阅读 · 2019年11月6日

论文投递持续走高，得分3.67仍大概率被拒，一览EMNLP-IJCNLP 2019开幕盛况

AI科技评论

11+阅读 · 2019年11月6日

【NLP】NLP未来发展趋势&ACL 2019回顾

产业智能官

5+阅读 · 2019年8月27日

ACL 2019年度回顾：自然语言处理发展趋势

人工智能学家

5+阅读 · 2019年8月19日

ACL 主席周明：一起拥抱 ACL 和 NLP 的光明未来（附下载）

THU数据派

3+阅读 · 2019年8月13日

ACL 2019 接收论文榜单发布，我们做了可视化分析

机器之心

17+阅读 · 2019年6月13日

论文提交数量爆炸式增长，最大规模NLP会议ACL 2019放榜

机器之心

4+阅读 · 2019年5月15日

KDD 2019放榜，接收率低至14%，你的论文中了吗？

机器之心

7+阅读 · 2019年4月30日

投稿近2000，NAACL 2019接收率仅为22.6%|附录取论文名单

AI100

14+阅读 · 2019年3月2日

AAAI2019报告：华人影响力跃升，中国论文录取率垫底

新智元

5+阅读 · 2019年2月3日

A Survey on Edge Intelligence

Arxiv

52+阅读 · 2020年3月26日

Meta Learning for Task-Driven Video Summarization

Arxiv

6+阅读 · 2019年7月29日

Eliciting Knowledge from Experts:Automatic Transcript Parsing for Cognitive Task Analysis

Arxiv

3+阅读 · 2019年6月26日

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Area Attention

Arxiv

5+阅读 · 2019年2月5日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Explainable Recommendation: A Survey and New Perspectives

Arxiv

11+阅读 · 2018年5月13日

An Ontology-Based Dialogue Management System for Banking and Finance Dialogue Systems

Arxiv

4+阅读 · 2018年4月13日

Emergent Translation in Multi-Agent Communication

Arxiv

3+阅读 · 2018年4月11日

VIP会员