ACL 开幕首日:评审制度改革,主题报告探讨 NLP 未来方向

2020 年 7 月 7 日 AI科技评论


作者 | 蒋宝尚、青暮

编辑 | 丛末
从今天开始,ACL 2020正式进入主会议日程!首日全体大会分为三个部分:开幕式、主席演讲、以及主题报告。
其中 Dan Jurafsky, Joyce Chai, Natalie Schluter, Joel Tetreault开幕式报告,介绍了这届ACL 论文情况;Hinrich Schütze 在主席演讲中,介绍了ACL 评审制度的改革:增加ACL Archives, 接收因为25% Cut制度而被拒的论文;主题演讲则由Kathleen R. McKeown 带来,报告题目为《Rewriting the Past: Assessing the Field through the Lens of Language Generation》。

1


ACL论文情况:投稿创历史新高

ACL2020今年的论文提交数量创了新纪录,ACL2019 共接收了2906篇论文,今年则收到了来自57个国家的3429篇论文,比2019年增长了18%。下图展示了自2010年以来ACL的论文提交数量。       
在短短10年中论文,ACL的论文提交数量增长了近3倍。
下图展示了提交数量超过200篇论文的5个领域。机器学习领域几乎每年都提交了近300篇论文,其它4个领域包括:对话和交互技术、机器翻译、信息提取和NLP应用。
今年提交的论文涉及25个主题,其中包含4个新主题:第一,道德和NLP主题,包含评估了NLP应用程序在社会中普及时相关的伦理学假设和后果的论文;第二,对NLP模型的解释和分析主题;第三,理论和形式主义主题;最后一个主题是盘点我们探索过的领域和我们将要探索的领域。       
今年总共接收了778篇论文,创历史新高,其中长论文570篇,短论文208篇。论文总接收率是22.7%,与最近的三次ACL会议相近,长论文接收率为25.4%,短论文接收率为17.6%。下图展示了自2017年来ACL的论文接收率情况。       
今年评审委员会的规模创历史新高,有9497个审稿人注册。最终2519名被选为主审稿人以及458名被选为次审稿人,299名被选为领域主席,40名被选为高级领域主席。       
在主审稿人中,至少有四次评审经验的审稿人数量仅占35%(下图中蓝色和黄色部分)。因此,绝大多数审稿人经验相对较少。对于这一做法,ACL给出的解释是,因为评审质量不仅仅取决于那些有经验的人,也要为未进入过该领域的人积累更多的经验。这是一次新的尝试,探索如何通过指导和培训新的审稿人来提高审阅质量。
据悉,共有280名领域主席和290名新人审稿人参加了该计划。在审核期间,特别是在讨论过程中,领域主席直接与通讯作者联系,最后大会组委会会向领域主席和论文作者们寻求评审反馈。 
下图是主要会议时间表,每个会议时长1小时。每篇论文都分配了其中两个会议。因此,你可以观看他们的预先录制的演讲,然后观看会议以直接与作者互动。这些会议还包括演示文件和研讨会。此外每天还有一个2个小时的全体会议(Plenary Session),大会的奖项都在全体大会中公布。  
全体大会中会举办多个奖项的颁奖典礼,包括终身成就奖、杰出论文奖、时间考核奖和最佳论文奖。
全体会议的一大亮点是主题演讲。今年ACL请来了来自哥伦比亚大学的Kathleen R.McKeown教授,以及来自MIT的Josh Tenenbaum教授在会议上发言。
     
 
2


主席演讲:评审制度改革

Hinrich Schütze 还做了主席演讲,隆重感谢了ACL的大会主席以及程序主席,简要回顾了ACL的关键人物,同时也对ACL的审稿制度的改革进行了说明。
Hinrich Schütze表示,这是ACL第一次组织完全的在线会议,非常感谢Joyce Chai、Dan Jurafsky、Natalie Schluter、Joel Tetreault这四位主席,他们对ACL 2020 虚拟会议的召开起到了不可磨灭的作用。
同时ACL 还有一些关键的人物,做了非常多的后勤任务,如下张PPT所示,正是他们的存在,才组成了专业的组织。
      
在视频中,Hinrich Schütze还点出了负责可持续发展关键人物的Tim Baldwin,他指出,虽然可持续发展是一个新的角色,但是它的作用非常重要。
同时,Schütze还提到,由于一些原因,今年一整年对于ACL来说可能会一直面临财务危机,感谢David Yarowsky和Priscilla Rasmussen 在财务方面的支持。
今年的ACL在IT 基础设施方面有些非常重大的进步,这要感谢信息主任Nitin Madnani。
在感谢完“TACL”之后,Schütze介绍了ACL的审稿制度改革,整个方案分为短期和长期,短期方案在6月份通过,长期方案只是一项建议。
在短期方案中一个比较特殊的点是:会建立 ACL Archives,建立的动机是 有很多好的论文因为没有它们没有达到25%的削减标准(因为它们没有达到25%的削减标准) 。这里给出的建议是除了接收25%,还要发表额外的10%在ACL Archives。  


当然,这是同行审议的另一种选择,这会导致35%的论文被接收,当然也没有人强制你在ACL Archives 上发表论文,一切都是自愿的,一切都在实验中。另外,值得一提的是,ACL Archives是独立于主会议之外的。
在最后,Schütze也介绍了接下来一些会议的举办时间与地点,包括EACL、NAACL、EMNLP等,Schütze还说,虽然这些会议有可能是线上举行,但还是希望有几场“实在”的线下会议。
 
3


主题报告:Rewriting the Past

在报告《Rewriting the Past: Assessing the Field through the Lens of Language Generation》中,Kathleen R. McKeown提到:近年来,自然语言处理领域通过使用神经网络取得了巨大的进步,几乎完全让这个领域变了模样。      

当前需要审视了自然语言处理领域的现状及其与过去的联系,并且关注多种形式的语言生成。具体包括:神经网络在哪些方面特别成功?过去的方法在哪些方面可能仍有价值?以及如果要超越“当下”,需要转向什么方向?为了回答这些问题,McKeown对众多自然语言处理领域的专家进行了访谈。
McKeown表示,当他在1982年还是一位PHD学生的时时候,读过Warren Weaver写的一本关于机器翻译的思想的书,当时看起来不起眼,但是却是现在统计学和神经机器翻译研究背后的灵感来源。      

书中提到,语言生成在一定程度上是rewriting,这有很多形式,可以是从结构化数据汇总进行生成,也可以是输入文本到输出摘要的rewriting等等。
而机器翻译也正是从一种从语言的输入rewriting到另外一种语言的输出。那么这语言生成形式未来会走向哪里呢?
McKeown 表示:他没办法很好的回答,所以他与机器翻译以及语言生成等方面专家进行了交谈,试图想找到该领域未来的走向。整个访谈分为过去、现在和未来三个维度。    
McKeown的第一个问题是:神经网络当前最大的成就是什么,它们真正成功的地方在哪里?
McKeown先列举出了当前的神经网络的进展文章,例如抽取模型(Extractive models)中的LSTM Seq2Seq、RNN plus history、BERT for summarization等;摘要模型中的Attention based copy and coverage、BART:LSTM pre-trained language model等。上述这些工作非常复杂,也非常成功,那么神经网络的成功之处到底在哪?
MIT的Regina Barzilay表示 ,神经网络最大的成功就是催生了许多实用模型,这些模型的正在被数百万人使用,而我们之前的一些工作更多的是一种“研究模型”。
亚马逊AI的Ramesh Nallapati表示 ,当前在自然语言处理领域,即使背景知识很少的人也能部署模型,毕竟只要把他们当做“黑盒子”就行了。
康奈尔理工学院的Sasha Rush表示 ,他之前一直以为“翻译”是经验驱动型的领域,但是自从有人向他展示了基于注意力的翻译模型后,他完全转变了之前的看法。
MIT的Jacob Andreas表示 ,广义上的语言生成应用,无论是无条件的还是有条件的,神经网络比我们以前的结构化输入少得多。
微软研究员Michel Galley表示 ,“总结”和翻译是一种语义保存,当然了,深度学习虽然有改进,但在做语义保存的过程中也会有信息损失。另外,对话领域在深度学习出现之前,一直是靠经验直觉。
亚马逊的Dilek Hakkani-Tur表示, 从他第一次看到机器翻译中使用注意力机制开始,学习并“注意”对话历史的某些部分对追踪对话状态、生成与对话历史一致的响应等有很大的帮助。
Yejin Choi表示, NLP中的预训练模型取得了巨大的成功,对他个人来说,这些模型在生成连贯性文本方面的能力也非常强,这让他非常兴奋。
除了上述观点,其他观点有:神经网络是拟合高度非线性函数的唯一途径;对NLP的最大的影响来自单词语义的表征, 因此,我们不能仅将单词视为小字符串,否则只能分析少量标签数据;神经网络方面最有潜力的是表征学习。
在上述专家发表完观点,McKeown总结道: 深度学习已为机器翻译、文本摘要等领域创造了具有鲁棒性的方法,并且其成功背后的机制也多种多样,包括注意力、预训练语言模型、词嵌入、表征学习等 ,并根据大数据拟合高度非线性的函数。
第二个问题:回溯过去,语言学、哲学、以及心理学为NLP领域提供了怎样的认知方法?
McKeown表示,过去有很多这方面的文章,在提供程序约束(pragmatic constraints),中心理论将“注意力集中”相关联,以及在指称表达和语篇连贯方面提供了助力;哲学理论在表达艺术以及暗喻方面也提供了“推理”功能。   
在20世纪90年代的时候,NLP的热门方法是大数据分析,倾向于用语料库分析词选择和词约束。这时候语言形式主义使用了功能性统一语法(functional unification grammar)。
1990~2000年这十年间是统计NLP的领域,这期间统计指标成了评价标准,随后研究方向转向了机器学习,生成模型和支持向量机成了主流方法。之后,NLP又有了结构性转变,最主要的标志是用经验方法处理自然语言。
那么在这期间,我们学到了什么呢?第一,系统建立在跨学科理论的基础上的;第二,处理自然语言的过程在那个需要将数据扩展到精心设计的语料库中;第三,NLP经历了全面的改革;第四,即使是新的统计方法也体现了跨学科理论。
第三个问题:未来的NLP会转向哪个方面?
首先,要向其他学科和传统人工智能学习;再者,我们遇到更难的问题时候,有一个中间表征非常重要;其次,词嵌入是否是正确的语义层次的总结?显然我们需要衡量最重要的东西;最后,也许符号或语义知识会很有用。
未来还有很多需要解决的问题,例如如何处理更小但更有趣的数据集?我们该怎样设计新颖有意义的任务?
在演讲的最后,McKeown总结道:现在对我们来说有个好消息是, 稳健的语言生成模型现在已经是可得的;而未来的算法要从任务中学习而不是从数据集中学习 值得一提的是,跨学科的方法已经在领域内产生了巨大的影响。

 

ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,因新冠肺炎疫情改为线上会议。为促进学术交流,方便国内师生提早了解自然语言处理(NLP)前沿研究,AI 科技评论将推出「ACL 实验室系列论文解读」内容,同时欢迎更多实验室参与分享,敬请期待!
点击"阅读原文",直达“ACL 交流小组”了解更多会议信息。

登录查看更多
0

相关内容

专知会员服务
43+阅读 · 2020年7月15日
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
【CCL 2019】2019信息检索趋势,山东大学教授任昭春博士
专知会员服务
29+阅读 · 2019年11月12日
【NLP】NLP未来发展趋势&ACL 2019回顾
产业智能官
5+阅读 · 2019年8月27日
ACL 2019年度回顾:自然语言处理发展趋势
人工智能学家
5+阅读 · 2019年8月19日
ACL 2019 接收论文榜单发布,我们做了可视化分析
机器之心
17+阅读 · 2019年6月13日
KDD 2019放榜,接收率低至14%,你的论文中了吗?
机器之心
7+阅读 · 2019年4月30日
A Survey on Edge Intelligence
Arxiv
50+阅读 · 2020年3月26日
Arxiv
6+阅读 · 2019年7月29日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2018年4月11日
VIP会员
相关论文
A Survey on Edge Intelligence
Arxiv
50+阅读 · 2020年3月26日
Arxiv
6+阅读 · 2019年7月29日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2018年4月11日
Top
微信扫码咨询专知VIP会员