NAACL 2021(2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics)将于2021年6月6日至11日以在线会议的形式在墨西哥城举办。来自罗切斯特大学和腾讯的研究人员《视频辅助无监督语法归纳》获得最佳长论文,此外还包括2篇杰出长论文和1篇最佳短论文和2篇杰出短论文。
NAACL为自然语言处理领域的顶级会议之一,旨在为北美以及中美洲和南美洲的计算语言学协会(ACL)的成员总结研究领域重点,组织年度会议,促进区域性的合作交流,从而鼓励和促进美洲人民和机构加入ACL,并为ACL执行委员会提供有关区域活动的信息来源。
最佳论文评选过程:
这些论文是从NAACL 2021年提交的1797篇论文中选出来的。候选人由高级AC提名,并由最佳论文委员会审查。每个委员会成员对一部分论文进行了排序,PC联合主席考虑了所有的建议以做出最终决定。特别感谢我们杰出的最佳论文评委会:Isabelle Augenstein, Marco Baroni, Barbara Di Eugenio, Jacob Eisenstein, Hanna Hajishirzi, Omer Levy, Jessy Li, Yang Liu, Chris Quirk和Bonnie Webber。
详情可登陆以下会议官网查询:
https://2021.naacl.org/blog/best-paper-awards/
「最佳长论文奖」(Best Long Paper)
视频辅助无监督语法归纳 Video-aided Unsupervised Grammar Induction
Songyang Zhang, Linfeng Song, Lifeng Jin, Kun Xu, Dong Yu and Jiebo Luo
摘要:我们研究了视频辅助语法归纳法,它从无标记文本和相应的视频学习一个constituency解析器。现有的多模态语法归纳方法侧重于从文本-图像对中学习句法语法,结果表明静态图像信息可以用于语法归纳。然而,视频提供了更丰富的信息,不仅包括静态对象,还包括动作和状态变化,这对引导动词短语很有用。在本文中,我们从视频中探索了丰富的特征(例如动作、物体、场景、音频、人脸、OCR和语音),并以最近的Compound PCFG模型(Kim et al., 2019)为基线。我们进一步提出了一个多模态化合物PCFG模型(MMC-PCFG)来有效地从不同的模态中聚合这些丰富的特征。我们提出的MMC-PCFG进行了端到端的训练,并在三个基准上(即DiDeMo、YouCook2和MSRVTT)超过了每个单独的模态和以前最先进的系统,证实了利用视频信息进行无监督语法归纳的有效性。
地址: https://www.zhuanzhi.ai/paper/e0406bf300b91a5e7e1fe5bb4e6cd861
「杰出长论文奖」(Outstanding Long Papers Award)
Unifying Cross-Lingual Semantic Role Labeling with Heterogeneous Linguistic Resources
Simone Conia, Andrea Bacciu and Roberto Navigli
虽然跨语言技术在各种自然语言处理任务中取得了越来越多的成功,但由于每种语言都采用自己的语言形式,例如probank用于英语,AnCora用于西班牙语,pdd - vallex用于捷克语,因此它们在语义角色标记(Semantic Role Labeling, SRL)中的应用受到了很大的限制。在这项工作中,我们解决了这个问题,并提出了一个统一的模型来在不同的语言资源上执行跨语言SRL。我们的模型隐式地学习了跨不同语言的不同形式的高质量映射,而无需诉诸于单词对齐和/或翻译技术。我们发现,我们的跨语言系统不仅与当前的技术水平相匹配,而且对于低数据场景也很鲁棒。有趣的是,我们的统一模型能够在一个单一的正向传递中注释一个句子,它所训练的所有库存,提供了一个工具来分析和比较不同语言的语言理论。
https://dl.acm.org/doi/abs/10.1145/3366423.3380243
It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
Timo Schick and Hinrich Schütze
当扩展到数千亿参数时,预训练的语言模型,如GPT-3 (Brown et al., 2020),实现了显著的少样本学习性能。然而,训练和运用这样的大型模型需要大量的计算,这导致了巨大的碳耗费,使得研究人员和从业人员很难使用它们。我们展示了与GPT-3类似的性能可以通过更“绿色”的语言模型获得,因为它们的参数计数要小几个数量级。这是通过将文本输入转换为包含任务描述的完形填空问题,并结合基于梯度的优化来实现的;利用未标记的数据提供了进一步的改进。我们确定了用小语言模型成功理解自然语言所需的关键因素。
https://www.zhuanzhi.ai/paper/07a30e920c6bc0f14eaa591f46be7032
「最佳短论文」(Best Short Paper)
Learning How to Ask: Querying LMs with Mixtures of Soft Prompts Guanghui Qin and Jason Eisner
学习如何提问:使用混合软提示查询语言模型