最佳长论文
论文:Visually Grounded Reasoning across Languages and Cultures
作者:Fangyu Liu、Emanuele Bugliarello、Edoardo Maria Ponti、Siva Reddy、Nigel Collier、Desmond Elliott
机构:剑桥大学、哥本哈根大学、Mila - 魁北克人工智能研究所、麦吉尔大学
论文链接:
论文摘要:如今,应用广泛的视觉和语言数据集以及预训练编码器都是直接采用 ImageNet 的概念和图像,或从中获得灵感。但人们很难指望这种基准对计算机视觉做出多大贡献,因为它的数据来源主要是英文的词汇数据库和图像查询,会带有北美或西欧的数据偏见。
为了克服这些偏见,来自剑桥大学等机构的研究者设计了一种新的 protocol 来构建一个代表更多语言和文化的 ImageNet 风格的层次结构,让概念和图像的选择完全由母语人士驱动,而不是自动抓取它们。具体来说,他们关注的是一组不同类型的语言,即印尼语、简体中文、斯瓦希里语、泰米尔语和土耳其语。我们通过要求注释者比较和对比图像对来引出母语描述,任务是确定这些基础描述是真是假。借助这种方法,他们创建了一个基于视觉、语言多元文化推理(Multicultural Reasoning over Vision and Language,MaRVL)的多语言数据集。
研究者使用 SOTA 模型创建了一系列基线并发现他们的跨语言迁移表现明显落后于英语的监督表现。这些结果促使研究者跳出一个狭窄的领域,重新评估当前 SOTA 模型的稳健性和准确性,但也为真正多语言和多元文化系统的发展带来了新的令人兴奋的挑战。
本文一作刘方宇是来自剑桥大学语言技术实验室的一名博士二年级学生,主攻 NLP,目前主要关注多模态、自监督、可解释性等方面的研究。
最佳短论文
论文:CHoRaL: Collecting Humor Reaction Labels from Millions of Social Media Users
作者:Zixiaofan Yang, Shayan Hooshmand and Julia Hirschberg
机构:哥伦比亚大学
论文摘要:幽默检测近年来受到越来越多的关注,因为人们希望理解用户用比喻语言生成的内容。然而,幽默感知的个体和文化差异非常大,使得收集具有可靠幽默标签的大规模幽默数据集变得非常困难。该研究提出了一个在 Facebook 帖子上生成感知幽默标签的框架,称为 CHoRaL。该框架使用自然可用的用户对帖子的反应,无需手动注释。CHoRaL 针对幽默和非幽默提供了二元标签和连续分数。该研究了提出了迄今为止最大的带有幽默标签的数据集,其中的数据来源于与 COVID-19 相关的 78.5 万篇帖子。此外,该研究通过从帖子中提取词汇语义和情感特征来分析社交媒体中与 COVID 相关的表达信息,并构建了性能与人类相似的幽默检测模型。CHoRaL 可以开发任何主题的大规模幽默检测模型,为社交媒体上的幽默研究开辟了一条新的途径。
本文一作杨子小帆是来自哥伦比亚大学口头语言处理组的博士生,本科就读于北京大学。她的研究兴趣主要集中在计算副语言学和跨语言自然语言处理。
杰出论文
论文 1:MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks
作者:Cristian-Paul Bara、Sky CH-Wang、Joyce Chai
机构:密歇根大学、哥伦比亚大学
论文链接:https://arxiv.org/abs/2109.06275
论文摘要:理想的自主智能体意味着它们能够以人类的方式进行协作。特别是「心智理论(theory of mind)」在人类的协作和交流中发挥着重要作用。为了在情境交互中实现心智理论建模,该研究通过让成对的人类主体在「我的世界」中玩游戏,提出了一个细粒度的协作任务数据集。随着游戏中互动的展开,该研究捕捉了合作伙伴对世界和彼此的信念的相关信息,为研究情境语言交流中的人类协作行为带来了丰富的机会。为了未来开发出能够推断协作伙伴信念状态的 AI 智能体,该研究针对几种心理任务理论构建并展示了计算模型及其结果。
论文 2:SituatedQA: Incorporating Extra-Linguistic Contexts into QA
作者:Michael Zhang、Eunsol Choi
机构:得克萨斯大学奥斯汀分校
论文链接:https://arxiv.org/abs/2109.06157
论文摘要:对同一问题的答案可能会根据语言外的语境(例如时间地点)而变化。为了研究这一挑战,该研究提出了一个开放式检索 QA 数据集 SITUATEDQA,其中系统必须在给定具体时间和地点等语境的情况下为问题生成正确答案。为了构建 SITUATEDQA,该研究首先在现有的 QA 数据集中找出一些问题。研究者发现很大一部分信息搜索问题的答案取决于语境。对于此类依赖语境的问题,该研究众包可替代语境及其相应答案。该研究表明,现有模型难以生成经常更新或不常见问题的正确答案。因此该研究进一步量化了现有模型是如何根据过去收集的数据进行训练的,即使提供了更新的语料库,也无法泛化地回答当前提出的问题。该研究的分析表明,开放检索 QA 基准应该包含语言外的语境,以保持与全局和未来的相关性。
论文 3:When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute
作者:Tao Lei
机构:ASAPP 公司
论文链接:https://arxiv.org/abs/2102.12459
由于计算时间和成本的增加,大型语言模型变得越来越难以训练。该研究提出了一种名为 SRU++ 的高效架构,结合了快速循环和序列建模的注意力。SRU++ 表现出强大的建模能力和训练效率。在 ENWIK8、WIKI-103 和 BILLION WORD 等数据集上的标准语言建模任务中,该模型获得了更好的 bpc(bits-per-character)和困惑度 ppl(perplexity)。同时,与表现最好的 Transformer 模型相比,该模型的训练成本仅为前者的 1/10 到 1/3。例如,该模型在 8-GPU 的机器上,在 ENWIK8 数据集上得到 SOTA 结果只用 了 1.6 天进行训练。该研究进一步证明了 SRU++ 达到接近 SOTA 的性能仅需要极少的注意力。该研究的结果表明联合利用快速循环和少量注意力将是用于加速模型训练和推理的一个重要方向。
论文 4:Shortcutted Commonsense: Data Spuriousness in Deep Learning of Commonsense Reasoning
作者:Ruben Branco、Antonio Branco、Joao Antonio Rodrigues、Joao Ricardo Silva
论文摘要:常识是一种典型的人类能力,自人工智能诞生以来,它一直是对人工智能的核心挑战。Transformer 神经语言模型在自然语言处理任务(包括常识推理)中取得了令人印象深刻的结果,甚至在某些基准测试中超过了人类的表现。最近,其中一些进展受到质疑:训练数据中所谓的数据伪影已经明显表现为虚假相关性和 shallow shortcuts,某种程度上造成了这些出色的结果。
在本文中,研究者试图将这种分析进一步深入到常识相关的语言处理任务领域,对涉及常识推理的各项基准进行了研究,并进行了一些关键的压力实验,从而深入了解模型是在学习问题内在的可迁移能力,还是仅仅利用数据中偶然的 shortcuts。
结果表明,大多数试验过的数据集都是有问题的,模型采用了非稳健特征,似乎没有学习和归纳到数据集传达或举例说明的整体任务。
最佳 Demo 论文
论文:Datasets: A Community Library for Natural Language Processing
作者:Quentin Lhoest, Albert Villanova del Moral, Yacine Jernite, Abhishek Thakur, Patrick von Platen, Suraj Patil, Julien Chaumond, Mariama Drame, Julien Plu, Lewis Tunstall, Joe Davison, Mario Šaško, Gunjan Chhablani, Bhavitvya Malik, Simon Brandeis, Teven Le Scao, Victor Sanh, Canwen Xu, Nicolas Patry, Angelina McMillan-Major, Philipp Schmid, Sylvain Gugger, Clément Delangue, Théo Matussière, Lysandre Debut, Stas Bekman, Pierric Cistac, Thibault Goehringer, Victor Mustar, François Lagunas, Alexander Rush and Thomas Wolf
机构:Hugging Face 论文链接:https://www.zhuanzhi.ai/paper/9bac41fa8e10d3f4952abb1469f1805c
论文摘要:随着新任务、大模型、新基准的不断提出,公共 NLP 数据集的规模、类型和数量正在迅速增长。但数据集的增长也带来了重大挑战,包括接口标准化、版本化和文档化。
为了克服这些挑战,Hugging Face 创建了一个名为 Datasets 的 NLP 社区库,旨在将终端用户接口、版本和文档标准化,同时提供轻量级前端,该前端对于小型数据集和互联网级别的数据库来说是差别不大的。该库的设计采用了分布式、社区驱动的方法来添加数据集并记录使用情况。经过一年的开发,该库已经拥有了 250 多个贡献者,还支持了很多新颖的跨数据集研究项目和共享任务。
参考链接:https://2021.emnlp.org/blog/2021-10-29-best-paper-awards