近日,机器学习顶会 ICML 结束了 2020 年的论文投稿,作为最“硬核”的机器学习会议之一,ICML 对 NLP 领域的文章接受率历年来一直偏低。
由于 ICML 并没有硬性限制投稿论文在 ArXiv 上的发表,所以部分投稿文章也提前地放到了 ArXiv 上。
今天,我们借此机会推荐几篇放到 ArXiv 上的 ICML 投稿文章,一窥 ICML 中的 NLP 投稿文章究竟有何画风。
#Neural Machine Translation
该方法能在训练和推理的时候,使得当前位置的字符,都能基于不同的上下文去做生成,这样就更加有效地利用了“不同字符的生成难度不同”这个假设。
实验表明,该方法相比过去的“迭代修改”非自回归生成方法生成效率更高,并且能取得非常好的效果。
* Parallel Machine Translation with Disentangled Context Transformer
* 论文链接:https://www.paperweekly.site/papers/3438
本文摒弃过去线性多任务学习的方法去进一步训练模型,而是为不同的训练任务,配置不同的学习器,每个学习器学习一种知识,且相互独立。
在学习器学习某一种知识的时候,预训练模型的参数保持固定,这样就可以缓解“知识遗忘”的问题。
本文方法在实体分类、问答等任务上取得了显著的效果提升,在一定程度上表明该方法可以增强模型的知识建模能力。
* K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters
* 论文链接:
https://www.paperw
eekly.site/p
apers/3439
#Neural Machine Translation
这篇文章同样是探究了非自回归机器翻译的问题。本文使用了两种策略:“环顾解码”和“字典关注”。
前者是在解码的时候,在独立预测每个位置的字符之前,首先预测它左右位置的字符,然后再根据这种提前预测的结果,去指导当前位置的预测。
后者是在解码器的每一层,在每个位置都去关注字典中的每个字符,得到关于该位置“期望生成哪些字符”的先验,从而减少在解码时重复生成的情况。
本文实验表明这种方法的联合使用可以取得效果和效率的兼收,实现当前非自回归生成的最佳结果。
* LAVA NAT: A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention
* 论文链接:https://www.paperweekly.site/papers/3440
#Neural Machine Translation
对于两类无监督机器翻译,即(1)完全无监督,即不存在任意平行语料;(2)部分无监督,存在一对语言的平行语料,本文把它们都统一到了一个概率模型框架之下。
本文的主要方法是使用“反向翻译”和“跨语言翻译”两种技术,前者把语言A翻译为语言 B,再把语言 B 翻译回语言 A,最小化它和源语言的“距离”。
后者假设语言 A-B 存在平行语料,而 C 不和 A,B 存在平行语料,那么就需要把语言 A 翻译为 C,再从 C 翻译回 B,再最小化 A,B 平行语料的“距离”。本文在多语言无监督翻译下取得显著的效果。
* A Multilingual View of Unsupervised Machine Translation
* 论文链接:https://www.paperweekly.site/papers/3441
#Language Model
这篇论文研究了语言生成模型中解码时一个常见的问题:无限生成。无限生成就是模型解码时会不断循环生成一段序列(或者可以成为循环节),而常常这个循环节就是一个字符,比如“no”,“you”等等。
而另一方面,生成的结束以生成特殊符号 < EOS > 为记号,从而模型永远都无法结束,也就是会无限生成下去。
本文将这个问题正式化,研究了在何种情况下产生的可能性,并且提出了一种新的解码方式——随着时间步的增加,模型生成 < EOS > 的概率逐渐增大,这样,模型就一定能在某个时间结束生成。
* Consistency of a Recurrent Language Model With Respect to Incomplete Decoding
* 论文链接:https://www.paperweekly.site/papers/3442
本文把已有的若干解码方式,如从左到右、从右到左、从简单到复杂、迭代修改、插入删除等,统一到一个解码框架之下,统一得到表示。
这个解码框架可以表达自回归生成、半自回归生成和非自回归生成,要得到不同的生成方式,只需要控制其中的采样策略即可。
当然,不同的采样策略也有各自的学习方式。用这种统一的框架去进行各种方式的生成,可以得到比较好的效果。
* A Generalized Framework of Sequence Generation with Application to Undirected Sequence Models
* 论文链接:https://www.paperweekly.site/papers/3443
#Language Model Pre-Training
本文对开放领域的问答(Open-QA)提出一种简单有效的预训练方法。
模型首先从无标注文档中提出一句话,随机抹去其中的部分字符,然后根据被掩码后的句子,从文档集中提取最符合的文档,二者再拼接起来送入模型,预测被掩码的那些字符。
在预测的时候,也是首先把问题送入模型,得到最符合的文档,再一起送入模型,从文档中抽取 span 作为答案。
此外,本文还提出一些其他技巧用于加速训练、增强训练效果。实验表明,这种方法能比之前的最好结果有大幅增加。
* REALM: Retrieval-Augmented Language Model Pre-Training
* 论文链接:https://www.paperweekly.site/papers/3444
众所周知,尽管 self-attention 效果非常哇塞,但是它的一个问题是,它的时间复杂度为
,也即字符数的平方级。
虽然也有一些其他工作试图降低这个复杂度,但在保持效果的同时做到最好的就是动态卷积的 O(k⋅n)。
本文提出一种自适应的卷积方法,每一个时间步都能自动地选择卷积核大小,并且更厉害的是,其时间复杂度达到了 O(n)。实验表明,它可以显著提高文本生成的速度,并且还能取得非常好的效果。
* Time-aware Large Kernel Convolutions
* 论文链接:https://www.paperweekly.site/papers/3445
#Language Model
本文提出一种新型的语言模型——填空语言模型
,即对当前句子,有一些位置是空白“__”,对每个空白,模型需要去补充空白处缺省的词,并且做出四个选择:(1)不变,(2)左边增加一个空白,(3)右边增加一个空白,(4)左右都增加一个空白。
从而,模型可以生成任意长度、任意顺序的语句,类似插入的方法。在语言模型、文本填空、古代文本还原和情感迁移四个任务上,该方法具有一定的优越性。
* 论文链接:https://www.paperweekly.site/papers/3446
小结
从上述九篇文章中可以看到,投稿到 ICML 的 NLP 领域的文章要么具有比较理论的分析(在介绍中我们略去了这点),要么有比较“异想天开”的想法去解决某些问题,要么就是方法简单但真正有用,并且,鲜有非常应用的论文,这些都是比较“ICML”的文章风格。
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 获取更多论文推荐