本周值得读：ICML 2020 的 NLP 投稿论文抢先看

会员服务 ·

本周值得读：ICML 2020 的 NLP 投稿论文抢先看

2020 年 2 月 20 日 PaperWeekly

近日，机器学习顶会 ICML 结束了 2020 年的论文投稿，作为最“硬核”的机器学习会议之一，ICML 对 NLP 领域的文章接受率历年来一直偏低。

由于 ICML 并没有硬性限制投稿论文在 ArXiv 上的发表，所以部分投稿文章也提前地放到了 ArXiv 上。

今天，我们借此机会推荐几篇放到 ArXiv 上的 ICML 投稿文章，一窥 ICML 中的 NLP 投稿文章究竟有何画风。

#Neural Machine Translation

我们之前介绍过这篇文章：DisCo: 显著减少推理时间的非自回归机器翻译模型。这篇文章提出了一种新的“迭代修改”式的非自回归机器翻译方法——DisCo。

该方法能在训练和推理的时候，使得当前位置的字符，都能基于不同的上下文去做生成，这样就更加有效地利用了“不同字符的生成难度不同”这个假设。

实验表明，该方法相比过去的“迭代修改”非自回归生成方法生成效率更高，并且能取得非常好的效果。

* Parallel Machine Translation with Disentangled Context Transformer

* 论文链接：https://www.paperweekly.site/papers/3438

#Language Model

第二篇文章我们上周也已经介绍过：让预训练模型学习知识：使用多学习器增强知识建模能力，目的是增强预训练模型的语言知识建模能力。

本文摒弃过去线性多任务学习的方法去进一步训练模型，而是为不同的训练任务，配置不同的学习器，每个学习器学习一种知识，且相互独立。

在学习器学习某一种知识的时候，预训练模型的参数保持固定，这样就可以缓解“知识遗忘”的问题。

本文方法在实体分类、问答等任务上取得了显著的效果提升，在一定程度上表明该方法可以增强模型的知识建模能力。

* K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters

* 论文链接： https://www.paperw eekly.site/p apers/3439

#Neural Machine Translation

这篇文章同样是探究了非自回归机器翻译的问题。本文使用了两种策略：“环顾解码”和“字典关注”。

前者是在解码的时候，在独立预测每个位置的字符之前，首先预测它左右位置的字符，然后再根据这种提前预测的结果，去指导当前位置的预测。

后者是在解码器的每一层，在每个位置都去关注字典中的每个字符，得到关于该位置“期望生成哪些字符”的先验，从而减少在解码时重复生成的情况。

本文实验表明这种方法的联合使用可以取得效果和效率的兼收，实现当前非自回归生成的最佳结果。

* LAVA NAT: A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention

* 论文链接：https://www.paperweekly.site/papers/3440

#Neural Machine Translation

本文研究了多语种无监督翻译的概率模型框架。

对于两类无监督机器翻译，即（1）完全无监督，即不存在任意平行语料；（2）部分无监督，存在一对语言的平行语料，本文把它们都统一到了一个概率模型框架之下。

本文的主要方法是使用“反向翻译”和“跨语言翻译”两种技术，前者把语言A翻译为语言 B，再把语言 B 翻译回语言 A，最小化它和源语言的“距离”。

后者假设语言 A-B 存在平行语料，而 C 不和 A,B 存在平行语料，那么就需要把语言 A 翻译为 C，再从 C 翻译回 B，再最小化 A,B 平行语料的“距离”。本文在多语言无监督翻译下取得显著的效果。

* A Multilingual View of Unsupervised Machine Translation

* 论文链接：https://www.paperweekly.site/papers/3441

#Language Model

这篇论文研究了语言生成模型中解码时一个常见的问题：无限生成。无限生成就是模型解码时会不断循环生成一段序列（或者可以成为循环节），而常常这个循环节就是一个字符，比如“no”，“you”等等。

而另一方面，生成的结束以生成特殊符号 < EOS > 为记号，从而模型永远都无法结束，也就是会无限生成下去。

本文将这个问题正式化，研究了在何种情况下产生的可能性，并且提出了一种新的解码方式——随着时间步的增加，模型生成 < EOS > 的概率逐渐增大，这样，模型就一定能在某个时间结束生成。

* Consistency of a Recurrent Language Model With Respect to Incomplete Decoding

* 论文链接：https://www.paperweekly.site/papers/3442

#Sequence Labeling

本文把已有的若干解码方式，如从左到右、从右到左、从简单到复杂、迭代修改、插入删除等，统一到一个解码框架之下，统一得到表示。

这个解码框架可以表达自回归生成、半自回归生成和非自回归生成，要得到不同的生成方式，只需要控制其中的采样策略即可。

当然，不同的采样策略也有各自的学习方式。用这种统一的框架去进行各种方式的生成，可以得到比较好的效果。

* A Generalized Framework of Sequence Generation with Application to Undirected Sequence Models

* 论文链接：https://www.paperweekly.site/papers/3443

#Language Model Pre-Training

本文对开放领域的问答（Open-QA）提出一种简单有效的预训练方法。 模型首先从无标注文档中提出一句话，随机抹去其中的部分字符，然后根据被掩码后的句子，从文档集中提取最符合的文档，二者再拼接起来送入模型，预测被掩码的那些字符。

在预测的时候，也是首先把问题送入模型，得到最符合的文档，再一起送入模型，从文档中抽取 span 作为答案。

此外，本文还提出一些其他技巧用于加速训练、增强训练效果。实验表明，这种方法能比之前的最好结果有大幅增加。

* REALM: Retrieval-Augmented Language Model Pre-Training

* 论文链接：https://www.paperweekly.site/papers/3444

#Deformable Convolution

众所周知，尽管 self-attention 效果非常哇塞，但是它的一个问题是，它的时间复杂度为

，也即字符数的平方级。

虽然也有一些其他工作试图降低这个复杂度，但在保持效果的同时做到最好的就是动态卷积的 O(k⋅n)。

本文提出一种自适应的卷积方法，每一个时间步都能自动地选择卷积核大小，并且更厉害的是，其时间复杂度达到了 O(n)。实验表明，它可以显著提高文本生成的速度，并且还能取得非常好的效果。

* Time-aware Large Kernel Convolutions

* 论文链接：https://www.paperweekly.site/papers/3445

#Language Model

本文提出一种新型的语言模型——填空语言模型 ，即对当前句子，有一些位置是空白“__”，对每个空白，模型需要去补充空白处缺省的词，并且做出四个选择：（1）不变，（2）左边增加一个空白，（3）右边增加一个空白，（4）左右都增加一个空白。

从而，模型可以生成任意长度、任意顺序的语句，类似插入的方法。在语言模型、文本填空、古代文本还原和情感迁移四个任务上，该方法具有一定的优越性。

* Blank Language Models

* 论文链接：https://www.paperweekly.site/papers/3446

小结

从上述九篇文章中可以看到，投稿到 ICML 的 NLP 领域的文章要么具有比较理论的分析（在介绍中我们略去了这点），要么有比较“异想天开”的想法去解决某些问题，要么就是方法简单但真正有用，并且，鲜有非常应用的论文，这些都是比较“ICML”的文章风格。

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 获取更多论文推荐

登录查看更多

相关内容

ICML

关注 422

ICML 是 International Conference on Machine Learning的缩写，即国际机器学习大会。ICML如今已发展为由国际机器学习学会（IMLS）主办的年度机器学习国际顶级会议。

近期必读的六篇顶会 ICML 2020【图神经网络 (GNN) 】相关论文

专知会员服务

143+阅读 · 2020年6月23日

近期必读的五篇顶会 ACL 2020【图神经网络 (GNN) 】相关论文

专知会员服务

105+阅读 · 2020年6月9日

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

专知会员服务

52+阅读 · 2020年6月1日

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

专知会员服务

97+阅读 · 2020年4月10日

近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2

专知会员服务

70+阅读 · 2020年4月7日

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

专知会员服务

134+阅读 · 2020年2月13日

17篇知识图谱Knowledge Graphs论文 @AAAI2020

专知会员服务

172+阅读 · 2020年2月13日

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知会员服务

60+阅读 · 2019年11月23日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

开学综合症有救了！17篇最新AI论文不容错过（附链接）

数据派THU

4+阅读 · 2019年3月4日

开学综合症有救了！17篇最新AI论文不容错过

PaperWeekly

6+阅读 · 2019年3月1日

AAAI 2019：一文看全微软亚洲研究院 27 篇重点论文

新智元

3+阅读 · 2019年1月26日

本周NLP、CV、机器学习论文精选推荐

PaperWeekly

8+阅读 · 2018年12月21日

论文浅尝 | 近期论文精选

开放知识图谱

5+阅读 · 2018年7月8日

还在熬夜憋思路？这12篇最新论文打包送给你 | 本周值得读

PaperWeekly

10+阅读 · 2018年6月4日

15 篇最新 AI 论文来袭！NLP、CV...人人有份 | 本周值得读

PaperWeekly

6+阅读 · 2018年5月16日

论文 | 15篇近期值得读的AI论文

黑龙江大学自然语言处理实验室

16+阅读 · 2018年2月12日

2017年度NLP领域论文TOP10（附链接）

数据派THU

6+阅读 · 2018年2月11日

8篇高质量论文已为你打包完毕 | 本周值得读 #41

PaperWeekly

3+阅读 · 2017年7月15日

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

Incorporating Domain Knowledge into Medical NLI using Knowledge Graphs

Arxiv

4+阅读 · 2019年8月31日

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Neural Speech Synthesis with Transformer Network

Arxiv

5+阅读 · 2019年1月30日

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

Semantically Enhanced Models for Commonsense Knowledge Acquisition

Arxiv

3+阅读 · 2018年9月27日

Hypernetwork Knowledge Graph Embeddings

Arxiv

7+阅读 · 2018年8月28日

Analyzing Language Learned by an Active Question Answering Agent

Arxiv

6+阅读 · 2018年1月23日

Efficient Parallel Translating Embedding For Knowledge Graphs

Arxiv

9+阅读 · 2018年1月9日

VIP会员