ICLR2020 NLP优秀论文分享(附源码)

2020 年 6 月 7 日 深度学习自然语言处理

点击上方,选择星标置顶,每天给你送干货

阅读大概需要5分钟

跟随小博主,每天进步一丢丢


来自 | 知乎

地址 | https://zhuanlan.zhihu.com/p/139069973

作者 | 清华阿罗

编辑 | 机器学习算法与自然语言处理公众号

本文仅作学术分享,若侵权,请联系后台删文处理


1.REFORMER:THE EFFICIENT TRANSFORMER[1]

论文小结:作者提出了一种新的转换器模型,对体系架构进行了两项重大改进:1)使用可逆层以防止需要存储所有层的激活来进行反向传播;2)使用局部敏感哈希来估算耗时间的softmax计算。该Reformer的性能与SOTA Transformer模型相当,但内存效率更高,长序列的速度更快。

代码地址:google/trax

2.ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations[2]

论文小结:ALBERT是BERT的扩展,它试图回答一个问题,即较大的模型是否可以解决NLP任务?Albert通过跨层参数共享获得SOTA结果。通过共享参数,ALBERT可以变小并具有相似的性能。采用更多参数,ALBERT的表现更好,但其训练速度仍比BERT快。当训练时间相同,ALBERT的表现要好于BERT。这些结果表明单纯构建更复杂、更大、更深的模型并不总是提高模型性能的最佳方法。

代码地址:google-research/albert

3.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators[3]

论文小结: 预训练语言模型的常见操作是mask输入,并让模型预测被mask的内容。本文介绍了一种称为令牌检测的新的预训练方法。在新方法中,作者从生成器中采样来替代某些令牌,然后训练一个鉴别器来预测生成器是否替换了输入中的每个令牌。论文操作方法的数据效率更高,比以往方法提高了约15%。它表明在如何训练语言模型方面还有更多的创造空间。

代码地址:github.com/google-resea

4.Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue[4]

论文小结:本文提出了一种用于开放域对话知识选择的新方法,称为序列隐模型,该模型将知识历史表示为某种隐表示。这样做是因为跟踪知识历史记录可减少因会话的知识选择差异而引起的歧义,但也可以帮助更好地使用信息反馈。这项工作表明,改进知识选择可以大大提高响应生成质量。这对构建更强大的对话应用程序产生影响。

代码地址:bckim92/sequential-knowledge-transformer

5.A Probabilistic Formulation of Unsupervised Text Style Transfer[5]

论文小结:作者提出一种无监督文本样式转换的概率模型。该方法大致想法是通过使用来自两个域的非并行数据作为部分观察到的并行语料库。作者提出的模型可以学习将序列从一个域转换为另一域。通过生成并行隐序列,模型能以无监督的方式学习该序列。文章表明在无监督的情感转换、作者模仿和机器翻译等领域取得效果。本文介绍的方法不需要成对的训练数据,这使得数据收集更加容易。

代码地址:github.com/cindyxinyiwa

6.The Curious Case of Neural Text Degeneration[6]

论文小结:论文作者提出了一种新的解码策略,即核心采样、同时截去尾部概率分布,从包含绝大多数概率质量的令牌动态核中采样。与直觉相反的经验观察结果是,即使针对多样语言理解任务,使用似然作为训练目标能提供高模型质量,但作为解码目标,似然会导致文本理解乏味且重复。论文表明即使在最新的语言模型中,文本退化也是一个问题。对于各种NLP任务,解码策略对于类人的文本生成很重要。去掉beam search之类的贪婪算法将有助于执行下游任务。

代码地址:ari-holtzman/degen

7.What Can Neural Networks Reason About[7]

论文小结: 本文介绍了一种称为算法alignment的框架,用于评估神经网络在推理任务上的表现。与已知算法解决方案作align的神经网络能够更好地学习这些解决方案。该框架大致认为,要使模型能够学习并成功地概括推理任务,它需要简单学习(近似)推理任务的步骤。作者提出图神经网络非常适合,因此可以学习解决动态编程问题。这是一篇晦涩的理论论文,解释了人们一直在凭直觉做出的架构选择,并为以后研究并探索新架构来更好地适应机器学习任务奠定基础。

代码地址:github.com/NNReasoning/


参考

  1. ^https://arxiv.org/pdf/2001.04451.pdf

  2. ^https://arxiv.org/pdf/1909.11942.pdf

  3. ^https://arxiv.org/pdf/2003.10555.pdf

  4. ^https://arxiv.org/pdf/2002.07510.pdf

  5. ^https://arxiv.org/pdf/2002.03912.pdf

  6. ^https://arxiv.org/pdf/1904.09751.pdf

  7. ^https://arxiv.org/pdf/1905.13211.pdf


添加个人微信,备注: 昵称-学校(公司)-方向 即可获得
1. 快速学习深度学习五件套资料
2. 进入高手如云DL&NLP交流群
记得备注呦


登录查看更多
1

相关内容

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
49篇ICLR2020高分「图机器学习GML」接受论文及代码
专知会员服务
61+阅读 · 2020年1月18日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【ICLR2020】五篇Open代码的GNN论文
专知会员服务
47+阅读 · 2019年10月2日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
请收下这份 NLP 热门词汇解读
人工智能头条
6+阅读 · 2019年4月4日
清华大学NLP组年末巨献:机器翻译必读论文列表
机器之心
13+阅读 · 2018年12月30日
<论文分享> NLP领域最新论文分享-1123
深度学习与NLP
9+阅读 · 2018年11月23日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
7+阅读 · 2018年8月28日
VIP会员
相关VIP内容
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
49篇ICLR2020高分「图机器学习GML」接受论文及代码
专知会员服务
61+阅读 · 2020年1月18日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【ICLR2020】五篇Open代码的GNN论文
专知会员服务
47+阅读 · 2019年10月2日
相关论文
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
7+阅读 · 2018年8月28日
Top
微信扫码咨询专知VIP会员