基于 Transformer 的排名模型
基于对抗学习样本的对比学习
基于 Kornia 的可微数据增广方法
用问答模型解决自然语言理解任务
无监督表示学习
本文是何恺明关于无监督表示学习的一篇新工作,非常值得一读。本文主要针对应用非常普遍的孪生网络(Siamese Network)进行分析,以目前非常火的对比学习为例,孪生网络使用一个相同的网络处理同一个输入的两个不同表示,通过拉近两个 positive pair 的表示,拉远两个 negative pair 之间的表示,从而学习到输入中的不变性,从而更好地学习到输入的表示。而本文通过实验分析得出在孪生网络中发挥最重要作用的就是孪生网络的结构,其他一些方法的作用并没有那么大。
除此之外,作者还提出了一种“stop-gradient”的算法,该算法主要对模型的 loss 反馈时,通过梯度终止的机制,使得只更新其中一个 encoder,实现了对孪生网络中的崩溃解(collapsing)很好的避免。而且这种简单的结构能够在 ImageNet 和下游任务取得非常好的效果。为了证明这种算法的有效性,作者进行了大量的实验,充分证明该算法的优越性。而且作者还深入讨论了文中提出的算法到底在优化模型的哪些地方。方法简单,效果有效,值得认真读一下的大作。
NLP中的强化学习
本文是谷歌和海德堡大学发表于 NeurIPS 2020 的工作。这是一篇探索性的文章,主要是针对 NLP 中的强化学习,分析了使用真实世界的 log 信息来辅助强化学习(sequence to sequence learning)存在的问题。作者认为真实世界的 NLP 系统收集了大量的与用户交互的日志信息,例如在自动翻译中,用户可以反馈翻译的质量,同时使用简单的一些操作提升翻译的质量。但考虑到线上系统的一些要求和限制,在线利用这些反馈来更新强化学习系统存在一定的问题,因此本文关注的主要是 NLP 中针对强化学习的反馈离线利用。
作者整理了几个利用这些人机交互的日志反馈来提升系统性能目前所存在的挑战,最主要有 deterministic logging 和 reliable data 问题。前者主要分析为了不将探索性的较差的结果提供给用户,RL 系统更倾向于提供最可能的结果,限制了 RL 的探索和性能。后者主要关注于数据的可信性以及可用性问题。并不是所有的反馈数据都是有效数据,因此如何决定数据的质量也是一个非常大的挑战。具体细节和特定的挑战内容可以阅读原文。这篇文章可以看作为未来利用真实交互日志进行 RL 提供了一些可能的研究方向。
基于Transformer的排名模型
本文是 CMU 发表于 EMNLP 2020 的工作。基于 Transformer 的排名模型的最新创新推动了信息检索的最新发展。但是,这些 transformer 在计算上很昂贵,并且它们不透明的隐藏状态使其难以理解排名过程。
在这项工作中作者们将 Transformer ranker 模块化为单独的模块,以进行文本表示和交互。作者将展示该设计如何使用离线预计算表示和轻量级在线交互来显着加快排名。模块化设计也更易于解释,并为 Transformer 排名中的排名过程提供了启示。作者在大型监督排名数据集上的实验证明了 MORES 的有效性和效率。它与最先进的 BERT 排名器一样有效,并且排名速度最高可提高 120 倍。
大规模预训练模型新范式
本文是清华大学刘知远老师组发表于 EMNLP 2020 的工作,这篇文章又一次说明了 Do Not Stop Pre-training 的重要性。以往使用预训练模型都是按照 pre-train+fine-tune 的范式两步走,但是 fine-tune 的时候常常因为标注的数据量不足而无法完全发挥 pre-train 模型的全部性能。
因此本文提出了一种在 pre-train 和 fine-tune 之间加入一个 Selective Masking 的预训练阶段。顾名思义,在这个新的预训练阶段中,模型会去预测那些对于模型来说重要的词。在这个阶段使用的是 in-domain 的数据,可以使预训练模型更好的适应下游任务。在两个句子分析任务上的实验结果表明,本文方法可以在计算量不到 50% 的情况下达到和原模型相当甚至更好的性能,表明本文的方法是有效的。
基于对抗学习样本的对比学习
本文是 UCSD 发表于 NeurIPS 2020 的工作。该论文是关于对比学习的文章。对比学习(CL)是一种流行的视觉表征自监督学习(SSL)技术。它利用未标记训练样本对的增广来定义一个分类任务。
尽管在增强过程中做了大量的工作,但是之前的工作并没有解决如何选择具有挑战性的负片对,因为采样批中的图像是独立处理的。本文通过引入一系列新的对抗学习样本来解决这一问题,并利用这些实例定义了一种新的 SSL 对抗性训练算法 CLAE。CLAE 与文献中的许多 CL 方法兼容。实验表明,该方法提高了现有的多个 CL 基线在多个数据集上的性能。
预训练语言模型
本文来自 UIUC 和微软。近年来有研究表明,BERT 和 RoBERTa 之类的大规模预训练语言模型容易受到文 word-level 的对抗攻击。本文旨在从信息理论的角度解决这个问题,并提出 InfoBERT 这种全新的学习框架,用于对预训练语言模型进行微调。
基于Kornia的可微数据增广
自然语言理解
本文来自亚马逊 AI,题目起的跟 attention is all you need 类似,很吸引人。具体而言,本文研究的是 transfer learning,提出了自然语言理解的很多任务都可以使用问答模型进行解决。
这个思路有点类似于预训练模型的使用方法。首先在源域训练一个问答模型,这里的源域就是一个问答数据集,然后针对目标域的任务,作者在该文章主要考虑两个任务:第一个是 slot detection,即针对特定属性的一个问答,第二个是 intent detection,通过在句子开头加上 Yes 或者 No 将其转换为一个问答问题,这样 NLU 就转换为了 QA 问题。然后就将训练好的 QA 模型在这个 transfer 之后的目标域进行微调,从而实现效果的提升,另外作者还发现经过微调的模型,在问答上的性能也会有所提高。
除此之外,作者还提出了一个序列化的迁移学习,即不断将目标域的任务 transfer 到源域的问答上,然后一步步微调 QA 模型。
更多阅读
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。