Contrastive learning has been applied successfully to learn vector representations of text. Previous research demonstrated that learning high-quality representations benefits from batch-wise contrastive loss with a large number of negatives. In practice, the technique of in-batch negative is used, where for each example in a batch, other batch examples' positives will be taken as its negatives, avoiding encoding extra negatives. This, however, still conditions each example's loss on all batch examples and requires fitting the entire large batch into GPU memory. This paper introduces a gradient caching technique that decouples backpropagation between contrastive loss and the encoder, removing encoder backward pass data dependency along the batch dimension. As a result, gradients can be computed for one subset of the batch at a time, leading to almost constant memory usage.


翻译:成功应用了反向学习来学习文字的矢量表达方式。 以前的研究表明,学习高质量的表述方式得益于分批法的对比性损失和大量负值。 实际上,使用批量负值技术,对每批中每个例子使用批次负值技术,其他批次实例的正数将被当作其负值,避免编码额外的负值。然而,这仍然使每个例在所有批次例子中都存在损失,需要将整批大批次的体积与GPU内存相匹配。 本文引入了一种梯度缓冲技术,在对比性损失和编码器之间进行反向调整,在批次中消除编码器后传数据依赖性。 因此,可以一次计算批次中某一组次的梯度,导致几乎连续的内存使用。

0
下载
关闭预览

相关内容

【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
5+阅读 · 2020年10月2日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
7+阅读 · 2020年8月7日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
相关论文
Arxiv
10+阅读 · 2021年3月30日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
5+阅读 · 2020年10月2日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
7+阅读 · 2020年8月7日
Top
微信扫码咨询专知VIP会员