Traditional approaches to RL have focused on learning decision policies directly from episodic decisions, while slowly and implicitly learning the semantics of compositional representations needed for generalization. While some approaches have been adopted to refine representations via auxiliary self-supervised losses while simultaneously learning decision policies, learning compositional representations from hand-designed and context-independent self-supervised losses (multi-view) still adapts relatively slowly to the real world, which contains many non-IID subspaces requiring rapid distribution shift in both time and spatial attention patterns at varying levels of abstraction. In contrast, supervised language model cascades have shown the flexibility to adapt to many diverse manifolds, and hints of self-learning needed for autonomous task transfer. However, to date, transfer methods for language models like few-shot learning and fine-tuning still require human supervision and transfer learning using self-learning methods has been underexplored. We propose a self-supervised loss policy called contrastive distillation which manifests latent variables with high mutual information with both source and target tasks from weights to tokens. We show how this outperforms common methods of transfer learning and suggests a useful design axis of trading off compute for generalizability for online transfer. Contrastive distillation is improved through sampling from memory and suggests a simple algorithm for more efficiently sampling negative examples for contrastive losses than random sampling.


翻译:传统LL方法侧重于直接从偶发决定中学习决策政策,而缓慢和隐含地学习一般化所需的组成代表的语义,虽然采用了一些方法,通过辅助性自我监督损失,同时学习决策政策,通过辅助性自我监督损失来完善表述,同时学习亲手设计、背景独立自我监督损失(多视角)的构成代表仍然相对缓慢地适应现实世界,其中有许多非II-II的子空间,要求在不同程度的抽象中,在时间和空间关注模式上迅速进行分配转移。相比之下,受监督的语言模型级联显示了适应多种不同多元模式的灵活性,以及自主任务转移所需的自学提示。然而,迄今为止,对少数光学和微调等语言模式的转移方法,仍然需要对人进行自我学习方法的监督和转让。 我们建议了一种自我监督性损失政策,称为对比性蒸馏法,它显示潜在的变量,从来源到目标任务从重量到标志的高度相互信息。我们展示了如何适应多种不同的多元模式,以及自主任务转移所需的自学暗示自学的自学自学和微调整的自采样式学习的自我分析方法,建议一个有用的通过自采样式分析法式分析法式的简单的自我分析法式分析分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析模型分析的实用性模型分析模型分析方法,建议。

0
下载
关闭预览

相关内容

专知会员服务
88+阅读 · 2021年6月29日
专知会员服务
25+阅读 · 2021年4月2日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年2月21日
Deep reinforcement learning from human preferences
Arxiv
0+阅读 · 2023年2月17日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
19+阅读 · 2020年7月21日
VIP会员
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员