In this paper we improve the zero-shot generalization ability of language models via Mixture-Of-Memory Augmentation (MoMA), a mechanism that retrieves augmentation documents from multiple information corpora ("external memories"), with the option to "plug in" new memory at inference time. We develop a joint learning mechanism that trains the augmentation component with latent labels derived from the end retrieval task, paired with hard negatives from the memory mixture. We instantiate the model in a zero-shot dense retrieval setting by augmenting a strong T5-based retriever with MoMA. Our model, MoMA, obtains strong zero-shot retrieval accuracy on the eighteen tasks included in the standard BEIR benchmark. It outperforms systems that seek generalization from increased model parameters and computation steps. Our analysis further illustrates the necessity of augmenting with mixture-of-memory for robust generalization, the benefits of augmentation learning, and how MoMA utilizes the plug-in memory at inference time without changing its parameters. We plan to open source our code.


翻译:在本文中,我们通过Mixture-of-Memory Agressmentation(MoMA)改进语言模型的零光概括能力,Mixture-of-Memory Agentation(MOMA)是一个从多个信息公司(“外部记忆”)检索增强文件的机制,在推论时间选择“插入”新的内存。我们开发了一个联合学习机制,用来自最终检索任务的潜在标签来训练扩增部分,同时配有来自记忆混合物的硬性负值。我们通过增强一个以T5为基础的强力检索器,在零光密的检索环境中对模型进行即时回调。我们的模型,MoMA,在BEIR标准基准中包含的十八项任务上获得了强烈的零速检索精准度。它优于从增加的模型参数和计算步骤中求出“插入”的系统。我们的分析进一步说明,有必要用混合的模拟来进行扩增扩增,增强学习的好处,以及MoMA如何在不改变参数的情况下在推断时利用插存储器的记忆。我们计划打开我们的代码。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
16+阅读 · 2021年11月27日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
10+阅读 · 2017年12月29日
VIP会员
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
相关论文
Arxiv
16+阅读 · 2021年11月27日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
10+阅读 · 2017年12月29日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员