人类视觉和自然语言的一个共同的基本特性是它们的组合性。然而,尽管大型视觉和语言预训练带来了性能提升,最近的研究发现,我们的大多数(如果不是全部)最先进的视觉-语言模型在组合性方面存在困难。它们无法区分“一个穿白衣面向一个穿黑衣的男人的女孩”和“一个穿黑衣面向一个穿白衣的男人的女孩”的图像。此外,先前的工作表明,组合性并不随着规模的增加而出现:更大的模型大小或训练数据并无帮助。本文开发了一种新的迭代训练算法,激励组合性。我们借鉴了数十年的认知科学研究,该研究认为文化传播——需要教育新一代——是激励人类发展组合语言的必要归纳先验。具体而言,我们将视觉-语言对比学习重新框定为视觉智能体和语言智能体之间的Lewis信号游戏,并通过在训练期间迭代重置其中一个智能体的权重来操作化文化传播。每次迭代后,这种训练范式诱导出的表示变得“更易于学习”,这是组合语言的一个属性:例如,我们在CC3M和CC12M上训练的模型在SugarCrepe基准测试中分别使标准CLIP提高了4.7%,4.0%。

成为VIP会员查看完整内容
15

相关内容

【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【NeurIPS2023】探索具有对抗环境设计的通用强化学习算法
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
46+阅读 · 2023年9月20日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
43+阅读 · 2023年9月8日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
156+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员