【CVPR2024】迭代学习在大型视觉-语言模型中提高了组合性 - 专知VIP

会员服务 ·

10

迭代学习 · CVPR 2024 · 大型语言模型 ·

2024 年 4 月 3 日

【CVPR2024】迭代学习在大型视觉-语言模型中提高了组合性

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人类视觉和自然语言的一个共同的基本特性是它们的组合性。然而，尽管大型视觉和语言预训练带来了性能提升，最近的研究发现，我们的大多数（如果不是全部）最先进的视觉-语言模型在组合性方面存在困难。它们无法区分“一个穿白衣面向一个穿黑衣的男人的女孩”和“一个穿黑衣面向一个穿白衣的男人的女孩”的图像。此外，先前的工作表明，组合性并不随着规模的增加而出现：更大的模型大小或训练数据并无帮助。本文开发了一种新的迭代训练算法，激励组合性。我们借鉴了数十年的认知科学研究，该研究认为文化传播——需要教育新一代——是激励人类发展组合语言的必要归纳先验。具体而言，我们将视觉-语言对比学习重新框定为视觉智能体和语言智能体之间的Lewis信号游戏，并通过在训练期间迭代重置其中一个智能体的权重来操作化文化传播。每次迭代后，这种训练范式诱导出的表示变得“更易于学习”，这是组合语言的一个属性：例如，我们在CC3M和CC12M上训练的模型在SugarCrepe基准测试中分别使标准CLIP提高了4.7%，4.0%。

成为VIP会员查看完整内容

16

相关内容

迭代学习

【ICML2024】通过代理基于的不确定性估计提高语言模型中的指令遵循性

【ICML2024】通过代理基于的不确定性估计提高语言模型中的指令遵循性

专知会员服务

11+阅读 · 2024年5月13日

【ICML2024】理解视觉语言模型的检索增强任务自适应

【ICML2024】理解视觉语言模型的检索增强任务自适应

专知会员服务

23+阅读 · 2024年5月8日

【NeurIPS 2023】高性能Transformer用于表格结构识别需要早期卷积

【NeurIPS 2023】高性能Transformer用于表格结构识别需要早期卷积

专知会员服务

27+阅读 · 2023年11月12日

【NeurIPS2023】将持续学习重新定义为序列建模

【NeurIPS2023】将持续学习重新定义为序列建模

专知会员服务

35+阅读 · 2023年10月19日

【NeurIPS2023】探索具有对抗环境设计的通用强化学习算法

【NeurIPS2023】探索具有对抗环境设计的通用强化学习算法

专知会员服务

35+阅读 · 2023年10月8日

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

专知会员服务

47+阅读 · 2023年9月20日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

47+阅读 · 2023年9月8日

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

专知会员服务

32+阅读 · 2023年5月19日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Revolutionizing Modern Networks: Advances in AI, Machine Learning, and Blockchain for Quantum Satellites and UAV-based Communication

Arxiv

32+阅读 · 2023年3月21日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

VIP会员

相关主题

大型语言模型

相关VIP内容

【ICML2024】通过代理基于的不确定性估计提高语言模型中的指令遵循性

【ICML2024】通过代理基于的不确定性估计提高语言模型中的指令遵循性

专知会员服务

11+阅读 · 2024年5月13日

【ICML2024】理解视觉语言模型的检索增强任务自适应

【ICML2024】理解视觉语言模型的检索增强任务自适应

专知会员服务

23+阅读 · 2024年5月8日

【NeurIPS 2023】高性能Transformer用于表格结构识别需要早期卷积

【NeurIPS 2023】高性能Transformer用于表格结构识别需要早期卷积

专知会员服务

27+阅读 · 2023年11月12日

【NeurIPS2023】将持续学习重新定义为序列建模

【NeurIPS2023】将持续学习重新定义为序列建模

专知会员服务

35+阅读 · 2023年10月19日

【NeurIPS2023】探索具有对抗环境设计的通用强化学习算法

【NeurIPS2023】探索具有对抗环境设计的通用强化学习算法

专知会员服务

35+阅读 · 2023年10月8日

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

专知会员服务

47+阅读 · 2023年9月20日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

47+阅读 · 2023年9月8日

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

专知会员服务

32+阅读 · 2023年5月19日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】通过真实世界实践赋能机器人自主性

军用无人机集群技术尚未成熟——但潜力可期

人工智能安全治理白皮书（2025）

AgentOps综述：分类、挑战与未来方向

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Revolutionizing Modern Networks: Advances in AI, Machine Learning, and Blockchain for Quantum Satellites and UAV-based Communication

Arxiv

32+阅读 · 2023年3月21日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

微信扫码咨询专知VIP会员