作为人类,我们通过对“世界如何运作”的丰富心智表征来赋予词语和物体以意义。通过处理我们的感官所接收的感知输入并与我们的环境互动,我们获得了对世界中概念的扎实表征,并将其映射到语言中的词语以便彼此交流。最近在人工智能领域的进步得益于构建了一个压缩但复杂的世界观的深度神经网络。这个过程被称为表征学习(representation learning),现在通常与一个称为预训练(pretraining)的学习阶段联系在一起,旨在通过接触大量数据来获得通用的理解。虽然取得了成功,但表征学习的大部分工作都集中在单一模态的数据上(例如,文本、图像、视频、语音)。例如,语言模型是在大量文本上训练的,这与年幼儿童在学习语言之前学习对世界的常识性心智模型的方式不同。作为回应,本篇论文提出了对从多种模态中学习意义表征的新兴框架的关键和深入研究,特别是视觉和语言。多模态表征学习是实现人类形式人工智能的一个有希望的方向,使机器能够解释和推理多模态信号,并获得与我们相一致的世界知识。

在整篇论文中,我们旨在深入理解在从互联网上收集的非常大的数据集上训练的多模态网络。我们首先评估在受控设置中导致强大、通用模型的关键因素,并通过一种新颖的数据中心方法检查网络表征是否确实是跨模态的。然后,我们深入研究多模态表征在进行视觉和文本模态之间的细粒度映射方面的能力。我们的调查显示了多样化、以对象为中心的数据的重要性,并引导我们走向新的关系感知方法,以增强多模态对齐。最后,我们仔细审视社区用于衡量预训练多模态网络性能的典型基准测试实践。我们构建了数据集和评估套件,揭示了最先进的多模态表征无法理解地理上多样的数据和语言的能力,并鼓励研究社区开发在不同人群中表现一致的多模态技术。

成为VIP会员查看完整内容
65

相关内容

【NTU博士论文】机器学习泛化性因果视角,200页pdf
专知会员服务
37+阅读 · 2023年12月25日
【MIT博士论文】高效可靠深度学习的共形方法,213页pdf
专知会员服务
39+阅读 · 2023年11月12日
【博士论文】因果发现与预测:方法与算法,101页pdf
专知会员服务
57+阅读 · 2023年9月24日
【MIT博士论文】控制神经语言生成,147页pdf
专知会员服务
21+阅读 · 2022年9月2日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员