【博士论文】大规模多模态表示学习，329页pdf - 专知VIP

会员服务 ·

42

多模态表示学习 · 博士论文 ·

2024 年 1 月 27 日

【博士论文】大规模多模态表示学习，329页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

作为人类，我们通过对“世界如何运作”的丰富心智表征来赋予词语和物体以意义。通过处理我们的感官所接收的感知输入并与我们的环境互动，我们获得了对世界中概念的扎实表征，并将其映射到语言中的词语以便彼此交流。最近在人工智能领域的进步得益于构建了一个压缩但复杂的世界观的深度神经网络。这个过程被称为表征学习（representation learning），现在通常与一个称为预训练（pretraining）的学习阶段联系在一起，旨在通过接触大量数据来获得通用的理解。虽然取得了成功，但表征学习的大部分工作都集中在单一模态的数据上（例如，文本、图像、视频、语音）。例如，语言模型是在大量文本上训练的，这与年幼儿童在学习语言之前学习对世界的常识性心智模型的方式不同。作为回应，本篇论文提出了对从多种模态中学习意义表征的新兴框架的关键和深入研究，特别是视觉和语言。多模态表征学习是实现人类形式人工智能的一个有希望的方向，使机器能够解释和推理多模态信号，并获得与我们相一致的世界知识。

在整篇论文中，我们旨在深入理解在从互联网上收集的非常大的数据集上训练的多模态网络。我们首先评估在受控设置中导致强大、通用模型的关键因素，并通过一种新颖的数据中心方法检查网络表征是否确实是跨模态的。然后，我们深入研究多模态表征在进行视觉和文本模态之间的细粒度映射方面的能力。我们的调查显示了多样化、以对象为中心的数据的重要性，并引导我们走向新的关系感知方法，以增强多模态对齐。最后，我们仔细审视社区用于衡量预训练多模态网络性能的典型基准测试实践。我们构建了数据集和评估套件，揭示了最先进的多模态表征无法理解地理上多样的数据和语言的能力，并鼓励研究社区开发在不同人群中表现一致的多模态技术。

成为VIP会员查看完整内容

67

相关内容

多模态表示学习

多模态表示学习

【博士论文】融合上下文的鲁棒机器学习，311页pdf

【博士论文】融合上下文的鲁棒机器学习，311页pdf

专知会员服务

34+阅读 · 2024年2月6日

【NTU博士论文】机器学习泛化性因果视角，200页pdf

【NTU博士论文】机器学习泛化性因果视角，200页pdf

专知会员服务

38+阅读 · 2023年12月25日

【MIT博士论文】高效可靠深度学习的共形方法，213页pdf

【MIT博士论文】高效可靠深度学习的共形方法，213页pdf

专知会员服务

42+阅读 · 2023年11月12日

【博士论文】因果发现与预测:方法与算法，101页pdf

【博士论文】因果发现与预测:方法与算法，101页pdf

专知会员服务

58+阅读 · 2023年9月24日

【博士论文】图神经网络表达性:理论、算法与应用，205页pdf

【博士论文】图神经网络表达性:理论、算法与应用，205页pdf

专知会员服务

68+阅读 · 2023年2月25日

【剑桥大学博士论文】图神经网络的实际处理与加速，190页pdf

【剑桥大学博士论文】图神经网络的实际处理与加速，190页pdf

专知会员服务

49+阅读 · 2023年2月11日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知会员服务

84+阅读 · 2022年10月30日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知会员服务

22+阅读 · 2022年9月2日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知会员服务

33+阅读 · 2022年8月10日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

9+阅读 · 2023年4月12日

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

专知

3+阅读 · 2023年4月11日

【MIT博士论文】情感理解的计算框架，200页pdf

【MIT博士论文】情感理解的计算框架，200页pdf

专知

0+阅读 · 2023年4月9日

【牛津大学博士论文】深度学习在基于结构的药物发现中的应用，362页pdf

【牛津大学博士论文】深度学习在基于结构的药物发现中的应用，362页pdf

专知

1+阅读 · 2023年4月8日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知

5+阅读 · 2023年4月5日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

8+阅读 · 2017年12月31日

复合型移动群智感知关键技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

11+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

癌症基因组中关键驱动突变信号通路的理论问题研究及算法设计

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

多模态表示学习

相关VIP内容

【博士论文】融合上下文的鲁棒机器学习，311页pdf

【博士论文】融合上下文的鲁棒机器学习，311页pdf

专知会员服务

34+阅读 · 2024年2月6日

【NTU博士论文】机器学习泛化性因果视角，200页pdf

【NTU博士论文】机器学习泛化性因果视角，200页pdf

专知会员服务

38+阅读 · 2023年12月25日

【MIT博士论文】高效可靠深度学习的共形方法，213页pdf

【MIT博士论文】高效可靠深度学习的共形方法，213页pdf

专知会员服务

42+阅读 · 2023年11月12日

【博士论文】因果发现与预测:方法与算法，101页pdf

【博士论文】因果发现与预测:方法与算法，101页pdf

专知会员服务

58+阅读 · 2023年9月24日

【博士论文】图神经网络表达性:理论、算法与应用，205页pdf

【博士论文】图神经网络表达性:理论、算法与应用，205页pdf

专知会员服务

68+阅读 · 2023年2月25日

【剑桥大学博士论文】图神经网络的实际处理与加速，190页pdf

【剑桥大学博士论文】图神经网络的实际处理与加速，190页pdf

专知会员服务

49+阅读 · 2023年2月11日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知会员服务

84+阅读 · 2022年10月30日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知会员服务

22+阅读 · 2022年9月2日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知会员服务

33+阅读 · 2022年8月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国海军陆战队软件定义网络应用案例：分布式防火墙自动化系统》148页

《多体环境下定位导航授时（PNT）系统研究》228页

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

《攻势防空作战中无人追击者/规避者最优轨迹研究（含动态交战区建模）》95页

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

9+阅读 · 2023年4月12日

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

专知

3+阅读 · 2023年4月11日

【MIT博士论文】情感理解的计算框架，200页pdf

【MIT博士论文】情感理解的计算框架，200页pdf

专知

0+阅读 · 2023年4月9日

【牛津大学博士论文】深度学习在基于结构的药物发现中的应用，362页pdf

【牛津大学博士论文】深度学习在基于结构的药物发现中的应用，362页pdf

专知

1+阅读 · 2023年4月8日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知

5+阅读 · 2023年4月5日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

8+阅读 · 2017年12月31日

复合型移动群智感知关键技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

11+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

癌症基因组中关键驱动突变信号通路的理论问题研究及算法设计

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员