从数据中心视角看多模态大型语言模型的综述 - 专知VIP

会员服务 ·

32

多模态大型语言模型 · 以数据为中心的人工智能 ·

2024 年 5 月 28 日

从数据中心视角看多模态大型语言模型的综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人类通过多种感官，如视觉、嗅觉、听觉和触觉来感知世界。同样，多模态大型语言模型（MLLMs）通过整合和处理包括文本、视觉、音频、视频和3D环境在内的多种模态数据，增强了传统大型语言模型的能力。数据在这些模型的发展和优化中起到了关键作用。在这篇综述中，我们从数据中心视角全面回顾了MLLMs的相关文献。具体而言，我们探讨了在MLLMs预训练和适应阶段准备多模态数据的方法。此外，我们还分析了数据集的评估方法，并回顾了评估MLLMs的基准测试。我们的综述还概述了未来潜在的研究方向。本研究旨在为研究人员提供关于MLLMs数据驱动方面的详细理解，促进该领域的进一步探索和创新。

近年来，我们见证了大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的快速发展[280, 324]。诸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模态信息，展示了令人印象深刻的理解和生成能力。这些模型在传统的多模态任务中取得了竞争性表现，如视觉识别[320]、视频理解[258, 289]、语音识别[200]和3D理解[89, 100]。此外，它们卓越的语言理解能力使其在文本丰富的任务中表现出色，如问答[104]、多轮对话和逻辑推理[156, 296]。

大多数现有的MLLMs主要关注修改模型架构以探索多模态信息的使用[121, 178, 246, 286, 287, 304]。尽管模型的有效性至关重要，数据也显著影响了MLLMs的成功。例如，Hoffmann等人[99]展示了为了扩展模型，有必要增加训练数据的规模。除了数据数量外，数据质量同样重要。先前的研究[251]表明，精心策划的数据集可以使较小的模型达到与较大模型相当的性能。然而，关于MLLMs数据策划和利用的综合研究仍然缺乏。因此，本研究旨在从数据中心视角提供对MLLMs的全面理解。

与优先考虑架构增强而依赖固定数据集的模型中心方法相比，数据中心视角强调对数据集的迭代改进以提高性能。在数据中心MLLMs的范围内，我们关注利用数据模态的异质性、增强数据结构、增加数据数量和提高数据质量以改进MLLMs [316]。我们的讨论从不同阶段的MLLMs数据中心视角回答了三个关键问题：

Q1：如何收集、选择和管理MLLMs的数据？大量的数据需求和多模态数据的异质性在收集、选择和有效管理模型训练数据方面带来了挑战。MLLMs的不同训练阶段也导致了不同的数据类型需求。
Q2：数据如何影响MLLMs的性能？理解数据特性与MLLMs性能之间的关系对于优化数据集和增强模型能力至关重要。
Q3：如何评估MLLMs的数据？有必要开发全面的评估基准，以评估MLLMs在各种任务中的性能和鲁棒性。本综述与现有综述的区别。在模型中心视角下，已有若干综述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318]，但缺乏对数据中心方面的深入分析。最近，一些综述开始关注LLMs的数据准备，如数据管理方法[274]、数据选择方法[5]和LLM数据集的综合综述[174]。然而，这些综述主要集中于仅文本LLMs的数据管理和选择方法，没有对MLLMs的数据处理管道进行彻底分析。尽管Zhang等人[318]总结了MLLMs的数据集，但未能提供对这些数据集的全面分析。与我们最相关的工作是数据中心人工智能（DCAI）[109, 111, 220, 279, 316]，它也关注AI研究的数据中心视角，但未具体分析LLMs和MLLMs。

随着MLLMs的快速增长以及数据在这个大型模型时代越来越重要的角色，我们认为提供一个全面的MLLMs数据中心方法综述是至关重要的。本综述旨在从数据中心视角全面回顾MLLMs的进展文献，并讨论该领域的开放问题或未来方向。

贡献。在这篇综述中，我们从数据中心视角回顾了MLLMs的进展文献。我们为研究人员和开发者提供了对MLLMs数据方面最新发展的总体和全面的理解。本综述的主要贡献总结如下：

新的数据中心视角。我们从数据中心视角提供了对MLLMs的全面综述，考虑了文本、图像、视频和音频等模态。
数据准备和管理管道。我们总结了在预训练和适应阶段MLLMs的数据准备和管理管道。
数据评估基准。我们概述了常用的从数据中心视角出发的评估基准。
开放问题和未来方向。我们讨论了当前数据中心LLMs研究中的开放问题，并提出了若干未来研究方向。

本文的其余部分安排如下：第2节介绍LLMs和MLLMs的预备知识，并讨论从数据中心视角分析它们的动机。第3至第5节总结了MLLMs训练数据的收集、处理和选择的主要阶段。第6节总结了MLLMs的评估方法和现有的评估数据集。第7节讨论了开放问题并强调了该领域的若干未来研究方向。最后，我们在第8节对本综述进行了总结。我们的Github仓库可以在https://github.com/beccabai/Data-centric_multimodal_LLM找到。

成为VIP会员查看完整内容

57

相关内容

多模态大型语言模型

多模态大型语言模型

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

专知会员服务

57+阅读 · 2024年4月27日

大语言模型视角下的智能规划方法综述

大语言模型视角下的智能规划方法综述

专知会员服务

132+阅读 · 2024年4月20日

面向资源受限环境的轻量级深度学习:综述

面向资源受限环境的轻量级深度学习:综述

专知会员服务

53+阅读 · 2024年4月13日

多语言大型语言模型：资源、分类和前沿综述

多语言大型语言模型：资源、分类和前沿综述

专知会员服务

52+阅读 · 2024年4月9日

大模型如何处理知识冲突？清华等《大型语言模型中的知识冲突》综述

大模型如何处理知识冲突？清华等《大型语言模型中的知识冲突》综述

专知会员服务

64+阅读 · 2024年3月14日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

90+阅读 · 2024年2月17日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

71+阅读 · 2024年1月20日

大模型和图如何结合？最新《图遇见大型语言模型》综述，详述最新进展

大模型和图如何结合？最新《图遇见大型语言模型》综述，详述最新进展

专知会员服务

79+阅读 · 2023年11月25日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

95+阅读 · 2023年9月11日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

34+阅读 · 2020年12月10日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

初学者的 Keras：实现卷积神经网络

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

专知

41+阅读 · 2019年1月22日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

专知

11+阅读 · 2018年6月15日

基于深度学习的目标检测算法综述

基于深度学习的目标检测算法综述

AI研习社

15+阅读 · 2018年4月25日

贝叶斯网分解理论及其应用

国家自然科学基金

9+阅读 · 2017年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

多模态大型语言模型

以数据为中心的人工智能

相关VIP内容

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

专知会员服务

57+阅读 · 2024年4月27日

大语言模型视角下的智能规划方法综述

大语言模型视角下的智能规划方法综述

专知会员服务

132+阅读 · 2024年4月20日

面向资源受限环境的轻量级深度学习:综述

面向资源受限环境的轻量级深度学习:综述

专知会员服务

53+阅读 · 2024年4月13日

多语言大型语言模型：资源、分类和前沿综述

多语言大型语言模型：资源、分类和前沿综述

专知会员服务

52+阅读 · 2024年4月9日

大模型如何处理知识冲突？清华等《大型语言模型中的知识冲突》综述

大模型如何处理知识冲突？清华等《大型语言模型中的知识冲突》综述

专知会员服务

64+阅读 · 2024年3月14日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

90+阅读 · 2024年2月17日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

71+阅读 · 2024年1月20日

大模型和图如何结合？最新《图遇见大型语言模型》综述，详述最新进展

大模型和图如何结合？最新《图遇见大型语言模型》综述，详述最新进展

专知会员服务

79+阅读 · 2023年11月25日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

95+阅读 · 2023年9月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

34+阅读 · 2020年12月10日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

初学者的 Keras：实现卷积神经网络

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

专知

41+阅读 · 2019年1月22日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

专知

11+阅读 · 2018年6月15日

基于深度学习的目标检测算法综述

基于深度学习的目标检测算法综述

AI研习社

15+阅读 · 2018年4月25日

相关基金

贝叶斯网分解理论及其应用

国家自然科学基金

9+阅读 · 2017年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员