近期在多模态大型语言模型(MLLMs)领域的研究致力于通过结合大型语言模型(LLM)与扩散模型(分别在各自任务中处于最先进水平),实现视觉理解与生成的统一。现有方法通常依赖于空间视觉令牌,即将图像块编码后按照空间顺序(例如光栅扫描顺序)排列。然而,我们指出,空间令牌缺乏语言中固有的递归结构,因此形成了一种大型语言模型难以掌握的“不可学习语言”。 在本文中,我们通过利用扩散时间步来学习离散的、递归的视觉令牌,从而构建了一种合适的视觉语言。我们提出的视觉令牌能够递归地补偿在噪声图像中随时间步增加而逐步丧失的属性,使扩散模型能够在任意时间步重建原始图像。这一方法使我们能够有效整合大型语言模型在自回归推理方面的优势与扩散模型在精确图像生成方面的优势,在统一框架内实现无缝的多模态理解与生成。 大量实验表明,我们在多模态理解与生成任务上同时达到了优于其他MLLMs的方法性能。项目页面:https://DDTLLaMA.github.io/

成为VIP会员查看完整内容
0

相关内容

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【ACL2024】大型语言模型的稀疏加速训练
专知会员服务
27+阅读 · 2024年6月4日
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
26+阅读 · 2024年2月28日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
32+阅读 · 2023年4月25日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
18+阅读 · 2023年3月2日
专知会员服务
13+阅读 · 2021年10月11日
专知会员服务
39+阅读 · 2021年5月16日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
专知会员服务
36+阅读 · 2020年11月29日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【ACL2024】大型语言模型的稀疏加速训练
专知会员服务
27+阅读 · 2024年6月4日
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
26+阅读 · 2024年2月28日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
32+阅读 · 2023年4月25日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
18+阅读 · 2023年3月2日
专知会员服务
13+阅读 · 2021年10月11日
专知会员服务
39+阅读 · 2021年5月16日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
专知会员服务
36+阅读 · 2020年11月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员