In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.


翻译:近年来,在多模态研究领域,扩散范式因其独特的解码优势,已成为自回归范式(AR)的一种有前景的替代方案。然而,由于基础扩散语言模型的能力限制,扩散视觉语言模型(dVLM)的性能仍显著落后于主流模型。这引出了一个简单而根本的问题:能否基于现有强大的AR模型构建dVLM?为此,我们提出了DiffusionVL,这是一个可以从任何强大的AR模型转化而来的dVLM模型系列。通过简单的微调,我们成功地将AR预训练模型适配到扩散范式中。这一方法带来了两个关键发现:(1)从基于AR的多模态模型向扩散范式的转换效果显著。(2)将AR语言模型直接转换为dVLM也是可行的,其性能可与LLaVA风格的视觉指令微调模型相媲美。此外,我们在dVLM中引入了块解码设计,支持任意长度生成和KV缓存重用,实现了显著的推理加速。我们进行了大量实验。尽管训练数据量不到先前方法所需数据的5%,DiffusionVL仍实现了全面的性能提升——在MMMU-Pro(视觉)基准上提升了34.4%,在MME(认知)基准上提升了37.5%——同时推理速度提升了2倍。模型和代码发布于 https://github.com/hustvl/DiffusionVL。

0
下载
关闭预览

相关内容

增强现实(Augmented Reality,简称 AR),是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员