Vision-Language-Action (VLA) models adapt large vision-language backbones to map images and instructions into robot actions. However, prevailing VLAs either generate actions auto-regressively in a fixed left-to-right order or attach separate MLP or diffusion heads outside the backbone, leading to fragmented information pathways and specialized training requirements that hinder a unified, scalable architecture. We present Discrete Diffusion VLA, a unified-transformer policy that models discretized action chunks with discrete diffusion. The design retains diffusion's progressive refinement paradigm while remaining natively compatible with the discrete token interface of VLMs. Our method achieves an adaptive decoding order that resolves easy action elements before harder ones and uses secondary re-masking to revisit uncertain predictions across refinement rounds, which improves consistency and enables robust error correction. This unified decoder preserves pre-trained vision-language priors, supports parallel decoding, breaks the autoregressive bottleneck, and reduces the number of function evaluations. Discrete Diffusion VLA achieves 96.3% avg. success rates on LIBERO, 71.2% visual matching on SimplerEnv-Fractal and 54.2% overall on SimplerEnv-Bridge. We also provide ablation study on vision-language ability retention on LIBERO-OOD (Out-of-Distribution) benchmark, with our method improving over autoregressive, MLP decoder and continuous diffusion baselines. These findings indicate that discrete-diffusion VLA supports precise action modeling and consistent training, laying groundwork for scaling VLA to larger models and datasets. Our code is available at https://github.com/Liang-ZX/DiscreteDiffusionVLA/tree/libero.


翻译:视觉-语言-动作模型通过适配大型视觉-语言主干网络,将图像和指令映射为机器人动作。然而,当前主流VLA模型要么以固定的自左向右顺序自回归生成动作,要么在主干网络外附加独立的MLP或扩散头,这导致了信息路径的碎片化和专门化的训练需求,阻碍了统一、可扩展架构的发展。本文提出离散扩散VLA,一种采用离散扩散对离散化动作块进行建模的统一Transformer策略。该设计保留了扩散模型的渐进优化范式,同时天然兼容视觉语言模型的离散令牌接口。我们的方法实现了自适应解码顺序,能够先解析简单动作元素再处理困难部分,并通过二次重掩码机制在优化迭代中重新评估不确定预测,从而提升一致性并实现稳健的误差修正。这种统一解码器保留了预训练的视觉-语言先验知识,支持并行解码,突破了自回归瓶颈,并减少了函数评估次数。离散扩散VLA在LIBERO基准上达到96.3%的平均成功率,在SimplerEnv-Fractal上实现71.2%的视觉匹配率,在SimplerEnv-Bridge上总体达到54.2%的指标。我们还在LIBERO-OOD(分布外)基准上进行了视觉-语言能力保留的消融研究,结果表明本方法优于自回归、MLP解码器和连续扩散基线。这些发现表明离散扩散VLA能够支持精确的动作建模和稳定的训练,为将VLA扩展至更大模型和数据集奠定了基础。代码已开源:https://github.com/Liang-ZX/DiscreteDiffusionVLA/tree/libero。

0
下载
关闭预览

相关内容

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员