In Vision-Language-Action (VLA) models, robustness to real-world perturbations is critical for deployment. Existing methods target simple visual disturbances, overlooking the broader multi-modal perturbations that arise in actions, instructions, environments, and observations. Here, we first evaluate the robustness of mainstream VLAs under 17 perturbations across four modalities. We find (1) actions as the most fragile modality, (2) Existing visual-robust VLA do not gain robustness in other modality, and (3) pi0 demonstrates superior robustness with a diffusion-based action head. To build multi-modal robust VLAs, we propose RobustVLA against perturbations in VLA inputs and outputs. For output robustness, we perform offline robust optimization against worst-case action noise that maximizes mismatch in flow matching objective. This can be seen as adversarial training, label smoothing, and outlier penalization. For input robustness, we enforce consistent actions across input variations that preserve task semantics. To account for multiple perturbations, we formulate robustness as a multi-armed bandit problem and apply an upper confidence bound algorithm to automatically identify the most harmful noise. Experiments on LIBERO demonstrate our RobustVLA delivers absolute gains over baselines of 12.6% on the pi0 backbone and 10.4% on the OpenVLA backbone across all 17 perturbations, achieving 50.6x faster inference than existing visual-robust VLAs, and a 10.4% gain under mixed perturbations. Our RobustVLA is particularly effective on real-world FR5 robot with limited demonstrations, showing absolute gains by 65.6% under perturbations of four modalities.


翻译:在视觉-语言-动作模型中,对现实世界扰动的鲁棒性对于实际部署至关重要。现有方法主要针对简单的视觉干扰,忽略了动作、指令、环境和观测中出现的更广泛的多模态扰动。本文首先评估了主流VLA模型在四种模态共17种扰动下的鲁棒性,发现:(1)动作是最脆弱的模态;(2)现有视觉鲁棒性VLA模型在其他模态中并未获得鲁棒性提升;(3)基于扩散动作头的π0模型展现出卓越的鲁棒性。为构建多模态鲁棒的VLA模型,我们提出RobustVLA以应对VLA输入和输出的扰动。针对输出鲁棒性,我们采用离线鲁棒优化方法对抗最坏情况下的动作噪声,该噪声会最大化流匹配目标中的失配程度。这可视作对抗训练、标签平滑和异常值惩罚的结合。针对输入鲁棒性,我们强制模型在保持任务语义的输入变化中产生一致的动作。为处理多重扰动,我们将鲁棒性建模为多臂赌博机问题,并应用上置信界算法自动识别最具危害性的噪声。在LIBERO数据集上的实验表明,RobustVLA在所有17种扰动下相比基线模型取得绝对性能提升:基于π0骨干网络提升12.6%,基于OpenVLA骨干网络提升10.4%,推理速度比现有视觉鲁棒VLA模型快50.6倍,在混合扰动下获得10.4%的性能增益。我们的RobustVLA在演示数据有限的真实世界FR5机器人上表现尤为突出,在四种模态扰动下实现65.6%的绝对性能提升。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员