Recent advances in Vision-Language-Action (VLA) models, powered by large language models and reinforcement learning-based fine-tuning, have shown remarkable progress in robotic manipulation. Existing methods often treat long-horizon actions as linguistic sequences and apply trajectory-level optimization methods such as Trajectory-wise Preference Optimization (TPO) or Proximal Policy Optimization (PPO), leading to coarse credit assignment and unstable training. However, unlike language, where a unified semantic meaning is preserved despite flexible sentence order, action trajectories progress through causally chained stages with different learning difficulties. This motivates progressive stage optimization. Thereby, we present Stage-Aware Reinforcement (STARE), a module that decomposes a long-horizon action trajectory into semantically meaningful stages and provides dense, interpretable, and stage-aligned reinforcement signals. Integrating STARE into TPO and PPO, we yield Stage-Aware TPO (STA-TPO) and Stage-Aware PPO (STA-PPO) for offline stage-wise preference and online intra-stage interaction, respectively. Further building on supervised fine-tuning as initialization, we propose the Imitation -> Preference -> Interaction (IPI), a serial fine-tuning pipeline for improving action accuracy in VLA models. Experiments on SimplerEnv and ManiSkill3 demonstrate substantial gains, achieving state-of-the-art success rates of 98.0 percent on SimplerEnv and 96.4 percent on ManiSkill3 tasks.


翻译:近期,基于大语言模型和强化学习微调的视觉-语言-动作模型在机器人操作任务中取得了显著进展。现有方法通常将长时序动作视为语言序列,并采用轨迹级优化方法(如轨迹偏好优化或近端策略优化),导致信用分配粗糙且训练不稳定。然而,与语言中句子顺序灵活但语义统一不同,动作轨迹在因果链式阶段中推进,各阶段学习难度各异,这促使了渐进式阶段优化的提出。为此,我们提出了阶段感知强化模块,该模块将长时序动作轨迹分解为具有语义意义的阶段,并提供密集、可解释且与阶段对齐的强化信号。将STARE整合至TPO与PPO中,我们分别得到面向离线阶段偏好优化的STA-TPO和面向在线阶段内交互优化的STA-PPO。进一步以监督微调为初始化基础,我们提出了模仿→偏好→交互的串行微调流程,用于提升VLA模型的动作准确性。在SimplerEnv和ManiSkill3上的实验取得了显著性能提升,分别在SimplerEnv和ManiSkill3任务上达到了98.0%和96.4%的最优成功率。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员