视觉–语言–动作(Vision-Language-Action, VLA)模型将视觉–语言模型扩展到具身控制领域,通过将自然语言指令和视觉观测映射为机器人动作,实现从语言理解到物理交互的端到端控制。尽管具备强大的跨模态感知与决策能力,VLA 系统仍面临着巨大的计算与内存开销,这与需要实时性能的边缘平台(如搭载于移动机械臂上的板载计算设备)所受的资源限制形成了显著矛盾。如何在性能与资源约束之间取得平衡,已成为近年来研究的核心焦点。 鉴于学术界与工业界在构建高效、可扩展 VLA 系统方面的持续探索,本文对提升 VLA 效率的研究工作进行了系统性综述,重点关注如何降低推理延迟、内存占用以及训练与推理成本。我们将现有方法划分为四个维度:模型架构感知特征动作生成训练/推理策略,并在每一类中总结了代表性技术。最后,本文探讨了未来的发展趋势与开放挑战,指出推动高效具身智能(efficient embodied intelligence)发展的潜在研究方向。

关键词:视觉–语言–动作模型;效率优化;机器人学习;具身智能

  1. 引言

传统的机器人系统依赖于任务特定的算法和手工设计的规则,这些方法在结构化环境中表现良好,但在非结构化、复杂的真实场景中往往难以泛化。深度学习的兴起彻底改变了这一范式,使模型能够自动提取层次化与可迁移的特征。在此基础上,视觉–语言模型(Vision-Language Models, VLMs)作为大型预训练多模态系统出现,通过对齐视觉输入与自然语言,实现跨模态的统一语义表示。将这一理念扩展至具身控制领域,视觉–语言–动作(Vision-Language-Action, VLA)模型进一步建立了从语言与视觉到机器人动作的端到端映射,使机器人能够在多样化场景与任务中实现通用控制。与传统方法相比,VLA 模型具有更强的语义理解与泛化能力,为机器人学中的操控、导航等应用提供了新的技术路径。 尽管具备巨大潜力,VLA 模型仍面临显著的效率挑战,严重制约了其实用化部署。许多现有的 VLA 系统复用了大型语言模型和复杂的视觉主干网络,导致模型参数量庞大、内存占用高、推理速度慢;同时,这类多模态模型的训练过程计算代价高昂。这些特性与机器人系统的常见约束(如板载计算资源有限、能耗受限以及严格的实时性要求)存在根本冲突,从而阻碍了 VLA 在边缘平台(如移动机械臂)上的落地。虽然在视觉–语言模型(VLM)中,效率优化已是成熟研究方向 [1],但这些技术难以直接迁移至 VLA 系统,因为 VLA 还需面临更多特有挑战: 它们必须生成时间一致的动作序列,在实时约束下运行,并在执行过程中保证物理可靠性。因此,过度压缩或剪枝操作可能严重损害性能,其影响远比在 VLM 中更为关键。这些差异表明,VLA 模型的效率问题亟需独立研究,而不仅仅依赖于 VLM 领域的经验。 VLA 的快速发展已经催生了若干综述。例如,[2] 提供了对 VLA 概念、架构、训练方法与应用的全面概述;[3] 深入分析了不同动作表示的类型及其优劣;[4] 则聚焦于自动驾驶这一具体应用场景。然而,这些工作均未从效率视角进行系统性总结,而随着模型规模的持续增长与实时性需求的提升,效率问题已成为制约实际应用的核心瓶颈。本文旨在填补这一研究空白,首次系统性地综述面向高效 VLA 模型的研究进展

我们的主要贡献包括: 1. 据我们所知,这是首个专门聚焦于高效 VLA 的系统综述。我们从四个维度对效率提升方法进行分类:模型架构感知特征动作生成以及训练/推理机制。 1. 基于该分类体系,我们总结了主流的 VLA 效率增强策略,并分析其各自的优缺点。 1. 我们探讨了 VLA 的未来发展趋势,并指出在这些趋势下应优先关注的效率优化方向。

为实现上述目标,本文遵循典型 VLA 系统的处理流程(见图 1),涵盖模型架构感知特征动作生成训练/推理四个环节,对其中提升效率的关键技术进行重点回顾,并在最后讨论开放挑战与潜在研究方向。本文结构安排如下: * 第 2 节:VLA 模型的演化 —— 回顾 VLA 模型的发展脉络,总结塑造其格局的代表性里程碑与技术进展; * 第 3 节:高效模型架构 —— 从静态主干选择与动态计算路径规划两方面探讨构建高效 VLA 架构的方法,并分析双系统设计带来的潜在效率收益; * 第 4 节:高效感知特征 —— 调研降低前端计算开销的方法,包括单帧内空间冗余消除与跨时间步特征复用; * 第 5 节:高效动作生成 —— 比较两类主流动作表示(原始动作与基于推理的动作),并回顾加速动作生成的相关方法; * 第 6 节:高效训练与推理 —— 综述模型全生命周期内的优化策略,包括低成本训练范式与部署时的推理优化; * 第 7 节:未来展望 —— 讨论 VLA 模型的未来发展方向,指出进一步提升其效率所需重点研究的关键问题。

成为VIP会员查看完整内容
11

相关内容

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
深度研究系统的强化学习基础:综述
专知会员服务
29+阅读 · 9月10日
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
37+阅读 · 8月16日
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
多模态大型语言模型:综述
专知会员服务
42+阅读 · 6月14日
基于大型语言模型的人机系统综述
专知会员服务
25+阅读 · 5月12日
高效视觉语言模型研究综述
专知会员服务
12+阅读 · 4月18日
多智能体协作机制:大语言模型综述
专知会员服务
72+阅读 · 1月14日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
133+阅读 · 2024年2月6日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
深度研究系统的强化学习基础:综述
专知会员服务
29+阅读 · 9月10日
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
37+阅读 · 8月16日
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
多模态大型语言模型:综述
专知会员服务
42+阅读 · 6月14日
基于大型语言模型的人机系统综述
专知会员服务
25+阅读 · 5月12日
高效视觉语言模型研究综述
专知会员服务
12+阅读 · 4月18日
多智能体协作机制:大语言模型综述
专知会员服务
72+阅读 · 1月14日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
133+阅读 · 2024年2月6日
相关资讯
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员