强化学习(Reinforcement Learning,RL)与视觉智能交叉领域的最新进展,使得智能体不仅能够感知复杂的视觉场景,还能在其中进行推理、生成与行动。本文对该领域进行了批判性且最新的综合综述。我们首先对视觉RL问题进行了形式化,并梳理了策略优化方法的演变脉络——从基于人类反馈的强化学习(RLHF)到可验证奖励范式,从近端策略优化(PPO)到群体相对策略优化(GRPO)。随后,我们将200余篇代表性工作归纳为四个主题支柱:多模态大型语言模型、视觉生成、统一模型框架,以及视觉-语言-动作模型。针对每一类,我们分析了算法设计、奖励工程、基准进展,并提炼出诸如课程驱动训练、偏好对齐扩散、统一奖励建模等趋势。最后,我们回顾了涵盖集合级保真度、样本级偏好、状态级稳定性的评估协议,并指出了包括样本效率、泛化能力与安全部署在内的开放挑战。我们的目标是为研究者和从业者提供一幅连贯的视觉RL领域全景图,并突出未来值得探索的方向。相关资源可在以下链接获取:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。

1 引言

强化学习(Reinforcement Learning,RL)在大型语言模型(Large Language Models,LLMs)领域取得了显著成功(Jaech 等,2024;Rafailov 等,2023),其中最具代表性的范式包括基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)(Ouyang 等,2022)以及诸如 DeepSeek-R1(Guo 等,2025a)等创新框架。这些方法显著增强了 LLM 的能力,使生成结果更贴近人类偏好,并赋予其通过单纯监督学习难以获得的细腻、复杂的推理与交互能力。 近年来,受 LLM 成就的启发,研究界对将这些在 LLM 上取得成功的 RL 方法扩展至多模态大模型产生了爆炸性兴趣,包括视觉-语言模型(Vision-Language Models,VLM)(Zhou 等,2025a;Zheng 等,2025;Zhang 等,2025f)、视觉-语言-动作模型(Vision-Language-Action,VLA)(Lu 等,2025b;Tan 等,2025b;Luo 等,2025;Yuan 等,2025b)、基于扩散的视觉生成模型(Fan 等,2023b;Black 等,2023;Zhou 等,2025c)以及统一多模态框架(Mao 等,2025;Wang 等,2024b;2025a)(如图 1 所示)。例如,Gemini 2.5(DeepMind,2025)等多模态模型利用 RL 来对齐视觉-文本推理过程,从而生成具有更高语义一致性且更契合人类判断的输出。同时,集成视觉与语言并生成面向动作输出的 VLA 模型,也已采用 RL 来优化交互式环境中的复杂序列决策过程,在 GUI 自动化(Yuan 等,2025b;Shi 等,2025)、机器人操作(Lu 等,2025b)以及具身导航(Kim 等,2025)等任务中显著提升了特定任务性能。 基于扩散的生成模型的快速发展进一步推动了这一 RL 驱动的创新浪潮。例如,ImageReward(Xu 等,2023)将强化学习引入生成过程,以提升生成结果的语义一致性与视觉质量,通过基于人类偏好或自动化奖励评估器的迭代反馈机制来优化扩散生成。此外,将理解与生成等多种任务统一到单一架构中的统一模型(Mao 等,2025;Jiang 等,2025b)也越来越多地依赖于 RL 驱动的微调,从而实现了此前被认为具有挑战性的泛化与任务迁移能力。 尽管 RL 与多模态大语言模型的结合已取得了重大进展,但仍存在若干核心挑战,包括:在复杂奖励信号下稳定策略优化、处理高维且多样化的视觉输入,以及设计可扩展的奖励函数以支持长时序决策。应对这些挑战,需要在算法设计与评估协议上同时进行方法学创新。 在本综述中,我们系统总结了 2024 年以来多模态大模型视觉强化学习领域的最新进展。我们首先回顾了 LLM 中奠定多模态适配基础的 RL 成功案例,如 RLHF(Ouyang 等,2022)与 DeepSeek-R1(Guo 等,2025a)。随后,我们讨论这些策略在视觉领域的演化过程,并将 200 余篇代表性工作划分为四大类别:(i)多模态大型语言模型,(ii)视觉生成,(iii)统一 RL 框架,以及(iv)视觉-语言-动作智能体(如图 1 所示)。在每个类别中,我们分析了算法设计、奖励建模以及基准测试方法的关键进展。最后,我们指出了开放挑战与未来研究方向,包括更高效的多模态推理、适用于 VLA 任务的稳健长时序学习策略,以及面向视觉生成的可扩展高保真奖励信号需求。 本文的主要贡献如下: * 系统性与最新性:我们提供了一份涵盖 200 余篇视觉强化学习研究的系统化、最新综述,涵盖多模态大型语言模型、视觉生成、统一模型以及视觉-语言-动作智能体。 * 关键技术分析:我们分析了各子领域在策略优化、奖励建模和基准测试方面的进展,揭示了奖励设计在视觉生成中的挑战,以及推理和 VLA 任务中缺乏中间监督等问题。 * 方法学框架:我们提出了一种基于指标粒度与奖励监督的视觉 RL 方法分类体系,包括三种图像生成奖励范式。该框架阐明了跨领域设计的权衡,并为选择与开发 RL 策略提供了可操作的参考。

成为VIP会员查看完整内容
10

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
大语言模型的强化学习技术综述
专知会员服务
33+阅读 · 7月8日
标注受限场景下的视觉表征与理解
专知会员服务
14+阅读 · 2月6日
强化学习增强的大型语言模型:综述
专知会员服务
48+阅读 · 2024年12月17日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
用于识别任务的视觉 Transformer 综述
专知会员服务
74+阅读 · 2023年2月25日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
基于深度学习的图像目标检测算法综述
专知会员服务
98+阅读 · 2022年4月15日
多模态情绪识别研究综述
专知会员服务
169+阅读 · 2020年12月21日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习研究及军事应用综述
专知
23+阅读 · 2022年7月7日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
多模态情绪识别研究综述
专知
24+阅读 · 2020年12月21日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
33+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
475+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
172+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大语言模型的强化学习技术综述
专知会员服务
33+阅读 · 7月8日
标注受限场景下的视觉表征与理解
专知会员服务
14+阅读 · 2月6日
强化学习增强的大型语言模型:综述
专知会员服务
48+阅读 · 2024年12月17日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
用于识别任务的视觉 Transformer 综述
专知会员服务
74+阅读 · 2023年2月25日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
基于深度学习的图像目标检测算法综述
专知会员服务
98+阅读 · 2022年4月15日
多模态情绪识别研究综述
专知会员服务
169+阅读 · 2020年12月21日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习研究及军事应用综述
专知
23+阅读 · 2022年7月7日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
多模态情绪识别研究综述
专知
24+阅读 · 2020年12月21日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
33+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员