VIP内容 - 专知

会员服务 ·

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

【伯克利博士论文】通过真实世界实践赋能机器人自主性

【伯克利博士论文】通过真实世界实践赋能机器人自主性

专知会员服务

11+阅读 · 8月6日

【ICML2025教程】生成式人工智能遇上强化学习

【ICML2025教程】生成式人工智能遇上强化学习

专知会员服务

27+阅读 · 8月4日

面向软件工程的强化学习综述

面向软件工程的强化学习综述

专知会员服务

22+阅读 · 7月21日

【ICML2025】通过在线世界模型规划的持续强化学习

【ICML2025】通过在线世界模型规划的持续强化学习

专知会员服务

16+阅读 · 7月18日

《机器人强化学习技术进展》34页

《机器人强化学习技术进展》34页

专知会员服务

27+阅读 · 7月16日

《自主防御系统中的强化学习：战略应用与挑战》

《自主防御系统中的强化学习：战略应用与挑战》

专知会员服务

20+阅读 · 7月16日

大语言模型的强化学习技术综述

大语言模型的强化学习技术综述

专知会员服务

32+阅读 · 7月8日

【普林斯顿博士论文】迈向原则化的强化学习

【普林斯顿博士论文】迈向原则化的强化学习

专知会员服务

21+阅读 · 7月2日

【普林斯顿博士论文】监督学习与强化学习中的元学习分析

【普林斯顿博士论文】监督学习与强化学习中的元学习分析

专知会员服务

20+阅读 · 7月1日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

16+阅读 · 7月1日

持续强化学习研究综述

持续强化学习研究综述

专知会员服务

38+阅读 · 6月30日

【ICML2025】用于可扩展持续强化学习的自组合策略

【ICML2025】用于可扩展持续强化学习的自组合策略

专知会员服务

12+阅读 · 6月24日

图结构遇上智能体：分类方法、研究进展与未来机遇

图结构遇上智能体：分类方法、研究进展与未来机遇

专知会员服务

52+阅读 · 6月24日

水声目标定位与跟踪综述：进展、挑战与展望

水声目标定位与跟踪综述：进展、挑战与展望

专知会员服务

22+阅读 · 6月22日

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

专知会员服务

16+阅读 · 6月21日

参考链接

父主题

子主题

马尔可夫决策过程

UNREAL(DRL算法)

深度强化学习

人工智能游戏

图强化学习

微信扫码咨询专知VIP会员