强化学习最新内容 - 专知

会员服务 ·

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

无需强化学习的与人类偏好对齐的语言模型：Wombat袋熊

无需强化学习的与人类偏好对齐的语言模型：Wombat袋熊

PaperWeekly

5+阅读 · 2023年4月13日

【CVPR2023】基于强化学习的黑盒模型反演攻击

【CVPR2023】基于强化学习的黑盒模型反演攻击

专知

1+阅读 · 2023年4月12日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

最新《强化学习导论》教程，32页pdf

最新《强化学习导论》教程，32页pdf

专知

4+阅读 · 2023年4月5日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知

6+阅读 · 2022年11月29日

「基于课程学习的深度强化学习」研究综述

「基于课程学习的深度强化学习」研究综述

专知

9+阅读 · 2022年11月28日

I2A、MBMF、MVE、DMVE…你都掌握了吗？一文总结强化学习必备经典模型（二）

I2A、MBMF、MVE、DMVE…你都掌握了吗？一文总结强化学习必备经典模型（二）

机器之心

3+阅读 · 2022年11月27日

AI好奇心，不只害死猫！MIT强化学习新算法，智能体这回「难易通吃」

AI好奇心，不只害死猫！MIT强化学习新算法，智能体这回「难易通吃」

新智元

0+阅读 · 2022年11月27日

【AAAI2023】基于序图的因果结构强化学习

【AAAI2023】基于序图的因果结构强化学习

专知

5+阅读 · 2022年11月25日

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

专知

5+阅读 · 2022年11月24日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知

3+阅读 · 2022年11月22日

DQN、A3C、DDPG、IQN…你都掌握了吗？一文总结强化学习必备经典模型（一）

DQN、A3C、DDPG、IQN…你都掌握了吗？一文总结强化学习必备经典模型（一）

机器之心

6+阅读 · 2022年11月20日

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

专知

15+阅读 · 2022年11月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

参考链接

父主题

子主题

马尔可夫决策过程

UNREAL(DRL算法)

深度强化学习

人工智能游戏

图强化学习

微信扫码咨询专知VIP会员