【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

强化学习（RL）研究的是当环境（即动力和回报）最初未知，但可以通过直接交互学习时的顺序决策问题。RL算法最近在许多问题上取得了令人印象深刻的成果，包括游戏和机器人。然而，大多数最新的RL算法需要大量的数据来学习一个令人满意的策略，并且不能用于样本昂贵和/或无法进行长时间模拟的领域（例如，人机交互）。朝着更具样本效率的算法迈进的一个基本步骤是，设计适当平衡环境探索、收集有用信息的方法，以及利用所学策略收集尽可能多的回报的方法。

本教程的目的是让您认识到探索性开发困境对于提高现代RL算法的样本效率的重要性。本教程将向观众提供主要算法原理（特别是，面对不确定性和后验抽样时的乐观主义）、精确情况下的理论保证（即表格RL）及其在更复杂环境中的应用，包括参数化MDP、线性二次控制，以及它们与深度学习架构的集成。本教程应提供足够的理论和算法背景，以使AI和RL的研究人员在现有的RL算法中集成探索原理，并设计新颖的样本高效的RL方法，能够处理复杂的应用，例如人机交互（例如，会话代理），医学应用（例如，药物优化）和广告（例如，营销中的终身价值优化）。在整个教程中，我们将讨论开放的问题和未来可能的研究方向。

成为VIP会员查看完整内容

101

相关内容

AAAI2020

关注 11

AAAI 2020 将于美国纽约举办，时间在 2 月 7 日-2 月 12 日，本届大会将是第 34 届 AAAI 大会。 AAAI 的英文全称是 Association for the Advance of Artificial Intelligence——美国人工智能协会。该协会是人工智能领域的主要学术组织之一，其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中，AAAI 均被列为人工智能领域的 A 类顶级会议。

元学习(meta learning) 最新进展综述论文

专知会员服务

281+阅读 · 2020年5月8日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日