主题: Learning for policy improvement

摘要: 强化学习在经验易获得的领域取得了许多成功,如电子游戏或棋盘游戏。这类区域的RL算法通常基于梯度下降:它们以较小的学习率进行许多噪声更新。相反,我们研究每次更新花费更多计算的算法,试图减少噪声并进行更大的更新;当经验比计算时间更昂贵时,这样的算法是合适的。特别地,我们看几种基于近似策略迭代的方法。

作者简介: Geoff Gordon博士是微软研究蒙特勒实验室的研究主任,也是卡内基梅隆大学机器学习系的教授。他还担任过机械学习系的临时系主任和教育副系主任。戈登博士的研究集中在能够进行长期思考的人工智能系统上,比如提前推理以解决问题、计划一系列行动或从观察中推断出看不见的特性。特别是,他着眼于如何将机器学习与这些长期思考任务结合起来。1991年,戈登博士在康奈尔大学获得计算机科学学士学位,1999年在卡内基梅隆大学获得计算机科学博士学位。他的研究兴趣包括人工智能、统计机器学习、教育数据、博弈论、多机器人系统,以及概率、对抗和一般和领域的规划。他之前的任命包括斯坦福大学计算机科学系的客座教授和圣地亚哥燃烧玻璃技术的首席科学家。

成为VIP会员查看完整内容
12

相关内容

人工智能(Artificial Intelligence, AI )是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支。
普林斯顿大学经典书《在线凸优化导论》,178页pdf
专知会员服务
183+阅读 · 2020年2月3日
已删除
将门创投
5+阅读 · 2018年11月27日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
Arxiv
12+阅读 · 2019年3月14日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年10月11日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
普林斯顿大学经典书《在线凸优化导论》,178页pdf
专知会员服务
183+阅读 · 2020年2月3日
相关论文
Arxiv
12+阅读 · 2019年3月14日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年10月11日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
微信扫码咨询专知VIP会员