主题: Learning for policy improvement
摘要: 强化学习在经验易获得的领域取得了许多成功,如电子游戏或棋盘游戏。这类区域的RL算法通常基于梯度下降:它们以较小的学习率进行许多噪声更新。相反,我们研究每次更新花费更多计算的算法,试图减少噪声并进行更大的更新;当经验比计算时间更昂贵时,这样的算法是合适的。特别地,我们看几种基于近似策略迭代的方法。
作者简介: Geoff Gordon博士是微软研究蒙特勒实验室的研究主任,也是卡内基梅隆大学机器学习系的教授。他还担任过机械学习系的临时系主任和教育副系主任。戈登博士的研究集中在能够进行长期思考的人工智能系统上,比如提前推理以解决问题、计划一系列行动或从观察中推断出看不见的特性。特别是,他着眼于如何将机器学习与这些长期思考任务结合起来。1991年,戈登博士在康奈尔大学获得计算机科学学士学位,1999年在卡内基梅隆大学获得计算机科学博士学位。他的研究兴趣包括人工智能、统计机器学习、教育数据、博弈论、多机器人系统,以及概率、对抗和一般和领域的规划。他之前的任命包括斯坦福大学计算机科学系的客座教授和圣地亚哥燃烧玻璃技术的首席科学家。