报告主题: Reinforcement Learning
报告简介: 强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。其基本原理是:如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。Nando教授将从强化学习的基础入手,并结合强化学习的应用展开介绍。
嘉宾介绍: Nando曾在加州大学伯克利分校(UC Berkeley)从事人工智能工作,并于2001年成为加拿大不列颠哥伦比亚大学的教授,随后于2013年成为英国牛津大学的教授。2017年,他全职加入DeepMind,担任首席科学家,以帮助他们解决智力问题,使子孙后代可以过上更好的生活。 Nando还是加拿大高级研究所的资深研究员,并曾获得多个学术奖项。