主题: Reward Machines: Structuring reward function specifications and reducing sample complexity in reinforcement learning

简介: 人类已经发展了数千年的语言,以提供有用的说明来理解彼此以及与现实世界并与之互动。这些语言包括自然语言,数学语言和演算,以及最近的形式语言,这些语言使我们能够通过人类可解释的说明与机器进行交互。在本次演讲中,我介绍了“奖励机器”的概念,它是一种基于自动机的结构,为奖励功能提供了正常的形式表示。奖励机器可以原生用于指定复杂的,非马尔可夫可奖励的行为。此外,各种人类友好(正式)语言都可以用作奖励规范语言,并且可以直接翻译成奖励机器,包括线性时序逻辑(LTL)的变体以及各种常规语言。奖励机器也可以被学习,并且可以用作在部分可观察的环境中进行交互的内存。通过展示奖励功能结构,奖励机实现了针对奖励功能量身定制的强化学习,包括量身定制的奖励塑造和Q学习。实验表明,这种针对报酬函数量身定制的算法明显优于最新的(深度)RL算法,解决了原本无法合理解决的问题,并极大地降低了样本的复杂性。

嘉宾介绍: Sheila McIlraith于2003年末加入多伦多大学计算机科学系。在加入多伦多大学之前,McIlraith教授在斯坦福大学担任了六年的研究科学家, McIlraith的研究领域是人工智能(AI)知识表示和自动推理。她在开发AI应用程序方面拥有10年的行业研发经验。 McIlraith是100多个学术出版物的作者。她目前担任国际科学基金会KR Inc.的主席,该基金会致力于促进有关知识表示和推理的研究和交流。 McIlraith是人工智能促进协会(AAAI)的研究员,《人工智能研究》杂志(JAIR)的副主编,在《人工智能》杂志的编辑委员会任职,并曾担任《人工智能》杂志的副主编。情报(AIJ)。她最近担任第32届AAAI人工智能会议(AAAI-18)的计划联席主席,并曾担任第13届国际知识表示和推理原理国际会议(KR2012)和国际语义网会议的计划联席主席。 (ISWC2004)。

成为VIP会员查看完整内容
13

相关内容

Facebook AI 年度总结来啦
AI科技评论
5+阅读 · 2019年1月20日
【微软亚研130PPT教程】强化学习简介
专知
36+阅读 · 2018年10月26日
多伦多大学“神经网络与机器学习导论(2018年春季)
人工智能头条
14+阅读 · 2018年4月3日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
3+阅读 · 2018年10月5日
Learning to Importance Sample in Primary Sample Space
Arxiv
3+阅读 · 2018年2月24日
Arxiv
5+阅读 · 2016年10月24日
VIP会员
相关VIP内容
相关论文
微信扫码咨询专知VIP会员