Methods to learn under algorithmic triage have predominantly focused on supervised learning settings where each decision, or prediction, is independent of each other. Under algorithmic triage, a supervised learning model predicts a fraction of the instances and humans predict the remaining ones. In this work, we take a first step towards developing reinforcement learning models that are optimized to operate under algorithmic triage. To this end, we look at the problem through the framework of options and develop a two-stage actor-critic method to learn reinforcement learning models under triage. The first stage performs offline, off-policy training using human data gathered in an environment where the human has operated on their own. The second stage performs on-policy training to account for the impact that switching may have on the human policy, which may be difficult to anticipate from the above human data. Extensive simulation experiments in a synthetic car driving task show that the machine models and the triage policies trained using our two-stage method effectively complement human policies and outperform those provided by several competitive baselines.


翻译:在算法分类中,学习方法主要集中在每个决定或预测都彼此独立的受监督学习环境。在算法分类中,受监督的学习模型预测了部分事例和人类预测了其余事例。在这项工作中,我们迈出第一步,开发强化学习模型,这些模型在算法分类中最优化地运作。为此,我们通过选择框架来审视问题,并开发一个两阶段的演艺-批评方法,学习在分法下学习强化学习模型。第一阶段,利用在人类自己经营的环境中收集的人类数据进行离线、离政策培训。第二阶段,进行政策培训,以了解转换可能对人类政策产生的影响,而这种影响可能难以从上述人类数据中预测。合成汽车驾驶任务的广泛模拟实验表明,使用我们两阶段方法培训的机器模型和三角政策有效地补充了人类政策,超越了几个竞争性基线所提供的效果。

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
8+阅读 · 2021年5月21日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
8+阅读 · 2019年1月8日
Arxiv
6+阅读 · 2018年12月10日
VIP会员
相关VIP内容
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
相关论文
Top
微信扫码咨询专知VIP会员