Consider a prosthetic arm, learning to adapt to its user's control signals. We propose Interaction-Grounded Learning for this novel setting, in which a learner's goal is to interact with the environment with no grounding or explicit reward to optimize its policies. Such a problem evades common RL solutions which require an explicit reward. The learning agent observes a multidimensional context vector, takes an action, and then observes a multidimensional feedback vector. This multidimensional feedback vector has no explicit reward information. In order to succeed, the algorithm must learn how to evaluate the feedback vector to discover a latent reward signal, with which it can ground its policies without supervision. We show that in an Interaction-Grounded Learning setting, with certain natural assumptions, a learner can discover the latent reward and ground its policy for successful interaction. We provide theoretical guarantees and a proof-of-concept empirical evaluation to demonstrate the effectiveness of our proposed approach.


翻译:考虑一个假肢臂, 学习如何适应用户的控制信号。 我们为这个新颖的环境提出互动圈学习建议, 学习者的目标是与环境互动, 没有任何依据或明确的奖励来优化其政策。 这样的问题回避了需要明确奖励的共同RL解决方案。 学习者观察一个多维背景矢量, 采取行动, 然后观察一个多维反馈矢量。 这个多维反馈矢量没有明确的奖赏信息 。 为了成功, 算法必须学会如何评价反馈矢量, 以发现一个潜在的奖赏信号, 它可以在没有监督的情况下制定政策。 我们显示, 在互动圈学习环境中, 在某些自然假设下, 学习者可以发现潜在的奖赏, 并确立其成功互动的政策。 我们提供理论保障和概念性经验评估, 以证明我们拟议方法的有效性 。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
210+阅读 · 2020年1月13日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
95+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
浅谈主动学习(Active Learning)
凡人机器学习
31+阅读 · 2020年6月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
Arxiv
0+阅读 · 2021年8月1日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
9+阅读 · 2019年4月19日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
VIP会员
相关资讯
浅谈主动学习(Active Learning)
凡人机器学习
31+阅读 · 2020年6月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
相关论文
Arxiv
0+阅读 · 2021年8月1日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
9+阅读 · 2019年4月19日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Top
微信扫码咨询专知VIP会员