成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
模仿学习
关注
320
模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,比如执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。当智能体学习人类行为时,虽然我们也需要使用模仿学习,但实时的行为模拟成本会非常高。与之相反,吴恩达提出的学徒学习(Apprenticeship learning)执行的是存粹的贪婪/利用(exploitative)策略,并使用强化学习方法遍历所有的(状态和行为)轨迹(trajectories)来学习近优化策略。它需要极难的计略(maneuvers),而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态,所以可为自动驾驶这样的许多任务提供更可靠的通用框架。
综合
百科
VIP
热门
动态
论文
精华
Self-Supervised Adversarial Imitation Learning
Arxiv
0+阅读 · 2023年4月21日
Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets
Arxiv
0+阅读 · 2023年4月18日
A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation Learning
Arxiv
0+阅读 · 2023年4月17日
Reward-free Policy Imitation Learning for Conversational Search
Arxiv
0+阅读 · 2023年4月17日
Synthetically Generating Human-like Data for Sequential Decision Making Tasks via Reward-Shaped Imitation Learning
Arxiv
1+阅读 · 2023年4月14日
A Review on Longitudinal Car-Following Model
Arxiv
0+阅读 · 2023年4月14日
Divide & Conquer Imitation Learning
Arxiv
0+阅读 · 2023年4月13日
Curriculum-Based Imitation of Versatile Skills
Arxiv
0+阅读 · 2023年4月11日
Traffic-Aware Autonomous Driving with Differentiable Traffic Simulation
Arxiv
0+阅读 · 2023年4月7日
Gaze Regularized Imitation Learning: Learning Continuous Control from Human Gaze
Arxiv
0+阅读 · 2023年4月7日
ENTL: Embodied Navigation Trajectory Learner
Arxiv
0+阅读 · 2023年4月7日
Imitrob: Imitation Learning Dataset for Training and Evaluating 6D Object Pose Estimators
Arxiv
0+阅读 · 2023年4月5日
Goal-Conditioned Imitation Learning using Score-based Diffusion Policies
Arxiv
0+阅读 · 2023年4月5日
A Policy-Guided Imitation Approach for Offline Reinforcement Learning
Arxiv
0+阅读 · 2023年4月5日
End-to-end Manipulator Calligraphy Planning via Variational Imitation Learning
Arxiv
0+阅读 · 2023年4月6日
参考链接
父主题
机器学习
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top