We introduce Air Learning, an open-source simulator, and a gym environment for deep reinforcement learning research on resource-constrained aerial robots. Equipped with domain randomization, Air Learning exposes a UAV agent to a diverse set of challenging scenarios. We seed the toolset with point-to-point obstacle avoidance tasks in three different environments and Deep Q Networks (DQN) and Proximal Policy Optimization (PPO) trainers. Air Learning assesses the policies' performance under various quality-of-flight (QoF) metrics, such as the energy consumed, endurance, and the average trajectory length, on resource-constrained embedded platforms like a Raspberry Pi. We find that the trajectories on an embedded Ras-Pi are vastly different from those predicted on a high-end desktop system, resulting in up to $40\%$ longer trajectories in one of the environments. To understand the source of such discrepancies, we use Air Learning to artificially degrade high-end desktop performance to mimic what happens on a low-end embedded system. We then propose a mitigation technique that uses the hardware-in-the-loop to determine the latency distribution of running the policy on the target platform (onboard compute on aerial robot). A randomly sampled latency from the latency distribution is then added as an artificial delay within the training loop. Training the policy with artificial delays allows us to minimize the hardware gap (discrepancy in the flight time metric reduced from 37.73\% to 0.5\%). Thus, Air Learning with hardware-in-the-loop characterizes those differences and exposes how the onboard compute's choice affects the aerial robot's performance. We also conduct reliability studies to assess the effect of sensor failures on the learned policies. All put together, \airl enables a broad class of deep RL research on UAVs. The source code is available at:~\texttt{\url{http://bit.ly/2JNAVb6}}.


翻译:我们引入 Air Learning, 一个开放源代码模拟器, 以及一个健身环境, 用于在资源限制的航空机器人方面进行深度强化学习研究。 安装了域随机化, Are Learning 将一个UAV代理器暴露在一系列挑战性假设中。 我们发现, 嵌入的 Ras- Pi 的轨迹与高端桌面系统中的预示的轨迹有很大不同, 导致在某个环境中使用40美元更长的轨迹优化。 为了了解这种差异的根源, 我们使用 Ale Lear Lear Lear 学会人为地将高端桌面性能降至低端内置系统发生的情况。 我们用一个缓解性技术, 将Ras- Pi 的Ras- Pi 路标的轨迹与高端桌面系统中的预设障碍相去。 Rexcial- droadal- droadality ladeal deal lax lax lax lax lax lax lade lade lax lax ladeal lax lade lade lade lade lade lade lade la la lade lade lade lade lade lade lade lade la laut laut lade la la laut laut laut laut lade la la la laut laut laut laut la la la la lader la la laut la la la la laut la la la la laut la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la la

0
下载
关闭预览

相关内容

清华大学智能产业研究院(AIR)招聘深度强化方向的本科/硕士/博士实习生,主要研究方向侧重前沿 offline RL/multi-agent RL 算法研究及转化落地。团队同时注重与行业头部企业密切协作,赋能相应产业,实现高水平的产学研转化。
【UBC】高级机器学习课程,Advanced Machine Learning
专知会员服务
25+阅读 · 2021年1月26日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
59+阅读 · 2020年5月9日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
153+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
AutoML: A Survey of the State-of-the-Art
Arxiv
70+阅读 · 2019年8月14日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年5月22日
VIP会员
相关VIP内容
【UBC】高级机器学习课程,Advanced Machine Learning
专知会员服务
25+阅读 · 2021年1月26日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
59+阅读 · 2020年5月9日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
153+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员