视频 | 强化学习模拟水下稳定性,潜水体15分钟学会规则

2018 年 6 月 24 日 AI科技评论

这里是雷锋字幕组编译的 ICRA 2018 系列,带你了解 机器人与自动化 领域的最新研究成果。

AI科技评论按:这里是,雷锋字幕组编译的 ICRA 2018 系列,带你了解 机器人与自动化 领域的最新研究成果。

原标题 :Reinforcement Learning of Depth Stabilization with a Micro Diving Agent

翻译 | 张哥华    整理 | 凡江


强化学习是机器人在与环境交互中解决控制问题的方法。本论文中,我们将要学习基于模型值函数的强化学习方法,这种方法适用于部分机器人和光嵌入式系统。

一开始,我们设计了一个潜水体,它利用强化学习来模拟水下的稳定性。我们还利用试验来展示了一个小的潜水体对任务的学习能力,我们将这个潜水体设置成——它的状态被取决于它的深度和速度。

潜水体包含一个固定容量的的储水仓和一个可变容量的储水仓,后者用于驱动本体。

我们对其深度的稳定性的目标是,控制其可变储水容量以维持一个期望的深度。通过强化学习方法来解决这个控制问题,而不需要有系统先验知识或者是有驱动器动力知识。这种方法的挑战在于未知的流体效应,以及缓慢的非线性变化的驱动器动力。体积调整的时间常数与系统的动力匹配,可变容量储水仓相对于固定容量储水仓也是很小的,所以系统的最大控制力和最大约束力也是很小的。

在状态空间中包含了潜水体的深度和速度,这个图表就展示了其状态空间,在目标深度附近的区域决定了算法学习的区域,在这个分布里包含了 101 个状态。在此区域之外的每一个点都被当做是终止状态。

动作空间包含了两部分:一部分是减少可变储水仓的水量来提供浮力,另一部分增加可变储水仓的水量,来让潜水体算法收到一个损失,这个损失会惩罚潜水体,让其向期望的深度移动。除此之外,如果潜水体到达终止状态的位置,为了通过试验验证强化学习算法,一个小潜水体被设计和制造了出来。它的运行时间大约是 90 分钟,非易失性内存是 512 KB。

我们证明了在一个试验中,潜水体是能够从零学习到关于自身稳定性的规则。在左下角的图表中显示了潜水体在学习区域成功学习的运动轨迹。

视频链接:https://www.youtube.com/watch?v=F7g3K0PXWX4&t=5s


CCF - GAIR 2018 将于

6 月 29 日 至 7 月 1 日 

在深圳举行。

三天议程及强大阵容已经陆续出炉。


截止6月21日晚24点

AI 科技评论从众多申请之中

甄选了 20 名学生获得

价值 3999 元 CCF-GAIR 2018 大会门票

「国内往返机票+四晚住宿」福利


与此同时,

没有入选包机酒名单的同学们也不需要灰心,

我们也会在所有提交申请的同学中,

筛选部分学生

陆续进行一对一联系,

赠送价值 3999 元的 CCF-GAIR 大会门票。

(此门票包含三天午餐哟!)

赠票申请通道截止日期为

6 月 26 日晚 24:00

欢迎同学们点击「阅读原文」链接

填写个人信息申请!

(PS:请在表单内填写准确的微信号和邮箱,

审核通过后工作人员将通过微信或邮件与您取得联系,发放门票)


6 月 29 日至 7 月 1 日,深圳见!


赠票申请须知 

➤ 截止日期:6 月 26 日晚 24:00

➤ 活动解释权归雷锋网 AI 科技评论所有

登录查看更多
2

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
14+阅读 · 2020年5月26日
多智能体深度强化学习的若干关键科学问题
专知会员服务
190+阅读 · 2020年5月24日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
专知会员服务
210+阅读 · 2019年8月30日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
14+阅读 · 2020年5月26日
多智能体深度强化学习的若干关键科学问题
专知会员服务
190+阅读 · 2020年5月24日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
专知会员服务
210+阅读 · 2019年8月30日
相关资讯
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
Top
微信扫码咨询专知VIP会员