活动 | 中国自动化学会「深度与宽度强化学习」智能自动化学科前沿讲习班第二天

2018 年 6 月 16 日 AI科技评论

中科院自动化所成功举办第 5 期智能自动化学科前沿讲习班

AI 科技评论按:2018 年 5 月 31 日-6 月 1 日,中国自动化学会在中国科学院自动化研究所成功举办第 5 期智能自动化学科前沿讲习班,主题为「深度与宽度强化学习」。

如何赋予机器自主学习的能力,一直是人工智能领域的研究热点。在越来越多的复杂现实场景任务中,需要利用深度学习、宽度学习来自动学习大规模输入数据的抽象表征,并以此表征为依据进行自我激励的强化学习,优化解决问题的策略。深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用,使其被认为是迈向通用人工智能的重要途径。

本期讲习班邀请有澳门大学讲座教授,中国自动化学会副理事长陈俊龙,清华大学教授宋士吉,北京交通大学教授侯忠生,国防科技大学教授徐昕,中国中车首席专家杨颖,中科院研究员赵冬斌,清华大学教授季向阳,西安交通大学教授陈霸东,浙江大学教授刘勇,清华大学副教授游科友等十位学者就深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用进行报告。

AI 科技评论在本文中将对 6 月 1 日杨颖、赵冬斌、刘勇、游科友、徐昕的 5 场精彩报告进行介绍。

杨颖:轨道交通车辆预测与健康管理(PHM)技术应用

杨颖是中国中车首席专家,教授级高级工程师,中车株洲电力机车有限公司副总工程师。

本报告专注于智慧列车相关内容,中国的轨道交通发展迅猛,列车数量在过去六年里几乎翻了两番。传统的定期保养模式现在问题重重,且这种模式花费不菲。在该背景下急需一个新的车辆保养方案。中国中车株洲和深圳铁路公司联合开发了一个轨道交通车辆预测与健康管理系统来降低车辆保养所需的人工费用以及其他费用。借助 PHM 系统,可以把定期保养模式转换为有条件保养模式,这样就可以延长检查保养周期,从而延长列车在安全健康状态下的运营时间。

赵冬斌:深度强化学习算法及应用

赵冬斌是中国科学院自动化研究所研究员、博导,中国科学院大学岗位教授。

本报告专注于深度强化学习算法的应用。将具有「决策」能力的强化学习 (RL: Reinforcement Learning) 和具有「感知」能力的深度学习 (DL: Deep Learning) 相结合,形成深度强化学习 (DRL: Deep RL) 方法,成为人工智能 (AI: Artificial Intelligence) 的主要方法之一。2013 年,谷歌 DeepMind 团队提出了一类 DRL 方法,在视频游戏上的效果接近或超过人类游戏玩家,成果发表在 2015 年的《Nature》上。2016 年,相继发表了所开发的基于 DRL 的围棋算法 AlphaGo,以 5:0 战胜了欧洲围棋冠军和超一流围棋选手李世石,使围棋 AI 水平达到了一个前所未有的高度。2017 年初,AlphaGo 的升级程序 Master,与 60 名人类顶级围棋选手比赛获得不败的战绩。2017 年 10 月,DeepMind 团队提出了 AlphaGo Zero,完全不用人类围棋棋谱而完胜最高水平的 AlphaGo,再次刷新了人们的认识。并进一步形成通用的 Alpha Zero 算法,超过最顶级的国际象棋和日本将棋 AI。DRL 在视频游戏、棋类博弈、自动驾驶、医疗等领域的应用日益增多。本报告介绍了强化学习、深度学习和深度强化学习算法,以及在各个领域的典型应用。

刘勇:正则化深度学习及其在机器人环境感知中的应用

刘勇是浙江大学教授、博导,浙江大学求是青年学者。

本报告专注于正则化深度学习方法。近年来,随着人工智能技术的飞速发展,深度神经网络技术在图像分析、语音识别、自然语言理解等难点问题中都取得了十分显著的应用成果。然而该技术在机器人感知领域的应用相对而言仍然不够成熟,主要源于深度学习往往需要大量的训练样本来避免过拟合、提升泛化能力,从而降低其在测试样本上的泛化误差,而机器人环境感知中涉及的任务与环境具有多样化特性,且严重依赖于机器人硬件平台,因而难以针对机器人各感知任务提供大量标注样本;其次,对于解不唯一的病态问题,即使提供大量的训练数据,深度学习方法也难以在测试数据上提供理想的估计,而机器人感知任务中所涉及的距离估计、模型重构等问题就是典型的病态问题,其输入中没有包含对应到唯一输出的足够信息。针对上述问题,本报告以提升深度学习泛化能力为目标、以嵌入先验知识的正则化方法为手段、以机器人环境感知为应用背景进行了介绍。

总体上看目前刘勇教授研究内容共有四项,分别是:

• 隐层正则约束:图正则自编码器
• 结构正则约束:语义正则网络
• 结构正则约束:嵌套残差网络
• 输出正则约束:深度移动立方体网络 

就目前的研究结果来说,正则化统一框架下深度学习性能有明显的提升,在一系列机器人环境感知应用上取得当前领先表现。在接下来的工作中,刘勇教授团队将专注于无监督学习,定性与定量感知任务相结合,结合机器人声学、触觉等传感器等内容。

游科友:分布式优化算法与学习

游科友是清华大学副教授、博导,国家优青,国家青年千人。

本报告专注于分布式优化算法等问题,随着训练参数与样本规模的的急激增长,深度学习在实际应用系统中显示出了巨大的应用前景。分布式与并行优化是指通过多求解器起来协作求解的一类优化问题,其在大规模数值计算、机器学习、资源分配、传感器网络等有重要的研究意义和应用价值,并成为了大规模优化与学习中最具挑战性的问题之一。本报告首先讨论了分布式优化的几个典型难题;其次。以鲁棒性凸优化为例,提出了分布式原-对偶求解算法与分布式 Polyak 算法,并以严格证明了算法的有效性。

游科友老师团队的在本报告中提到的主要内容包括:

• 介绍分布式优化的关键特征
• 他们设计的用来解决鲁棒性凸优化的分布式算法可以保证概率上最优
• 他们设计了一个用于分布式优化的分布式异步算法,并可以充分证明其收敛性

• 他们设计了一个计算向量中心性的分布式算法,并可充分证明其收敛性

徐昕:自评价学习控制中的特征表示与滚动优化

徐昕是国防科技大学教授、博导,国防科技卓越青年人才。

本报告专注于强化学习的优化方法。以强化学习 (reinforcement learning) 为代表的自主学习技术对于提升各类机器人系统的优化决策与控制性能具有重要意义。在复杂不确定环境中机器人系统面临诸多优化决策与控制问题。面对这些问题,徐昕教授介绍了自评价学习在控制系统中的应用,自评价学习控制中的特征表示方法,以及滚动优化的方法。

以上是 AI 科技评论对中国自动化学会第 5 期智能自动化学科前沿讲习班第二天内容的全部报道,第一天的内容概述参见这里;以及澳门大学讲座教授、中国自动化学会副理事长陈俊龙关于强化学习与宽度学习的演讲全文请见近日微信推送第一条。两天时间,十位专家为大家带了十分精彩又干货十足的报告,对深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用进行了深入介绍。


CCF - GAIR 2018 将于

6 月 29 日 至 7 月 1 日 

在深圳举行。

三天议程及强大阵容已经陆续出炉。


6 月 8 日,

AI 科技评论启动了

CCF-GAIR 2018 的免费门票申请通道,

并计划从中筛选 20 位学生,

承包「国内往返机票+四晚住宿」

AI 科技评论读者专属福利。


福利发出后,

表单如海水一样涌入后台系统,

截至 6 月 14 日晚 24 点,

第一批申请表单已经截止申请,

同事们最近也都在加班加点审核表单。


在此,

AI 科技评论由衷感谢

同学们对 CCF-GAIR 大会的关注!


从众多申请之中,

AI 科技评论甄选了 12 名学生,

他们将成为第一批获得

价值 3999 元 CCF-GAIR 2018 大会门票

「国内往返机票+四晚住宿」福利的同学!



AI 科技评论将第一批获奖学生名单

及所属院校公布如下(共 12 位):


新加坡南洋理工大学 张征豪

斯坦福大学 孙林

清华大学 孔涛

宾夕法尼亚大学 王倪剑桥

北京航空航天大学 黄雷

澳大利亚国立大学 刘瀚阳

中国科学院 王昌淼

香港科技大学 李正

上海交通大学 徐衍钰

华中科技大学 李柏依

香港理工大学 曹自强

香港中文大学 杨巍


在此向以上同学表示祝贺,

运营小姐姐将很快联系你们哟~

或者欢迎您主动添加微信号:aitechreview,

并备注姓名及院校。


但是!

我们的福利申请并没有结束!

从 6 月 15 日 0 时开始,

AI 科技评论将开启第二批福利申请通道,

将继续筛选 8 名同学赠送价值 3999 元 CCF-GAIR 2018 大会门票

及「国内往返机票+四晚住宿」福利!

本福利申请截至 6 月 21 日晚 24 点,

预计将于 6 月 22 日公布获奖名单。

欢迎同学们点击「阅读原文」链接

填写个人信息申请!


(PS:请在表单内填写准确的微信号,

审核通过后工作人员将通过微信与您取得联系,发放门票)



与此同时,

暂时没有入选第一批名单的同学们也不需要灰心,

我们也会在所有提交申请的同学中,

筛选部分学生

陆续进行一对一联系,

赠送价值 3999 元的 CCF-GAIR 大会门票。

(此门票包含三天午餐哟!)

赠票申请通道截止日期为

6 月 26 日晚 24:00


6 月 29 日至 7 月 1 日,深圳见!


赠票申请须知 

➤ 截止日期:6 月 26 日晚 24:00

➤ 活动解释权归雷锋网 AI 科技评论所有

登录查看更多
2

相关内容

赵冬斌,中国科学院自动化所,IEEE资深会员。 http://sourcedb.ia.cas.cn/cn/iaexpert/200908/t20090804_2310521.html
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
 第八届中国科技大学《计算机图形学》暑期课程课件
专知会员服务
56+阅读 · 2020年3月4日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
专知会员服务
208+阅读 · 2019年8月30日
预告 | CSIG图像图形学科前沿讲习班:图神经网络
【ASSIA】第12期智能自动化学科前沿讲习班——推荐系统
中国自动化学会
12+阅读 · 2019年10月11日
报名 | CSIG“图像视频理解”学科前沿讲习班
AI科技评论
4+阅读 · 2019年7月18日
学界丨面向未来培养人工智能人才 天津大学人工智能学院成立
报名 | 知识图谱前沿技术课程(苏州大学站)
PaperWeekly
12+阅读 · 2017年11月27日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
5+阅读 · 2017年10月27日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员