活动 | 中国自动化学会「深度与宽度强化学习」智能自动化学科前沿讲习班第二天

2018 年 6 月 16 日 AI科技评论

中科院自动化所成功举办第 5 期智能自动化学科前沿讲习班

AI 科技评论按：2018 年 5 月 31 日-6 月 1 日，中国自动化学会在中国科学院自动化研究所成功举办第 5 期智能自动化学科前沿讲习班，主题为「深度与宽度强化学习」。

如何赋予机器自主学习的能力，一直是人工智能领域的研究热点。在越来越多的复杂现实场景任务中，需要利用深度学习、宽度学习来自动学习大规模输入数据的抽象表征，并以此表征为依据进行自我激励的强化学习，优化解决问题的策略。深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用，使其被认为是迈向通用人工智能的重要途径。

本期讲习班邀请有澳门大学讲座教授，中国自动化学会副理事长陈俊龙，清华大学教授宋士吉，北京交通大学教授侯忠生，国防科技大学教授徐昕，中国中车首席专家杨颖，中科院研究员赵冬斌，清华大学教授季向阳，西安交通大学教授陈霸东，浙江大学教授刘勇，清华大学副教授游科友等十位学者就深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用进行报告。

AI 科技评论在本文中将对 6 月 1 日杨颖、赵冬斌、刘勇、游科友、徐昕的 5 场精彩报告进行介绍。

杨颖：轨道交通车辆预测与健康管理（PHM）技术应用

杨颖是中国中车首席专家，教授级高级工程师，中车株洲电力机车有限公司副总工程师。

本报告专注于智慧列车相关内容，中国的轨道交通发展迅猛，列车数量在过去六年里几乎翻了两番。传统的定期保养模式现在问题重重，且这种模式花费不菲。在该背景下急需一个新的车辆保养方案。中国中车株洲和深圳铁路公司联合开发了一个轨道交通车辆预测与健康管理系统来降低车辆保养所需的人工费用以及其他费用。借助 PHM 系统，可以把定期保养模式转换为有条件保养模式，这样就可以延长检查保养周期，从而延长列车在安全健康状态下的运营时间。

赵冬斌：深度强化学习算法及应用

赵冬斌是中国科学院自动化研究所研究员、博导，中国科学院大学岗位教授。

本报告专注于深度强化学习算法的应用。将具有「决策」能力的强化学习 (RL: Reinforcement Learning) 和具有「感知」能力的深度学习 (DL: Deep Learning) 相结合，形成深度强化学习 (DRL: Deep RL) 方法，成为人工智能 (AI: Artificial Intelligence) 的主要方法之一。2013 年，谷歌 DeepMind 团队提出了一类 DRL 方法，在视频游戏上的效果接近或超过人类游戏玩家，成果发表在 2015 年的《Nature》上。2016 年，相继发表了所开发的基于 DRL 的围棋算法 AlphaGo，以 5:0 战胜了欧洲围棋冠军和超一流围棋选手李世石，使围棋 AI 水平达到了一个前所未有的高度。2017 年初，AlphaGo 的升级程序 Master，与 60 名人类顶级围棋选手比赛获得不败的战绩。2017 年 10 月，DeepMind 团队提出了 AlphaGo Zero，完全不用人类围棋棋谱而完胜最高水平的 AlphaGo，再次刷新了人们的认识。并进一步形成通用的 Alpha Zero 算法，超过最顶级的国际象棋和日本将棋 AI。DRL 在视频游戏、棋类博弈、自动驾驶、医疗等领域的应用日益增多。本报告介绍了强化学习、深度学习和深度强化学习算法，以及在各个领域的典型应用。

刘勇：正则化深度学习及其在机器人环境感知中的应用

刘勇是浙江大学教授、博导，浙江大学求是青年学者。

本报告专注于正则化深度学习方法。近年来，随着人工智能技术的飞速发展，深度神经网络技术在图像分析、语音识别、自然语言理解等难点问题中都取得了十分显著的应用成果。然而该技术在机器人感知领域的应用相对而言仍然不够成熟，主要源于深度学习往往需要大量的训练样本来避免过拟合、提升泛化能力，从而降低其在测试样本上的泛化误差，而机器人环境感知中涉及的任务与环境具有多样化特性，且严重依赖于机器人硬件平台，因而难以针对机器人各感知任务提供大量标注样本；其次，对于解不唯一的病态问题，即使提供大量的训练数据，深度学习方法也难以在测试数据上提供理想的估计，而机器人感知任务中所涉及的距离估计、模型重构等问题就是典型的病态问题，其输入中没有包含对应到唯一输出的足够信息。针对上述问题，本报告以提升深度学习泛化能力为目标、以嵌入先验知识的正则化方法为手段、以机器人环境感知为应用背景进行了介绍。

总体上看目前刘勇教授研究内容共有四项，分别是：

• 隐层正则约束：图正则自编码器
• 结构正则约束：语义正则网络
• 结构正则约束：嵌套残差网络
• 输出正则约束：深度移动立方体网络

就目前的研究结果来说，正则化统一框架下深度学习性能有明显的提升，在一系列机器人环境感知应用上取得当前领先表现。在接下来的工作中，刘勇教授团队将专注于无监督学习，定性与定量感知任务相结合，结合机器人声学、触觉等传感器等内容。

游科友：分布式优化算法与学习

游科友是清华大学副教授、博导，国家优青，国家青年千人。

本报告专注于分布式优化算法等问题，随着训练参数与样本规模的的急激增长，深度学习在实际应用系统中显示出了巨大的应用前景。分布式与并行优化是指通过多求解器起来协作求解的一类优化问题，其在大规模数值计算、机器学习、资源分配、传感器网络等有重要的研究意义和应用价值，并成为了大规模优化与学习中最具挑战性的问题之一。本报告首先讨论了分布式优化的几个典型难题；其次。以鲁棒性凸优化为例，提出了分布式原-对偶求解算法与分布式 Polyak 算法，并以严格证明了算法的有效性。

游科友老师团队的在本报告中提到的主要内容包括：

• 介绍分布式优化的关键特征
• 他们设计的用来解决鲁棒性凸优化的分布式算法可以保证概率上最优
• 他们设计了一个用于分布式优化的分布式异步算法，并可以充分证明其收敛性

• 他们设计了一个计算向量中心性的分布式算法，并可充分证明其收敛性

徐昕：自评价学习控制中的特征表示与滚动优化

徐昕是国防科技大学教授、博导，国防科技卓越青年人才。

本报告专注于强化学习的优化方法。以强化学习 (reinforcement learning) 为代表的自主学习技术对于提升各类机器人系统的优化决策与控制性能具有重要意义。在复杂不确定环境中机器人系统面临诸多优化决策与控制问题。面对这些问题，徐昕教授介绍了自评价学习在控制系统中的应用，自评价学习控制中的特征表示方法，以及滚动优化的方法。

以上是 AI 科技评论对中国自动化学会第 5 期智能自动化学科前沿讲习班第二天内容的全部报道，第一天的内容概述参见这里；以及澳门大学讲座教授、中国自动化学会副理事长陈俊龙关于强化学习与宽度学习的演讲全文请见近日微信推送第一条。两天时间，十位专家为大家带了十分精彩又干货十足的报告，对深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用进行了深入介绍。