大规模强化学习的未来之路 | YEF 专题论坛

2022 年 6 月 7 日 中国计算机学会

YEF2022将于2022年6月9-11日举行，其中6月11日下午的专题论坛“大规模强化学习的未来之路”将邀请强化学习领域多位知名学者，针对“大数据、大算力、大模型背景下强化学习研究的核心科学问题是什么、如何工程落地”等问题进行探讨，并畅想其未来发展之路。

本届大会免费线上参会，届时将通过百度、知乎、量子位、腾讯Wiz、蔻享、快手、B站、爱奇艺、视频号等多家网络平台直播，点击获取大会直播日程及直播间入口信息

近年来，深度强化学习研究取得了巨大成就，受到了学术界和产业界的广泛关注，在游戏、推荐系统、无人驾驶等很多领域取得了令人瞩目的研究进展和成果。在新一代信息技术“大计算、大融合”的背景下，深度强化学习正在快速向大数据量、海量智能体、大模型等“大规模”方向演进。然而，在飞速发展的同时，大规模深度强化学习也面临着可解释性、稳定性和安全性等突出问题，尚未形成完整的科学技术体系，亟需探索新的理论和技术路径。

本论坛将围绕大规模强化学习的核心科学问题以及如何工程落地展开研讨，邀请学术界、产业界强化学习领域的专家学者就数据驱动的强化学习及其工业应用、强化学习求解大规模复杂博弈、自监督强化学习、大规模离线强化学习、多智能体强化学习进展以及强化学习在OPPO多场景落地的挑战等展开深入交流和讨论，并探讨大规模强化学习发展中可能存在的突破机遇和路径，从而助力我国人工智能的发展。下面我们来提前了解一下讲者与报告主题。

论坛举办及直播时间：6月11日13:30-17:30

在线直播间：（请提前关注和收藏）

嘉宾介绍

俞扬

报告主题：数据驱动的强化学习及其工业应用

报告摘要：强化学习现已成为机器学习最受关注的子领域之一，在游戏环境中表现出超越人类的决策控制能力。如何让强化学习走出游戏，用于生产力的提升，是报告人关注的问题。针对这一问题，报告人对数据驱动的强化学习开展了研究，并尝试使用在工业中应用。本次报告将汇报数据驱动强化学习的理论与技术进展，以及在工业中的一些应用案例。

嘉宾介绍：俞扬，CCF杰出会员，南京大学人工智能学院教授，主要从事机器学习、强化学习的研究工作。入选青年拔尖人才计划、AI's 10 to Watch。获CCF-IEEE青年科学家奖，首届亚太数据挖掘“青年成就奖”，并受邀在国际人工智能联合大会 IJCAI 2018上作“青年亮点报告”(Early Career Spotlight)。研究工作获4项国际论文奖励和3项国际算法竞赛冠军。

安波

报告主题：强化学习求解大规模复杂博弈

报告摘要：近些年人工智能一些重要的突破（如德扑系统Libratus和安全博弈论）归功于大规模博弈求解技术在最近十年来的进展。然后博弈求解技术无法解决一些复杂的大规模博弈问题，学术界开始尝试将深度学习技术用来求解复杂博弈问题。报告将讨论近年来这个方向的重要进展以及面临的挑战。

嘉宾介绍：安波是南洋理工大学讲席副教授，人工智能研究院联席院长，2011年于美国麻省大学Amherst分校获计算机科学博士学位。曾获IFAAMAS杰出博士论文奖及 INFORMS杰出运筹学应用奖。受邀在2017年IJCAI上做Early Career Spotlight talk。入选2018年度IEEE Intelligent Systems的AI’s 10 to Watch。担任JAIR编委，AIJ、JAAMAS、IEEE Intelligent Systems、ACM TIST和ACM TAA副主编，AAMAS’20程序委员会主席和AAMAS’23会议主席。当选AAAI高级会员及ACM杰出科学家。

郝建业

报告主题：自监督强化学习-通往强化学习决策大模型之路

报告摘要：近年来，强化学习的研究取得了很大进展，但仍存在采样效率和可泛化性等问题，这极大地限制了其在实际应用场景中的广泛应用。强化学习的主要瓶颈在于对环境和策略的表述能力有限。本次报告将介绍如何利用自监督表征技术，从状态、策略、动作、环境/任务等不同视角提高强化学习的表征能力，最终提高学习效率和跨场景/任务的可扩展性，最后展望基于自监督强化学习的“决策大模型”未来演进之路。

嘉宾介绍：郝建业，天津大学副教授，博士生导师。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文100余篇，专著2部。主持参与国家基金委、JKW、科技部、天津市人工智能重大等科研项目10余项，研究成果获ASE2019、CoRL2020最佳论文奖等、NeurIPS20-21黑盒优化比赛BBO、MineRL、求解器黑盒优化等冠军。研究成果在游戏AI、广告及推荐、自动驾驶、网络优化等领域落地应用。

张伟楠

报告主题：大规模离线强化学习

报告摘要：近年来深度强化学习已经成为人工智能研究界最受关注的方向之一，尽管如此，深度强化学习算法总是有样本效率低、和真实环境交互有风险等问题，这阻碍着该技术广泛落地到现实应用的进程。从2020年开始，离线强化学习技术开始被学术界关注，并在近期获得了较快的发展。离线强化学习限制智能体在训练阶段只能基于给定的经验数据集，不能和真实环境有交互，由此最大限度地使用了经验数据，并避免了还未训练好的智能体和真实环境交互的风险。因此可以看出，离线强化学习的成功发展能够大大推进强化学习技术的落地。报告主要介绍离线强化学习的问题定义和核心科学问题，讨论近年来学术界关于离线强化学习的研究进展和前沿探索课题，以及讨论离线强化学习大模型研究的最新进展和未来发展的趋势。

嘉宾介绍：张伟楠，CCF高级会员，现任上海交通大学副教授、博士生导师，科研领域包括强化学习和数据科学，相关的研究成果在国际会议和期刊上发表超过100篇学术论文；4次获得国际学术会议和研讨会的最佳论文奖项；入选中国科协青年人才托举工程，获得吴文俊人工智能优秀青年奖和达摩院青橙奖。张伟楠2016年博士毕业于伦敦大学学院。

卢宗青

报告主题：Advances in Multi-Agent Reinforcement Learning

报告摘要：多智能体强化学习具有广泛的应用前景，近年来受到机器学习领域的广泛关注。本报告将介绍多智能体强化学习基础算法（值函数和策略梯度）的最新进展及应用。具体包括集中训练去中心化执行学习算法、去中心化学习算法、以及多智能体强化学习在现实场景中的应用。

嘉宾介绍：卢宗青，北京大学计算机学院助理教授（博雅青年学者），人工智能研究院研究员，决策智能课题组负责人，主要研究方向强化学习。他于2014年在新加坡南洋理工大学获得计算机博士学位，2014至2017年在美国宾州州立大学从事博士后研究，2017年9月加入北京大学。

陈令奎

报告主题：强化学习在OPPO多场景落地的挑战

报告摘要：近几年，强化学习在工业落地的建模上有了一些突破，能够在一些广告场景落地来解决部分决策问题，但是由于算法落地成本高，OPPO的算法工程师并没有享受到足够的强化学习带来的技术红利。如何来降低强化学习接入门槛，并给予算法工程提供足够丰富的衍生的算法服务仍是在OPPO落地的核心问题。本次报告将分享强化学习在OPPO的应用分发、浏览器等场景落地的技术挑战和解决方案，以及沉淀出的强化学习平台及服务的介绍。

嘉宾介绍：陈令奎，OPPO数智工程事业部机器学习高级专家。2015年加入京东，参与了京东云的图像系统建设；2018年加入阿里妈妈先后负责品牌广告，淘宝展示广告的机制策略；2019年加入微博整体负责信息流及视频等业务的推荐算法。2021年加入OPPO，整体负责强化学习平台建设。

论坛议程

论坛时间：6月11日下午13:30-17:30

1.主持人介绍参会嘉宾；

2.每位嘉宾依次做报告+问答；

3.Pannel：由主持人提出若干思辨问题，参会嘉宾发表看法并讨论。

执行主席

钱宇华

个人简介：钱宇华，CCF YOCSEF太原荣誉AC委员、模式识别与人工智能专委会执委，山西大学计算机与信息技术学院教授、博导，国家高层次人才，全球高被引科学家，国家优青。研究领域为人工智能、大数据、数据挖掘与机器学习等，在数据挖掘及人工智能领域的期刊和国际会议发表论文100余篇。曾获山西省自然科学一等奖、中国计算机学会优博奖、全国百篇优博提名奖等。

魏巍

个人简介：魏巍，CCF YOCSEF太原候任主席，山西大学计算机与信息技术学院教授、博导。主要从事数据挖掘、机器学习、无人系统等人工智能相关领域的研究，研究兴趣聚焦于强化学习、度量学习、数据降维等方面，在AAAI、TKDE等会议及期刊发表多篇学术论文。

大会完整直播日程及直播间入口：倒计时一周！YEF 2022免费直播日程公布！多网络平台直播，提前锁定，精彩不错过！

YEF 2022各地线下会场将严格遵守当地防疫政策，并将采取严格的防疫管理措施，确保参会安全，敬请现场参会者理解配合。

关于YEF 2022 大会围绕“计算+行业”的蓝图，以“ 大计算、大融合 ”为主题，邀请国内外来自高校、科研单位、大型IT企业的著名专家作高水平的学术、技术报告，同时还组织畅想未来的“思想秀”，展现计算机界青年创业者风采的“科技创业秀”，为大学生提供展示舞台的“大学生学术秀”。除此之外，本次YEF更推出“我国软件供应链安全问题及解决之道”、“探寻当代科技Heroine（女性英雄）的成长模型”、“安全可靠人工智能算法”、“大规模强化学习的未来之路”、“人工智能如何助力科学发现与计算？”等22个值得期待的观点论坛和技术论坛。另有“青科看未来——人工智能的发展困境和突破机遇”大会论坛和““计算+”的成功经验与所面临的挑战”大会论坛。

CCF推荐

【精品文章】