聚焦最新进展！自动化所强化学习与运筹优化前沿技术论坛精彩报告全预告

会员服务 ·

聚焦最新进展！自动化所强化学习与运筹优化前沿技术论坛精彩报告全预告

2021 年 3 月 22 日 中国科学院自动化研究所

CASIA

解锁更多智能之美

印卧涛

阿里巴巴（美国）达摩院决策智能实验室负责人

报告主题：

整数规划在决策智能中的新应用

报告时间：

9：10-10：10

报告摘要：

整数规划拥有悠久历史，在交通、供应链、电力、调度等领域得到了广泛应用。阿里达摩院决策智能实验室一方面开发整数规划求解器并提出新的整数规划分解方法，另一方面将整数规划与机器学习结合，提升业务模型的准确性和可解释性。

郝建业

华为诺亚方舟决策推理实验室主任

报告主题：

深度强化学习的挑战及落地

报告时间：

10：10-11：10

报告摘要：

本报告首先会介绍深度强化学习背景与基础，然后从如何学的好、学的快、学的稳三方面介绍深度强化学习所面临的挑战及相应的解决方案，同时介绍深度强化学习在自动驾驶控制、5G网络优化、供应链物流优化等场景的应用。

秦志伟

滴滴AI Labs首席研究员

报告主题：

网约车交易市场优化中的深度强化学习方法

报告时间：

11：10-12：10

报告摘要：

随着智能手机的日益普及和功能强大，网约车平台已经成为人们实现实时、个性化出行的可靠选择，滴滴、Uber、Lyft都是其中的领导者。这些平台通过连接司机和乘客，使空闲的车座被有效利用，来满足不断增多的实时出行需求。

在此次讲座中，我们会介绍滴滴在网约车交易市场优化上的一系列研究工作，特别是针对订单匹配和车辆调度。我们会重点介绍场景时空价值网络，以及如何运用它来学习生成派单和调度策略。我们还会分享一些最新的迭代方向和实验结果。

叶德珩

腾讯绝悟AI技术负责人

报告主题：

Playing Honor of Kings with Artificial Intelligence

报告时间：

13：30-14：30

报告摘要：

游戏是人工智能算法的试金石。复杂游戏里的智能决策是当今研究热点和难点。

当国民游戏王者荣耀遇到人工智能科技会碰撞出怎样的火花？作为典型的MOBA游戏，王者荣耀有着很多的复杂元素，包括复杂的动作控制、全局意识、实时决策、多智能体的配合和对抗、非完全信息等。同时，王者有着上百名玩法各异的英雄，不同英雄组合起来的配合和对抗策略又完全不同。在这样的环境中，让AI做到智能决策有着极大的难度。

在本次讲座中，叶德珩博士将介绍腾讯“绝悟”AI的相关研发进展。“绝悟”AI目前在标准的王者1v1和5v5（开放英雄池，无限制）游戏中均达到顶尖人类水平，团队积累的相关机器学习应用技术达到世界一流水平。

王湘君

启元世界首席算法官

报告主题：

启元世界强化学习智能体的研究和应用

报告时间：

14：30-15：30

报告摘要：

智能体作为具备自我学习和自主决策的主体，将给数字和实体世界带来技术革新和体验升级。本次报告介绍启元在强化学习智能体方向的研究和应用相关的工作: 首先介绍星际争霸智能体基础技术研究和高效学习达到职业选手水平的关键技术，然后是实体机器人通过端到端学习实现Sim2real自主导航，最后介绍智能体技术在游戏产品中的应用。

郭祥昊

字节跳动游戏AI团队负责人

报告主题：

基于强化学习的游戏参数设计

报告时间：

15：30-16：30

报告摘要：

游戏设计是一个复杂且不断迭代的决策过程。当游戏类型和基本规则定下来之后，游戏中若干重要数值设定（例如，怪物出现概率，物品价格等）是决定玩家体验的关键因素。在实际游戏开发中，这些数值的数量较大，它们之间存在相互关系。这使得游戏开发过程中，处理的参数空间大，数值设计与调整效率低，是游戏产品研发中的痛点问题。我们采用强化学习框架来解决这个问题。方法是：把游戏内核作为强化学习框架中的环境，我们关注的玩家数值特征作为状态。使用游戏设计的领域知识，把设计中玩家要达到的体验目标，量化为一系列强化学习中的回报（Reward）。Action被定义为在游戏进行的某个时刻，控制不同怪物出现的概率、不同物品掉落的概率等。在这个过程中，通过策略搜索来寻求总体回报最大，从而找到游戏的最优化数值设定。此方法把游戏数值设计决策问题，降维为相对简单强化学习回报设定问题。我们用一款自行设计的休闲游戏《种田娶老婆》验证了该方法的有效性。

论坛日程

2021年3月27日