集中一点，演化无限：PPO × Family决策智能入门公开课即日开讲

2022 年 11 月 30 日 机器之心

80，90年代出生的人，红白机总是童年时光重要的记忆片段之一。几叠游戏盒，两个手柄，就可以开启一整天的欢乐时光，乐此不疲地探索各种红白机游戏中的玩法、机制和彩蛋。虽然只是2维平面上的像素头小人，虽然只是「上上下下左右左右BABA」这般的简单按键，但依然被玩家们开发出了各种精彩纷呈的决策行为，时至今日，仍然有很多爱好者在挑战各种诸如「一命通关」、「最速通关」的游戏记录。

B站UP主「探索者一九一二」录制的一命通关赤色要塞操作片段

B站UP主「探索者一九一二」录制的一命通关魂斗罗操作片段

而随着时代的发展，游戏类型也变得五花八门，于是玩家们探索的方式也愈加丰富，各类玩家解说攻略视频大大加快了游戏知识的传播速度，还有一系列基于规则的辅助工具将程序和算法引入到游戏探索之中。而到最近几年，人工智能技术的发展更是大大提升了算法探索游戏的极限，从2016年 AlphaGo 在围棋领域技惊四座开始，再到后续2019年的 AlphaStar，OpenAI Five，以深度强化学习为核心的决策AI，在这些复杂度和博弈性最顶尖的游戏中，一次又一次地创造着人工智能的新高峰。

但其实，这些最前沿的决策与智能，离我们并不遥远。在很多人十几二十年前的少年时代，玩家们通过个人自身的练习和尝试，朋友间数不清的讨论与琢磨，探索着这些红白机游戏中的种种玩法，而在当下，其实我们也可以去学习和运用深度强化学习技术，从另一个视角去打造决策智能，解锁各种有趣有成就感的游戏玩法，还可以跳出游戏的圈子，尝试应用到各种各样的日常决策行为，以及各行各业的优化与设计中去。想象一下，你不仅可以训练出一个帮你探索游戏玩法的最佳辅助，又可以拥有一个响应你各种日常指令的机器管家，自主导航和操作完成各种任务。

智能体在 habitat-sim 环境中按照指令执行任务

基于相似愿景，上海人工智能实验室 OpenDILab （开源决策智能平台）将会设计一系列的决策智能公开课。而这个系列的PPO x Family课程会由中国计算机学会主办，上海人工智能实验室承办，全球高校人工智能学术联盟、北京大学人工智能研究院多智能体中心、浙江大学上海高等研究院、商汤科技协办，知乎、机器之心、智海平台、Paperweekly支持。顺利结课的学员还可获得由中国计算机学会颁发的课程学习认证证书。

2022年12月，决策智能入门级公开课PPO x Family将正式线上开课。此课程旨在运用一种最经典的深度强化学习算法 Proximal Policy Optimization (PPO)，解决各种各样的决策智能问题，帮助一切对于深度强化学习技术有好奇心的人，轻便且高效地制作应用原型，了解和学习最强大最易用的 PPO x Family。在上完这门课程后，如果有进一步兴趣的话，受众可以将所学知识应用到相关领域中，利用更多的计算资源，去追逐和挑战更强大的人工智能。

PPO 原本是在2017年由 OpenAI 提出的一种深度强化学习算法，而在往后几年中，又有诸多研究者从不同方面给 PPO 添加了许多算法技巧，时至今日，PPO 已成为最受欢迎的算法之一。 OpenDILab 总结了各方面研究者们的相关工作，又结合了开源发布一年来，在40多种决策环境中调优和实践的经验和细节，最终凝练而成了这门 PPO x Family 决策智能入门公开课。