谁说阿尔法狗们只会下棋玩游戏？DeepMind用它们给油管视频做压缩

会员服务 ·

谁说阿尔法狗们只会下棋玩游戏？DeepMind用它们给油管视频做压缩

2022 年 2 月 12 日 机器之心

选自DeeMind博客

作者：The MuZero Applied Team

机器之心编译

机器之心编辑部

在保证视频质量相似的前提下，DeepMind 的 MuZero 可以降低大约 4% 的比特率。

2016 年，DeepMind 推出了第一个能够在围棋中击败人类的智能体——AlphaGo。在之后的几年里，其继任者 AlphaZero 和 MuZero 继续向通用算法进发，用更少的预定义知识掌握了更多的游戏。例如，MuZero 在没有被告知规则的情况下就掌握了象棋、围棋、日本将棋和雅达利游戏。

然而，说来说去，这些应用还是没能脱离游戏的范畴，能不能用它们来解决现实世界的问题一直是外界关注的焦点。

昨天，DeepMind 在博客中公布了一个好消息：他们的 MuZero 已经向现实世界迈出了第一步，展现出了在优化视频压缩质量方面的潜力。相关细节呈现在一篇预印版论文中。

论文链接：https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

在这项研究中，DeepMind 的研究者和 YouTube 展开了合作，一起探索 Muzero 在视频压缩领域的潜力。分析人士预测，流媒体视频将占据互联网流量的绝大部分。为了节省带宽，视频在传输之前就必须进行压缩。这样一来，如何将压缩后的视频画质、流畅度等损失降到最小就成了视频厂商关注的重要问题，也是一个有望用强化学习解决的问题。DeepMind 的 Muzero 可以在保证视频质量相似的前提下降低大约 4% 的比特率。

大多数在线视频依赖于编解码器在视频的源头对其进行压缩或编码，然后通过互联网将其传输给观众，最后再解压或解码播放。这些编解码器为视频中的每一帧做出多个决定。经过几十年的手工工程，这些编解码器已经实现了一定程度的优化，在视频点播、视频通话、视频游戏和虚拟现实等多个领域得到了应用，但还有很大的优化空间。

由于强化学习特别适用于像编解码器那样的顺序决策问题，所以 DeepMind 就在这个问题上展开了探索。

他们的首个研究对象是被 YouTube 和其他流媒体服务广泛使用的 VP9 编解码器（特别是开源版本 libvpx）。与其他编解码器一样，使用 VP9 的服务提供商需要考虑比特率。比特率是指发送每帧视频所需的 1 和 0 的数量，是服务和存储视频所需的计算量和带宽的主要决定因素，影响视频加载所需时间、分辨率、缓冲和数据使用等很多指标。

在编码视频时，编解码器使用之前帧的信息来减少未来帧所需的比特数。

在 VP9 中，优化比特率最直接的方法是借助速率控制模块中的量化参数（QP）。这个参数决定了每一帧要应用的压缩级别。给定一个目标比特率，视频帧的 QP 按顺序决定，以实现整体视频质量最优化。直观地说，我们应该为复杂场景分配较高的比特率（较低的 QP），为静态场景分配较低的比特率（较高的 QP）。QP 选择算法解释了视频帧的 QP 值如何影响其他视频帧的比特率分配和整体视频质量。强化学习对于解决这类序列决策问题特别有帮助。

对于 VP9 处理的每一帧视频，MuZero-RC 取代 VP9 的默认速率控制机制，决定应用的压缩级别，从而在较低的比特率下获得相似的质量。

MuZero 结合了搜索能力和学习环境模式并做出相应计划的能力，在各种任务中实现了超越人类的表现。这种方法在大型的组合动作空间中特别有效，使其成为解决视频压缩速率控制问题的理想候选方案。

然而，要让 MuZero 处理这一现实世界的问题，还需要解决一系列全新的问题。例如，上传到 YouTube 等平台的视频集在内容和质量上存在差异；任何智能体都需要泛化至不同的视频，包括部署后的全新视频。相比之下，棋盘游戏往往只有一个已知环境。而在视频任务上，许多其他的指标和约束会影响最终的用户体验和比特率节省程度，比如 PSNR（峰值信噪比）和比特率约束。

为了应对这些挑战，DeepMind 为 Muzero 创建了一种名为「自我竞争（self-competition）」的机制，它通过比较智能体当前的性能和历史性能，将视频压缩的复杂目标转化为一个简单的 WIN/LOSS 信号。这使得一组丰富的编解码器需求转换成了一个简单的信号，再由智能体进行优化。

通过学习视频编码的动态变化和确定如何最好地分配比特，MuZero 速率控制器（MuZero-RC）能够在不降低质量的情况下降低比特率。QP 选择只是编码过程中众多编码决策中的一个。虽然几十年的研究和工程已经产生了高效的算法，DeepMind 还是设想了单一的算法可以自动学习作出这些编码决定，以获得最佳的率失真权衡。

使用先前 QP 启发式方法编码的视频

使用 MuZero-RC 编码的视频。 借助 MuZero-RC，每个视频都能在降低所需的比特率的情况下获得相似的质量。实验表明，在大量不同的 YouTube 实时视频中，比特率平均降低了 4% 。

除了视频压缩，这项研究的意义还在于他们迈出了将 MuZero 应用于现实世界的第一步，证明了强化学习智能体可以用于解决现实世界的问题。DeepMind 表示，通过创建具有一系列新能力的智能体来改进跨领域的产品，他们可以帮助各种计算机系统变得更快、更自动化。公司的长期愿景是开发一个单一算法，用于优化数以千计的跨越各种领域的现实世界系统。

原文链接：https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf