作者:The MuZero Applied Team
机器之心编译
机器之心编辑部
在保证视频质量相似的前提下,DeepMind 的 MuZero 可以降低大约 4% 的比特率。
2016 年,DeepMind 推出了第一个能够在围棋中击败人类的智能体——AlphaGo。在之后的几年里,其继任者 AlphaZero 和 MuZero 继续向通用算法进发,用更少的预定义知识掌握了更多的游戏。例如,MuZero 在没有被告知规则的情况下就掌握了象棋、围棋、日本将棋和雅达利游戏。
然而,说来说去,这些应用还是没能脱离游戏的范畴,能不能用它们来解决现实世界的问题一直是外界关注的焦点。
昨天,DeepMind 在博客中公布了一个好消息:他们的 MuZero 已经向现实世界迈出了第一步,展现出了在优化视频压缩质量方面的潜力。相关细节呈现在一篇预印版论文中。
论文链接:https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf
在这项研究中,DeepMind 的研究者和 YouTube 展开了合作,一起探索 Muzero 在视频压缩领域的潜力。分析人士预测,流媒体视频将占据互联网流量的绝大部分。为了节省带宽,视频在传输之前就必须进行压缩。这样一来,如何将压缩后的视频画质、流畅度等损失降到最小就成了视频厂商关注的重要问题,也是一个有望用强化学习解决的问题。DeepMind 的 Muzero 可以在保证视频质量相似的前提下降低大约 4% 的比特率。
大多数在线视频依赖于编解码器在视频的源头对其进行压缩或编码,然后通过互联网将其传输给观众,最后再解压或解码播放。这些编解码器为视频中的每一帧做出多个决定。经过几十年的手工工程,这些编解码器已经实现了一定程度的优化,在视频点播、视频通话、视频游戏和虚拟现实等多个领域得到了应用,但还有很大的优化空间。
由于强化学习特别适用于像编解码器那样的顺序决策问题,所以 DeepMind 就在这个问题上展开了探索。
他们的首个研究对象是被 YouTube 和其他流媒体服务广泛使用的 VP9 编解码器(特别是开源版本 libvpx)。与其他编解码器一样,使用 VP9 的服务提供商需要考虑比特率。比特率是指发送每帧视频所需的 1 和 0 的数量,是服务和存储视频所需的计算量和带宽的主要决定因素,影响视频加载所需时间、分辨率、缓冲和数据使用等很多指标。
在编码视频时,编解码器使用之前帧的信息来减少未来帧所需的比特数。
在 VP9 中,优化比特率最直接的方法是借助速率控制模块中的量化参数(QP)。这个参数决定了每一帧要应用的压缩级别。给定一个目标比特率,视频帧的 QP 按顺序决定,以实现整体视频质量最优化。直观地说,我们应该为复杂场景分配较高的比特率(较低的 QP),为静态场景分配较低的比特率(较高的 QP)。QP 选择算法解释了视频帧的 QP 值如何影响其他视频帧的比特率分配和整体视频质量。强化学习对于解决这类序列决策问题特别有帮助。
对于 VP9 处理的每一帧视频,MuZero-RC 取代 VP9 的默认速率控制机制,决定应用的压缩级别,从而在较低的比特率下获得相似的质量。
MuZero 结合了搜索能力和学习环境模式并做出相应计划的能力,在各种任务中实现了超越人类的表现。这种方法在大型的组合动作空间中特别有效,使其成为解决视频压缩速率控制问题的理想候选方案。
然而,要让 MuZero 处理这一现实世界的问题,还需要解决一系列全新的问题。例如,上传到 YouTube 等平台的视频集在内容和质量上存在差异;任何智能体都需要泛化至不同的视频,包括部署后的全新视频。相比之下,棋盘游戏往往只有一个已知环境。而在视频任务上,许多其他的指标和约束会影响最终的用户体验和比特率节省程度,比如 PSNR(峰值信噪比)和比特率约束。
为了应对这些挑战,DeepMind 为 Muzero 创建了一种名为「自我竞争(self-competition)」的机制,它通过比较智能体当前的性能和历史性能,将视频压缩的复杂目标转化为一个简单的 WIN/LOSS 信号。这使得一组丰富的编解码器需求转换成了一个简单的信号,再由智能体进行优化。
通过学习视频编码的动态变化和确定如何最好地分配比特,MuZero 速率控制器(MuZero-RC)能够在不降低质量的情况下降低比特率。QP 选择只是编码过程中众多编码决策中的一个。虽然几十年的研究和工程已经产生了高效的算法,DeepMind 还是设想了单一的算法可以自动学习作出这些编码决定,以获得最佳的率失真权衡。
使用 MuZero-RC 编码的视频。
借助 MuZero-RC,每个视频都能在降低所需的比特率的情况下获得相似的质量。实验表明,在大量不同的 YouTube 实时视频中,比特率平均降低了 4% 。
除了视频压缩,这项研究的意义还在于他们迈出了将 MuZero 应用于现实世界的第一步,证明了强化学习智能体可以用于解决现实世界的问题。DeepMind 表示,通过创建具有一系列新能力的智能体来改进跨领域的产品,他们可以帮助各种计算机系统变得更快、更自动化。公司的长期愿景是开发一个单一算法,用于优化数以千计的跨越各种领域的现实世界系统。
原文链接:https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com