【量子强化学习】《量子计算和强化学习：实现通用人工智能的伙伴》2022最新17页论文

2022 年 10 月 11 日 专知

摘要

本文试图考虑DeepMind科技公司的一群科学家的断言，即强化学习的奖励机制足以实现通用人工智能（AGI）。强化学习是一种专注于奖励最大化的机器学习技术，在20世纪80年代和90年代，基于美国政府的资助而快速发展。它已被应用于自动驾驶汽车、视频游戏、游戏计算机、文本到语音系统，以及用于训练卷积神经网络。本文的独特贡献在于提出了量子计算可以支持强化学习的应用，以实现AGI。在实现AGI方面已经有了一些尝试，但无济于事，这就是为什么DeepMind的科学家认为强化学习是一条可行的发展道路。他们的立场与关于强化学习潜力的主流思想不一致，这就是量子计算的作用。然而，与强化学习相比，量子计算在现实世界的应用较少。尽管如此，它的基本原则可能会加速走向AGI的进程。

1.0 引言

在DeepMind Technologies的一群科学家（David Silver, Satinder Singh, Doina Precup, Richard S. Sutton）发表的一篇题为 "奖励就够了 "的论文中，他们提出并论证了强化学习是实现通用人工智能（AGI）或超级人工智能（AI）的可行路径。然而，从理论上讲，DeepMind的科学家们所提出的建议是可能的。

然而，在实践中，这可能是不可想象的。西尔弗等人承认，目前还没有可用的模型或系统能够模拟自然环境的复杂性，以训练建立在强化学习基础上的智能系统。然而，如果我们最终将目光投向人工智能（AI）之外，AGI可能是可以解决的。几十年来，对人类水平的人工智能的探索一直是内向型的，研究人员深入到人工智能的现有子领域--深度学习、无监督学习、监督学习和强化学习，仅此而已。

这种对内的关注有其收获，但人类水平的人工智能的目标仍然遥不可及。作者提出，答案就在人工智能之外--为了实现AGI，我们应该把目光投向另一个最近得到更多关注和吸引投资的领域--量子计算。量子计算在加速训练过程和降低强化学习模型的错误率方面可能至关重要。

强化学习（RL）+ 量子计算（QC）= 通用人工智能（AGI）。

换句话说，通过在训练强化学习算法中应用量子计算原理，我们也许能够实现具有人类水平能力的智能agent或AGI。

本文分为八个大的部分来证实这一说法。第一部分通过定义强化学习奠定了基础。第二部分讨论了强化学习的一些领域应用。接下来，它转向AGI和当前科学家为实现AGI而采取的一些方法。第四部分将定义并向读者介绍量子计算。第五部分简要回顾了本次讨论的核心论文《奖励就够了》，以及赞成强化学习作为通往AGI之路的论据。第六部分则提出了反对 "奖励就够了 "这一立场的论据。在这一点上，读者应该了解什么是强化学习，它的能力、限制和量子计算的潜力。第七部分解释了量子计算是如何使天平倾向于强化学习的。第八部分也是最后一部分，为本文画上了句号，总结了整个讨论，并提出了作者的结束语。

8.0 量子计算如何使天平倾向于强化学习以实现敏捷性

虽然量子计算机的发展可能仍处于早期阶段，但初步的事件表明，如果量子计算的努力是针对强化学习的，则可以支持AGI的实现。此外，有人预测，"由于其优越的性能和与问题相关的特定属性，量子计算机将主要用于计算智能和机器人"。

例如，量子计算机可以并行地运行不同的可能性，每个并行的可能性都试图达到不同的答案。与传统的强化学习算法训练不同，在开始另一条学习曲线之前，必须完成一条学习曲线并取得或失去奖励。但是有了量子计算，所有的学习曲线都可以同时运行，从而从根本上缩短了训练强化学习模型的时间。

为了说明这一点，使用我们一开始的老鼠例子，我们的老鼠必须反复穿过迷宫才能找到奶酪。每一次尝试，老鼠都会获得更多的迷宫导航经验，这样它花在错误地方的时间就会减少，直到最后它可以直接找到奶酪所在的地方。如果我们以某种方式将量子计算引入这只老鼠，使它成为一只 "量子老鼠"，可以说，它将能够同时尝试迷宫中的所有路线。最终，这只 "量子老鼠 "将同时知道所有不正确和正确的路线，而不是反复尝试和失败。

尽管这听起来很有希望，但必须注意到，量子计算不仅仅是同时尝试不同的替代方案。在量子计算中，随着所有替代方案被同时探索，那些导致错误结论的方案被取消，而那些导致正确结论的方案被强化。回到我们的 "量子老鼠 "的例子，当它探索所有路线时，所有那些不通往奶酪的路线被自动取消，而那些通往奶酪的路线被强化或学习。当引入强化学习时，量子计算可以从根本上改写作为后者基础的奖励最大化原则。如果没有 "错误的开始 "或通常比正确结果多的错误，奖励就会成为默认状态。因此，我们有一只 "量子老鼠"，一旦经过训练，只学习通往奶酪的正确路线，可能永远不会犯错。

然而，假设错误的结论被编码为准确的。在这种情况下，虽然正确的结论被编码为不准确的，导致它们被抵消，但我们的量子主体有可能迅速学会错误的原则。管理这种风险可能涉及到一个交错的审查过程，以确保正确的结论被编码，以及一个人在环形的后培训过程，以确保在受控环境中检测到不良结果。

8.1 量子计算在人工智能/机器学习中的当前使用案例

我找不到任何当前量子计算与强化学习相关或结合的用例；也有其他的例子，量子计算原理被应用于人工智能的其他方面。例如，应用量子退火机器学习解决了一个希格斯优化问题。

这个用例表明了量子机器学习、量子神经网络、量子生成对抗网络（QGANs）的可行性，也可能是量子强化学习的前景。

9.0 结论

本文试图表达一群DeepMind科学家对强化学习作为实现通用人工智能（AGI）的途径的可行性的立场。我相信，当应用于强化学习时，量子计算原理可能会加速实现AGI的进展。

这篇论文区分了强化学习和其他机器学习技术。还依靠动物心理学来正确说明实践中的强化学习。最后，通过现实世界的例子，还介绍了强化学习的潜力和限制。

强化学习需要在线互动，并与城市驱动的复杂性作斗争。量子计算可能通过大大减少训练强化学习代理的时间来缓解这一挑战。

然而，量子计算仍然主要是一种学术追求，现实世界的应用有限。尽管如此，量子的优势可能会减少训练强化学习模型的时间和成本。它也颠覆了开发AGI的传统思维。

无论是否有量子计算，实现AGI的道路都不容易，因此人们更倾向于狭义或弱义的AI。在没有量子计算的情况下，建立一个通用的、足够强大的强化学习agent可能被证明是不可能的。然而，在采用量子计算原理时，应该有一种谨慎的意识。使其成为强大的加速器的特性也使其变得无比危险，如果坏的结果被编码。量子计算可能会恶化现代人工智能应用中的一切问题，加速偏见和歧视，在这里，它被用来训练强化学习agent，具有显著或合法的效果。

还有一个更大的问题是关于AGI的必要性或效用。如果我们仍在努力对开发狭义的人工智能工具施加道德标准，为什么要试图咬得更紧呢？除了经济潜力之外，投资于AGI的发展还能获得什么重大优势？

AGI的支持者、开发者和研究者还必须投资于理解其关于信任、偏见、道德、网络安全和隐私挑战的社会影响。如果量子计算被应用于支持AGI的发展，这项工作应该包括具有不同生活经历和背景的利益相关者，以确保编码的结果不是排他性的。这项工作也应该在沙盒环境中完成，并且在现实世界中部署时要接受人类在环（HOTL）和人类在环（HITL）的监督机制。

专知便捷查看