与普通计算机类似,量子计算机使用门操作(gate operations)来操纵其量子位。我们试图通过构建分段恒定的脉冲序列来实现特定的门操作,即AlphaZero必须为每个时间步长(time-step)选择一个脉冲幅度。物理系统在每个时间步长tj上都由一个4x4复杂的矩阵U(tj)进行数学描述,我们将其折叠成一个长度为32的向量。这是神经网络的输入,如图1所示。脉冲序列完成后,就可以将复数矩阵U(T)映射为一个实数,称为仿真逼真度(fidelity)F,该实数的取值在0到1之间。从本质上讲,仿真逼真度是一种概率度量,其中1表示100%成功。左图和右图分别演示了 AlphaZero 的树搜索和神经网络。利用树搜索中统一的搜索结果作为神经网络的输入项。神经网络的上限输出接近给定输入状态的现行策略,即 p a ∼ a pa ∼ a。同时,下限输出提供了一个能够预估期望最终报酬的值函数,即 v (s t)∼(t) v (st)∼ f (t)。在我们的工作中,我们发现以一致的形式向 AlphaZero 提供物理系统的完整信息,有利于提升它的性能,尽管这种方式可能比较难以调整以适应具有较大希尔伯特空间的系统。神经网络输出一个值,该值是对最终仿真逼真度v≈F和一些移动概率p=(p1, p2, ...)的估计。两者都在蒙特卡洛树搜索中使用。树由节点(状态)和边(状态-动作对)组成。树搜索从根节点开始,并通过在每个步骤中选择动作来贯穿树。选择哪种行动,是通过比较每一个边缘的内在属性,以平衡勘探和开发的方式进行的。一旦探索到了边缘,其内在属性将根据搜索结果进行更新。树中的正向搜索将继续,直到遇到一个以前未访问过的节点,然后将该节点添加到树中,并使用p初始化其边缘。搜索中的所有访问过的边都将使用v在反向过程中更新。一旦执行了多次此类搜索,AlphaZero将确定一个操作并更新根节点,而丢弃树的其余部分。最后,基于树搜索产生的数据对神经网络进行更新,使得v接近保真度,并且移动概率增加了选择更有希望动作的机会。简言之:蒙特卡洛树搜索允许AlphaZero向前看几步,从而可以在解决方案空间中进行更全面的搜索。这使得AlphaZero在长期策略至关重要的复杂任务中比大多数其他强化学习方法更具优势。成功实现AlphaZero之后,我们使用相同的算法超参数将其用于三个不同的量子控制问题。对于每个问题,我们将AlphaZero与更常规的算法进行了比较。例如,在图2中,我们比较了AlphaZero和遗传算法在50小时运行期间创建二进制脉冲的任务。在y轴上,我们绘制infidelity 1-F,这实际上是错误率(即越低越好)。最初,AlphaZero在学习量子力学关联时表现不如遗传算法,但是这个学习阶段相当短。在30小时内,我们发现AlphaZero的性能比遗传算法提高了一个数量级,并且具有大量独特的高保真脉冲序列。