近年来,随着数字技术的进步,利用GPU的并行计算取得了显著的效率,这使得使用大型数据集的大规模机器学习算法成为可能,而深度学习,即利用数百万至数十亿数据和参数训练的深度神经网络进行机器学习,变得越来越流行,并被用于各种任务,包括面部识别,语言翻译和组合问题等,实现了相当多的破纪录的结果。作为一种解决问题的强大通用工具,深度学习也被应用于物理问题,成为科学家解决许多重要问题的重要替代工具。近几十年来,随着实验量子技术的发展,可控人工量子系统的实现使量子控制受到越来越多的关注,开辟了可工程的复杂量子系统的新领域。量子控制已被应用于受控的量子化学过程和人工量子系统,包括量子点、超导量子比特、捕获离子和腔光力学系统等,这些对未来技术作为传感器和量子计算设备的候选具有相当重要的意义。然而,由于量子力学系统通常难以解析处理,因此采用启发式策略和通用数值算法来寻找合适的控制协议。因此,深度学习,特别是深度强化学习,是解决控制问题的一个有希望的通用候选解决方案。尽管已经有一些深度强化学习应用于量子控制问题的成功例子,但现有的大多数强化学习算法本质上存在不稳定性和再现性不理想的问题,因此,它们通常需要大量的微调和大量的计算预算,这都限制了它们对量子控制问题的适用性,并需要机器学习的专业知识。
为了解决强化学习算法的不稳定性问题,本文首先研究了最有效的强化学习策略之一Q-learning的不收敛问题。然后,研究了现有收敛方法的不足,提出了一种新的收敛的Q学习算法,称为收敛的深度Q网络(C-DQN)算法,以替代传统的深度Q网络(DQN)算法。证明了C-DQN算法的收敛性,由于该算法具有可扩展性和计算效率,将其应用于标准的强化学习基准Atari 2600,以证明其有效性。实验表明,当DQN算法失败时,C-DQN算法仍然能够成功学习。然后,将该算法应用于量子力学四次振子和困住的量子力学刚体的测量-反馈冷却问题。实验结果表明,虽然C-DQN算法和DQN算法都可以学习冷却系统,但C-DQN算法往往表现得更稳定,当任务困难且DQN算法存在不稳定性时,C-DQN算法可以取得更好的性能。由于DQN算法的性能在多次试验之间可能存在较大的方差且缺乏一致性,因此C-DQN算法可以作为研究复杂物理控制问题的较好选择。本文研究的捕获量子力学刚体系统具有理论意义和实验意义,在传感器件和基础物理研究中也有应用。因此,我们也为研究量子力学刚体的控制做出了贡献,这有望在不久的将来在捕获的纳米粒子系统中实验实现。我们希望我们的研究有助于将困住的刚体系统冷却到量子状态,并有助于机器学习技术的发展,以及更好地控制微观量子世界的发展。