摘要——量子增强计算机视觉(Quantum-enhanced Computer Vision,简称 QeCV)是一门新兴的研究领域,位于计算机视觉、优化理论、机器学习与量子计算的交叉点上。借助量子计算在经典(即非量子)计算机无法实现的量子力学效应,该领域有潜力彻底改变视觉信号的处理与理解方式。在现有非量子方法无法在合理时间内求解问题或仅能获得近似解的场景中,量子计算机可在多个问题类别上提供更优的时间可扩展性等优势。从长远来看,参数化量子电路(Parametrised Quantum Circuits)也可能成为计算机视觉中经典神经网络的重要替代方案。

然而,要实现与量子硬件的兼容,并充分释放量子计算范式在计算机视觉中的潜能,仍需开发专门的、全新的算法。

本综述系统梳理了 QeCV 的现有研究进展,旨在为计算机视觉社区提供一份关于量子计算的参考资料。目标读者包括计算机视觉领域的学生、科研人员以及其他希望熟悉 QeCV 的相关研究者。我们全面介绍了 QeCV 的概念特征与研究方法,包括与量子硬件兼容的任务建模方式及两大核心量子计算范式:基于量子门的量子计算(gate-based quantum computing)与量子退火(quantum annealing)。此外,我们阐述了量子计算机的运行原理,以及在 QeCV 背景下用于访问、编程与模拟量子系统的常用工具。最后,本文回顾了现有的量子计算工具与学习资源,并探讨了与 QeCV 论文发表和评审相关的议题、开放挑战以及潜在的社会影响。 关键词——量子增强计算机视觉,应用量子计算,量子算法。

1 引言

计算机视觉(Computer Vision,CV)研究对视觉与空间信息的自动处理。此类信息通常以 2D 图像、视频、深度图、3D 点云及其多源组合的形式采集,亦可伴随其他传感信号(如惯性测量单元数据)[1], [2]。计算机视觉的长期目标是借鉴人类视觉系统(HVS)的能力,对观测场景进行智能的高层解释。如今,CV 与机器学习(ML)彼此推动:现代 CV 严重依赖于 ML 技术,而 ML 的诸多发展也常由 CV 中的未解难题所驱动 [3]。

许多现代 CV 系统本质上非常复杂:它们包含多个组件,并需处理海量数据(例如在神经网络训练期间)[4], [5]。以深度学习为代表的 CV 主要工具在经典计算框架下,已开始需要难以满足的 GPU 资源。众多 CV 领域的神经网络架构日益庞大、参数更为沉重,训练收敛所需时间也不断增加。此外,许多 CV 问题包含组合式目标,无法通过穷举在合理时间内求解。因此,它们需要能够满足高数据处理需求的硬件(如图形处理器(GPU))。同时,经典求解器的理论保证多为局部最优 [6],在某些问题上可能并不充分。 因此,在诸多情形下,算法侧的进步是替代单纯扩大存储与算力需求的可贵路径。算法改进的方式多种多样,例如以近似表述和近似求解替代精确但计算代价高昂或难以处理的方案。本文综述探讨其中一种具体方向:如何在计算机视觉中利用量子计算。

量子计算概览。 自 20 世纪 80 年代提出量子计算机以来 [7], [8], [9],其实际实验实现取得了长足进展。这一全新的计算范式激发了计算机科学方向的量子计算理论基础研究 [10], [11] 与物理方向的量子硬件实现研究 [12] 的大量工作。过去 25 年,研究者一直在积极推进多种量子比特(qubit)技术,基于这些技术的量子计算机如今已可用于科研。此类当前可用及近期可得的机器与硬件——量子比特数可达数百——通常被称为噪声中等规模量子(Noisy Intermediate-scale Quantum, NISQ)计算机 [13]。2019 年,谷歌的 Sycamore 量子计算机在某一特定计算上实现了较经典计算机快数十个数量级的突破 [14]。 量子计算从根本上围绕着利用量子力学效应,使量子系统演化到特定状态以完成计算。为将这些效应用于实际计算,基于两种物理原理的主要范式应运而生:绝热量子计算(Adiabatic Quantum Computing, AQC)[11], [15] 与基于量子门的量子计算(gate-based quantum computing)[10], [16]。AQC 依赖对所谓哈密顿量的平滑演化或“退火”,将系统引导至其最低能量态,因此天然适配优化问题,尤其是可表示为二次无约束二进制优化(Quadratic Unconstrained Binary Optimisation, QUBO)形式的问题。与之相对,门型量子计算通过离散的酉变换实现计算,在算法设计上更具灵活性。这两类范式共同定义了现代量子计算,它们各具优势,适用性取决于具体问题域。

总体而言,量子计算(QC)可用于设计算法以求解若干类计算上具有挑战性的问题,并可根据量子计算类型与问题类型带来不同形式的计算收益:从相较最佳经典对应方法的渐近复杂度改进 [17],到在相同复杂度类别内实现绝对运行时间加速 [18]。量子计算机以量子比特为基本信息单元,后者是经典比特的对应物,但可利用量子效应。抽象而言,多个量子比特张成一个希尔伯特空间,计算在其中进行。理论上,量子计算机能完成经典计算机能做的一切,反之亦然。然而,由于量子力学的张量积结构以及量子比特之间可能出现的纠缠态(无法分别描述),n 个量子比特的希尔伯特空间维度为 2n2^n2n,相应的经典计算需要处理指数规模的算子,自然会极其耗时。

截至 2023–2025 年,得益于真实量子硬件的普及,整个领域正处在转型期:若在 2015 年之前,量子硬件主要由开发者自身掌握,那么现今多种量子与“类量子”计算设备(如绝热/门型机器、光子机器、量子模拟器与类量子优化器)已可被来自不同学科的研究者访问,所开发的方法也能在真实量子硬件上测试。这与此前大多数量子算法论文形成对比——包括一些影响深远的工作,目前仅在真实硬件上针对极小规模问题得到检验 [19], [20], [21]。未来二十年,专家预测量子比特数量将超线性增长 [22],且单个量子比特的性质(如退相干时间与连通性)将显著改善。我们认为这些预测应被严肃看待,因为对量子计算与算法开发的投入巨大;近几年,许多国家级与国际性的量子计算相关计划相继启动。对若干选定算法而言,量子算力随量子比特数增长呈超线性(甚至指数级)扩展。包括 Intel、IBM、Google、Microsoft、Amazon、NVIDIA 与 D-Wave 在内的几乎所有大型科技公司都在稳步提升量子比特数量,并在接近摩尔定律极限的背景下大举投资量子技术¹。例如,Google 公开宣布其目标是在 2029 年之前构建由 100 万个量子比特组成的商用量子计算机²。实现成功量子纠错的 Willow 芯片 [24] 也是令人鼓舞的里程碑。

为响应视觉领域前述算法挑战与量子计算的机遇,计算机视觉研究者已开始关注这一对本领域而言崭新的计算范式。从理论与实践两方面看,探索用于长期(视觉)难题的全新(量子)算法既必要又有趣。基于不同于既往的方法学,此类算法有望为计算机视觉系统带来此前未曾预期的优势与新特性。

要最大化利用快速增长的量子算力,我们需要最有效地“用好”量子机器,并让 QeCV 算法在实用量子计算到来时已就绪且可扩展。从长远看,量子处理单元(QPU)有望拓展可靠的计算机视觉工具与计算加速器“武器库”(GPU 是当下广泛使用的代表)。

图 1 概述了可借助两种量子计算范式——绝热量子计算与基于量子门的量子计算——解决的不同计算机视觉问题,同时突出每个量子兼容视觉方法的共通步骤(例如问题嵌入到硬件、退火或量子门执行,以及最终的解读出)。我们将在第 2 节讨论上述两类范式。

1.1 计算机视觉遇见量子计算

广义上,量子增强计算机视觉(QeCV)涵盖全部或部分在量子硬件上执行的计算机视觉方法与系统。这里“增强”指的是:QeCV 方法在不同程度上包含经典部分(如数据编码、权重矩阵准备、混合量子-经典神经架构中的经典网络部分),并通过量子计算得到加速(或“增强”)。因此,现代 QeCV 方法普遍为混合式,由经典与量子部分协同构成。QeCV 归属于应用量子计算,很可能是跨诸领域中最早的一批应用学科之一。 QeCV 的定义

QeCV 的目标是:基于量子计算范式开发创新的计算机视觉技术(改进的或从根本上全新的),并在处理速度、资源需求、精度或从复杂视觉数据中学习模式的能力等方面超越经典方法。 我们强调,这一定义具有愿景性,反映了该领域的演进性与探索性。QeCV 方法中使用量子硬件,必须不仅在计算角度上合理,还应在解的质量或预测精度上展示可证实的收益。换言之,不能仅因某方法可以在量子硬件上运行就称其为“量子方法”。请回忆:通用量子计算机可执行经典二进制机器能做的一切,但反之不然(在合理时间内;经典计算机可精确模拟量子计算,但所需经典资源随量子比特数指数增长,因而在大规模时变得不可行 [39])。 QeCV 是一个新兴领域。第一篇在主流计算机视觉会议上发表的 QeCV 方法是针对点集对应问题的工作 [40];该文于 2019 年在 arXiv.org 发布。论文介绍了现代量子退火机,并提出了可在量子退火机上执行的刚体变换估计与点集配准算法(前提是对输入进行符合硬件要求的预处理)。“量子计算机视觉”(Quantum Computer Vision)一词——或更常用的 “QeCV”——在 Birdal 与 Golyanik 等人 [25] 中被提出,自此用于指代依赖量子硬件的计算机视觉方法。 量子计算在视觉中的应用。 目前,能以现代量子硬件可接受形式表述的计算机视觉问题并不多。对于利用可证明优势的门型量子算法来解决实际视觉问题,所需量子比特规模通常大于 NISQ 架构可提供的水平。可直接以 QUBO 形式在 AQC 上测试的问题亦较少见。通常需要先将目标问题映射为 QUBO,并将解编码为二进制形式。因此,如何将计算机视觉(与机器学习)问题表述为可由量子计算处理、并且相较经典方法具有优势的形式,是广受关注的科学问题。此外,以“量子化”的思维看待 CV 问题,常能带来新的视角,从而为以经验为主的 CV 领域提供新的洞见与方法。我们将在第 3 节讨论这些方面。 相关研究领域。 文献中可识别出若干与 QeCV 相关的研究方向,如类量子计算机视觉量子图像处理(Quantum Image Processing, QIP)与量子机器学习(Quantum Machine Learning, QML)。其一,类量子方法模拟或借鉴量子力学效应 [41]–[45];这类算法并非面向量子硬件执行,仅受量子现象启发,不应与可在量子硬件上运行的技术混淆。其二,QIP 关注将图像表示并处理为量子态 [46]–[48],在多种常用线性代数与低层图像操作上(理论上)给出更快的算法 [49]–[51]。 上述两类方法可被广义视为 QeCV 的子领域,但它们与本文聚焦的中高层计算机视觉任务(如点集或网格配准、目标跟踪与鲁棒拟合)有所不同。另一方面,正如经典 ML 与 CV 紧密相连,量子机器学习[52]–[54] 探索量子计算与机器学习的交叉,以增强学习算法。其在 QeCV 中前景可期,或可加速图像分类、目标检测与模式识别等任务。然而,受制于量子硬件与可扩展性,当前 QML 方法仍以理论为主,实用落地有限,因此与本综述面向 CV 的实践应用焦点仍有距离。

1.2 本综述的动机与范围

总体而言,本文通过回顾该领域的早期工作,展示如何在计算机视觉中利用量子计算与量子硬件;呈现面向实用量子计算与计算机视觉的最新与在研进展;讨论当前的最新方法、局限、预期进步及其对 CV 的潜在影响。我们的目标是为计算机科学背景的读者提供一种友好的共享语言与数学表述,覆盖两种现代量子计算范式(门型与绝热)。我们识别并归类可由量子计算机处理的 CV 问题,并分析它们的共性。 我们观察到,量子技术正越来越像 CV 算法开发的“加速器”。方法若能在真实量子硬件上运行,常会带来有趣的发现;因此,时常能得到优于现有经典方法的成果。 关于门型与绝热模型,有若干考量:门型量子计算机当前在量子比特数量、比特间连通拓扑以及可对量子比特施加的操作(量子门)的精度上均受限;此外,退相干也是重要障碍。因此,采用著名的 Shor 算法在门型量子硬件上成功分解的最大整数,多年来仍停留在 21 [55], [56]。相比之下,现代量子退火机(如 D-Wave)拥有更多的量子比特,结合其连通性与量子比特特性,能够在与计算机视觉和真实应用相关的规模上,求解伊辛(Ising)编码形式的组合优化问题。同时,AQC 所需的量子比特相干时间短于门型机器,这在一定程度上解释了量子退火机相对门型机器更好的可扩展性。因而,过去三年中,将 AQC 尤其应用于计算机视觉的兴趣显著增长。 本综述聚焦于可在门型量子计算机与量子退火机上运行的计算机视觉方法:对于量子退火机,要求有真实量子硬件实验;对于门型量子计算,要求至少在模拟器上评估。我们也纳入少量未在模拟器上实验的门型量子计算理论工作,但整体结构仍体现 QeCV 的应用取向。鉴于计算机视觉是一门应用科学,我们认为在量子硬件上的实验是关键标准,特别是如今的量子机器已经能够解决实际应用规模的问题。因此,我们强调方法需要经过评估,而不应仅停留在理论层面。 论文筛选标准。 QeCV 尚处于萌芽阶段。顺应其愿景性定义,本文综述面向可在量子硬件上全量混合(经典-量子)执行的方法,强调那些报告了具有 QeCV 潜在相关性的、理论上扎实的结果的工作。因此,本综述的主要筛选标准是:所提技术具备实验评估,且至少部分结果来自真实量子硬件。此外,我们重点关注在计算机视觉会议(CVPR、ICCV、ECCV)及其他(可能是跨学科的)对量子计算在视觉应用感兴趣的场合发表的工作;若满足主要标准,我们也收录少量 arXiv.org 上的技术报告。作者尽可能全面回顾该领域,但由于领域正蓬勃发展,难以保证绝对完备;建议读者结合原文深入了解。 相关综述。 近期,量子机器学习(QML)快速崛起,相关综述已对其大规模工作进行梳理 [57], [58];其中 [57], [59], [60] 亦关注以量子方法处理优化问题。诸多学习模型中,量子深度学习因其在 AI 领域的潜在影响而需特别关注。Massoli 等 [61] 汇总、比较并分析了量子神经网络(QNN)的最新进展。Yarkoni 等 [62] 则审视了量子退火(QA)的潜在产业应用;其综述在聚焦 QA 应用领域方面与我们的工作最为接近。Mohseni 等 [18] 回顾了求解伊辛问题(精确或近似)的不同方法,并将量子退火视作一种元启发式。亦有若干面向物理学家的量子退火综述 [63],而我们的文章则是写给具备计算机视觉背景的研究者。Larasati 等 [64] 的短综述仅总结了少数量子计算机视觉方法(不到我们覆盖内容的 5%),远不及本文全面。Mebtouche 等 [65] 的简短论文回顾了量子计算、机器学习及若干低层视觉与图像处理技术的基础。就此而言,本文是首篇以 QeCV 为重点的全面综述目标读者。 本文面向应用计算机科学研究者,尤其是计算机视觉领域的研究与实践人员,即便其物理理论背景薄弱亦可阅读。不同于多篇主要发表在非传统 CV 场合的量子算法综述 [18], [57]–[61], [65],我们的目标是让 QeCV 对更广泛的 CV 研究者与工程师可达且可用。通过整合多项贡献,我们希望弥合鸿沟,提供现有 QeCV 方法的全景视图与未来方向的洞见。我们给出一份实践“手册”,帮助 CV 从业者即刻探索量子增强技术,并为量子技术影响的增长做好准备。尽管本文避免深入物理与量子理论,但仍包含足够的技术细节,以确保所述结果与其有效性的坚实基础。物理假设与对算法设计相关的数学推论在文中清晰分离。预期读者包括: * 希望了解其研究是否能受益于量子计算的 CV 研究者; * 有兴趣试验 QeCV 算法或将量子求解器集成进工作流的 CV 实践者; * 对 CV 与应用量子计算交叉方向感到好奇的各层次计算机科学学生。

我们期望本综述能成为新研究者进入该领域并推动其发展的门户。

1.3 本文结构

本文共分六节:第 2 节回顾与量子增强计算机视觉相关的量子计算基础,包括两种主要计算范式(门型/电路模型与绝热量子计算)以及量子计算机的设计与硬件。作为其中一部分,第 3.1.2 节讨论如何将经典数据编码为量子态以便在量子硬件上处理——这是量子增强计算机视觉中的关键步骤之一。随后,第 3 节专注于算法与应用,回顾点集配准、网格配准、目标跟踪、模型拟合、面向视觉的量子机器学习、隐式表示与生成式方法等多个问题的相关方法。第 5 节讨论开放挑战、领域特性与社会影响,第 6 节给出结论。

成为VIP会员查看完整内容
0

相关内容

多模态可解释人工智能综述:过去、现在与未来
专知会员服务
42+阅读 · 2024年12月20日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
28+阅读 · 2024年12月16日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
《可信文本到图像扩散模型》最新综述
专知会员服务
27+阅读 · 2024年9月30日
深度图异常检测:综述与新视角
专知会员服务
26+阅读 · 2024年9月19日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
39+阅读 · 2024年8月9日
《量子机器学习》最新综述
专知会员服务
40+阅读 · 2023年8月24日
视觉知识:跨媒体智能进化的新支点
专知会员服务
28+阅读 · 2022年6月8日
基于无标签视频数据的深度预测学习方法综述
专知会员服务
35+阅读 · 2022年5月16日
专知会员服务
55+阅读 · 2021年9月3日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
多模态可解释人工智能综述:过去、现在与未来
专知会员服务
42+阅读 · 2024年12月20日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
28+阅读 · 2024年12月16日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
《可信文本到图像扩散模型》最新综述
专知会员服务
27+阅读 · 2024年9月30日
深度图异常检测:综述与新视角
专知会员服务
26+阅读 · 2024年9月19日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
39+阅读 · 2024年8月9日
《量子机器学习》最新综述
专知会员服务
40+阅读 · 2023年8月24日
视觉知识:跨媒体智能进化的新支点
专知会员服务
28+阅读 · 2022年6月8日
基于无标签视频数据的深度预测学习方法综述
专知会员服务
35+阅读 · 2022年5月16日
专知会员服务
55+阅读 · 2021年9月3日
相关资讯
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员