压缩成像技术
人们从外界接收的各种信息中80%以上是通过视觉获得的。光作为信息载体,承载在现实物理世界的高维信息。不同的科学家对光学成像采用了不同的描述体系,用于解决不同尺度、不同维度下的成像问题。光学在不同的尺度和维度下,可以分为几何光学、波动光学和量子光学。几何光学是以光的直线传播规律、独立传播性质和反射折射定律为基础的光学,是经典成像系统的基础理论基础,成像关键技术有光学设计、计算机视觉等。波动光学是以光的电磁理论为基础的光学,研究成像系统中光的衍射、干涉、偏振以及光与物质相互作用的吸收、散射、色散等效应,成像关键技术有傅里叶光学等。量子光学是以量子理论为基础的光学,利用光的量子属性及其并行性质突破传统光学的成像极限,成像关键技术有鬼成像等。光学成像技术作为一种人类探索世界的重要手段,极大地提升了人类对世界的认知边界。纵观历年诺贝尔奖获奖成果,从Zernike的相衬底显微镜(1953年度诺贝尔物理学奖)到Gabor的全息术(1971年度诺贝尔物理学奖获奖成果),从Ryle的合成孔径射点望远镜(1974年度诺贝尔物理学奖获奖成果)到Siegbahn 的激光光谱仪(1981年度诺贝尔物理学奖获奖成果),从Ruska、Binning、Rohrer 等发明电子显微镜与扫描隧道显微镜(1986年度诺贝尔物理学奖获奖成果)到Zewail的飞秒光谱学(1999年度诺贝尔物理学奖获奖成果),从超分辨率荧光显微技术(2014年度诺贝尔化学奖获奖成果)到冷冻电镜(2017 年度诺贝尔化学奖获奖成果)。所有这些技术都是人类不断超越成像技术宏观微观空间分辨率、光谱范围和分辨率、时间分辨率的限制,开拓和发展新的认知维度,不断突破自我,探索未知世界的过程。
2009年度诺贝尔物理学奖获奖成果——电荷耦合器件(CCD)实现了光信号的数字化,开启了光信号的数字处理新纪元,使得利用计算机能力提高成像系统能力成为可能。同时随着计算能力的提升,计算摄像学孕育而生,将光学成像科学、数字信号理论、电子学等学科深度交叉,创新性地将传统成像系统的信号处理和计算前移至光学成像过程中,突破公众对于光学成像系统设计都是基于光线传播理论和镜片参数优化的认知,在光学成像系统中加入不同的编码器件,设计新型的成像光路,进一步提升成像系统的信息获取能力。新型光学成像机制,极大地提高了信息优化计算传输的自由度,使得光学系统能够在信息采集的维度、尺度和分辨率上实现质的突破,打破经典成像模型和成像硬件的局限性,更加全面和精确地获取真实世界的信息,从而观测到传统成像系统“看不见”“看不全”和“看不清”的光学信息。
光学成像机制的改变,需要与之匹配的信息重构理论的提出和计算机处理能力的提升。压缩成像理论是一种新的数据获取理论,该理论提出了即便以远低于奈奎斯特采样频率的方式获取信号,仍然能够有机会精确地恢复原始信号,因此可以在数据采集端突破奈奎斯特采样定律的制约,为硬件系统的采集、存储、传输和处理带来了极大便利。
压缩成像技术
压缩成像技术的发展
压缩感知是利用先验信息来求解欠定、逆问题,获得可靠解的方法。这一类问题是信号恢复中经典问题,拥有长远的历史。在光学成像领域,压缩感知的早期雏形包括超分辨反卷积成像和相位恢复等技术。经典的香农采样定理给出了一个从采样得到的数字信号中无失真恢复出模拟信号的充分条件,即信号的采样频率应大于或等于其带宽的两倍。但是压缩成像理论通过对采样方式的重新设计,可以从M 个离散采样值中重构N 个信号值(M<N),而不会增加成像系统的物理带宽。超分辨率成像技术不是很关心成像信号的采样数量,而是关心如何突破测量系统的带宽限制问题。光学成像系统由于衍射受限或器件加工误差可能带来几何畸变等问题,导致光学成像系统信号的传输带宽受到限制。对于成像技术发展的早期,由于计算能力的缺乏,提高成像系统数字口径和减少大口径透镜加工误差成为了突破衍射限制,提高成像分辨率的主要手段。
随着计算能力普及和提升,反卷积的方法被用于提高图像分辨率中。反卷积方法是基于一般光学系统都可以近似成线性无偏移模型,点扩散函数可以描述系统的成像机制,通过对系统点扩散函数的评估,可以提高重构图像的分辨率。其中最典型的应用莫过于哈勃望远镜拍摄的畸变图像经过反卷积处理后,分辨率获得了极大提高。随后,超分辨率技术获得了持续高速的发展,在天文成像、遥感成像、计算机视觉、医学X线断层、生物显微成像等几乎所有成像领域发挥着重要的作用,特别是2014 年度诺贝尔化学奖获奖成果——超分辨率荧光显微技术。由于点扩散函数过大,经典的显微成像系统无法分辨距离小于艾里斑半径的2个点,但超分辨率荧光显微技术利用非线性技术,使得点扩散函数变小,再利用反卷积方法实现高分辨率成像,例如,受激发射光淬灭技术(STED);或使用单分子荧光技术,使得靠得很近的2个点不同时发光,再利用反卷积实现高分辨率成像,例如,光活化定位显微镜(PALM)和随机光学重构显微镜(STORM)。图1(a)显示了反卷积在天文成像中的应用,图1(b)显示了反卷积在生物显微成像中的应用。
图1 反卷积的应用示例
在电磁学和光学成像系统中,有很多物理测量系统往往只能探测到场的能量谱密度,例如,电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)相机都无法探测到光波的相位,只能够测量到光子数目。在远场条件下,光学探测器本质上探测到的是图像傅里叶变换后的振幅谱。但是,相位分布包含了图像结构信息,对场的正确传播和变换至关重要。由此相位恢复技术孕育而生,该技术可以从振幅谱中恢复原始信号。相位恢复技术发展于20世纪七八十年代,并在经历了几十年的高速发展。一个里程碑的事件是,在1991年研究者利用相位恢复技术远程诊断出哈勃空间望远镜中的畸变问题。相位恢复的本质也是基于信号的先验知识解决欠定逆问题。这一点和压缩感知很相似,但是在先验知识表达和信号恢复的方式上两者具有很大的不同。
1984年,为了进一步提高数据处理能力,Johnson-Lindenstrauss引理被提出,可以在保证任意2点数据之间距离不变条件下,将高维信息空间中的数据投影到低维信息的空间中。只要测量模型满足限制等距性质(restricted isometry property,RIP),被测量的低维数据能够保留原始信号的大部分信息,有效消除无关和冗余的信息,降低数据的处理量,这为压缩感知模型的提出奠定了理论基础。同时,信号的稀疏表达理论也飞速发展,人们开始越来越多地认识到,现实世界中的大部分信号都具有多种复杂的结构特征,利用单一固定的正交变换,如离散余弦变换、离散小波变换,都很难将信号最稀疏表达出来。因此,针对多种结构特征的自然信号,信号稀疏表达的最好方法是使用过完备字典基的方法,自适应地根据信号的结构特征选择尽可能少的特征向量来表达信号。2006 年,Candes、Donoho和Tao等建立了“通过对信号的高度不完备线性测量重建高维信号”的理论,并取名为压缩感知理论,该理论表明,对于稀疏可压缩的信号,利用测量矩阵将高维信号投影到一个低维空间进行观测,基于少量的观测值,通过优化问题求解可实现原始信号的稀疏精确重构。压缩感知的测量值并非信号本身,而是信号从高维到低维的投影值,每个测量值是所有样本信号的组合函数,即一个测量值已经包含了所有样本信号的少量信息。信号恢复过程不是编码的简单逆过程,而是利用信号稀疏特点在概率意义上实现信号的精确重构,因此解码所需测量值的数目可以远小于传统理论下的样本数。压缩感知理论的提出,进一步促进了稀疏重建模型在成像领域的应用和理论发展。
不同电磁波段探测器成本分析
为了明确压缩感知技术在成像领域中的现实应用价值,首先要回答在哪些成像领域,压缩感知技术更容易获得青睐。在那些探测信号的边际成本特别高的成像领域,压缩感知理技术由于其低信号采集量,更容易发挥应用价值。一般成像系统的成本主要集中在探测器、光学元件和信号传输组件,不同电磁谱波段的探测器价格差异很大,表1示出不同电磁谱波段上探测器元件单个像素价格,可以看出,探测器在近红外、可见光、近紫外和中紫外波段的单个像素价格便宜,成本很低,而电磁谱波段超出该波段范围的单一像素价格都会显著提高。
表1 不同电磁谱波段上探测器元件单个像素价格估计
其中有两点例外值得关注,一个是硅基软X射线探测器被发明,使得软X射线波段单个像素价格大大降低,但是目前这种探测器只能够用于X射线衍射研究,而不能应用于医疗和安防的检测。同时,得力于自动驾驶技术投资热潮,越来越多的企业加大资金投入,研发低成本的毫米波雷达,使得毫米波雷达的价格在近几年有了大幅度降低。在除了近红外、可见光、近紫外、中紫外的波段外,其他波段的探测器由于没有庞大的应用市场驱动,无法吸引巨额的商业投资发展硅基工艺的探测器件,无法利用大规模生产工艺降低器件价格。探测器的尺寸和功耗随波段的变化规律与价格变化规律基本相同。同样,光学元件的价格也有相似的变化规律。信号传输组件的价格不依赖于信号所处的波段,只与信号采集的像素数目有关,在整个成像系统中所占成本比例较小。
综合考虑不同波段器件价格和压缩感知技术的应用潜力,可以得到3点结论:1)在近红外、可见光、近紫外的波段,由于单个像素价格极低,大规模像素阵列器件很容易被加工,成像采集的数据量都很大,压缩感知技术的应用往往受限于数据重构的计算成本。因此,压缩感知模型的设计需要着重考虑重构算法的速度和对于超大数据量的处理能力。2)对于毫米波、太赫兹波、远红外、极紫外波段,由于器件成本过高,探测器采集数据量不大,压缩感知模型的设计可以考虑更加复杂高效的压缩编码方式,以充分利用有限的像素采集量,恢复尽可能多的图像信息。3)而中紫外、短波红外和中红外波段则处于上述二者之间。
总之,为了满足工业应用需求,压缩成像技术的使用需要在器件成本和计算成本之间达成一个平衡。除了考虑器件成本和计算成本以外,在现实压缩成像模型的设计和搭建过程中还需要考虑不同波段光场调制元件的特性、价格、功耗等因素。
压缩成像技术的应用
光信号的表征具有多种维度。1991年,美国麻省理工学院的Adelson提出了七维全光函数模型F(x,y,z,θ,φ,λ,t)对真实的光信号进行描述,如图2所示,其中x,y,z,代表三维空间的任意位置,θ,φ 代表光信号的传播方向,λ代表所采集光信号的光谱信息,而t则代表光信号捕获的时刻。但是信号采集器,如CCD和CMOS是一个低维离散采样系统。经典成像模型描述的是七维全光函数的一个二维投影子空间采样,即高维连续信号经过相机采样得到的结果是低维耦合离散信号,获取高维信号的能力受到很大限制。如何对高维数据进行高速、海量、保真、高效的采集和恢复,是成像领域无数科研工作者追求的目标。传统成像系统获取高维信号的方式时,都是惯性地将不同维度的信号进行分离后采集,造成数据采集的规模过大,对硬件采集端的能力提出了极高的要求。过去计算机的计算能力有限,高维信号获取依赖于硬件端的采集能力。但是硬件采集能力的发展强烈依赖于材料科学和基础物理科学的发展,很难在短时间获得提高。根据摩尔定律,芯片的计算能力将在很长时间内能够保持指数级的增长。计算能力的增长速度远高于探测器采集能力的增长速度,促使得越来越多的科学家寻求通过硬件编码的方式将高维信息投影到低维的采集器件上,再利用强大的计算能力对高维信息进行重构。
图2 七维全光函数示意
“z”的压缩
数字全息技术可以从一幅或者多幅干涉全息图中,恢复探测平面上的复振幅信息。复振幅可以描述光场传播过程中的波前信息,但是从二维复振幅数据恢复三维物体信息是一个病态问题。同时,对于经典的Gabor全息而言,分离Gabor全息图中的背景噪声和共轭噪声也是一个严峻的挑战。相位恢复算法可以用来消除背景噪声的问题,但是相位恢复算法也无法恢复三维的物体信息。2009年,杜克大学Brady等将压缩感知与Gabor全息术结合,巧妙地利用不同距离的点扩散函数构造压缩感知模型,在不添加任何光学调制器件情况下,将不同“z”信息压缩编码到一张二维Gabor全息图中,实现三维稀疏物体的重建(图3)。实验通过平行光照射2个距离探测平面16 mm和56 mm的蒲公英种子,采集的Gabor全息图如图3(a)所示。真实的蒲公英种子形貌如图3(b)和图3(c)所示。图3(d)为轴向不同层压缩感知模型的重构结果,2个蒲公英种子的形貌被正确重建,同时被定位在正确的层上。图3(e)为不同层的反向传播的重构结果,蒲公英种子形貌不能被很好地恢复,层中也包含大量的共轭噪声和来自其他层的离焦噪声。由此说明,压缩感知不仅可以正确恢复物体的三维信息,同时利用稀疏重构算法强大的抗噪声能力,克服了Gabor全息成像中共轭项噪声无法去除的问题。之后,越来越多的工作将压缩感知理论应用到全息成像中,进一步提高压缩全息的成像能力。
图3 压缩感知与Gabor全息术结合实现三维稀疏物体的重建
“x,y”的压缩
美国麻省理工的Barbastathis团队采用天然的光波衍射压缩模型,有效地实现了对“x”维度的数据压缩,同时梯度边沿约束地引入,使得信号的稀疏度最大化,实现对已知物体的高精度定位(图4)。图4(a)为实验装置示意图,工作使用了最简单的Gabor 全息模型。图4(b)为实验中像感器采集到的二维全息图,从中提取的长度为1024的一维矢量信号如图4(c)所示。利用压缩感知算法可以成功恢复物体的边沿信息,恢复结构有效地去除了共轭噪声和其他系统噪声对结果的影响。实验中,物体的定位精度达到1/45个像素(相当于267 nm)。随后,Barbastathis团队将该方法扩散到二维的物体亚像素定位中,利用压缩全息实验对数据“x,y”两个维度的压缩,同时通过高精度螺旋相位板的引入,增加压缩测量矩阵的随机性,提高压缩全息的重构精度。
图4 采用光波衍射压缩模型实现对已知物体的高精度定位
“λ”的压缩
虽然杜克大学的Brady课题组使用光的衍射模型作为数据压缩测量矩阵,减低了器件的成本和实验校准难度,但是该模型形成的压缩矩阵随机性和非相干性较低,无法实现高效压缩数据编码。因此,Brady开发了新的基于编码孔径的单次曝光光谱成像(coded aperture snapshot spectral imager,CASSI)系统,实现压缩感知技术对“λ”维度的数据压缩。传统的光谱成像系统先通过色散器件将不同光谱通道的光进行分离,再对不同通道光谱进行成像,而CASSI系统是利用编码孔径对场景中不同通道光谱进行随机编码和压缩,仅采集一幅灰度图像,就可以恢复多通道的光谱信息,从而大大降低信号的采集量。图5为利用彩色相机记录的蜡烛燃烧图和经过CASSI系统后的单色编码图。图6为Brady课题组利用CASSI系统恢复的多光谱彩色图像,实验中共采集了300帧的视频数据,利用NeAREst压缩重构算法对每一帧图片进行重构,可获得从455~650 nm的107个光谱通道图像,图6中只显示其中的33个光谱通道。
图5 彩色相机记录的蜡烛燃烧图及经过CASSI系统单色相机记录的编码图像
图6 利用CASSI系统恢复的多光谱图像
“t”的压缩
当成像器件成本过高时,利用压缩成像技术,提高重构成像数据的维度和分辨率是一个明智的选择,高速摄影技术就是如此。基于硅基的超高速像感器件,最高成像速率可以达到每秒千万帧,但是由于传输带宽的限制,每秒仅仅输出几十帧甚至几帧的图像信息。其他成像速度更快的系统大多是通过中继系统将不同帧的图像信息分离,并在多个像感器上进行采集。条纹相机作为一种典型的高速相机,其原理是不同帧的光子经过狭缝轰击光电阴极,产生的电子在高压电场的作用下发生偏转,最后在荧光屏幕上显示。条纹相机虽然可以获得千亿帧的高速成像,但其原理是牺牲了图像的横向分辨率,将不同帧的图像信息编码到空间中。因此条纹相机要求物体具有很高的重复性,通过平移狭缝的位置,最终获得二维图像的高速成像,但是很多物理和化学研究往往不满足实验现象高度可重复的要求,美国圣路易斯华盛顿大学的Wang团队巧妙利用条纹相机的剪切特性,对进入条纹相机中的图像进行随机编码,实现了“t”维度的数据压缩。图7为压缩高速摄像系统的示意图。目标图像的数据体可以表示为图7(a),其中x和y为空间维度,为时间维度,m、n、k表示数据体矩阵系数,目标图像经过中继成像系统映射在数字微镜元件(DMD)上,此时的数据体可以表示为图7(b);经过光学系统传输进入狭缝完全打开状态的条纹相机,条纹相机中的电场作用相当于对数据体剪切(图7(c));最终荧光屏上采集到的图像为不同帧的数据压缩编码的结果(图7(d))。压缩高速摄像系统结合了条纹相机的剪切作用和压缩感知孔径编码的原理,在硬件层面上实现了不同帧数据压缩,使得条纹相机可以在一次曝光的条件下,实现1000亿帧的高速成像。图8为利用该高速相机捕获的现象。
图7 压缩高速摄像系统示意
图8 压缩高速摄像系统的应用
“θ,φ”的压缩
前面介绍了利用压缩感知技术实现对七维全光函数中的空间维度、时间维度、光谱维度的数据压缩,对于角度维度,最经典的应用莫过于光场相机。2005年,斯坦福大学计算机图形实验室利用1600万像素的像感器和9 万个微透镜阵列获取了可再聚焦的重构结果。随后,光场相机技术高速发展,2011年,Lytro公司发布了世界首款消费级光场相机,先拍照后聚焦的全新体验吸引了大众的眼球。通常光场相机捕获不同视角光线的方法是通过周期性的光调制结构在一个像感器上获得不同视角的低分辨率图片,或通过时分复用的方式获得不同视角的高分辨率图片,但成像速度会随之降低,均无法提高光场相机的信息采集能力。2013年,美国麻省理工学院的媒体实验室搭建了基于压缩感知原理的光场相机,在传统光场相机的像感器前一定距离放置一块编码孔径,如图9(a)所示;编码孔径对于不同方向的光场进行调制,形成剪切矩阵,如图9(b)所示。调制后不同视角的图像压缩投影在像感器上,实现了“θ,φ”维度的数据压缩,压缩测量矩阵如图9(c)所示。最终,利用冗余稀疏字典基,从二维编码图像中成功恢复四维光场信息。图10为利用该压缩光场相机获得的四维光场信息。
图9 压缩光场相机原理示意
图10 压缩光场相机的四维光场重构结果
压缩感知面临的挑战与未来
近年来,关于压缩成像的研究都尽力追求高的数据压缩比例和更少的采样,使用复杂的编码测量和高度结构化的目标图形去突出压缩感知的作用,但目前压缩感知在真实世界中的高效应用还相对有限。从工程应用的角度,保持成像可靠性的有效方法是增加成像系统的冗余性。压缩感知的基本假设是自然图像具有高度的冗余性,在测量阶段减少数据采集,相应的也会导致压缩感知系统在数据恢复中的脆弱性。如果盲目追求低的数据压缩比,就会降低成像系统的重构鲁棒性。这种脆弱性也体现在压缩感知系统需要知道测量矩阵形式,这就要求压缩编码成像系统需要对编码元件进行高精度的校准或者测量。在实际应用中,大量场景均对成像系统的稳定性有一定要求,这对压缩成像系统的使用和推广带来了一定的限制。近期美国国防部高级研究计划局(DARPA)的压缩感知测量强化项目组(KECoM)提出一个思路,希望超越现有随机采样思想框架,研究采用非稀疏约束的先验知识重新设计测量矩阵。同时,在压缩成像系统设计中考虑加入多种不同的编码设计,提升压缩重构算法对于硬件校准误差的鲁棒性,降低系统校准、精密加工和实用操作的要求。综上所述,压缩感知在大规模应用还有很大发展空间,压缩感知理论需要新的突破和创新,许多关键科学问题和技术需要进一步完善和改进。
信号的稀疏表示
压缩感知解决信号采集中的欠定问题。只有信号能够很好地表示成稀疏的形式,才能够保持从少量低维的测量信号中恢复出原始信号。国内外研究者提出了各种不同的变换空间来表达信号,如小波变换、离散余弦变换。但不管哪种变换,面对复杂的自然信号都会有局限性。过完备字典方法可以根据信号特征自适应地构造出一个基底,使得信号可以很好表示成稀疏的形式。如何有效快速地生成过完备字典成为一个很好研究方向。其中,基于机器学习的冗余字典方法开始被越来越多研究人员所关注。
测量矩阵的设计
随机测量已经被证明能够高精度的恢复信号。但是随机测量矩阵很难与现有的成像系统相结合,使得压缩系统的设计在硬件上很难实现。同时,随机测量矩阵的设计在硬件层面上往往要求高的校准精度,这个也给测量系统的高鲁棒性带来了挑战。所以,获得新型的更容易与现有成像系统相匹配的测量矩阵模型成为了摆在研究者面前的一个难题。
高维大规模的信号恢复
压缩感知理论已经证明在测量矩阵满足一定约束的条件下,L0范数优化和L1范数优化解具有一致性,成功地将信号恢复问题转化为凸优化问题,大大降低信号重构难度。但是在现实应用中,信号的维度和规模不断的增加,这对准确快速信号恢复研究提出了更高的要求。
结 论
压缩感知是一种信号获取的方式,它在经典的香农采样定理之外,为解决图像采集过程中的高维数据重构提供一个很好的视角。压缩感知理论是对传统成像方式的重要补充,在恢复高通量、高维图片数据中具有很强的优势。在综合考虑采集器件成本、计算成本、调制难度等因素的条件下,压缩成像理论在不同的光谱段上都有可能找到合适稀疏模型、重构算法、系统设计,进一步提高信号采集效率。在一些极端成像领域,如高光谱成像、超高速成像,器件成本过高,压缩成像可以充分利用有限的像素采集量,恢复尽可能多的图像信息。压缩感知是采用硬件压缩图像信息的成像模式,压缩成像的大规模应用亟需能够具有高稳定性和系统兼容性的硬件感知系统设计出现。同时,压缩感知理论需要突破现有随机编码和稀疏先验思想框架,为压缩感知系统设计提供新的理论支持。
基金项目:国家自然科学基金项目(61327902)
参考文献(略)
本文作者:张华,曹良才,金国藩,白瑞迪
作者简介:张华,清华大学精密仪器系,博士研究生,研究方向为数字全息压缩成像;曹良才(通信作者),清华大学精密仪器系,副教授,研究方向为全息光学技术。
注:本文发表于《科技导报》2018 年第10 期,敬请关注。
(责任编辑 刘志远)
《科技导报》
中国科协学术会刊
联系电话:010-62194182
欢迎投稿:lina@cast.org.cn
长按二维码 即刻关注