近日UCLA朱松纯教授刊登在《视觉求索》之檄文《文章千古事,得失寸心知》,思想深邃,针砭时弊,振聋发聩。深度学习的狂飙,遮天蔽日,颠倒众生,该文当头棒喝,醍醐灌顶。希望《视觉求索》能够领导视觉界的“文艺复兴”,正本清源。多年之后,视觉界的学者也许会出现一支“清风明月”学派。
朱文有一段优美的描述,令人怦然心动:“做学问的本质,就是登无人之境。在这一点上,文学(苏轼)与科学(爱因斯坦)是相通的。我(朱松纯)对此解读如下:你能找到一个新的Space,这个Space可以是一个抽象的数学空间,也可以是一个图像空间、几何形状空间、感知的空间。你去探索与领略这种空间的结构、奥妙,把它描绘出来。很多年前,我的导师(菲尔兹奖得主David Mumford)谈到他在代数几何的工作,用了类似的描述。他说他就是找到了一扇门、打开以后,进入一个花园,然后把这个花园的结构理清,展示给世人。”
这段文字清奇深邃,意蕴深远,只有功力深厚的高手才会有如此感悟。老顾被这段文字深深打动:多少年来,无数几何学家一直在Mumford的秘密花园中徜徉,这个花园的结构美轮美奂,鬼斧神工,却又虚无缥缈,神秘莫测。更为奇妙的是,这个花园在视觉领域给出了形状空间的几何模型。
在计算机视觉领域,对现实世界中各种曲面形状的表示和分析一直是最为基本的问题。我们力图建立一种“形状空间”:这个空间中的每一个点代表一张曲面,或者一类曲面;一条曲线代表从一张曲面到另外一张曲面的连续形变过程;在形状空间中,我们可以定义某种黎曼度量,可以测量两个形状之间的测地距离,从而可以定量地衡量不同形状之间的相似相异程度,进一步可以实现形状的聚类和分析。
这里,我们从现代几何的理论角度来介绍形状空间的数学模型。首先,我们侧重理论层面的探讨,这些理论结构独立于各种算法。无论是用机器学习算法,离散优化算法,有限元算法,更为广泛的,几何学家们倾向认为各种天然的几何结构是自然界的一部分,它们的存在和人类文明无关。人类只是发现了它们,而非发明了它们。因此,相对于人类社会,这些结构是永恒的;其次,人类可以从精神层面感知这些天然的结构,可以建立理论来系统阐述这些结构,也可以发明算法从计算角度来逼近这些结构,更可以从美学角度来感知这些结构。数学大师如Mumford者,可以用深刻明晰的方程和公式来加以描绘揭示,我等芸芸众生可以经过学习加以领悟。作为目前宇宙间最高智慧的承载者,每一个人都可能在某一刹那顿悟,体会到超越生命的永恒。
根据克莱因(Klein)的爱尔兰根纲领(Erlangen Program),不同的几何(Geometry)就是研究不同变换群(transformation group)下的不变量(invariant)。
这里的关键概念是群,和群作用下的不变量。群的概念是现代数学的基石之一,抽象而普适。一个群是一个集合,集合中的元素可以是任意的对象,比如可以是整数、矩阵、曲线、映射等等。群的元素之间有一个乘法算子,它将两个元素复合,得到第三个元素,比如两个整数求和、矩阵求积、曲线联结、映射复合等等。这个集合与乘法算子满足如下四个条件:
封闭:任意两个元素的乘积,依然在内,;
结合:任意三个元素,;
单位元:存在一个元素,使得对一切元素,;
逆元:对一切元素,唯一存在其逆元,满足.
群的概念包罗万象,是描述自然结构的一个强有力的语言。比如,我们考虑平面上所有的刚体变换(旋转加平移),乘法是刚体变换的复合,则所有刚体变换成群;同理,平面上的所有仿射变换成群,平面上的所有射影变换成群。刚体变换保持任意两点之间的距离,因此刚体变换群的不变量是欧氏距离,对应的几何是欧氏几何;仿射变换群的不变量是重心坐标(barycentric coordinates),对应的几何是仿射几何;射影变换保持任意共线四点的交比(cross ratio),射影变换群的不变量是交比,对应的几何是射影几何。刚体变换群是仿射变换群的子群,仿射变换群是摄影变换群的子群。这几个变换群构成层次结构。这几个种几何的内涵和外延也各不相同。例1显示了平面变换群之间的层次结构。
例1. 平面变换群之间的层次关系。
通常,我们关心的是三维欧氏空间(Euclidean Space)中的二维曲面(Surface),常用的几何包括拓扑(Topology),共形几何(Conformal Geometry),黎曼几何(Riemannian Geometry)和欧氏空间中曲面的微分几何(Differential Geometry),其对应的变换群是拓扑同胚群(Homeomorphism Group),共形变换群(Conformal Transformation Group),等距变换群(Isometric Transformation Group),和刚体变换群(Rigid Motion Group)。这些群构成层次结构(Hierarchy),后面的群是前面群的真子群(subgroup),刚体变换群是等距变换群的子群,等距变换群是共形变换群的子群,共形变换群是拓扑变换群的子群。每个变换群的不变量可以被称为是相应的几何结构(Geometric Structure),换言之每个变换群保持相应的几何结构不变。相应的几何结构被称为是拓扑结构(topological structure),共形结构(conformal structure),黎曼度量结构(Riemann Metric),和曲面在欧氏空间的嵌入结构(Embedding)。例2显示了曲面变换群之间的层次结构。
例2. 曲面变换群之间的层次结构。
给定欧氏空间中的一张嵌入曲面,例如一张人脸曲面,它本身具有拓扑结构,共形结构,黎曼度量和嵌入结构。每一个结构给出了部分几何信息,因此为了表达这张人脸曲面的全部几何信息,我们的数据结构应该是四元组(拓扑结构,共形结构,黎曼度量,嵌入结构)。这些结构并非彼此独立,一方面,高级的结构受限于低级结构。例如曲面的拓扑结构制约了黎曼度量,如果曲面和球面同胚,则曲面上不存在高斯曲率处处为零的度量;如果曲面的高斯曲率处处为负,则曲面无法在三维欧式空间中光滑等距嵌入,即现实生活中的所有封闭曲面必然不可能高斯曲率处处为负。另一方面,高级的结构决定了低级结构。例如,曲面在三维欧式空间中嵌入,欧式空间的平直度量诱导了曲面的黎曼度量,曲面的黎曼度量决定了曲面的共形结构等等。
根据不同的应用目的,根据所需的几何信息,我们可以考察和应用不同的几何结构。例如,如果我们关注人脸识别(Recognition),我们需要应用嵌入结构;如果我们关注不同人脸曲面间的配准(Registration),我们需要考虑曲面的共形结构来实现曲面的变形;如果我们的目的是人脸表情自动分类(Expression Classification),通常我们应用黎曼度量既已足够。
如果我们固定一个低级结构,这个结构可容许的高级结构不唯一,所有这些高级结构组成了一个抽象空间,此空间被成为是此高级结构的模空间。比如,我们固定曲面的拓扑,那么这个曲面所容许的共形结构不唯一,所有这些共形结构组成了所谓的模空间(moduli space)。模空间是所有共形结构的形状空间,初略而言,这个抽象的空间是有限维黎曼流形。Mumford进一步证明空间代数的结构。即模空间是代数簇(algebraic variety),即是某个理想(多项式方程组在复射影空间中)的零点集。
下面,我们讨论每一个几何结构的理论,以及相应的数据表示和计算方法。
直观上,我们假设曲面由橡皮膜做成,我们可以对曲面任意揉捏、拉伸、撕扯,但是不能粘连、撕破,则这些变换都是所谓的拓扑变换(topological transformation),也被称为是拓扑同胚变换(homeomorphic transformation),曲面那些被保持的性质被称为是拓扑性质。如果一张曲面通过拓扑变换,可以变成另外一张曲面,那么,这两张曲面彼此拓扑同胚(homeomorphic)。曲面的拓扑不变量包含哪些呢?
图1. 不可定向的曲面:莫比乌斯带。
简单而言,曲面的拓扑不变量包含:曲面的可定向(orientability),亏格(genus),边界(boundary)的数目。所谓可定向性,就是我们是否可以将曲面分成内外两侧。例如三维欧氏空间中的任意一个有限的封闭曲面,都有一个内表面,和外表面,如果有一只蚂蚁沿着外表面爬行,那么这只蚂蚁永远不可能爬到内表面去;反之,如图1所示,一只蚂蚁沿着莫比乌斯带爬行,它可以在不越过莫比乌斯带边界的情况下,自由地穿梭于两侧。这意味着莫比乌斯带是不可定向的。
图2. 零亏格曲面,兔子曲面和球面彼此拓扑同胚。
直观而言,曲面的亏格就是曲面所具备的环柄的数目。如图2所示,封闭的兔子表面没有环柄,因此兔子曲面是亏格为0的曲面,球面的亏格也是0。我们想象兔子曲面是一个气球,充气后可以膨胀成球面,因此,兔子曲面和球面彼此拓扑同胚。
图3. 亏格为2的曲面。
亏格的概念有时候并不那么直观,如图3所示,两个曲面都是亏格为二。左侧曲面的亏格非常直观,但是右侧曲面自身有扭结(knot)结构,其亏格不太一目了然。严格的亏格定义,需要同伦群的概念(fundamental group)。
如果曲面并不封闭,其边界为一维流形,每个连通分支是一个圈(loop),这些圈的条数,也是曲面的拓扑不变量。图10显示了带边界曲面,其边界的连通分支的个数各不相同。
图4. 曲面上的曲线同伦判定。
因此判定两个曲面是否拓扑同胚,我们只需对比它们的拓扑不变量即可。但是对于比较复杂的拓扑问题,我们需要比较先进的工具。例如,图4显示了一个亏格为1的小猫曲面。曲面上有两个圈,我们需要判定是否一个圈能够连续渐变成另一个圈,并且在形变过程中不离开曲面。这被称为是同伦判定问题(homotopy detection)。我们为此,需要代数拓扑(algebraic topology)的工具,例如同伦群(homotopy group,foundamental group)。
图5. 曲面上光滑矢量场的设计问题。
如图5所示,如果我们需要在曲面上面设计光滑矢量场,矢量场的零点位置和指标(index)被用户所指定,这需要用到微分拓扑的同调群(deRham cohomology group)。
曲面的拓扑计算工具目前发展得比较成熟,同伦群和同调群的计算方法已经不再是瓶颈。但是,许多深入的拓扑问题本身是NP问题,例如同伦类表示的最短词问题(shortest word in homotopy group),其有效计算往往需要黎曼几何。
图6. 拟共形变换(quasi-conformal map)。
图7.共形变换(conformal mapping),黎曼映照(Riemann mapping)。
图6和图7显示了从女孩人脸曲面到平面圆盘之间的光滑映射(smooth mapping),光滑就是说这个映射具有一定阶数的可微性。图6显示的是一般的微分同胚(diffeomorphism),人脸上的无穷小椭圆(infinitesimal ellipse)被映到平面上的无穷小圆(infinitesimal circle);图7显示的是所谓的共形映射(conformal mapping),或者是所谓的保角映射(angle-preserving mapping),这个映射将人脸上的无穷小圆映成平面上的无穷小圆。
微分同胚一般是非线性映射,我们可以用其一阶线性近似来分析。给定两个带有黎曼度量的曲面和它们之间的一个光滑映射,,这个映射一阶逼近给出了曲面切平面间的线性映射,记为,如果在曲面上的任意一点,这个切映射都是相似变换,则映射被称为是共形映射。
我们也可以从度量的角度来讨论。给定源曲面上的一条曲线,其像落在目标曲面上。我们用目标曲面上的黎曼度量来测量像曲线的长度,以此来定义原曲线的长度。由此,我们在源曲面上给出了一个新的黎曼度量,被称为是由映射所诱导的定义在源曲面上的拉回度量,记为。这样,源曲面上存在两个黎曼度量,和。如果这两个度量成比例:
,
则映射是共形映射,这里函数被称为是共形因子。我们观察图7,人脸上的无穷小圆映成了平面上的无穷小圆,小圆的面积发生了变化。面积变化率就是共形因子。
共形几何就是研究共形变换下的不变量,其内容博大精深,我们只能挑选最主要的定理加以阐述。拓扑相同的曲面之间未必存在共形映射,如果存在共形双射,则我们称两张曲面彼此共形等价。我们可以用共形等价(conformal equivalence)关系将所有拓扑同胚的带度量曲面进行分类,每一个共形等价类被称为是一个黎曼面(Riemann Surface)。彼此共形等价的曲面具有相同的共形不变量,亦即共形结构。那么如何判定两个曲面是否共形等价?如何表示共形结构?这需要用到曲面的单值化理论(uniformization)。
图8. 封闭曲面的单值化定理(uniformization)。
如图8所示,曲面的单值化定理就是说任何可定向的带度量的紧曲面(compact surface),都共形等价于三种典范(canonical)曲面中的一种:单位球面(sphere),欧氏曲面(Euclidean surface)和双曲曲面(hyperbolic surface)。我们来解释一下何谓欧氏曲面和双曲曲面。如图9右帧所示,我们在欧氏平面上选取两个平移(translation),和,那么这两个平移生成一个离散的等距变换子群,
,
平面上任选一个点,在群的作用下得到一条轨道(orbit),
。
整个平面被分解成许多轨道的并集,我们将每条轨道视作一个点,所有的轨道构成的空间被称为是商空间(quotient space),记为。那么是一个亏格为1的曲面,其高斯曲率(Gauss curvature)处处为0,因此被称为是一个欧氏曲面。
图9. 亏格为1的曲面和欧氏曲面共形等价。
双曲曲面的定义比较类似。首先,我们定义双曲平面(hyperbolic plane)是单位圆盘配备着双曲度量,
,
因此双曲平面上的高斯曲率处处为-1,记为。双曲平面上的所有等距变换都是莫比乌斯变换(Mobius transformation),例如
,
我们适当选取莫比乌斯变换群的一个子群,其商空间就是一个双曲曲面。
图10. 带边界曲面的单值化定理。
单值化定理实际上在共形等价的意义下实现了天下大一统。所有的封闭曲面在共形变换下,都可以变成三种标准空间中的一种:球面、平环(flat torus)和双曲曲面。理论上,任何几何算法都可以在这三种标准空间中展开。那么,带有边界的曲面又如何呢?如图10所示,我们在标准空间中挖掉一些圆或者点,得到标准空间中的圆域(circle domain),那么单值化定理断言:所有可定向的带度量紧曲面都共形等价于标准空间中某一个圆域。
那么,我们如何判定两个曲面是否共形等价呢?我们计算它们所对应的单值化标准空间圆域,
,
这里代表三种标准几何中的一种:球面几何,欧氏几何,双曲几何;是标准几何空间中的等距变换子群,如果曲面亏格为0,则只含有一个单位元;如果曲面亏格为1,则有两个生成元;如果曲面亏格,则含有4g个生成元。这里表示圆心在,半径为的圆。
图11. 泰希米勒映射(Teichmuller Mapping)。
如果两个同胚的曲面彼此共形不等价,那么它们之间不存在共形变换。在这种情况下,两张曲面之间存在唯一的一个最为接近共形映射的映射。我们回到图6,一般的微分同胚将无穷小椭圆映到无穷小圆,我们可以考察无穷小椭圆的偏心率(eccentricity)。所谓椭圆的偏心率就是椭圆的长短轴之比减去1。如果偏心率为0,则椭圆为圆。一个微分同胚和共形映射之间的差距可以用无穷小椭圆的最大偏心率来衡量。在所有的微分同胚中,存在唯一的一个映射,其最大偏心率最小,此映射被称为是所谓的泰希米勒映射(Teichmuller mapping)。图11显示了两张带特征点的人脸曲面间的泰希米勒映射。人脸曲面上标注了主要的特征点(feature point),那么它们之间不存在共形变换将每个特征点映到相应的特征点,但是存在泰希米勒映射。从图中,我们看到Teichmuller映射中,所有的无穷小椭圆具有相同的偏心率。
图12. 亏格为3的曲面上的叶状结构(foliation)。
泰西米勒映射和曲面上的叶状结构(foliation)具有非常深刻的联系。所谓的叶状结构就是将曲面(抠掉有限个奇异点)分解为曲线的并集,每根曲线被称为是一片叶子(leaf),或者一根纤维(fiber)。每根纤维未必是封闭曲线,没有自交点(self-intersection),任意两根纤维也没有交点。图12显示了亏格为3的曲面上的一个叶状结构。给定两个同胚的曲面,它们之间存在着Teichmuller映射,那么在源曲面和目标曲面上各存在一个foliation,这个映射将每条纤维映到相应的纤维,将奇异点映到奇异点。同时Teichmuller映射将每个纤维均匀拉伸,拉伸比处处相同。曲面上所有的foliation构成一个空间,这个空间的维数是。
固定曲面的拓扑,所有的共形等价类构成的抽象形状空间被称为是所谓的模空间(Moduli space)。模空间中任意两点之间,存在唯一的Teichmuller映射,因而存在Teichmuller映射所对应的叶状结构。因此,模空间的维数也是。Teichmuller映射所诱导的无穷小椭圆的偏心率给出了两点之间的测地距离。由此,模空间可以被视为是一个有限维的黎曼流形(Riemannian manifold)。Mumford深刻洞察了模空间的内在对称性,证明了模空间的代数结构。模空间给出了形状空间的自然模型。
从计算角度而言,共形几何中的绝大多数重要的概念都可以在工程上被计算出来,例如曲面的单值化,曲面的共形结构,曲面间的拟共形映射,曲面上的叶状结构,和简单拓扑情形下的Teichmuller映射等等。同时依然存在着许多开放问题(open problem),例如Teichmuller映射所对应的foliation等等。
图13. 曲面上的测地线(geodesic)。
所谓曲面的黎曼度量,就是在曲面每点的切平面上面定义一个内积(inner product),这个内积依随曲面上点的选取而光滑变化,可以被视为是定义在曲面上的以正定矩阵为值的函数。有了度量,我们可以定义所谓的测地线(geodesic)。如图13所示,如果我们在曲面上开车,如果车依随曲面的地势而上下起伏,但是方向盘从来不向左、右打,则车的轨迹就是一条测地线。局部上,测地线是连接两点的最短线。
我们可以直接定义沿着测地线的平行移动。给定起点处的一个切向量,我们沿着测地线移动这个向量,移动过程中,保持向量在切平面内,同时保持向量和测地线的夹角不变,如此这般我们就把切向量从测地线起点平行移动到终点。我们在曲面上画一个测地三角形,然后将一个定点处的切向量沿着测地三角形平行移动,移动一周之后回到原点,所得切向量和初始切向量之间会有一个夹角。这个差异角度,就是测地三角形内部的总高斯曲率。高斯曲率衡量了无穷小平行移动的不可交换性。由此可见,黎曼度量决定了高斯曲率。另一方面,曲面的总高斯曲率是个拓扑不变量,
,
这里是曲面的欧拉示性数(Euler characeteristic number)。这就是高斯-博内定理(Gauss-Bonnet theorem)。
给定两个带有黎曼度量的曲面和它们之间的一个光滑映射,,如果这个映射保持任意两点间的测地距离,则这个映射被称为是等距变换(isometric transformation)。等价地,如果由映射所诱导的拉回度量等于源曲面的度量,
则此映射为等距映射。等距变换保持黎曼度量,因而保持高斯曲率不变。
给定一个带度量的曲面,则根据单值化定理,存在函数,使得单值化度量,依随曲面的拓扑,欧拉示性数为正,零或负,相应的高斯曲率为常数值。这里,函数为共形因子。因此,带黎曼度量曲面可以表示成共形的典范空间,配上共形因子。
一般情况下,如果我们将黎曼度量共形变化,,相应的高斯曲率会发生变化,变化规律满足所谓的Yamabe方程
,
Yamabe方程高度非线性,通常的有限元方法无法求解。当年,哈密尔顿(Richard Hamilton)为了解决庞加莱猜想(Poincare conjecture)而发明了里奇流的技术(Ricci flow),
,
可以证明里奇流可以用于求解Yamabe方程。这种方法给了我们非常强有力的工具,使得我们可以用高斯曲率来设计黎曼度量。很多几何和拓扑问题,选取合适的黎曼度量,可以极大地简化问题。例如,在曲面注册问题中,如果目标曲面上配备双曲度量,则调和映射(harmonic map)存在并唯一,同时是微分同胚。再如,上面讨论过的同伦类最短词表示问题本身是NP问题,如果曲面上配备双曲度量,曲线用测地线表示,则此问题多项式时间可解。
如果封闭曲面曲率处处为正,则曲面为凸曲面,曲面的黎曼度量就已经决定了曲面在三维空间中的嵌入,平均曲率函数成为冗余。如果封闭曲面曲率处处为负,则曲面无法在三维欧氏空间中等距嵌入。如果曲面为平环(flat torus),曲面可以在三维欧氏空间中等距嵌入,但却无法等距嵌入。因此,黎曼度量所容许的平均曲率是一个复杂的问题,曲面的等距嵌入理论依然在发展中。
绝大部分的理论内容存在相对成熟的计算方法,例如同伦群、同调群,曲面单值化,Teichmuller映射,里奇曲率流,曲面上的foliation。当然,也存在许多理论层面的开放问题,特别是涉及到等距嵌入的理论,更存在许多计算层面的开放问题,需要进一步深入地探索。
感想
人类历经数百年,无数几何学家前仆后继才建立了相对完备的曲面拓扑、几何理论。大多数在历史上做出杰出贡献的数学家,全都是质朴纯真,淡泊名利的学者,他们皓首穷经,呕心沥血,坚韧执着,数十年如一日地追求真理。他们个人的际遇往往充满挫折,成为那个时代的失败者。Teichmuller成为纳粹的炮灰,殒命于莫斯科城外;黎曼英年早逝;Cartan的思想太超前于时代,无人理解,一辈子默默无闻;Hamilton发明了Ricci 流,为解决庞加莱猜想指明了方向,但却无法从NSF得到应有的资金支持;Perelman证明了庞加莱猜测之后自我放逐。如果用世俗的标准衡量,他们的艰苦付出没有得到社会应有的回报,都是名利上的失败者,但是他们最终都名垂青史,万世敬仰。
在陈省身先生年轻的时候,微分几何奄奄一息。他在普林斯顿被资深数学家告知“微分几何已死”。他所倡导的微分形式上同调(differential form,cohomology)不被当时的人们所理解,备受挫折。丘成桐先生年轻的时候,逆着几何研究的主流,石破天惊地创立了几何分析学派,用偏微分方程的方法来解决几何问题。他们都坚持独立思想,不为时代大潮所动,独树一帜,纵横捭阖,最终成为一代宗师。
我等晚辈学人,虽然痴顽鲁钝,但也向往天人合一的境界,经常在夜深人静之时,沐临清风明月,感喟几何大师们建立的殿堂之恢弘壮美,感悟自然真理的和谐统一,神圣优美,而不禁念天地之悠悠,独怆然而涕下。
作者简介:
顾险峰,清华学士,哈佛博士,师从丘成桐先生,
版权声明:本原创文章版权属于《视觉求索》公众号。任何单位或个人未经本公众号的授权,不得擅自转载。联系授权转载请通过订阅公众号后发消息或电邮visionseekereditors@gmail.com。