陶哲轩等重写论文回应争议：七种证明，全面回顾“颠覆数学常识”的公式是怎么来的？

会员服务 ·

陶哲轩等重写论文回应争议：七种证明，全面回顾“颠覆数学常识”的公式是怎么来的？

2019 年 12 月 10 日 新智元

新智元报道

来源：arxiv

编辑：张佳，大明，王汐

【新智元导读】还记得上个月三位物理学家和陶哲轩发现的新公式吗？这个被称为“颠覆性”的公式早已被数学家提出并写入教材。虽然翻了车，但陶哲轩等人一不做二不休，索性深挖这个公式的前世今生，并给出7种证明方法，还发表了新论文。今天为大家带来独家论文解读。现在戳右边链接上新智元小程序了解更多！

还记得上个月三位物理学家和陶哲轩发现的新公式吗？

简言之，三位物理学家请教数学天才、菲尔兹奖得主陶哲轩一个偶然发现的公式。三位物理学家很快收到了陶哲轩的回复，并给出3个证明。一周半后，他们一起发表了论文，阐述了这个公式的证明过程。

第一篇论文地址：https://arxiv.org/pdf/1908.03795v1.pdf

然而造化弄人，没多久网友就扒出这个简化方法早已被数学家提出并写入教材，然后又有人顺藤摸瓜发现这个定理出现在1968年一篇《线性代数及其应用》(Linear Algebra and its Applications)的文章里。

紧接着，陶哲轩在自己博客说明，发现了之前这个公式的很多等价版本，意识到这个公式并非首创。

事情本来到这里就可以结束，但没想到陶哲轩他们一不做二不休，索性做了个文献调查，系统整理了这个公式的历史引用情况和应用沿袭，然后整理成图，并给出7种证明方法，还将更新版的论文发表了。

第二篇论文地址：https://arxiv.org/pdf/1908.03795v2.pdf

陶哲轩：确实不是我们首次发现，最早可追溯至1934年

伴随这篇预印本论文的发表，陶哲轩更新了个人博客。文章表示，写第二篇文章是因为第一篇文章的所引发的争议，就是说这个恒等式早就有，他们不是第一次发现，还给出了更早的出处。这篇文章基本可以视作一个文献调查，系统整理了这个式子的历史引用情况和应用沿袭，然后整理成图，并给出7种证明方法。

陶哲轩

陶哲轩在这篇博客中也承认，写第一篇文章之前团队并不知道此恒等式之前曾在历史文献中多次出现。

以下是陶哲轩博客内容：

Peter Denton, Stephen Parke、张西宁和我，将最近发表的一篇论文进行了补足，并完全重写，上传到了Arxiv上。新文章的主要内容变为关于线性代数中特征值-特征向量基本恒等式的一项。本文中的特征向量-特征值恒等式的形式如下：

我们几个月前发布的第一个比较简略的版本的论文时，我们并不知道这个恒等式在以前的文献中多次出现，过去我和其他研究人员的关于随机矩阵理论的论文中曾经使用过相关的恒等式，但就我们所知，这个恒等式似乎是新出现的。即使在几个月前，我们的第一篇论文发表之后到现在，我们也只在一篇其他论文中见到这个恒等式的引用。

随着上个月Quantamagazine网站上发表了关于此恒等式论文的科普文章，情况发生了相当大的变化，在几周内，我们被告知（私人交流、在线讨论以及对我们的文章的参考文献的相关引文树的探索），之前的文献中，已有不止三处出现了这个恒等式，或某些其他与该式紧密相关的恒等式，包括数值线性代数，图论的各个方面（图重建，化学图论和图论），特征值反问题，随机矩阵论和中微子物理学等等。

因此，我们决定完全重写我们的文章，以整理这些信息，并调查这个恒等式出现的历史。目前，从全部已有证据（我们收集了七种不同的方法证明了这个恒等式（或其推广形式）），以及我们目前所知的对这个恒等式的所有应用来看，结果表明，临时众包工作所产生的文献引用图之间的联系非常薄弱，这一发现是非常令人惊讶的：

就我们目前所知，特征向量-特征值恒等式最早明确出现是在1966年汤普森的一篇论文中，不过这篇论文只被引用了寥寥数次，其中还算上了间接引用。而早在1934年就出现勒夫纳恒等式实际上是该恒等式在限制条件下的一个特例。

在这篇文章的最后，我们推测了一些可能的原因，分析了为什么在2019年11月的Quantamagazine文章出炉之前，特征向量-特征值恒等式的知名度这么低，其传播是如此缓慢。

接下来，新智元将为大家解读陶哲轩和三位物理学家更新版的论文。

7种证明，陶哲轩等人更新版论文解读

摘要：假设A为一个n x n的厄米特矩阵，它的特征值为 λ1(A), . . . , λn(A)。那么对应于特征值λi(A)的特征向量 vi 它的第j个元素vi,j是和A的子矩阵Mj （A去掉了第j行和第j列后的矩阵）有如下恒等关系：

这个恒等式就是特征向量-特征值恒等式eigenvector-eigenvalue identity。这个恒等式因为此前文章火了，被当作新公式看待，但是在这篇综述里会说明，这个恒等式其实很早就被发现了（最早可追溯到1934年）。文中给出了一系列的证据证明。

1. introduction部分

这部分重新详细的叙述了一遍摘要里这个恒等式的定理。过程如下：

定义好前设条件：

A为一个n x n的厄米特矩阵，它的特征值为 λ1(A), . . . , λn(A)，为了更具体说明就按照常规给特征值升序排列

A的子矩阵Mj （A去掉了第j行和第j列后的矩阵）的特征值同样升序排列。那么，根据柯西交叉不等式可以得到：

根据谱理论，总能找到与特征值 λ1(A), . . . , λn(A)对应的这些特征向量v1, . . . , vn的一组正交基。

下面正式提出讨论主题：

定理1 (Eigenvector-eigenvalue identity).特征向量-特征值恒等式：

还可以有另一种写法：

接下来引入正题，介绍Eigenvector-eigenvalue identity 这个恒等式有非常复杂的惊人历史，在二十多个参考文献中以各种形式出现，并在数字线性代数、随机矩阵理论、特征值反问题、图论、和中微子物理学领域被独立的重新发现了6次。见图1:

虽然这个恒等式对于一些数学领域来说相当熟悉，但它不像线性代数的其他恒等式那样广为人知，例如克拉默法则，柯西行列式公式等。虽然它在一些论文中被发现而被引用了几次，但随后的工作中只有非常弱的引用关系，特别从上面关系图中可以看出，许多引用来自最早的工作，但是没有传播到后面的工作了，而是又作为新的恒等式重新被发现。并且，在许多情况下，这个恒等式并没有被强调特征向量和特征值之间的关系，而是作为一种工具的引入，辅助其他的应用了。

另外，在不同文献中所使用的符号从外观上也有很大的差异，这使得在检索过程中很难看到它的出现。现在由于上篇文章被广泛宣传之后，我们收到大量相关通知，在许多地方发现了这个恒等式或跟它密切相关的地方，这是我们把这些引用整理在一起的一个初衷。并且为此做了大量的工作，找到了这个恒等式的各种外观不同的表达形式，并提供了相关证明。

2. 恒等式的证明

2.1 The adjugate proof 伴随证明。利用伴随矩阵进行证明：

设A 是n×n的矩阵，其伴随矩阵可以写成如下：

（@）

Mji 还是A出去第j行第i列的子矩阵。根据Cramer 法则，则有：

如果A是对角阵，则伴随矩阵也是对角阵。更通用的，如果A是正规矩阵，对角化后可以写成

的形式。则其伴随矩阵就可以写成如下形式：

这时候，用λIn − A 代替A代入上式，则有：

这时候，我们另再代入上式，消去右边连乘，可得到

这是很根据（@）式，用A的子矩阵M代替A，则可得

而这个等式结果是和特征向量-特征值恒等式是等效的。因此，可证。

2.2 The Cramer’s rule proof 克莱默规则证明

现在回到厄米特矩阵的情况，根据克莱默法则，我们给出一个特征向量-特征值恒等式的一个变体的证明。要证明这个恒等式，等价于证明厄米特矩阵A有简单的谱（所有特征值都有重复性），或者等价于证明

因为任何一个具有重复特征值的厄米特矩阵都可以用一个简单谱的厄米特矩阵来无限逼近。

与之前一样，对A进行对角化。对于任意不等于特征值的λ，可以分解成如下形式：

根据克莱默法则抽去A矩阵的第j行第j列，可以得到如下等式：

用特征值表示的话就等同于：

两边都是关于 λ的式子，可以对上式进行化简得到：

这个表达是和特征向量-特征值恒等式是等价的。

2.3 Coordinate-free proof 无坐标证明

该部分证明尽可能避免使用坐标或者矩阵。

{引理}：无坐标特征向量-特征值恒等式。设T是消除了单位向量v的自伴随线型图。对于每个单位向量f，令为二次型w的行列式，在的约束条件下，有成立。

证明该引理即等同于证明了特征向量-特征值恒等式。

2.4 Proof using perturbative analysis 使用摄动分析证明

该证明方法最早出现在1989年的一篇文献里。

假设A有简单的特征值，设ε为极小参数，考虑A的第一扰动量，其中e1, . . . , en为标准差，根据辅因子扩展和INTRODUCTION定理1中的恒等式另一种表示方法，则这个扰动的特征多项可以扩写为：

另一方面，扰动的特征值同样可以扩写为下面的形式：

如果我们进行泰勒级数展开，则可以得到：

通过把中的线性项提到外面，我们可以得到：

根据定理1的其他数学表述形式可知，恒等式成立。

2.5 Proof using a Cauchy-Binet type formula 使用Cauchy-Binet类型公式进行证明

{引理：Cauchy-Binet类型公式}对于一个厄米特矩阵A，A有一个特征值为0,那么，对于任意n×n-1的矩阵B，有下式成立：

当特征向量刚好为单位向量的时候，我们可以把A写成块矩阵形式：

那对于B则可以写成的形式，B’是n-1 * n-1的矩阵，x维度为n-1。这样我们可以计算出下式：

通过上面2.2中提示，对A B矩阵进行对角化，因此可以用UAU*代替A，用UB代替B，

根据上面引理代入，则可以得到：

这样，通过引理我们可以得到定理1的另一种表达形式得证，因此定理1也就得证。

2.6 Proof using an alternate expression for eigenvector component magnitudes对特征向量分量幅度使用替代表达式进行证明

{引理：vi,1的替代表达} A是一个厄米特矩阵，写成块矩阵形式如下所示：

假设 λi(A)不在M1的特征值之中，则有如下等式成立：

该引理在随机矩阵理论中非常有用。

该方法的证明过程用到定理1特征向量-特征值恒等式的两个特性：排列对称性和平移对称性。通过比较定理1的第二种表达形式和上面引理相比较，可以简化建立成等式：

对于任意不等于M1特征值的λ，对下面矩阵应用舒尔互补法则，

则可以得到：

使用pA（0）=0在λ=0处对上式进行泰勒展开，得到

设置λ=0代入，则上式中项消失，然后再提取λ系数，则可得到结论。

2.7 一个概括。下面关于特征向量-特征值恒等式的概括来自tang yuqing的观察。

{主张：广义的特征向量-特征值恒等式} 对于一个正规矩阵A，对角化为：

令，则有下式成立：

证明：

根据上述可得：，

根据柯西比内公式可得：

经过计算得知，项会消去，除非L=L’=I，而这种情况下，数量就等于

这样，就得到：

由于

这就足以证明：

如果我们把矩阵In拆成左右两部分，左边m列等于：，和右边n-m列，然后求等式两边的行列式可得：

进而可得：

3. 恒等式的历史

这一节中，按照大致的时间顺序给出我们所知道的关于特征向量-特征值恒等式的参考文献。我们将在这些参考文献中找出同一性，以突出这中同一性出现的上下文和符号的多样性。（详见论文）

4. 总结

从图1中可以看出，在一些数学社区中，特征向量-特征值的同一性被部分传播，以至于其中一些社区将其视为“民俗学”。但是，此过程无法提高对这种恒等式的更广泛的了解，导致引人注目的现象是：多个引用树从独立的根源萌芽，并且彼此之间只有松散的交互作用。例如，如上一节所述，在发布我们自己的预印本之后的两个月里，尽管进行了一些在线讨论和数十份关于恒等式的文件的考查，但是对流行科学文章的回应才使对恒等式的认识最终“传播开”，从而有效地进行了一项临时的众包工作，以收集文献中所有先前提及的恒等式。

我们尚不清楚如何最好地将作者权归属于特征向量特征值恒等式。最早包含隐含恒等式的参考文献是由Lowner 提出的，但含义并不直接，该参考文献仅对随后的文献产生了适度的影响。汤普森的论文是我们所知道的第一个显露恒等式的地方，并且它通过引文传播到文献中的其他几篇论文中；但这并不能阻止其后再次独立发现该恒等式。此外，我们不能保证在文献中甚至更早的地方已经出现了这种形式的某种形式。我们基于恒等式的描述性，提出“本征向量-本征值恒等式”这个名称，希望这个词可以被研究者通过搜索引擎发现以寻找这种形式的恒等式。

网友热议：传奇还在继续，我认为这是最近数学上最酷的事情之一

陶哲轩等人发表的这篇新论文引发了reddit网友的热议，下面摘取部分评论和大家分享：

“数学（以及一般科学）需要更多这样的东西。我们对他人的工作没有给予足够的重视。我认识许多学者，他们通过与他们认识的人交谈，而不进行深入的文献review，来决定一个结果是否具有原创性和出版价值。即使在研究人员的精英圈子中（例如陶哲轩的圈子），这也可能导致盲点。宣称一个结果是新的，当它在50年前首次出现时，对大多数学者来说是一个尴尬的事件。但是，如果你能把这篇论文改写成一部经过提炼的历史综述，那将是把柠檬变成柠檬水的一个极好的方法。”