**本书探讨了信息论、统计学、计算与学习之间的若干(众多)联系。信号处理、机器学习和统计学都围绕着从信号和数据中提取有用信息展开。**在信号处理和信息论中,一个核心问题是如何设计信号——以及它们传输的通道——以最大限度地传达和存储信息,并允许最有效的解码。与此不同,在机器学习和统计学中,通常情况下自然界提供了一个固定的数据分布,学习者或统计学家的目标是恢复关于这个(未知的)分布的信息。我们的目标是展示信息论的视角如何提供清晰的答案和技术来实现这一恢复过程。信息论的核心内容之一是发现基本极限:发展出证明某些程序是最优的结果。 因此,信息论工具能够描述在各种通信和统计情境下可达成的结果。正如我们将在接下来的章节中探讨的那样,在统计推断和机器学习任务的背景下,这使我们能够开发出能够证明最优性的程序——即没有比这更好的程序。这类结果在许多方面都非常有用:我们希望避免做出错误的决策或错误的推断,可能会意识到某些任务是不可完成的,此外,我们还可以明确计算解决不同统计问题所需的数据量。我将本书分为四个独立的部分,每一部分当然与其他部分相互关联,但每一部分也可以作为一个相对自包含的单元进行阅读。 本书以第二章的回顾开始,介绍了我们讨论的基本信息论量:互信息、熵和散度度量。这是后续所有章节的必读内容。第三章提供了指数族模型的概述,这是统计学习工具箱中的核心工具。熟悉这部分内容的读者,可能通过广义线性模型的课程学习过,可以跳过这部分,但它为后续章节中的例子和应用提供了有用的基础,因此我们将在全书中多次回到这一部分。本书的第一部分涵盖了我所称的“稳定性”结果。 从高层次来看,这意味着我们探讨在序列中的每个随机变量观察值对该序列的各种函数影响较小的情况下,可以获得哪些成果。我们从第四章的集中不等式开始,讨论和求和以及相关量如何快速收敛;尽管这部分内容对后续章节至关重要,但它不依赖于特定的信息论技术。我们在本书的这一部分中讨论了一些启发式应用,涉及统计学习中的问题——经验风险最小化,第五章提供了关于均匀集中性的一些结果,并将其应用于“泛化”——机器学习中的标准理论工具,通常应用于预测模型的准确性——以及估计问题,这些为模型参数估计提供了各种保证,是核心的统计问题和技术。接着我们在第六章中深入探讨泛化和收敛保证——通过控制不同的信息论量,证明样本X1,…,XnX_1, \dots, X_nX1,…,Xn 的函数代表了从中抽取样本的完整总体PPP。在这个背景下,我们发展了PAC-Bayesian界限,并使用相同的框架提供了控制泛化和收敛的工具,应用于交互式数据分析。这类分析反映了现代统计学,在这种分析中,我们在进行更全面的分析之前,先进行某种数据探索,但它打破了经典统计方法,因为这种分析依赖于样本。我们在第七章中讨论了更高级的想法,发展了关于随机矩阵的更复杂的集中结果,利用信息论的核心思想,将散度度量与不同的随机过程连接起来。最后,第八章探讨了披露限制和隐私技术,这些技术都基于分布中的不同稳定性概念。第二部分研究了基本极限,使用信息论技术推导各种估计、学习和其他统计问题的收敛速率下界。 第九章首先介绍了三种主要的下界方法:Assouad方法、Fano方法和Le Cam方法。这一章展示了所有其他下界方法的基本技术。从高层次来看,我们可以将这一部分与第一部分一起看作是本书的整体研究目标:分布如何彼此接近,我们如何利用这种接近性?第十章简要介绍了一些超出这些方法的下界技术,包括一些非参数问题的应用,以及一些超越典型期望值下界的结果,这些结果模拟了信息论中的“强对偶定理”,即以极高的概率,不能期望取得比平均误差更好的结果。在现代统计学习问题中,人们常常关注的不仅仅是统计风险,还包括通信或计算成本,或者研究参与者的隐私。因此,在第十一章中,我们开发了一些近期针对这些问题的技术,特别是涉及我们希望同时获得多维度最优保证的问题,这与信息论中的通信复杂度思想相关。第十二章回顾了最常见的误差度量——平方误差,介绍了经典统计工具,但也展示了一些这些思想的现代应用,它们在一些问题中重新出现。最后,我们通过第十三章探讨了测试问题和函数估计,研究那些只希望估计大模型中的一个单一参数的情况。尽管估计单一标量似乎比其他问题简单,但充分解决其复杂性需要相当细致的处理,并引入信息论工具。第三部分重新审视了我们在第二章中提出的所有信息论概念,但不再仅仅给出定义和一些推论,而是提供了不同信息论量(如熵)的操作性解释。 当然,这包括了香农关于编码和熵关系的原始结果(我们在第二章的概述2.4.1节中讨论信息论时涉及),同时我们也提供了熵和信息作为统计实验和统计学习中不确定性度量的解释,这在信息论对熵的处理当中通常缺失(第十四章)。我们的讨论揭示了熵与用于预测的损失函数之间的深刻联系,通过一种特定的对偶性,使得我们可以在两者之间来回转换。我们在第十五章将这些想法与校准问题联系起来,探讨如何确保预测模型的有效性,例如,在75%的日子里,如果模型预测降雨概率为75%,则确实会下雨。我们还利用这些信息论中的风险、熵和损失的概念,联系到优化和机器学习中的问题。特别是第十六章探讨了,如果我们不是将模型拟合到某个“真实”的损失函数,而是使用一个更容易优化的代理损失函数,我们基本上不会失去任何东西。这使我们能够界定何时(至少在渐近意义上)可以计算上高效地学习良好的预测器,并设计有效的实验来解决统计机器学习问题。由于这些章节与优化和凸对偶性有关,它们建立在凸分析的非平凡基础上;我们在附录B和C中提供了相关的综合复习,以便读者掌握所需的结果。对于不熟悉凸优化和分析的读者,我必须承认这些章节可能会有些艰深——因此,我们尽力阐明从整体概念到最一般结果所需的技术条件。第四部分结束了本书,探讨了随机优化、在线博弈和极小极大问题。 我们在第十七章中的方法采用了现代视角,认为随机优化是最小化函数的随机模型,并包括了现代机器学习优化中主要工具的收敛性“书籍”证明。它还利用了前面关于基本极限的结果,发展了凸优化的最优性理论,并将其纳入同一框架。第十八章探讨了在线决策问题,更广泛地讨论了需要探索与利用的问题,包括赌博机问题和因果估计中的一些基本问题,信息论工具为这些问题提供了清晰的处理方法。最后,第十九章回顾了第十四章中的损失函数和预测问题,但考虑的是自然与统计学家/学习者之间的博弈。再次利用我们已发展的熵和损失函数的视角,我们能够提供信息论中著名的冗余/容量定理的一个推广,但将其重新表述为自然对抗下的损失最小化博弈。