【伯克利博士论文】受约束的机器学习：算法与模型，153页pdf

本论文旨在设计有效的方法，将已知结构融入机器学习模型中。结构的产生源于问题的形式化（例如，物理约束、聚合约束）或模型所需的属性（能效、稀疏性、鲁棒性）。在许多情况下，建模者对他们正在建模的系统有一定的了解，这必须以精确的方式进行加强。这对于提供充分的安全保证，或提高系统效率是必要的：用更少的数据训练系统，或减少计算成本。本论文在各种设置中提供了方法，这些方法建立在连续的、受约束的优化和可微统计建模（也称为深度学习）的两个基础领域之上。

论文的第一部分集中于设计和分析带有凸约束的优化问题的高效算法。特别是，它关注Frank-Wolfe算法的两个变体：第一个变体提出了一个快速的回溯线搜索算法，以自适应地设置全梯度设置中的步长；第二个变体提出了一个快速的随机Frank-Wolfe算法，用于受约束的有限和问题。我还描述了对开源受约束优化软件的贡献。这篇论文的第二部分关注设计确切强制某些约束的深度学习模型：基于物理的约束，以及概率预测模型的聚合约束。这部分利用了双层优化模型，并利用可微优化约束复杂神经网络的输出。我们证明，可以在复杂的非凸模型上强制执行复杂的非线性约束，包括概率模型。

这些例子展示了混合模型的威力，这些模型结合了数据驱动的学习，利用如深度神经网络这样的复杂非线性模型，并允许高效算法的经过深入研究的优化问题。这些混合模型帮助高度灵活的模型捕获结构模式，有时甚至不需要任何数据访问就能实现出色的性能。

近年来，机器学习模型在旨在匹配人类感知的领域（计算机视觉、音频处理、自然语言）中取得了无数的成功。这些成功是通过理解如何利用模型输入中的结构来实现的：图片、声音、文本、代码，甚至分子的数字表示[1, 2, 3, 4]。为了在工程和科学中达到相似的成功水平，模型必须纳入额外的结构性约束：模型的内部和输出都应满足某些关键属性（例如，模型内部的稀疏或低秩权重，以及模型输出的物理方程）。尽管优化领域长期以来一直关注如何实施这些约束，但将优化方法带来的结构与数据驱动模型的灵活性结合起来的努力是非常近期的[5, 6]。这篇论文提出了新颖、高效的方法，将结构融入机器学习模型中，无论是在模型的内部（第一部分）还是在模型的输出（第二部分）。我们认为这样的混合系统将是为复杂的物理应用开发高性能系统的关键。机器学习中的结构性约束最近再次将Frank-Wolfe（FW）算法家族推到了聚光灯下。Frank-Wolfe算法允许对决策变量（例如，模型权重）施加凸约束，同时保持决策变量的稀疏表示。这篇论文的第一部分开发了新颖的Frank-Wolfe算法变体，以提高算法的实际速度。此外，我们还描述了我们的两个开源优化库：COPT和CHOP。在实际环境中部署决策制定系统时，系统必须执行物理约束：差异可能导致未定义的决策。例如，如果我们预测一个地区不同粒度的水库的入水流量，不同级别的预测必须执行质量守恒；否则，会有未被计入的水量，破坏决策制定系统。这篇论文的第二部分考虑了将物理约束纳入深度学习模型的问题，采用偏微分方程和分层质量守恒的形式。