在现代的统计和机器学习模型中,通常会施加结构约束以提高模型的可解释性和降低模型复杂性。在这篇论文中,我们展示了一些可扩展的优化方法,用于处理在结构约束下的大规模机器学习问题,特别关注的是非参数统计的形状约束和高维统计的稀疏性。在第一章中,我们考虑了梯度正则化的凸回归问题,该问题的目标是在目标变量和协变量之间拟合一个凸函数。我们提出了新颖的大规模算法,这些算法基于近端梯度下降和活动集方法,并为我们提出的算法推导出了新颖的线性收敛保证。从实证结果来看,我们的框架可以在几分钟内大致解决𝑛 = 105 和𝑑 = 10的实例。在第二章中,我们开发了一个新的计算框架,用于计算对数凹密度的最大似然估计,这个框架基于平滑技术和逐渐提高精度的适当积分离散化。我们证明了我们的方法的收敛性,并显示出比早期的凸方法明显的运行时间改善。在第三章中,我们关注的是高斯图形模型,该模型旨在从独立同分布的多元高斯样本中估计稀疏的精确矩阵。我们通过ℓ0ℓ2-penalized伪似然提出了一种新的估计器。然后,我们设计了一种专门的非线性Branch-and-Bound(BnB)框架,该框架解决了提出的估计器的混合整数编程(MIP)公式。我们的估计器在计算上可以扩展到𝑝 ∼ 10,000,并且相比于竞争的ℓ1方法提供了更快的运行时间,同时带来了优越的统计性能。
在第四章中,我们进一步研究如何改进用于具有ℓ0ℓ2惩罚和一般凸平滑损失的稀疏学习问题的BnB框架。我们在BnB框架内提出了一种新颖的筛选程序,以保证将松弛变量固定为0或1。我们的实验表明,这种筛选程序可以显著减少BnB求解器的运行时间。