正则最优传输理论作为一种处理和比较概率测度的通用工具,在机器学习领域受到越来越多的关注。基于熵的正则化,被称为Sinkhorn散度,在广泛的应用中被证明是成功的:作为聚类和重心估计的度量,作为领域适应中传递信息的工具,以及作为生成模型的拟合损失,仅举几例。鉴于这一成功,研究此类模型的统计和优化特性是至关重要的。这些方面有助于设计新的和有原则的范式,有助于进一步推进该领域。然而,基于熵最优输运的估计量的渐近保证问题却较少受到关注。
在这篇论文中,我们针对这些问题,集中在三个主要设置,熵最优传输已被使用:学习直方图在监督框架,重心估计和概率匹配。我们提出了第一个在有监督的情况下学习Sinkhorn损失的一致估计,有明确的超额风险界限。我们提出了一个新的Sinkhorn质心算法,处理具有可证明的全局收敛保证的任意概率分布。最后,我们用Sinkhorn散度作为损失函数来处理生成模型:我们从建模和统计的角度分析潜在分布和生成器的作用。我们提出了一种联合学习潜在分布和生成器的方法,并刻画了该估计量的泛化性质。总之,在这项工作中开发的工具有助于理解熵最优输运的理论性质及其在机器学习中的通用性。