每日三篇 | NeurIPS 2018 Best Papers

2018 年 12 月 4 日 论智

Nearly tight sample complexity bounds for learning mixtures of Gaussians via sample compression schemes

估计观察数据的分布是统计数据的一项基本任务，学界对此已经研究了一个多世纪。现在，这个任务也常出现在机器学习中，比如我们会假设某些数据分布可以用高斯混合模型进行建模，一些流行的软件包里也提供启发式算法用于学习高斯混合，如EM算法。

本文开发了一种通用的分布式学习技术，能被用于设计高斯混合的复杂环境。这种技术的理论模型是密度估计，即给定来自未知目标分布的样本，从总变差（TV）距离中找到接近目标分布的分布。通过“编码”精心选择的样本子集，我们能获得该类分布学习的样本复杂度的上限，从而实现用尽可能少的样本来获得目标分布的良好估计。

地址：https://papers.nips.cc/paper/7601-nearly-tight-sample-complexity-bounds-for-learning-mixtures-of-gaussians-via-sample-compression-schemes.pdf

Optimal Algorithms for Non-Smooth Distributed Optimization in Networks

在机器学习中，由于大型数据集的相继涌现和计算单元集群训练的推广，分布式优化有很大的应用空间。以近期学界引入的一些算法为例，它们大多都围绕计算网络中所有单独节点都可访问的函数的最小平均数，需要在节点之间进行通信，并具有多种收敛速度。

本文不同于这种平滑凸函数的分布式优化，而是假设原始的主/从分布式算法可能并不是最优的，通信和局部计算之间的收敛速度不同，从全局目标函数的Lipschitz连续性和局部个体函数的Lipschitz连续性这两个规律性假设下研究这个问题。在局部规律性假设下，论文提出了第一个最优一阶分散算法（MSPD）及其相应的最优收敛速度。在全局规律性假设下，论文基于目标函数的局部平滑提出了一种简单而有效的算法（DRS）。

地址：https://arxiv.org/abs/1806.00291

Non-delusional Q-learning and value-iteration

Q-learning是强化学习的基础算法，虽然明确列举状态-行动对时，这种算法可以保证收敛到最佳状态——动作值函数（Q函数），但它和函数逼近相结合时可能会出现不稳定。针对这个现象，一些人也提出过确保收敛和改善近似误差的改进，但这类简单修改并不能确保模型接近最优性能。

本文通过函数逼近找到了Q-learning和其他动态规划的基本误差来源——当近似架构限制了可表达的贪婪策略的类别时，就会出现妄想偏差。为了解决这个问题，论文提出了一种新策略——一致性概念，并定义了一个本地备份过程，通过使用信息集确保全局一致性——设置记录与备份Q值一致的策略约束。经实验证明，这种方法可以消除妄想偏差，在常规条件下保证最佳结果。

地址：https://papers.nips.cc/paper/8200-non-delusional-q-learning-and-value-iteration.pdf