在这项工作中,我们探索了提高机器学习系统各方面效率的理论和算法。首先,我们研究了在ML中实现高效机器不学习的算法原理。我们提出了两种无监督学习算法,它们在在线数据删除方面实现了超过100倍的改进,同时产生了统计质量与标准k-means++基线相当的集群。
其次,我们探索混合维嵌入,这是一种嵌入层架构,其中特定嵌入向量的维数随其查询频率的变化而变化。通过理论分析和系统实验,我们证明了使用混合维可以大大减少内存使用,同时保持甚至提高预测性能。使用Criteo Kaggle数据集上一半的参数或使用16倍的参数进行点击率预测,混合维层将精度提高0.1%。他们在GPU上的训练速度也超过2倍。
最后,我们提出了一种用于ML部署监控的新方法MLDemon。MLDemon集成了未标记数据和少量按需标签,从而对给定数据流上部署的模型当前的准确性进行实时估计。受预算限制,MLDemon决定何时获得额外的、可能昂贵的、专家监督标签来验证模型。在基准测试中,MLDemon优于之前的方法。我们还提供了理论分析,表明MLDemon对于广泛的一类分布漂移是极小极大速率最优的。