聚合聚类(用于推断层次和平面聚类)的适用性受到其可扩展性的限制。现有的可扩展层次聚类方法牺牲了质量以提高速度,并且经常导致聚类的过度合并。在本文中,我们提出了一种可扩展的、凝聚的分层聚类方法,不牺牲质量和规模到数十亿数据点。我们进行了详细的理论分析,表明在温和的可分性条件下,我们的算法不仅可以恢复最优的平面分割,而且提供了一个非参数DP-Means目标[32]的双近似。本文介绍了一种新的应用层次聚类作为逼近算法的非参数聚类目标。此外,我们还将我们的算法与经典的层次凝聚聚类方法联系起来。我们在分层和平面聚类设置中进行了大量的经验实验,并表明我们提出的方法在公开可用的聚类基准上取得了最先进的结果。最后,我们将该方法应用于300亿个查询的数据集,从而演示了该方法的可扩展性。人类对已发现的聚类的评估表明,我们的方法发现的聚类质量比当前的技术水平更好。

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/fcbefa25e4d6ad6ea8174449fcff779083ce80ff.pdf

成为VIP会员查看完整内容
15

相关内容

专知会员服务
14+阅读 · 2021年8月29日
【经典书】半监督学习,524页pdf
专知会员服务
135+阅读 · 2021年8月20日
专知会员服务
17+阅读 · 2021年7月31日
专知会员服务
44+阅读 · 2021年7月6日
专知会员服务
28+阅读 · 2021年6月18日
【NeurIPS 2020】通过双向传播的可扩展图神经网络
专知会员服务
28+阅读 · 2020年11月3日
【ICML2020】通过神经引导的A*搜索学习逆合成设计
专知会员服务
17+阅读 · 2020年8月18日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
59+阅读 · 2020年7月13日
独家 | 如何正确选择聚类算法?
数据派THU
5+阅读 · 2019年10月15日
【泡泡点云时空】Potree:基于Web浏览器的大规模点云渲染
大规模均衡分割与层次聚类
谷歌开发者
4+阅读 · 2018年7月31日
机器学习必知的15大框架
云栖社区
16+阅读 · 2017年12月10日
一文解读聚类中的两种流行算法
量子位
6+阅读 · 2017年11月20日
如何评价无监督聚类算法
人工智能头条
4+阅读 · 2017年7月7日
OnlineSTL: Scaling Time Series Decomposition by 100x
Arxiv
15+阅读 · 2021年2月19日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
3+阅读 · 2019年4月7日
VIP会员
相关主题
相关VIP内容
专知会员服务
14+阅读 · 2021年8月29日
【经典书】半监督学习,524页pdf
专知会员服务
135+阅读 · 2021年8月20日
专知会员服务
17+阅读 · 2021年7月31日
专知会员服务
44+阅读 · 2021年7月6日
专知会员服务
28+阅读 · 2021年6月18日
【NeurIPS 2020】通过双向传播的可扩展图神经网络
专知会员服务
28+阅读 · 2020年11月3日
【ICML2020】通过神经引导的A*搜索学习逆合成设计
专知会员服务
17+阅读 · 2020年8月18日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
59+阅读 · 2020年7月13日
相关资讯
独家 | 如何正确选择聚类算法?
数据派THU
5+阅读 · 2019年10月15日
【泡泡点云时空】Potree:基于Web浏览器的大规模点云渲染
大规模均衡分割与层次聚类
谷歌开发者
4+阅读 · 2018年7月31日
机器学习必知的15大框架
云栖社区
16+阅读 · 2017年12月10日
一文解读聚类中的两种流行算法
量子位
6+阅读 · 2017年11月20日
如何评价无监督聚类算法
人工智能头条
4+阅读 · 2017年7月7日
微信扫码咨询专知VIP会员