We study the problem of explainable clustering in the setting first formalized by Dasgupta, Frost, Moshkovitz, and Rashtchian (ICML 2020). A $k$-clustering is said to be explainable if it is given by a decision tree where each internal node splits data points with a threshold cut in a single dimension (feature), and each of the $k$ leaves corresponds to a cluster. We give an algorithm that outputs an explainable clustering that loses at most a factor of $O(\log^2 k)$ compared to an optimal (not necessarily explainable) clustering for the $k$-medians objective, and a factor of $O(k \log^2 k)$ for the $k$-means objective. This improves over the previous best upper bounds of $O(k)$ and $O(k^2)$, respectively, and nearly matches the previous $\Omega(\log k)$ lower bound for $k$-medians and our new $\Omega(k)$ lower bound for $k$-means. The algorithm is remarkably simple. In particular, given an initial not necessarily explainable clustering in $\mathbb{R}^d$, it is oblivious to the data points and runs in time $O(dk \log^2 k)$, independent of the number of data points $n$. Our upper and lower bounds also generalize to objectives given by higher $\ell_p$-norms.


翻译:我们首先研究Dasgupta、Frost、Moshkovitz和Rashtchian(ICML 2020)在设定中正式化的可解释的分组问题。 如果一个决定树给出了美元组合, 每一个内部节点将数据点分割成一个单一尺寸的阈值( 功能), 而每张美元叶叶对应一个组。 我们给出了一个算法, 输出一个可解释的分组, 与美元- 中间值的最佳( 不一定可以解释) 组合相比, 美元- 中间值目标的最佳( 不一定可以解释) 和美元- 美元- 中间值目标的美元( log_ 2 k) 组合是可以解释的。 这比以前美元( k) 美元和 美元( k) 叶) 叶( k) 叶( k) 叶( log) ( k) 美元- 中间值( log) 和 美元( 美元) 美元( 美元) 的最小( 美元) 定义值) 的最小值 值 值 和 美元( 美元) 美元) 数字的内, 数字的内, 一定简单解释。

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年5月21日
Python图像处理,366页pdf,Image Operators Image Processing in Python
【Java实现遗传算法】162页pdf,Genetic Algorithms in Java Basics
专知会员服务
43+阅读 · 2020年7月19日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
5+阅读 · 2019年4月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Arxiv
0+阅读 · 2021年12月22日
Arxiv
0+阅读 · 2021年12月21日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
5+阅读 · 2019年4月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Top
微信扫码咨询专知VIP会员