Classical inference methods notoriously fail when applied to data-driven test hypotheses or inference targets. Instead, dedicated methodologies are required to obtain statistical guarantees for these selective inference problems. Selective inference is particularly relevant post-clustering, typically when testing a difference in mean between two clusters. In this paper, we address convex clustering with $\ell_1$ penalization, by leveraging related selective inference tools for regression, based on Gaussian vectors conditioned to polyhedral sets. In the one-dimensional case, we prove a polyhedral characterization of obtaining given clusters, than enables us to suggest a test procedure with statistical guarantees. This characterization also allows us to provide a computationally efficient regularization path algorithm. Then, we extend the above test procedure and guarantees to multi-dimensional clustering with $\ell_1$ penalization, and also to more general multi-dimensional clusterings that aggregate one-dimensional ones. With various numerical experiments, we validate our statistical guarantees and we demonstrate the power of our methods to detect differences in mean between clusters. Our methods are implemented in the R package poclin.


翻译:经典推断方法在应用于数据驱动的检验假设或推断目标时存在显著缺陷。针对这类选择性推断问题,需要专门的方法论以获得统计保证。选择性推断在聚类后分析中尤为重要,通常用于检验两个聚类间均值差异。本文通过借鉴基于高斯向量在多面体集合条件下回归的相关选择性推断工具,研究$\ell_1$惩罚下的凸聚类问题。在一维情形中,我们证明了获得特定聚类的多面体表征定理,据此提出具有统计保证的检验流程。该表征定理还使我们能够提供计算高效的正则化路径算法。随后,我们将上述检验流程与统计保证扩展至$\ell_1$惩罚下的多维聚类,以及聚合多个一维聚类的更广义多维聚类。通过多种数值实验,我们验证了统计保证的有效性,并证明了该方法在检测聚类间均值差异方面的效力。相关方法已实现于R软件包poclin中。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
专知会员服务
27+阅读 · 2021年9月10日
专知会员服务
19+阅读 · 2021年8月15日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月1日
VIP会员
相关VIP内容
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
专知会员服务
27+阅读 · 2021年9月10日
专知会员服务
19+阅读 · 2021年8月15日
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员