Connected acyclic graphs (trees) are data objects that hierarchically organize categories. Collections of trees arise in a diverse variety of fields, including evolutionary biology, public health, machine learning, social sciences and anatomy. Summarizing a collection of trees by a single representative is challenging, in part due to the dimension of both the sample and parameter space. We frame consensus tree estimation as a structured feature-selection problem, where leaves and edges are the features. We introduce a partial order on leaf-labeled trees, use it to define true and false discoveries for a candidate summary tree, and develop an estimation algorithm that controls the false discovery rate at a nominal level for a broad class of non-parametric generative models. Furthermore, using the partial order structure, we assess the stability of each feature in a selected tree. Importantly, our method accommodates unequal leaf sets and non-binary trees, allowing the estimator to reflect uncertainty by collapsing poorly supported structure instead of forcing full resolution. We apply the method to study the archaeal origin of eukaryotic cells and to quantify uncertainty in deep branching orders. While consensus tree construction has historically been viewed as an estimation task, reframing it as feature selection over a partially ordered set allows us to obtain the first estimator with finite-sample and model-free guarantees. More generally, our approach provides a foundation for integrating tools from multiple testing into tree estimation.


翻译:连通无环图(树)是一种用于层次化组织分类的数据对象。树集合广泛出现于进化生物学、公共卫生、机器学习、社会科学和解剖学等多个领域。通过单一代表性树来概括一个树集合具有挑战性,部分原因在于样本空间和参数空间的维度。我们将共识树估计构建为一个结构化特征选择问题,其中叶子和边被视为特征。我们引入了叶标签树上的偏序关系,利用它定义候选摘要树的真发现与假发现,并开发了一种估计算法,该算法能在一大类非参数生成模型下将错误发现率控制在名义水平。此外,利用偏序结构,我们评估了所选树中每个特征的稳定性。重要的是,我们的方法支持不等叶子集和非二叉树,允许估计器通过折叠支持度较低的结构来反映不确定性,而非强制完全解析。我们将该方法应用于研究真核细胞的古菌起源,并量化深部分支顺序的不确定性。尽管共识树构建历来被视为估计任务,但将其重新定义为偏序集上的特征选择,使我们获得了首个具有有限样本且无模型假设保证的估计器。更广泛地说,我们的方法为将多重检验工具整合到树估计中提供了基础。

0
下载
关闭预览

相关内容

【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
专知会员服务
24+阅读 · 2020年9月15日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员