Recent work in metagenomics constructs a partition of the assembly graph using an $r$-dominating set to enable scalable data representation and rapid approximate queries. In this paper, we consider two problems that arise in this setting: selection of a dominating set that minimizes uncertainty in partitioning, and reducing the amount of variation in piece sizes to improve scalability. First, we introduce a notion of "sparse" dominating sets which minimize the number of vertices with multiple closest dominators as measured using a new "congestion" parameter. Although identifying the least congested dominating set is NP-hard, we present an algorithm that finds one with approximately minimum congestion. In the second setting, we consider the problem of "balanced neighborhood partitioning": given an $r$-dominating set, find the partition which assigns each vertex to one of its closest dominators and achieves the "most balanced" piece sizes. We consider the variant which minimizes the variance of piece sizes, and show that it is NP-hard iff $r$ is greater than $1$. We design and analyze several algorithms, including a polynomial-time approach which is exact when $r=1$ (and heuristic otherwise). We complement our theoretical results with extensive computational experiments on a corpus of real-world networks showing that sparse dominating sets lead to more balanced neighborhood partitionings. Further, on the metagenome HuSB1, our approach maintains high neighborhood query containment and similarity while improving piece size variance.


翻译:美化经济学中最近的工作构建了组装图的分区。 组装图使用一个以美元为主的集合集, 以允许可缩放的数据显示和快速近似查询。 在本文中, 我们考虑在这个设置中出现的两个问题: 选择一个“ 占位集, 最大限度地减少分区的不确定性, 并减少块体大小的变异, 以提高可缩放性。 首先, 我们引入了一个“ 偏狭” 占位组的概念, 以使用新的“ 占位” 参数来测量具有多个最接近占位符的峰值的峰值数。 尽管确定最小凝固的占位数组是 NP- 硬的, 我们提出的算法却发现一个“ 占位集位集 ” 问题, 在第二个设置中, 我们考虑“ 平衡度集位分配 ” 的问题: 给每个顶端点分配最接近的占位数, 并达到“ 最均衡的” 块体大小。 我们考虑一个变式, 将块体的变体最小的占位数, 显示如果 $ 美元 比例 的 的 直径比 的 直径 的 更, 我们的 的 等值, 我们的 的 的 的 的 的 的 的 和 的 的 等值的 等值 的 等值 的 的 的 等值 的 等值 的, 我们的 的 的 的 的 的 等值 的 的 的 的 的 的 的 的 的 的 的 等值 。

0
下载
关闭预览

相关内容

【硬核书】矩阵代数基础,248页pdf
专知会员服务
85+阅读 · 2021年12月9日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
118+阅读 · 2019年9月24日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
基于5G的网联汽车定位技术讲解
智能交通技术
5+阅读 · 2019年5月3日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
0+阅读 · 2022年2月22日
Arxiv
10+阅读 · 2021年11月3日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
基于5G的网联汽车定位技术讲解
智能交通技术
5+阅读 · 2019年5月3日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员