Recent work in metagenomics constructs a partition of the assembly graph using an $r$-dominating set to enable scalable data representation and rapid approximate queries. In this paper, we consider two problems that arise in this setting: selection of a dominating set that minimizes uncertainty in partitioning, and reducing the amount of variation in piece sizes to improve scalability. First, we introduce a notion of "sparse" dominating sets which minimize the number of vertices with multiple closest dominators as measured using a new "congestion" parameter. Although identifying the least congested dominating set is NP-hard, we present an algorithm that finds one with approximately minimum congestion. In the second setting, we consider the problem of "balanced neighborhood partitioning": given an $r$-dominating set, find the partition which assigns each vertex to one of its closest dominators and achieves the "most balanced" piece sizes. We consider the variant which minimizes the variance of piece sizes, and show that it is NP-hard iff $r$ is greater than $1$. We design and analyze several algorithms, including a polynomial-time approach which is exact when $r=1$ (and heuristic otherwise). We complement our theoretical results with extensive computational experiments on a corpus of real-world networks showing that sparse dominating sets lead to more balanced neighborhood partitionings. Further, on the metagenome HuSB1, our approach maintains high neighborhood query containment and similarity while improving piece size variance.
翻译:美化经济学中最近的工作构建了组装图的分区。 组装图使用一个以美元为主的集合集, 以允许可缩放的数据显示和快速近似查询。 在本文中, 我们考虑在这个设置中出现的两个问题: 选择一个“ 占位集, 最大限度地减少分区的不确定性, 并减少块体大小的变异, 以提高可缩放性。 首先, 我们引入了一个“ 偏狭” 占位组的概念, 以使用新的“ 占位” 参数来测量具有多个最接近占位符的峰值的峰值数。 尽管确定最小凝固的占位数组是 NP- 硬的, 我们提出的算法却发现一个“ 占位集位集 ” 问题, 在第二个设置中, 我们考虑“ 平衡度集位分配 ” 的问题: 给每个顶端点分配最接近的占位数, 并达到“ 最均衡的” 块体大小。 我们考虑一个变式, 将块体的变体最小的占位数, 显示如果 $ 美元 比例 的 的 直径比 的 直径 的 更, 我们的 的 等值, 我们的 的 的 的 的 的 的 的 和 的 的 等值的 等值 的 等值 的 的 的 等值 的 等值 的, 我们的 的 的 的 的 的 等值 的 的 的 的 的 的 的 的 的 的 的 等值 。