Pairwise alignment of DNA sequencing data is a ubiquitous task in bioinformatics and typically represents a heavy computational burden. A standard approach to speed up this task is to compute "sketches" of the DNA reads (typically via hashing-based techniques) that allow the efficient computation of pairwise alignment scores. We propose a rate-distortion framework to study the problem of computing sketches that achieve the optimal tradeoff between sketch size and alignment estimation distortion. We consider the simple setting of i.i.d. error-free sources of length $n$ and introduce a new sketching algorithm called "locational hashing." While standard approaches in the literature based on min-hashes require $B = (1/D) \cdot O\left( \log n \right)$ bits to achieve a distortion $D$, our proposed approach only requires $B = \log^2(1/D) \cdot O(1)$ bits. This can lead to significant computational savings in pairwise alignment estimation.


翻译:在生物信息学中,DNA测序数据的对称对齐是一个普遍存在的任务,通常是一种沉重的计算负担。加速这项任务的标准方法是计算DNA的“切片”读数(通常通过散射法计算),以便有效地计算对齐排序分数。我们提出一个率扭曲框架,研究计算草图的问题,从而在草图大小和对齐估计扭曲之间实现最佳的权衡。我们考虑的是简单设置i.d.无误长度源$n,并引入一个新的绘图算法,称为“定位散射 ” 。而基于 min-hashes 的文献中标准方法需要$B = (1/D)\ cddd\ cdot O\left (\log n\right) 位元才能实现扭曲 $D,我们拟议的方法只需要$B =\log2/1/D)\cd,\cdot O(1) 位元。这可以导致对齐校准估计的计算节约。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年8月12日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】一种实用且高效的多视图匹配方法
泡泡机器人SLAM
6+阅读 · 2018年11月19日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
机器学习研究会
6+阅读 · 2018年1月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月9日
VIP会员
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】一种实用且高效的多视图匹配方法
泡泡机器人SLAM
6+阅读 · 2018年11月19日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
机器学习研究会
6+阅读 · 2018年1月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员