Most DNA sequencing technologies are based on the shotgun paradigm: many short reads are obtained from random unknown locations in the DNA sequence. A fundamental question, studied in arXiv:1203.6233, is what read length and coverage depth (i.e., the total number of reads) are needed to guarantee reliable sequence reconstruction. Motivated by DNA-based storage, we study the coded version of this problem;i.e., the scenario where the DNA molecule being sequenced is a codeword from a predefined codebook. Our main result is an exact characterization of the capacity of the resulting shotgun sequencing channel as a function of the read length and coverage depth. In particular, our results imply that, while in the uncoded case, $O(n)$ reads of length greater than $2\log{n}$ are needed for reliable reconstruction of a length-$n$ binary sequence, in the coded case, only $O(n/\log{n})$ reads of length greater than $\log{n}$ are needed for the capacity to be arbitrarily close to $1$.


翻译:DNA测序技术大多以猎枪模式为基础:许多短读来自DNA序列中随机未知地点。在ArXiv:1203.36233中研究的一个根本问题是,要保证可靠的序列重建,需要读数长度和覆盖范围深度(即读数总数)才能保证可靠的序列重建。我们受基于DNA的储存的驱动,研究这个问题的编码版本;即,正在测序的DNA分子是预先定义的编码手册的编码词。我们的主要结果是,对由此产生的猎枪测序通道的能力进行精确的描述,将它作为读数长度和覆盖范围深度的函数。特别是,我们的结果意味着,在未编码的案例中,美元(n)值的长度大于2美元(log{n}美元),对于一个长度-n美元二元序列的可靠重建来说,在编码的案例中,只需要$O(n/log{n}美元(n)值大于美元($/log{n},对于任意接近1美元的能力来说,只需要$(n/log{n}。

0
下载
关闭预览

相关内容

专知会员服务
56+阅读 · 2021年4月12日
【上海交大】<操作系统> 2021课程,附课件
专知会员服务
41+阅读 · 2021年4月3日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
42+阅读 · 2020年11月11日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Annual Review of Biochemistry外泌体综述
外泌体之家
5+阅读 · 2019年6月27日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
《科学》(20190517出版)一周论文导读
科学网
5+阅读 · 2019年5月19日
Github项目推荐 | pikepdf - Python的PDF读写库
AI研习社
9+阅读 · 2019年3月29日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年11月28日
Arxiv
0+阅读 · 2021年11月28日
Arxiv
0+阅读 · 2021年11月26日
Arxiv
0+阅读 · 2021年11月25日
VIP会员
相关VIP内容
专知会员服务
56+阅读 · 2021年4月12日
【上海交大】<操作系统> 2021课程,附课件
专知会员服务
41+阅读 · 2021年4月3日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
42+阅读 · 2020年11月11日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
Annual Review of Biochemistry外泌体综述
外泌体之家
5+阅读 · 2019年6月27日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
《科学》(20190517出版)一周论文导读
科学网
5+阅读 · 2019年5月19日
Github项目推荐 | pikepdf - Python的PDF读写库
AI研习社
9+阅读 · 2019年3月29日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员