追剧MIT68974-week5:深度学习在调控基因组学中的应用

2022 年 5 月 30 日 GenomicAI

课程计划20周

MIT6874课程主页:https://mit6874.github.io/

week1: Course Intro, AI, ML

week2: Machine Learning Foundations

week3: CNN

week4:RNNs, LSTM, Transfomer, GNNs

week5: Deep learning in Regulatory genomics[本周视频]

AI在调控组学中应用的课程内容大纲

1 生物学基础:调控构建块

基因调控:Cell diversity, Epigenomics, Regulators(TFs), Motifs, Disease role

Probing gene regulation: TFs/histones: ChIP-seq, Accessibility:DNase/ATAC-seq


2 调控组学和基序发现的传统方法

基于Enrichment-based基序发现:EM算法、Gibbs Sampling

基于实验的方法:PBMs,SELEX. Comparative genomics:Evolutionary conservation


3 卷积神经网络在转录调控中的基础应用

主要想法:pixels<->DNA letters. Patches/filters<->Motifs. Higher<->combinations

学习卷积核<-> Motif discovery. Applying them<-> Motif matches


4 CNNS/RNNs在调控组学中的实际应用:各种架构

DeepBind: learn motifs, use in(shallow) fully-connected layer, mutations impact

DeepSea: Train model directly on mutational impact prediction

Baseet: Multi-task DNase prediction in 164 cell types, reuse/learn motifs

ChromPuter: Multi-task prediction of different TFs, reuse partner motifs

DeepLIFT: Model interpretation based on neuron activation properties

DanQ: Recurrent Neural Network for sequential data analysis


5 讲座:斯坦福Anshul Kundaje,Deep Learning for Reg. Genomics


6 讲座: Avantika Lal, Nvidia, Deep Learning for ATAC/scATAC


文献摘要

[1] A synergistic DNA logic predicts genome-wide chromatin accessibility

于2016年发表在Genome Research杂志,引用次数19次

摘要:增强子和启动子通常出现在以depleted nucleosome contact为特征的accessible chromatin 中;然而,目前尚不清楚accessible chromatin是如何受到控制的。作者证明了对数加法顺式- 作用 DNA 序列特征可以在高空间分辨率下预测染色质的可及性。作者开发了一种新型的高维机器学习模型,协同染色质模型 (SCM),当使用细胞类型的 DNase-seq 数据进行训练时,它能够预测每个碱基的全基因组染色质可及性的预期read counts单独的 DNA 序列,在跨细胞类型共享的高敏位点具有最高的准确性。作者证实,SCM 使用一种基于 CRISPR 的高效位点特异性 DNA 文库整合方法准确预测了数千个合成 DNA 序列的染色质可及性


[2] Sherwood, RI, et al. “Discovery of directional and nondirectional pioneer transcription factors by modeling DNase profile magnitude and shape” Nat. Biotech 2014.

于2014年发表在nature biotechnology杂志;引用次数413

摘要描述了定量蛋白质相互作用 (PIQ),一种用于对全基因组 DNase I 超敏反应谱的大小和形状进行建模以识别转录因子 (TF) 结合位点的计算方法。通过使用机器学习技术,PIQ 从一个 DNase I 超敏反应分析和测序 (DNase-seq) 实验中确定了超过 700 个 TF 的结合位点,其准确性与染色质免疫沉淀后测序 (ChIP-seq) 相当。


[3] Predicting the sequence specificities of  DNA- and RNA-binding proteins by deep learning

于2015年发表在nature biotechnology杂志,引用次数为2154

摘要:了解 DNA 和 RNA 结合蛋白的序列特异性对于开发生物系统中的调节过程的发展模型和识别致病变异至关重要。在这里,作者表明可以使用“深度学习”技术从实验数据中确定序列特异性,该技术为模式发现提供了一种可扩展、灵活和统一的计算方法。使用各种实验数据和评估指标,作者发现深度学习优于其他最先进的方法,即使在体外数据训练和体内测试时也是如此。作者将这种方法称为 DeepBind,并构建了一个完全自动化的独立软件工具,每次实验可处理数百万个序列。由 DeepBind 确定的特异性可以很容易地可视化为位置权重矩阵的加权集合或“突变图”,表明突变如何影响特定序列内的结合


[4] Predicting effects of noncoding variants with deep learning–based sequence model

于2015发表在nature methods杂志,引用次数1528

摘要:识别非编码突变的功能效应是人类遗传学的一个重大挑战。为了从头预测序列的非编码变异效应,作者开发了一个基于深度学习的算法框架deepsea(http://deepsea.princeton.edu/),该框架可以直接从大规模染色质谱数据中学习调控序列code,从而能够预测单核苷酸敏感性序列改变的染色质效应。作者进一步利用这一能力改善功能突变的优先顺序,包括表达数量性状基因座(EQTL)和疾病相关突变。


[5] Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks

于2016年发表在Genome Reasearch杂志,引用次数727

摘要真核基因表达的复杂语言仍不完全清楚。尽管许多统计上与人类疾病相关的非编码突变具有重要意义,但几乎所有此类突变的机制都未知。在这里,作者使用一种基于高级深度卷积神经网络(CNN)的方法来解决这一挑战。作者引入开源软件包Basset来应用CNN从基因组学数据中学习DNA序列的功能活性通过DNase-seq在164种细胞类型中绘制了可访问的基因组位点概要,并对Basset进行了训练,证明了比以前的方法更高的预测准确性对于全基因组关联研究(GWAS)单核苷酸多态性,Basset对变异等位基因之间可及性变化的预测要大得多,这些单核苷酸多态性可能与附近的单核苷酸多态性连锁不平衡有关。通过Basset,研究人员可以在他们感兴趣的细胞类型中执行单一的序列测定,同时了解细胞的染色质可及性code,并注释基因组中的每个突变及其对当前可及性和潜在可及性的影响。因此,Basset提供了一种强大的计算方法来注释和解释非编码基因组。


[6]Machine learning models for analyzing chromatin and RNA structure Data

于2017年发表在ProQuest

摘要:染色质和RNA结构在调节基因表达中起着关键作用。最近开发的用于染色质和RNA结构全基因组探测的实验分析提供了碱基对分辨率的数据。然而,在实际测序深度,数据通常稀疏且有噪声。在本论文中,作者开发了基于强大机器学习技术(深度学习和概率图形模型)的方法,使我们能够充分利用这些高维、稀疏和噪声数据集的丰富性来预测组蛋白修饰和RNA二级结构。


[7]Base-resolution models of transcription-factor binding reveal soft motif syntax

于2021年发表在nature genetics,引用次数117

摘要转录因子(TF)结合基序的排列(语法)是顺式调节密码的重要组成部分,但目前尚不清楚。作者介绍了一个深度学习模型BPNet,该模型使用DNA序列预测多能性(pluripotency)TFs的base-resolution染色质免疫沉淀(ChIP)-连接结合谱。作者开发了解释工具来学习预测基序的表示,并识别协作TF结合相互作用的sotf syntax rules引人注目的是,Nanog优先以螺旋周期性结合,TFs通常以定向方式合作,作者使用CRISPR诱导的点突变验证了这一点。作者的模型为揭示基因组数据中顺式调控序列的基序和语法提供了一种强大的通用方法。


[8] DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences

于2016年发表在Nucleic Acid Research杂志,引用次数583

摘要DNA序列的性质和功能建模是基因组学广泛领域中一项重要但富有挑战性的任务。这项任务对于非编码DNA尤其困难,其中绝大多数在功能方面仍知之甚少。非编码DNA功能的强大预测模型对基础科学和翻译研究都有巨大的益处,因为超过98%的人类基因组是非编码的,93%的疾病相关突变位于这些区域。为了满足这一需求,作者提出了一种新的混合的卷积与双向LSTM框架DanQ,用于从序列中从头预测非编码函数在DanQ模型中,卷积层捕获调控基序,而递归层捕获基序之间的长期依赖性,以便学习调控“语法”以改进预测。DanQ在多个指标上大大优于其他模型对于一些常规标记,与相关模型相比,DanQ在精确召回曲线度量下的区域相对改善超过50%作者已经在github Repository上提供了源代码http://github.com/uci-cbcl/DanQ。


作业:

[1] 不少于200字的视频笔记

试图能够回答一下如下问题:

计算调控组学哪些生物学问题需要解决?

目前AI调控组学都做了哪些工作,效果如何?


[2] AI在调控组学中应用综述(有能力的话)


.......


后台回复 501 获取上述所有文献、课程ppt

登录查看更多
0

相关内容

【MIT-AI+医学课程】面向生命科学的深度学习课程
专知会员服务
46+阅读 · 2022年4月17日
专知会员服务
50+阅读 · 2020年12月14日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
59+阅读 · 2020年12月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
追剧MIT68974-week3:面向生命科学的深度学习|CNN
组团学习MIT面向生命科学的深度学习
GenomicAI
2+阅读 · 2022年4月17日
组团学习MIT面向生命科学的深度学习课程
GenomicAI
0+阅读 · 2022年4月16日
资源|斯坦福课程:深度学习理论!
全球人工智能
16+阅读 · 2017年11月9日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
67+阅读 · 2022年6月30日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
【MIT-AI+医学课程】面向生命科学的深度学习课程
专知会员服务
46+阅读 · 2022年4月17日
专知会员服务
50+阅读 · 2020年12月14日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
59+阅读 · 2020年12月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员