深度学习在基因组学领域显示出了惊人的前景;然而,该学科缺乏熟练的深度学习导引书。这本书将帮助研究人员和数据科学家从其他人群中脱颖而出,并通过发展必要的技能集解决基因组学中的现实问题。本书从基本概念的介绍开始,强调了深度学习在基因组学处理大数据方面的力量。首先,您将了解传统的基因组学分析,然后过渡到最先进的基于机器学习的基因组学应用,最后深入到基因组学的深度学习方法。这本书涵盖了研究界普遍使用的所有重要的深度学习算法,并详细介绍了它们是什么、如何工作以及它们在基因组学中的实际应用。这本书专门用了一整节的时间来操作深度学习模型,这将为研究人员和任何深度学习实践者提供必要的动手教程,从基因组学大数据集构建、调整、解释、部署、评估和监控深度学习模型。
深度学习是机器学习的一个子集,它基于人工神经网络,利用大量数据进行代表性学习。机器学习是人工智能的一个子组成部分,它包括复杂的算法,使机器能够模仿人类智能自动执行人类任务。深度学习和机器学习都有助于自动从数据中检测有意义的模式,而无需显式编程。机器学习和深度学习已经完全改变了我们现在的生活方式。我们如此依赖它们,以至于我们很难想象哪一天不以这样或那样的方式使用它们,无论是通过垃圾邮件过滤、产品推荐或语音识别。机器学习,特别是深度学习,已经被科学界采用在诸如生物学、基因组学、生物信息学和计算生物学等领域。下一代测序(NGS)等高通量技术(HTS)对基因组学做出了重大贡献,以前所未有的规模以单碱基对分辨率研究复杂的生物现象,促进了大数据基因组学时代的到来。为了从这些大数据中获得有意义的、新颖的生物学见解,目前大多数算法都是基于机器学习的,而最近的深度学习方法比最先进的基于规则的算法在基因组学相关的特定任务中提供更高水平的准确性。鉴于机器学习和深度学习在基因组学中的感知和应用的增长趋势,研究专业人员、科学家和管理人员需要对这个令人兴奋的领域有很好的了解,以使他们拥有必要的工具、技术和通用指南,以帮助他们选择机器学习和深度学习方法,以处理基因组学数据,并加快生命科学和生物技术相关行业的数据驱动决策。 这本书旨在为基因组应用实际介绍机器学习和深度学习,可以将基因组数据转化为新颖的生物学见解。它提供了理论基础和实践部分,让您了解如何在生命科学和生物技术行业的现实应用中利用机器学习和深度学习。这本书涵盖了目前在其他教科书中没有的一系列主题。本书还包括将机器学习和深度学习应用到现实场景时的挑战、陷阱和最佳实践。本书的每一章都有用Python编写的代码,使用行业标准的机器学习和深度学习库以及像Keras这样的框架,读者可以在他们的工作环境中再现这些代码。本书旨在满足学术界和工业界的研究人员、生物信息学家和数据科学家的需求,他们希望在基因组应用中利用机器学习和深度学习技术,从大数据集中提取见解。已经在生命科学和生物技术领域立足的管理者和领导者不仅会发现这本书很有用,而且还可以采用这些方法来识别模式,提出预测,从而为各自公司的数据驱动决策做出贡献。
这本书分为三个不同的部分。第一部分介绍了基因组数据分析和机器学习的基本原理。在这一部分,我们将介绍基因组数据分析的基本概念,并讨论什么是机器学习,为什么它对基因组学很重要,以及机器学习将给生命科学和生物技术行业带来什么价值。第二部分将把读者从机器学习过渡到深度学习,并向他们介绍深度学习的基本概念和各种深度学习算法,使用现实世界的例子将原始基因组数据转化为生物学见解。最后一部分将描述如何使用开源工具操作深度学习模型,为最终用户提供预测。在本部分中,您将学习如何使用Python和行业标准库构建和调优最先进的机器学习模型,从大量多模态基因组数据集中获得生物学见解,以及如何在AWS和Azure等多个云平台上部署这些模型。最后一部分的最后一章完全致力于基因组学深度学习方法目前面临的挑战和潜在的陷阱,以及如何使用最佳实践避免它们。