生物过程的基本理解是现代医学和技术的主要支柱之一。生物机制是复杂的随机系统,尽管经过了几个世纪的严格科学研究,但我们对其仍知之甚少。近年来,机器学习(ML)已成为识别复杂数据集中感兴趣模式的强大框架。然而,在生命科学的广泛背景下,这类方法的影响仍然有限**。本研究旨在优化机器学习的实用性,加速基本生物问题的研究**。首先,我们提出从孤立的数据策划转向大规模多用途队列的范式转变,即使在人类实验最严格的情况下也是如此。通过Brain TreeBank(一种与颅内神经记录对齐的自然语言多模态数据集)揭示了这种方法的潜力。TreeBank提供了探测语言环境依赖性和大脑中表征的时空动态所需的分辨率和广度。其次,我们主张机器学习可解释性对加速生物学理解的重要性。我们开发了一种可解释的通用工具,用于在多个分辨率下建模离散随机过程并估计输出确定性。我们通过在整个癌症基因组中建模体细胞突变模式来展示该方法的实用性,并将其扩展到37种癌症的突变率图谱。该方法的置信区间和增加的敏感性确定了可能驱动编码和非编码区基因组癌症生长的突变集。总之,这项研究展示了计算方法如何克服生物数据中独特的挑战以及生物问题如何推动计算方法的发展。

成为VIP会员查看完整内容
33

相关内容

麻省理工学院(Massachusetts Institute of Technology,MIT)是美国一所研究型私立大学,位于马萨诸塞州(麻省)的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉,该校的工程系曾连续七届获得美国工科研究生课程冠军,其中以电子工程专业名气最响,紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。
【斯坦福博士论文】基础模型真实世界应用,178页pdf
专知会员服务
76+阅读 · 2023年6月15日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
55+阅读 · 2022年9月7日
【新书】多元统计与机器学习,185页pdf
专知会员服务
85+阅读 · 2022年6月5日
【牛津大学】多级蒙特卡洛方法,70页pdf
专知会员服务
56+阅读 · 2022年2月3日
专知会员服务
236+阅读 · 2021年10月8日
自然语言处理现代方法,176页pdf
专知会员服务
263+阅读 · 2021年2月22日
【MIT博士论文】数据高效强化学习,176页pdf
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年6月12日
Arxiv
17+阅读 · 2022年1月11日
VIP会员
相关VIP内容
【斯坦福博士论文】基础模型真实世界应用,178页pdf
专知会员服务
76+阅读 · 2023年6月15日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
55+阅读 · 2022年9月7日
【新书】多元统计与机器学习,185页pdf
专知会员服务
85+阅读 · 2022年6月5日
【牛津大学】多级蒙特卡洛方法,70页pdf
专知会员服务
56+阅读 · 2022年2月3日
专知会员服务
236+阅读 · 2021年10月8日
自然语言处理现代方法,176页pdf
专知会员服务
263+阅读 · 2021年2月22日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员