中国科学院生物物理所研究院陈润生院士在2018年全国功能基因组学高峰论坛上作报告
上个世纪七十年代,生物化学家 Frederick Sanger 完成了世界上第一次全基因组测序——噬菌体 phiX-174 由 5375 个碱基构成的遗传密码就此出现在世人眼前,这也标志着第一代 DNA 测序技术从此诞生。时至今日,DNA 测序已经发展到了不需要 PCR 扩增、能够一次性读取上万个碱基的第三代——它成为了推动当代科学发展的重要力量,也发展成了生物技术领域内最热门的一项产业。
随着测序技术的发展和大数据分析手段的完善,学界和业界一方面能够获得海量遗传信息用于学术研究和产业应用,另一方面也面临着新事物带给他们的挑战:爆发式增长的组学和大数据研究是否会颠覆生物医学领域的研究模式?如何保护和利用好我国庞大丰富的遗传资源?飞速发展的测序行业,未来和机遇又在何方?
带着这些问题,“科研圈”参加了由北京百迈客生物科技有限公司承办的第五届全国功能基因组学高峰论坛,并在会后对生物信息学家、中国科学院院士、中科院生物物理所研究员陈润生进行了专访,与他一起聊了聊大数据时代下,生物医学研究者和从业者们所面临的机遇和挑战。
陈润生院士接受记者采访
记者:在大数据时代,精准医学的发展会越来越快,整个医疗体系和医学研究都将会面对重大变革,对于医生和医学研究人员来说,他们怎样适应这种变革、抓住新的机遇?
陈润生:随着近年来组学研究的发展,包括遗传密码破译,一定会对生物医学研究造成巨大的冲击,而这个冲击一定会促进学科发展,从而能更好地为疾病的诊断治疗服务。在这种情况下,社会中的每个人都会面对这种变革,当然也包括医生。我认为一方面,医生当然要适应科学发展的新趋势,增加自己对新领域的了解,提高自己在这方面的认知,学习跟它相关的一些技术方法,这是必要的。
但是另外一方面,作为在大数据研究一线挖掘数据、获取知识的从业人员,为使用者带来更方便的使用体验,比如给用户提供更好的操作界面也是他们的责任。可视化是一个把复杂的、抽象的东西展示在用户面前的好办法。所以业界对复杂大数据做出的可视化服务,都值得鼓励和推荐。百迈客公司的云平台就是一个商业化的例子。所以我相信在未来面对精准医学等新事物的时候,在明确它会给社会带来有利影响的前提下,大数据研究者们也应当为医生、为社会大众提供更友好的工具和界面,让他们能够理解和接受。只要大家共同努力,我相信新的事物会顺利融入到各个方面,医生们更好的能利用这个新事物为临床服务。
记者:那大数据和精准医学的发展,会不会让医生们失业呢?
陈润生:医疗的发展和进步应当是大家共同努力完成的,医生有他自己的工作范围和技术,这不可能被一个简单的命题或方法代替。
IBM 的商业人工智能 Watson 计划遇到了困难、遭到了批评,就是因为他把他的能力扩展到了技术没有发展到位的地方去,这无法带来有意义的使用效果,所以当然就会受到多方面的批评。目前的大数据、精准医学,包括人工智能的发展,它给人提供了更好的工具,但这个工具不是万能的,我们不能让它走向取代人类的极端。
记者:对于生命科学研究来说,大数据时代也改变研究人员的实验方式:现在以数据挖掘为代表的干实验比例显著增加,而传统的从生物样本中获取材料进行检验分析的湿实验的主导地位似乎受到了“威胁”。我们应该如何看待干实验和湿实验在科研活动中的重要性?在青年人才培养方面,该如何顺应时代做出调整呢?
陈润生:干实验和湿实验历来在科学发展中都是相辅相成的。生物医学研究的常见模式,是把大量湿实验总结提升,用“干”的形式把它固定下来。可能在一段时间里,干实验比重会比湿实验的比重高,而在另外一些情况下则相反,但这并不是本质问题。两者都是科研过程中被需要的方法,这才是重要的。
每个时期科学都在发展,新的学科不断出现,旧的学科在融合,所以交叉融合创新永远是学科发展的方向。因此需要每一个人去重视科学发展自身的规律,它是一个永恒的命题。所以年轻人当前一定要适应学科交叉、发展和创新的态势,在这样的态势下提高自己。不要总是追求静态的东西,基础会打得厚一点牢一点,这对将来从事顶尖的工作和研究,当然是更有利的。金字塔只有底层打得好,塔尖才能弄得高。所以交叉融合创新是任何一个年轻人都应当考虑的问题,
记者:现在与国际同行的交流与合作是个司空见惯的事情。但是人类遗传资源数据是个比较敏感的话题,我们应该如何应对由此带来的数据安全问题?
陈润生:对于遗传资源的认识和保护,随着科学的发展,其内涵也应当有所变化。过去我们比较注意的主要是那些湿的资源,比如说血样、种子等等。但是随着组学的发展,由那些湿的资源派生出来的组学大数据这类干的遗传资源越来越多。因此数据的地位越来越重要,举个例子,如果整个基因组都是可以合成的,那么生物样本就不必要了,有数据就能把这个资源握在手中。所以随着生物医学大数据的发展,遗传资源的含义也在逐渐的向干数据迁移。在这种情况下,我们保护范围和保护的政策法规也应当有适应性的变化。
如果我们每个人的遗传信息都以完全保密的形式存在,可能不利于某些疾病的诊断治疗。但是如果没有任何约束和限制,将来会可能会造成遗传资源的丢失。这就要求我们既要保护每个人的知情权,包括在疾病和医疗情况下对于组学数据测量的需求;又要保护整个国家、民族、地区的资源不流失,这两者之间如何做到恰如其分,做到更科学更客观,需要仔细考虑。据我所知,目前我们国家在这方面的立法可能还有待完善。目前整个大环境中各种组学数据快速增加,什么样的资源保护方案才是客观的、可行的,是一个刻不容缓、亟待解决的问题。
记者:目前,第三代测序技术飞速发展,它拥有更低廉的成本,也引领着整个行业的革新,Nanopore,Pacific Bioscience 等公司就是其中的代表。对基因测序行业以后的发展,您怎么看?
陈润生:测序技术发展非常快。从上世纪 90 年代到现在,测序能力提高了几百万倍,这推动了社会对整个组学研究进展的认知,它也会对生物医学研究产生巨大推动作用。所以以后依然会被人们所关注。
目前最新的三代测序技术,拥有一些大家明显可以感觉到的巨大优势,比如读长通常可以达到百万数量级。这让过去在二代测序中出现的一些组装拼问题能够得到根本的解决。但是三代测序依然存在缺点,比如它的测序错误率高,有些时候可以达到 15%,这在一个需要精确使用基因序列的场景中——例如疾病诊断——显然是不能满足使用者的需求的。因为很多情况下某一个点突变就能导致肿瘤的发生,15% 的错误率造成的后果可想而知。所以三代测序技术还有发展的空间,它既有明显的优点,也有明显的缺点。同时,它促使组学研究产生了极大的进步,所以仍然会获得广泛的关注,拥有广阔的发展前景。
此外,通过测序获取的海量数据如何进行挖掘和解析,也是测序行业发展的一个重要方面。比如我们需要发展好的平台、工具和方法,然后从大数据中获得跟疾病、健康相关的知识,这可能会成为未来组学研究的重要一环。