凭基因组数据识别人脸,不靠谱! ——著名生物学家文特尔最新研究遭质疑

2017 年 9 月 15 日 中国生物技术网 科技日报

能否根据基因组预测人类相貌引发业界专家激烈争论。图片来源:nature 网站

克莱格·文特尔是美国颇有影响力的生物学家,虽说不是毕业于所谓的名牌大学,但他的每一次研究举动,总会在业界带来飓风般的影响。比如他曾成立公司公然挑战 30 亿美元人类基因组计划,宣称会用 3.3 亿美元抢先一步公布人类基因组图谱,迫使人类基因组计划提前 2 年完成;他的研究团队在实验室制造出世界首个人造生命……

近日,文特尔创办的一家公司宣布,他们的新研究认为,DNA 数据会通过相貌和身体特征泄露匿名者的真实身份,再次引来其他科学家们的质疑和批评。

据《自然》杂志网站近日报道,他创办的人类长寿公司(HLI)的科研团队在《美国科学院学报》发表论文建议,法律制定机构、科学家和其他相关人员,应加强对人类基因组数据的监管,防止因 DNA 数据外泄而暴露个人隐私。

但来自宾夕法尼亚大学和哥伦比亚大学等机构的知名科学家却质疑称,文特尔团队的研究夸大了基因识别人们身份的能力,会引起社会对基因隐私的不必要的恐慌。更有参与研究的内部人士表示,文特尔此举存在私人目的,他可能在利用自己的影响力,改变目前基因数据公开获取的现状,利用自己的基因数据库谋取利益。

研究结论或过度夸大

文特尔团队发表论文称,他们对不同年龄和种族背景的 1061 位志愿者进行了全基因组测序,结合对这些参与者面部拍摄的高清晰度 3D 照片,他们开发出的人工智能软件能基于 DNA 序列的 SNPs(单核苷酸多态性)识别出脸颊骨高度等面部特征,并发现一个人 SNPs 隐含着其身高、体重、年龄、口音和肤色等个性化特征。结果证明,利用他们的方法和 HLI 的 DNA 数据库,从随机选出的 10 个人中识别出某个人的准确率高达 74%。

在仔细研读文特尔团队的论文后,许多遗传学家提出了质疑,认为研究结论存在夸大事实嫌疑。宾夕法尼亚大学人类学家马克·施莱弗认为,这篇论文并没有证明仅靠 DNA 数据就能准确辨别某个人的隐私,因此文中提出的风险并不存在,而且自由选择 10 个人,规模这么小的样本,依靠年龄、性别和种族这些数据就可以完全将这些人区别开来,根本不需动用 DNA 数据。

为进行有力反驳,哥伦比亚大学计算机生物学家雅尼夫·埃里希重新对论文中提到的年龄、性别和种族数据进行了模拟研究,并在预印本网站 BioRxiv 发表了研究结果,不必知道这些人的任何基因组信息,仅依靠这 3 个特征就足以将某个人从 10 人中区别出来,准确率高达 75%。他还推断,HLI 利用 SNPs 数据重构的面部特征并不能准确指向某个人,只是与性别和种族等特征的某类人接近而已。

《科学》杂志曾拒发论文

施莱弗称,论文发表在《美国科学院学报》之前,文特尔团队曾将论文提交给《科学》杂志,他当时参与这篇论文的同行审议。当时评审团认为,虽然 HLI 的研究数据真实可靠,研究中通过对染色体两端进行测序来推断测试者年龄的全新方法令人印象深刻,但论文并没有像声称的那样能通过 DNA 数据精准识别个人信息,研究结论存在故意歪曲倾向。

虽然论文署名作者中包括文特尔等重量级人物,但《科学》杂志最终还是拒绝发表该论文。根据规定,作为美国科学院院士,文特尔有权自己选择 3 位科学家对其论文进行同行审议,通过后即可在《美国科学院学报》发表。《美国科学院学报》承认是文特尔自己选择了两位信息隐私方面的专家和一位生物伦理学家,评审通过了该论文。

HLI 拒绝对论文评审过程进行评论,只是在一份声明中表示,虽然设置的研究样本规模过小,但研究中的方法学完全没有问题,基于一千个左右参与者的基因组数据库,精准识别一个人完全可能做到,并且这种识别将会越来越准。

强调基因组隐私或为经济目的

论文作者之一、现在苹果公司工作的计算机生物学家杰森·派珀承认,由于他已经跟 HLI 签订同意书,放弃论文发表前签名同意的权利,从而让 HLI 按照公司意愿对实验数据进行陈述,论文歪曲了他和其他同事的研究结果。

派珀通过推特对论文进行了严厉批评,认为 HLI 这样做存在利益考量。由于现行制度规定,所有用于研究的遗传学数据必须能公开获取,但作为盈利为目的的公司,HLI 希望能建造世界上最大的人类遗传信息数据库,并以保护个人隐私为借口,游说政策制定部门对 DNA 数据库设置各种限制条件,将这些数据作为公司赚钱的工具。“保护遗传隐私非常重要,但为获悉更多的基因组信息,人们必须共享所有相关数据,为这种共享设置障碍的方法是背道而驰的。”派珀说。

虽然 HLI 一再声明主张保护基因组信息的目的是促进数据交换的安全性,但埃里希认为,以文特尔的地位,这次的论文必将吸引更多政策制定者的关注,在决策中参考这类研究论文,制定出全新管理制度,阻碍人们在研究中共享基因组数据。

中国生物技术网诚邀生物领域科学家在我们的平台上,发表和介绍国内外原创的科研成果。

注:国内为原创研究成果或评论、综述,国际为在线发表一个月内的最新成果或综述,字数500字以上,并请提供至少一张图片。投稿者,请将文章发送至weixin@im.ac.cn

本公众号由中国科学院微生物研究所信息中心承办

微信公众号:中国生物技术网

回复关键词热点”可阅读热点专题文章,包括“施一公”、“肠道菌群”、“肿瘤”、“免疫”和“健康”

热文TOP10(统计周期:2016.5.1-2016.7.10)

直接点击文字即可浏览!

1、PNAS:午睡会增强记忆力

2、韩春雨:科研是一种很好的生活方式

3、减肥的终极奥义:训练大脑,而非锻炼身

4、20、30、40岁,新陈代谢如何改变? 

5、科学揭示:一杯酒下肚后...
6、体育运动如何使大脑更好地运转
7、意想不到的发现:癌细胞转移的最新观点
8、关于IQ的9个事实
9、第一个抗衰老医学试验在狗身上成功!
10、一包33岁的垃圾给我们的启示

登录查看更多
0

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
67+阅读 · 2020年3月5日
【学科交叉】抗生素发现的深度学习方法
专知会员服务
24+阅读 · 2020年2月23日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
200+阅读 · 2020年2月7日
【BAAI|2019】用深度学习模拟原子间势,王涵  (附pdf)
专知会员服务
17+阅读 · 2019年11月21日
Nature 一周论文导读 | 2019 年 6 月 27 日
科研圈
8+阅读 · 2019年7月7日
物理学家终于找到了一种拯救薛定谔猫的方法
中科院物理所
8+阅读 · 2019年6月10日
微表情检测和识别的研究进展与趋势
中国计算机学会
15+阅读 · 2018年3月23日
噩耗再次传来!华为,挺住!
FinTech前哨
4+阅读 · 2018年2月4日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
6+阅读 · 2018年1月14日
VIP会员
Top
微信扫码咨询专知VIP会员