美国科学促进会:机器学习“正在导致科学危机”

2019 年 2 月 24 日 大数据文摘


大数据文摘出品

编译:张秋玥


科学家正越来越依赖机器学习技术,虽然这一技术的解释性自诞生以来就广受质疑,但当这一问题出现在科学领域,将产生非常危险的结果。


来自休斯顿莱斯大学的Genevera Allen博士说,对这一体系日益增长的使用导致了“科学危机”。


她警告科学家,如果不改进技术,他们就会浪费时间与金钱。


越来越多的科学研究涉及使用机器学习软件来分析已经被收集的数据——从生物医学研究到天文学的许多学科领域都是如此。所使用的数据集非常庞大,并且昂贵。


再现性危机



但是,根据Allen博士的说法,他们提出的答案很可能是不准确甚至错误的,因为软件识别到的是仅存在于该数据集中而非现实世界中的规律。


“通常人们也不会发现这些研究并不准确,直到有人在一个真正的大型数据集上应用这些技术,并说'天哪,这两项研究的结果并不一致'”,她说。


“现在人们普遍认识到科学中的再生性危机了。我冒昧地说一句,这一危机很大一部分都来自于科学中机器学习技术的使用。”


科学中的“再现性危机”指的是,当另一组科学家尝试相同的实验时,许多研究结果压根无法被再现。这意味着最初的结果是错误的。一项分析表明,在世界范围内进行的生物医学研究中,高达85%是浪费精力。


这是一场已经持续了20年的危机,缘起于实验设计得不够好,无法确保科学家们不会自欺欺人、只看到自己想得到的实验结果。


错误的规律


Allen博士表示,机器学习系统和大型数据集的使用加速了危机。这是因为机器学习算法专门用于在数据集中查找有趣的东西,因此当他们在大量数据中进行搜索时,不可避免地会找到某种规律。



“问题是,我们真的可以相信这些发现吗?”她告诉BBC新闻。


“这些新发现是真实的吗?它们能够代表科学吗?它们是否可重复?如果我们有一个额外的数据集,我们能够在其上看到相同的科学发现或原理吗?不幸的是,答案通常是否定的。”


Allen博士正与休斯敦贝勒医学院的一组生物医学研究人员合作提高他们结果的可靠性。她正在开发下一代机器学习和统计技术;该技术不仅可以为科学发现筛选大量数据,还可以报告结果有多高的不确定性以及再现性。


“收集这些庞大的数据集非常昂贵。我告诉科学家,与我合作的话,你的成果可能需要更长时间才能发布,但最终你的结果将经得起时间的考验。”


“它将帮助科学家节约资金。此外,帮助避免前沿科技误入歧途也是非常重要的。”


相关报道:

https://www.bbc.com/news/science-environment-47267081


实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn



志愿者介绍

后台回复志愿者”加入我们

听说点了「好看」的人都变好看了哦
登录查看更多
0

相关内容

在计算机科学中,再现性是指只要程序执行时的环境和初始条件相同,当程序重复执行时,不论它是从头到尾不停顿地执行,还是“停停走走”地执行,都将获得相同的结果。再现性是程序是否可以并行执行重要的准则之一。广义上,再现性:在改变了的测量条件下,对同一被测量的测量结果之间的一致性,称为测量结果的再现性。再现性又称为复现性、重现性。
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
144+阅读 · 2020年5月19日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
133+阅读 · 2020年3月25日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
216+阅读 · 2020年2月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
已删除
德先生
53+阅读 · 2019年4月28日
《科学》(20190426出版)一周论文导读
科学网
5+阅读 · 2019年4月27日
AI 辅助科学,预测地震余震位置
谷歌开发者
7+阅读 · 2019年1月24日
人工智能能够预测地震吗?
人工智能学家
7+阅读 · 2018年12月10日
10000个科学难题 • 制造科学卷
科学出版社
13+阅读 · 2018年11月29日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
开源 AI 技术潜在危机爆发,被大肆用于色情方向
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Adversarial Metric Attack for Person Re-identification
3D-LaneNet: end-to-end 3D multiple lane detection
Arxiv
7+阅读 · 2018年11月26日
VIP会员
相关资讯
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
已删除
德先生
53+阅读 · 2019年4月28日
《科学》(20190426出版)一周论文导读
科学网
5+阅读 · 2019年4月27日
AI 辅助科学,预测地震余震位置
谷歌开发者
7+阅读 · 2019年1月24日
人工智能能够预测地震吗?
人工智能学家
7+阅读 · 2018年12月10日
10000个科学难题 • 制造科学卷
科学出版社
13+阅读 · 2018年11月29日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
开源 AI 技术潜在危机爆发,被大肆用于色情方向
Top
微信扫码咨询专知VIP会员