机器学习有毒!被指让科学家更自欺欺人,给科学界带来危机

2019 年 2 月 19 日 量子位
乾明 编译自 BBC 
量子位 报道 | 公众号 QbitAI

机器学习技术,正在占领科学界,成为核心研究方法。

但在这股浪潮背后,有成千上万的科学家,正在用它来产生误导性的结果。

这一结论,来自休斯顿莱斯大学的副教授Genevera Allen。

她说,科学家们大量使用机器学习系统,导致了一场“科学危机”。科学家们如果不改进技术,将会浪费大量的时间和金钱。

科学研究危机

最直接的问题,在于机器学习软件识别的模式,只存在于数据集中,而不是面向真实的世界。

如果没有人使用不同的数据集去复现模型,很难发现使用机器学习技术得出的结论是错误的。

随着机器学习在科学研究中应用愈加广泛,相关的研究越来越难以复现。一项分析表明,世界上85%的生物医学研究都是白费力气。

其次,机器学习系统和大数据集的使用加速了科学危机。这场危机已经持续了20年,根本原因在于,研究的实验设计不够好,无法确保科学家们不会自欺欺人。

最后,回到机器学习本身上,机器学习是专门为在数据集中发现有趣的东西而开发的。不管数据怎样,只要应用到数据中,就会发现相应的模式,具体模式怎样,也无法保证。

为了解决这个问题,她正在和研究团队开发下一代机器学习和统计技术,这种技术不仅可以分析大量数据,找出结果,还可以给出结果的不确定性以及复现的可能性。

锅该由机器学习背吗?

Allen在美国科学促进会(AAAS)年会上发表了自己的观点,BBC报道之后,在AI圈引发了广泛的讨论。

Facebook的机器学习科学家Edward Grefenstette评论称,这篇文章的确反映了机器学习存在的问题。因为对机器学习的炒作和大肆宣传,使用机器学习做研究的科学家,都只是关注研究中使用了机器学习技术,反而不太关注科学研究应有的标准了。

也有人指出,机器学习与科学研究相反,是基于数据发现模型,而不是基于模型,寻找数据去否定或验证模型,很容易理解它为什么会导致不可复现的模型出现。

这些观点虽然有不少人赞同,但隔空之间,也有不少反对之声。不少人认为,这个锅不应该由机器学习来背。

前谷歌大脑员工研究员Denny Britz说,这不是机器学习的问题,而是使用机器学习的人的问题。

另外一种说法是,科学研究难复现,这是一个长期以来一直存在的问题,机器学习不应该背锅。

对于这件事,你怎么看?欢迎在留言区与我们互动。

原文链接:
https://www.bbc.com/news/amp/science-environment-47267081

作者系网易新闻·网易号“各有态度”签约作者


加入社群

量子位现开放「AI+行业」社群,面向AI行业相关从业者,技术、产品等人员,根据所在行业可选择相应行业社群,在量子位公众号(QbitAI)对话界面回复关键词“行业群”,获取入群方式。行业群会有审核,敬请谅解。


此外,量子位AI社群正在招募,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式。

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



登录查看更多
1

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
146+阅读 · 2020年6月15日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
168+阅读 · 2020年5月27日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
132+阅读 · 2020年3月25日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
干货 | 可解释的机器学习
AI科技评论
20+阅读 · 2019年7月3日
AI 最大的挑战:也许我们从根上就错了
InfoQ
5+阅读 · 2019年6月14日
人工智能能够预测地震吗?
人工智能学家
7+阅读 · 2018年12月10日
不!机器学习不是美化后的统计学
论智
4+阅读 · 2018年7月13日
Arxiv
102+阅读 · 2020年3月4日
Factor Graph Attention
Arxiv
6+阅读 · 2019年4月11日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关VIP内容
专知会员服务
146+阅读 · 2020年6月15日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
168+阅读 · 2020年5月27日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
132+阅读 · 2020年3月25日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
Top
微信扫码咨询专知VIP会员