机器学习社区这些问题,我一个外行都看出来了

2021 年 3 月 17 日 机器之心
机器之心报道

机器之心编辑部

人们常说「隔行如隔山」,机器学习社区在外行人眼里是什么样的?


近日,一位来自传统行业的从业者观察了机器学习研究社区的现状,发现了一些问题并在 reddit 上发帖,不少机器学习从业者也纷纷表达观点,参与讨论。

帖子作者注意到,机器学习社区内有很多研究者正致力于优化、控制、信号处理等「旧领域」的交叉研究,他们会突然发表大量声称要解决某个问题的论文,问题本身通常是近期的,使用的方法会包含一些深度神经网络。

然而仔细一看,这些研究唯一新颖的地方只有提出的问题,而不是研究人员解决该问题的方案。

让他困惑的是,为什么大量这种看起来水平一般,几乎就是对各领域内 20 世纪 80 年代,甚至 60 年代以后的技术重新编排的文章却能够被接受?经过仔细研究,作者发现机器学习社区存在一些问题。

只有机器学习顶会欢迎

许多研究者只在机器学习会议上发表论文,而不会在其研究的专属会议或期刊(例如优化和控制领域期刊)上发表。例如,在一篇对抗机器学习论文中,整篇论文的内容几乎都是关于解决一个优化问题的,但提出的优化方法基本是其他成熟研究成果的变体。作者还注意到,如果一篇论文没有被 NeurIPS 或 ICLR 接收,它就会被转投给 AAAI 或其他名气小一点的会议,真是一点也不浪费。


有人评论称,这其实和会议的名气有关:「在 NeurIPS 等机器学习顶会上发表的研究,收益可能是其他会议的十倍。但有一些子领域的会议也很受重视,比如计算机视觉领域的 CVPR、自然语言处理领域的 ACL 会议等。」


审稿人不了解领域内研究进展

通过开放评审,我发现审稿人(不只是研究者)对所属的具体领域一无所知。他们似乎只是在审核论文的正确性,而不是新颖性。实际上,我对审稿人是否了解该方法的新颖程度表示怀疑。

评论区有网友表示:这一问题也是存在的,但似乎很难解决。因为机器学习领域正在呈爆炸式增长,并不是每个审稿人都能够跟得上该领域的发展步伐,有些审稿人掌握的知识信息的确有些滞后。


引用混乱

通常,ML 领域的研究人员只会从最近几年的研究中引用自己或其他机器学习从业者的研究。偶尔会有一个引用数百年前研究的情况,那可能是因为与牛顿、柯西等人的经典研究有关。然后引用研究的年份就会突然跳到 2018、2019 年。

有人指出,这一问题主要是追溯难度太大造成的。经过多年的发展,很多名词术语的叫法已经和几十年前不一致了。当前机器学习社区中的论文引用主要来自于谷歌搜索,有些名词想要找到其原始出处并不容易。

堆砌数学公式

论文中经常存在堆砌数学公式的情况,形成一堵巨大的「数学墙」,例如证明特征值、梯度、雅可比矩阵等数学问题的深奥条件。有些定理其实并不适用,因为在高度非凸的深度学习应用中,定理的前提条件就不满足。因此,从这些错综复杂的数学定理中唯一获得的东西就是一些微弱的直觉,这些直觉还可能会被立刻推翻。

有网友指出,「数学墙」非常令人沮丧。由于带有数学公式的论文似乎更容易被接收,很多论文都加入了公式,但有时公式并不是必要的。


为什么会出现这种情况?有人猜测说,一个不太专业的审稿人可能会拒绝自己看不懂的想法,因为 ta 不喜欢这个想法。但在看到「数学墙」之后,ta 可能会给出更加严谨的审稿结果,如「弱接收(Weak Accept)」或「弱拒稿(Weak Reject)」。


缺乏后续研究

作者还发现,有些研究者在提出一个超越其他研究的新基准之后,并不会进行更多后续研究来进一步发展该研究提出的技术方法。但在其他领域,研究团队中的一些成员后续会花费大量时间和精力去完善该研究所提出的方法,有些研究甚至会贯穿某些研究者的职业生涯。

上述几个问题使得机器学习社区在某种程度上成为一个「回声室」,研究者只是将大量已知的研究结果重新编排,并用其问题的新颖性来掩饰创新的缺失。然而这些论文都能被接收,因为很少有人能发现这些研究是缺乏新颖性的。

综合以上问题,这位来自传统行业的作者最后表示:「机器学习社区就像一棵自动接收论文的摇钱树。」

讨论

在评论区,我们还发现了一些新的观点和看法。

一位来自物理学领域的研究者表示:「理论物理学等硬科学中也存在一些类似问题。『(论文)不发表就会被埋没(Publish or Perish)』的观念根深蒂固,以至于没有人理智地尝试解决一些实际且有意义的问题。」


这位理论物理学家还指出,不仅研究方向有所偏颇,发表论文的周期也在变短,研究质量因此降低。发表论文量成为了一种评价标准,很少有研究者潜心解决科学难题了。


此外,有人表示:「有些 ML 研究者似乎并不了解性能提升的根本原因,他们只是做了一些简单的改进。」这也是一件令人沮丧的事情。

尽管这些问题只代表原帖作者和部分机器学习从业者的看法,但这不失为机器学习社区的一种缩影,有待解决与改善。

参考链接:https://www.reddit.com/r/MachineLearning/comments/lvwt3l/d_some_interesting_observations_about_machine/

上手实操:出海企业如何快速构建AI应用


3月17日,亚马逊云科技机器学习产品经理李媛和亚马逊云科技机器学习产品技术专家王世帅将带来线上分享。本次分享将介绍如何借助Amazon Rekognition实现用户身份识别、图片视频内容审核与借助Amazon Personalize为用户提供个性化推荐。


扫码或点击阅读原文收藏直播间!

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
机器学习的可解释性
专知会员服务
175+阅读 · 2020年8月27日
专知会员服务
43+阅读 · 2020年7月15日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
【机器学习课程】机器学习中的常识性问题
专知会员服务
73+阅读 · 2019年12月2日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
阅读深度学习论文的新姿势
专知
15+阅读 · 2018年7月14日
如何从零到一地开始机器学习 ?(附思维导图)
THU数据派
6+阅读 · 2018年4月17日
机器学习:从入门到绝不放弃!
图灵教育
5+阅读 · 2018年3月19日
机器学习面试 | 这些题目一定会被问到
七月在线实验室
5+阅读 · 2017年12月10日
Arxiv
0+阅读 · 2021年6月8日
Arxiv
13+阅读 · 2021年3月3日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
11+阅读 · 2018年7月8日
VIP会员
相关VIP内容
机器学习的可解释性
专知会员服务
175+阅读 · 2020年8月27日
专知会员服务
43+阅读 · 2020年7月15日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
【机器学习课程】机器学习中的常识性问题
专知会员服务
73+阅读 · 2019年12月2日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
相关资讯
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
阅读深度学习论文的新姿势
专知
15+阅读 · 2018年7月14日
如何从零到一地开始机器学习 ?(附思维导图)
THU数据派
6+阅读 · 2018年4月17日
机器学习:从入门到绝不放弃!
图灵教育
5+阅读 · 2018年3月19日
机器学习面试 | 这些题目一定会被问到
七月在线实验室
5+阅读 · 2017年12月10日
相关论文
Arxiv
0+阅读 · 2021年6月8日
Arxiv
13+阅读 · 2021年3月3日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
11+阅读 · 2018年7月8日
Top
微信扫码咨询专知VIP会员