会员服务 ·

NIPS论文遭受全面质疑：论证过程普遍不完整，又何谈对错？

2018 年 12 月 25 日 量子位

栗发自凹非寺
量子位报道 | 公众号 QbitAI

现在的机器学习论文，到底是不是经过有效论证的研究成果？

伦敦大学学院 (UCL) 的研究人员，分析了NIPS 2017的中选论文，得出的结果令人失望。

△ 连对错也不配谈？

一大问题就是基线 (Baseline) 严重缺失：

121篇参与评估的论文里，只有55%和现有最前沿算法 (State-of-the-Art) 做了对比；而与没有输入信息、没有经过训练的随机猜测进行了比较的，更是只有9%。

除此之外，NIPS论文的论证中，也大量存在其他问题，比如不标注置信区间。这些问题都会关系到，算法的有效性能不能被证实。

那么，就来仔细观察一下这份评估报告：

几乎全军覆没

研究人员从679篇NIPS 2017论文中，按照下面的标准筛选出了121篇接受评估：

提出了监督/半监督模型的研究，或者把预训练和监督/半监督模型结合在一起的研究。

三个维度

然后，团队确定了评估标准三大项：

一是实验：有没有用真实数据或者合成数据 (Synthetic Data) 去测试算法，最理想是两者兼有。

二是基线：有没有现有最前沿 (State-of-the-Art) 基线，或者随机猜测 (Uninformed) 的基线。

如果缺少前者，就不能得出超越现有算法的结论；缺少后者，就不能说明算法比随机猜测的表现更好。

三是量化对比 (Quantitative Comparison) ：比如从有没有置信区间 (CI) 这一点上，评估对比是否正式 (下图为详细标准) 。

正式对比中，要标明置信区间，或者要有频率论假设检验 (Frequentist Hypothesis Test) 。并且，需要说明是怎样得出的。

如果不经过这些步骤，就不能证明，差异不是由随机波动 (Random Fluctuation) 造成的。

幸存者无几

先看数据，有99%的论文使用了真实数据来测试，有29%用到了合成数据。

基线方面，有91%的论文没有用到随机猜测 (Uninformed) 基线，有55%用了现有最先进 (State-of-the-Art) 算法作为基线。

而关于算法之间的量化对比是否正式，32%的论文标明了置信区间，但同时解释了置信区间如何计算的寥寥无几，被评判为“正式对比”的只有3%。

这样看来，几乎是全盘否定。

该如何解决呢？

研究人员为测试结果总结了一句话：完整的论证过程，在NIPS论文里是罕见的。

团队说，虽然用一届NIPS的发表论文，来概括ML/AI领域所有学术文献的情况，并不是一个非常全面的方法；

但是，NIPS/NeurIPS是领域内的顶会，把这里发表的论文视为高质量研究成果，作为研究样本，也属合理。

如果，机器学习领域的论文普遍存在论证不完整的问题，要怎么解决呢？

理论上不难，研究人员应该在论文里，表明使用某个方法、使用某种基线的理由，写清现有最先进 (State-of-the-Art) 的方法是什么，用合适的量化方法来体现研究的重要性。

可是，实际操作中还会遇到困难：

团队在论文里写到，ML/AI领域，环境比较特殊。众所周知，这个领域的论文发表和审核机制，会鼓励那些宏大的论调，而那些审慎的论点很容易被忽略。

如果机制不改变，这样的状况也很难发生明显的变化。

不过，研究人员也提出，用户 (End Users) 可能会促进情况的改善：

行业和政府部门的决策者，可以向上游领域施加压力，比如从财政上打击那些论证不够有效的研究成果。

论文传送门：
https://arxiv.org/pdf/1812.07519.pdf

— 完 —

年度评选报名

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

登录查看更多

相关内容

state-of-the-art

关注 7

【普林斯顿Yuxin Chen】噪声矩阵补全的推理与不确定性量化，117页ppt

专知会员服务

47+阅读 · 2020年6月29日

【ACL2020-斯坦福】低维双曲知识图谱嵌入，Low-Dimensional Hyperbolic KGE

专知会员服务

46+阅读 · 2020年5月6日

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【普渡大学】提升GNN表达能力的集体学习框架，Boost GNN Expressiveness

专知会员服务

46+阅读 · 2020年3月30日

【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力

专知会员服务

20+阅读 · 2020年3月29日

综述：可解释的知识系统发展方向，附17页论文下载

专知会员服务

102+阅读 · 2020年3月19日

【浙江大学】对抗样本生成技术综述

专知会员服务

92+阅读 · 2020年1月6日

周志华教授：如何做研究与写论文？

专知会员服务

159+阅读 · 2019年10月9日

【ICLR2020】五篇Open代码的GNN论文

专知会员服务

48+阅读 · 2019年10月2日

【重磅】61篇NIPS2019深度强化学习论文及部分解读

机器学习算法与Python学习

10+阅读 · 2019年9月14日

带你读论文丨 8 篇论文梳理 BERT 相关模型

新智元

9+阅读 · 2019年9月9日

不被大神Hinton认同，否定现有同行成果，谷歌这篇烧脑研究最终拿下ICML2019最佳论文

量子位

4+阅读 · 2019年6月12日

已删除

将门创投

8+阅读 · 2019年3月18日

黎曼猜想被证明了？“他的证明甚至不能算是个错误”！阿蒂亚爵士的证明受到同行质疑

人工智能学家

6+阅读 · 2018年9月25日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

上海科技大学ACL2018高分论文：混合高斯隐向量文法

PaperWeekly

4+阅读 · 2018年7月5日

十年机器学习结果不可靠？伯克利&MIT研究质疑了30个经典模型

全球人工智能

5+阅读 · 2018年6月7日

「知识图谱」领域近期值得读的 6 篇顶会论文

数盟

5+阅读 · 2018年1月29日

论文浅尝 | 「知识图谱」领域近期值得读的 6 篇顶会论文

开放知识图谱

5+阅读 · 2018年1月19日

Hyper-Parameter Optimization: A Review of Algorithms and Applications

Arxiv

16+阅读 · 2020年3月12日

Rule-Guided Compositional Representation Learning on Knowledge Graphs

Arxiv

10+阅读 · 2019年12月28日

Few-Shot Knowledge Graph Completion

Arxiv

14+阅读 · 2019年11月26日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

D-VAE: A Variational Autoencoder for Directed Acyclic Graphs

Arxiv

7+阅读 · 2019年5月30日

Attentive Relational Networks for Mapping Images to Scene Graphs

Arxiv

3+阅读 · 2018年11月26日

A Time Series Graph Cut Image Segmentation Scheme for Liver Tumors

Arxiv

4+阅读 · 2018年9月13日

DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks

Arxiv

4+阅读 · 2018年4月3日

Open Information Extraction on Scientific Text: An Evaluation

Arxiv

6+阅读 · 2018年2月15日

2D-3D Pose Consistency-based Conditional Random Fields for 3D Human Pose Estimation

Arxiv

3+阅读 · 2017年12月28日

VIP会员

NIPS论文遭受全面质疑：论证过程普遍不完整，又何谈对错？

栗 发自 凹非寺 量子位 报道 | 公众号 QbitAI

△ 连对错也不配谈？

几乎全军覆没

三个维度

幸存者无几

该如何解决呢？

相关内容

栗发自凹非寺
量子位报道 | 公众号 QbitAI