开局一段扯,数据全靠编?真被一篇“神论文”气到了

2021 年 12 月 12 日 夕小瑶的卖萌屋

文 | 苏剑林(追一科技)
编 | 智商掉了一地

看来以后我们看论文的时候,不仅要关心论文成绩的可复现性,还要留意它们的求和、均值、方差等有没有算错,否则真的是“无奇不有”!!

这篇文章谈一下笔者被前几天出来的一篇“神论文”气到了的经历。

这篇“神论文”是 《How not to Lie with a Benchmark: Rearranging NLP Leaderboards》 ,论文的大致内容是说目前很多排行榜算平均都用算术平均,而它认为几何平均与调和平均更加合理。最关键是它还对GLUE、SuperGLUE等榜单上的模型用几何平均和调和平均重新算了一下排名,结果发现那些超过人类的模型在新的平均方案下都没超过人类了。

看上去是不是觉得挺有意思的?我也觉得挺有意思的,所以打算写一篇文章介绍一下它。结果文章快写完了,然后在对数据的时候,发现里边表格的数据全是乱来的!!!真实的结果完全不支撑它的结论!!!所以,这篇文章就从“表扬大会”变成了“批评大会”...

论文标题:
How not to Lie with a Benchmark: Rearranging NLP Leaderboards

论文链接:
https://arxiv.org/abs/2112.01342

胡说八道

首先我们来请出“神论文”的第一个表格,它是关于GLUE榜单上的部分成绩:

▲“神论文”的GLUE榜单计算结果

咱别的不说,这篇“神论文”表格里边的“,”(半角逗号)和“.”(小数点)不分,也是够让人恶心的了(下面SuperGLUE的表格更甚)。不过要只是这种小问题,那忍忍也就算了,最不可忍的是:它里边的AH(算术平均)、GM(几何平均)、HM(调和平均)的计算规则简直是“随心所欲”!

我试了很久,终于试出了该表格的计算规则:

  1. 所有的AH都是用前 10个任务的成绩算出来的(虽然上表只显示了前8个任务的成绩);
  2. Human那一行的GM、HM用的是 前10个任务的成绩来算的;
  3. 其他行的模型的GM、HM是用 全部11个任务的成绩来算的。

由于第11个任务的成绩比其他任务要低,所以这样算出来的模型的GM、HM就比Human的更低,作者就直接得出了在GM、HM之下,人类成绩还是第一名的结论。事实上,如果大家都用同一批任务算,那么AM、GM、HM排名基本无差别。况且,数学思维稍微正常的人都可以看出上述结果的不妥之处:不少任务上模型成绩都远超Human,少数任务上模型不如Human,但也只是低一点点,所以只要是一种正常的平均算法,都不可能得出Human远超模型的结论吧?偏偏作者也就信了...

同样的错误还出现在SuperGLUE上:

▲“神论文”的SuperGLUE榜单计算结果

它的计算规则为:

  1. 所有的AH都是用 前8个任务的成绩算出来的;
  2. 所有GM、HM是用 全部10个任务的成绩来算的。

事实上,如果AM也用10个任务的成绩来算,那么按照AM排名人类也是第一名。也就是说,只要大家的计算标准一样,那么AM、GM、HM排名并无太大差别。

真心无奈

顺便说,这篇论文还中了NeurIPS 2021的Workshop,虽然Workshop通常都是远不如正式论文,但也不至于乱七八糟到这个程度吧。再看一眼这篇论文的标题,我觉得是不是改为“How not to Lie with this paper”更适合?

看来以后我们看论文的时候,不仅要关心论文成绩的可复现性,还要留意它们的求和、均值、方差等有没有算错~真的是什么奇葩可能性都会存在~

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

登录查看更多
0

相关内容

ICLR 2022 评审出炉!来看看得分最高8份的31篇论文是什么!
NeurIPS 20201接收论文列表发布,2334篇论文都在这了!
专知会员服务
37+阅读 · 2021年11月4日
专知会员服务
51+阅读 · 2021年5月30日
专知会员服务
56+阅读 · 2021年1月26日
专知会员服务
113+阅读 · 2020年10月8日
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
49篇ICLR2020高分「图机器学习GML」接受论文及代码
专知会员服务
60+阅读 · 2020年1月18日
投了3遍都被毙的论文,终于中了
图与推荐
0+阅读 · 2022年3月16日
这篇AAAI 2022论文申请撤稿!
CVer
1+阅读 · 2021年12月18日
分类问题后处理技巧CAN,近乎零成本获取效果提升
夕小瑶的卖萌屋
0+阅读 · 2021年10月26日
论文浅尝 | 用图网络做小样本学习
开放知识图谱
65+阅读 · 2018年6月30日
推荐 | 掌握这12条经验,对理解机器学习至关重要!(可下载PDF)
机器学习算法与Python学习
11+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Estimation of the Shapley value by ergodic sampling
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月15日
VIP会员
相关资讯
投了3遍都被毙的论文,终于中了
图与推荐
0+阅读 · 2022年3月16日
这篇AAAI 2022论文申请撤稿!
CVer
1+阅读 · 2021年12月18日
分类问题后处理技巧CAN,近乎零成本获取效果提升
夕小瑶的卖萌屋
0+阅读 · 2021年10月26日
论文浅尝 | 用图网络做小样本学习
开放知识图谱
65+阅读 · 2018年6月30日
推荐 | 掌握这12条经验,对理解机器学习至关重要!(可下载PDF)
机器学习算法与Python学习
11+阅读 · 2018年6月29日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员