开局一段扯，数据全靠编？真被一篇“神论文”气到了 - 专知

会员服务 ·

0

开局一段扯，数据全靠编？真被一篇“神论文”气到了

2021 年 12 月 12 日 夕小瑶的卖萌屋

文 | 苏剑林（追一科技）
编 | 智商掉了一地

看来以后我们看论文的时候，不仅要关心论文成绩的可复现性，还要留意它们的求和、均值、方差等有没有算错，否则真的是“无奇不有”！！

这篇文章谈一下笔者被前几天出来的一篇“神论文”气到了的经历。

这篇“神论文”是 《How not to Lie with a Benchmark: Rearranging NLP Leaderboards》 ，论文的大致内容是说目前很多排行榜算平均都用算术平均，而它认为几何平均与调和平均更加合理。最关键是它还对GLUE、SuperGLUE等榜单上的模型用几何平均和调和平均重新算了一下排名，结果发现那些超过人类的模型在新的平均方案下都没超过人类了。

看上去是不是觉得挺有意思的？我也觉得挺有意思的，所以打算写一篇文章介绍一下它。结果文章快写完了，然后在对数据的时候，发现里边表格的数据全是乱来的！！！真实的结果完全不支撑它的结论！！！所以，这篇文章就从“表扬大会”变成了“批评大会”...

论文标题：
How not to Lie with a Benchmark: Rearranging NLP Leaderboards

论文链接：
https://arxiv.org/abs/2112.01342

胡说八道

首先我们来请出“神论文”的第一个表格，它是关于GLUE榜单上的部分成绩：

▲“神论文”的GLUE榜单计算结果

咱别的不说，这篇“神论文”表格里边的“,”（半角逗号）和“.”（小数点）不分，也是够让人恶心的了（下面SuperGLUE的表格更甚）。不过要只是这种小问题，那忍忍也就算了，最不可忍的是：它里边的AH（算术平均）、GM（几何平均）、HM（调和平均）的计算规则简直是“随心所欲”！

我试了很久，终于试出了该表格的计算规则：

所有的AH都是用前 10个任务的成绩算出来的（虽然上表只显示了前8个任务的成绩）；
Human那一行的GM、HM用的是前10个任务的成绩来算的；
其他行的模型的GM、HM是用全部11个任务的成绩来算的。

由于第11个任务的成绩比其他任务要低，所以这样算出来的模型的GM、HM就比Human的更低，作者就直接得出了在GM、HM之下，人类成绩还是第一名的结论。事实上，如果大家都用同一批任务算，那么AM、GM、HM排名基本无差别。况且，数学思维稍微正常的人都可以看出上述结果的不妥之处：不少任务上模型成绩都远超Human，少数任务上模型不如Human，但也只是低一点点，所以只要是一种正常的平均算法，都不可能得出Human远超模型的结论吧？偏偏作者也就信了...

同样的错误还出现在SuperGLUE上：

▲“神论文”的SuperGLUE榜单计算结果

它的计算规则为：

所有的AH都是用前8个任务的成绩算出来的；
所有GM、HM是用全部10个任务的成绩来算的。

事实上，如果AM也用10个任务的成绩来算，那么按照AM排名人类也是第一名。也就是说，只要大家的计算标准一样，那么AM、GM、HM排名并无太大差别。

真心无奈

顺便说，这篇论文还中了NeurIPS 2021的Workshop，虽然Workshop通常都是远不如正式论文，但也不至于乱七八糟到这个程度吧。再看一眼这篇论文的标题，我觉得是不是改为“How not to Lie with this paper”更适合？

看来以后我们看论文的时候，不仅要关心论文成绩的可复现性，还要留意它们的求和、均值、方差等有没有算错～真的是什么奇葩可能性都会存在～

后台回复关键词【入群】

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！

登录查看更多

0

相关内容

调和平均

【NeurIPS 2021】如何使用 Transformer 模型在图表示任务中胜过 GNN

【NeurIPS 2021】如何使用 Transformer 模型在图表示任务中胜过 GNN

专知会员服务

30+阅读 · 2021年11月21日

ICLR 2022 评审出炉！来看看得分最高8份的31篇论文是什么！

ICLR 2022 评审出炉！来看看得分最高8份的31篇论文是什么！

专知会员服务

48+阅读 · 2021年11月10日

NeurIPS 20201接收论文列表发布，2334篇论文都在这了！

NeurIPS 20201接收论文列表发布，2334篇论文都在这了！

专知会员服务

38+阅读 · 2021年11月4日

5篇TPAMI-2021《图神经网络》论文快读！

专知会员服务

52+阅读 · 2021年5月30日

最新6篇ICLR2021篇图神经网络论文推荐

专知会员服务

57+阅读 · 2021年1月26日

ICLR2021放榜了！ 687篇入选34篇得满分！ 48篇orals，108篇spotlights，531篇poster

ICLR2021放榜了！ 687篇入选34篇得满分！ 48篇orals，108篇spotlights，531篇poster

专知会员服务

24+阅读 · 2021年1月13日

NeurIPS 2020接收论文列表发布，1900篇论文都在这了！

专知会员服务

114+阅读 · 2020年10月8日

2020的机器学习在研究什么？请看最新8篇ICML2020投稿论文：自监督学习、联邦学习、图学习、数据隐私、语言模型、终身学习……

2020的机器学习在研究什么？请看最新8篇ICML2020投稿论文：自监督学习、联邦学习、图学习、数据隐私、语言模型、终身学习……

专知会员服务

65+阅读 · 2020年2月21日

2020图机器学习GNN的四大研究趋势，21篇论文下载

2020图机器学习GNN的四大研究趋势，21篇论文下载

专知会员服务

136+阅读 · 2020年2月10日

49篇ICLR2020高分「图机器学习GML」接受论文及代码

49篇ICLR2020高分「图机器学习GML」接受论文及代码

专知会员服务

62+阅读 · 2020年1月18日

投了3遍都被毙的论文，终于中了

投了3遍都被毙的论文，终于中了

图与推荐

0+阅读 · 2022年3月16日

两篇毕业论文致谢同一个女朋友？哈哈哈哈！

两篇毕业论文致谢同一个女朋友？哈哈哈哈！

CVer

0+阅读 · 2021年12月21日

这篇AAAI 2022论文申请撤稿！

这篇AAAI 2022论文申请撤稿！

CVer

2+阅读 · 2021年12月18日

9000多篇投稿，接收率只有15%，今年的AAAI你中了吗？

9000多篇投稿，接收率只有15%，今年的AAAI你中了吗？

机器之心

0+阅读 · 2021年12月2日

NeurIPS 2021论文接收结果统计：Oral级论文不足3%，图神经网络火到进前三

NeurIPS 2021论文接收结果统计：Oral级论文不足3%，图神经网络火到进前三

量子位

0+阅读 · 2021年11月23日

ICLR 2022初审你得了多少分？平均4.93浮动，预测6分才被接收

ICLR 2022初审你得了多少分？平均4.93浮动，预测6分才被接收

机器之心

2+阅读 · 2021年11月10日

分类问题后处理技巧CAN，近乎零成本获取效果提升

分类问题后处理技巧CAN，近乎零成本获取效果提升

夕小瑶的卖萌屋

0+阅读 · 2021年10月26日

法研杯cail2019阅读理解比赛记录（第5名团队分享）

法研杯cail2019阅读理解比赛记录（第5名团队分享）

AINLP

50+阅读 · 2019年8月29日

论文浅尝 | 用图网络做小样本学习

论文浅尝 | 用图网络做小样本学习

开放知识图谱

66+阅读 · 2018年6月30日

推荐 | 掌握这12条经验，对理解机器学习至关重要！（可下载PDF）

推荐 | 掌握这12条经验，对理解机器学习至关重要！（可下载PDF）

机器学习算法与Python学习

11+阅读 · 2018年6月29日

基于高维短序列生物数据的系统重构研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于蒙特卡洛的QCD求和规则在强子物理中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于小鼠胚胎干细胞研究DNA羟甲基化降噪算法及其去甲基化相关调控机制

国家自然科学基金

0+阅读 · 2012年12月31日

仅基于RNA-Seq数据拼装可变剪接转录组的计算方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

群体三维运动轨迹提取技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于运动特征的数字几何处理算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于特征结构关系的目标分类研究

国家自然科学基金

1+阅读 · 2012年12月31日

蛋白质三维拼装基元

国家自然科学基金

1+阅读 · 2011年12月31日

基于计算机视觉的鞘翅目储粮害虫检测与分类识别研究

国家自然科学基金

0+阅读 · 2008年12月31日

智能化地质统计学矿产资源储量计算方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Demonstration of Superconducting Optoelectronic Single-Photon Synapses

Arxiv

0+阅读 · 2022年4月20日

Estimation of the Shapley value by ergodic sampling

Estimation of the Shapley value by ergodic sampling

Arxiv

0+阅读 · 2022年4月19日

Radio Galaxy Zoo: Using semi-supervised learning to leverage large unlabelled data-sets for radio galaxy classification under data-set shift

Arxiv

0+阅读 · 2022年4月19日

Separating Sessions Smoothly

Arxiv

0+阅读 · 2022年4月18日

Unveiling User Behavior on Summit Login Nodes as a User

Unveiling User Behavior on Summit Login Nodes as a User

Arxiv

0+阅读 · 2022年4月18日

Sparsifying the Update Step in Graph Neural Networks

Arxiv

0+阅读 · 2022年4月15日

On the dimensional indeterminacy of one-wave factor analysis under causal effects

Arxiv

0+阅读 · 2022年4月15日

On the Importance of Firth Bias Reduction in Few-Shot Classification

Arxiv

0+阅读 · 2022年4月14日

Fine-Grained Neural Network Explanation by Identifying Input Features with Predictive Information

Arxiv

10+阅读 · 2021年10月4日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

VIP会员

相关主题

相关VIP内容

【NeurIPS 2021】如何使用 Transformer 模型在图表示任务中胜过 GNN

【NeurIPS 2021】如何使用 Transformer 模型在图表示任务中胜过 GNN

专知会员服务

30+阅读 · 2021年11月21日

ICLR 2022 评审出炉！来看看得分最高8份的31篇论文是什么！

ICLR 2022 评审出炉！来看看得分最高8份的31篇论文是什么！

专知会员服务

48+阅读 · 2021年11月10日

NeurIPS 20201接收论文列表发布，2334篇论文都在这了！

NeurIPS 20201接收论文列表发布，2334篇论文都在这了！

专知会员服务

38+阅读 · 2021年11月4日

5篇TPAMI-2021《图神经网络》论文快读！

专知会员服务

52+阅读 · 2021年5月30日

最新6篇ICLR2021篇图神经网络论文推荐

专知会员服务

57+阅读 · 2021年1月26日

ICLR2021放榜了！ 687篇入选34篇得满分！ 48篇orals，108篇spotlights，531篇poster

ICLR2021放榜了！ 687篇入选34篇得满分！ 48篇orals，108篇spotlights，531篇poster

专知会员服务

24+阅读 · 2021年1月13日

NeurIPS 2020接收论文列表发布，1900篇论文都在这了！

专知会员服务

114+阅读 · 2020年10月8日

2020的机器学习在研究什么？请看最新8篇ICML2020投稿论文：自监督学习、联邦学习、图学习、数据隐私、语言模型、终身学习……

2020的机器学习在研究什么？请看最新8篇ICML2020投稿论文：自监督学习、联邦学习、图学习、数据隐私、语言模型、终身学习……

专知会员服务

65+阅读 · 2020年2月21日

2020图机器学习GNN的四大研究趋势，21篇论文下载

2020图机器学习GNN的四大研究趋势，21篇论文下载

专知会员服务

136+阅读 · 2020年2月10日

49篇ICLR2020高分「图机器学习GML」接受论文及代码

49篇ICLR2020高分「图机器学习GML」接受论文及代码

专知会员服务

62+阅读 · 2020年1月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

人工智能时代背景下的未来海战

接触战中的无人机优势：美军旅级部队面临的小型无人机系统挑战与调整

相关资讯

投了3遍都被毙的论文，终于中了

投了3遍都被毙的论文，终于中了

图与推荐

0+阅读 · 2022年3月16日

两篇毕业论文致谢同一个女朋友？哈哈哈哈！

两篇毕业论文致谢同一个女朋友？哈哈哈哈！

CVer

0+阅读 · 2021年12月21日

这篇AAAI 2022论文申请撤稿！

这篇AAAI 2022论文申请撤稿！

CVer

2+阅读 · 2021年12月18日

9000多篇投稿，接收率只有15%，今年的AAAI你中了吗？

9000多篇投稿，接收率只有15%，今年的AAAI你中了吗？

机器之心

0+阅读 · 2021年12月2日

NeurIPS 2021论文接收结果统计：Oral级论文不足3%，图神经网络火到进前三

NeurIPS 2021论文接收结果统计：Oral级论文不足3%，图神经网络火到进前三

量子位

0+阅读 · 2021年11月23日

ICLR 2022初审你得了多少分？平均4.93浮动，预测6分才被接收

ICLR 2022初审你得了多少分？平均4.93浮动，预测6分才被接收

机器之心

2+阅读 · 2021年11月10日

分类问题后处理技巧CAN，近乎零成本获取效果提升

分类问题后处理技巧CAN，近乎零成本获取效果提升

夕小瑶的卖萌屋

0+阅读 · 2021年10月26日

法研杯cail2019阅读理解比赛记录（第5名团队分享）

法研杯cail2019阅读理解比赛记录（第5名团队分享）

AINLP

50+阅读 · 2019年8月29日

论文浅尝 | 用图网络做小样本学习

论文浅尝 | 用图网络做小样本学习

开放知识图谱

66+阅读 · 2018年6月30日

推荐 | 掌握这12条经验，对理解机器学习至关重要！（可下载PDF）

推荐 | 掌握这12条经验，对理解机器学习至关重要！（可下载PDF）

机器学习算法与Python学习

11+阅读 · 2018年6月29日

相关基金

基于高维短序列生物数据的系统重构研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于蒙特卡洛的QCD求和规则在强子物理中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于小鼠胚胎干细胞研究DNA羟甲基化降噪算法及其去甲基化相关调控机制

国家自然科学基金

0+阅读 · 2012年12月31日

仅基于RNA-Seq数据拼装可变剪接转录组的计算方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

群体三维运动轨迹提取技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于运动特征的数字几何处理算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于特征结构关系的目标分类研究

国家自然科学基金

1+阅读 · 2012年12月31日

蛋白质三维拼装基元

国家自然科学基金

1+阅读 · 2011年12月31日

基于计算机视觉的鞘翅目储粮害虫检测与分类识别研究

国家自然科学基金

0+阅读 · 2008年12月31日

智能化地质统计学矿产资源储量计算方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Demonstration of Superconducting Optoelectronic Single-Photon Synapses

Arxiv

0+阅读 · 2022年4月20日

Estimation of the Shapley value by ergodic sampling

Estimation of the Shapley value by ergodic sampling

Arxiv

0+阅读 · 2022年4月19日

Radio Galaxy Zoo: Using semi-supervised learning to leverage large unlabelled data-sets for radio galaxy classification under data-set shift

Arxiv

0+阅读 · 2022年4月19日

Separating Sessions Smoothly

Arxiv

0+阅读 · 2022年4月18日

Unveiling User Behavior on Summit Login Nodes as a User

Unveiling User Behavior on Summit Login Nodes as a User

Arxiv

0+阅读 · 2022年4月18日

Sparsifying the Update Step in Graph Neural Networks

Arxiv

0+阅读 · 2022年4月15日

On the dimensional indeterminacy of one-wave factor analysis under causal effects

Arxiv

0+阅读 · 2022年4月15日

On the Importance of Firth Bias Reduction in Few-Shot Classification

Arxiv

0+阅读 · 2022年4月14日

Fine-Grained Neural Network Explanation by Identifying Input Features with Predictive Information

Arxiv

10+阅读 · 2021年10月4日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员