P值争议新一季：我们是否需要一个统一的P值阈值？

会员服务 ·

P值争议新一季：我们是否需要一个统一的P值阈值？

2017 年 10 月 29 日 Nature自然科研 Nature自然科研

原文以‘One-size-fits-all’ threshold for P values under fire为标题

发布在2017年9月19日的《自然》新闻上

原文作者：Dalmeet Singh Chawla

一部分科学家反对进一步提高统计显著性发现的认定标准。

何为“显著性”发现？研究人员对此意见不一。今年7月，72名研究人员将目标锁定P值，呼吁降低这个常用却饱受诟病的统计数值的阈值。9月18日，88名研究人员回应表示，更好的解决方式是让学者证明他们使用某个特定P值的合理性，而不是随意采用一个阈值。

几十年来，P值一直被用于衡量显著性，但是学者越来越意识到它的缺陷以及它被滥用的可能。2015年，一本心理学期刊全面禁止使用P值。

P值被用来检验“零假设”，一个假定被检测的现象之间不存在任何关联的默认状态。P值越小，结果为随机产生的可能性越小——假定该零假设是真的。当P值小于0.05时，结果通常被认为“具有统计显著性”——零假设被推翻。

7月，一些研究人员（包括积极推动提高研究结果再现性的人）在PsyArXiv预印本平台发表了一篇评论文章（之后发表在《自然-人类行为》上），认为该阈值应该降低至0.005，以防止假阳性出现在社会科学和生物医学文献中。

但是，该文章的第一作者、荷兰爱因霍芬科技大学的实验心理学家Daniel Lakens说：“在所有科学领域都推行一个阈值太极端了。”“当你让大家解释自己的研究时，科学就会进步，”他补充道。

意外后果

一些研究人员担心降低P值阈值会加剧“发表偏倚”（包含阴性结果的研究得不到发表）。更严格的P值阈值也有可能导致更多的假阴性——称一种实际存在的现象不存在。“在你执行任何一条政策前，你必须确定不会产生任何预期之外的负面结果，”Lakens说。

他和同事提出，研究人员应该在收集数据前，选择他们实验的P值阈值，并说明理由。阈值的大小将基于研究发现的潜在影响力以及它的惊人程度等因素。这样的阈值可以通过注册报告（registered reports）加以评估。注册报告指这样一类科学文章，在开展实验前，报告中的实验方法和拟议分析要先经过同行评议。

“我认为没有一个研究人员会主动说他们需要一个更严格的证据阈值，”德州农工大学的统计学家Valen Johnson提出反对意见，他是上述7月发表的文章的其中一位作者。而另一位作者、南加州大学的行为经济学家Daniel Benjamin则表示，许多科学家都倾向于宽待自己的研究。

但是Lakens认为通过研究人员提供的理由和解释，就能看清任何企图操控P值的行为。“至少所有人都认为改变0.05这未经仔细考量的数值是件好事，”他说。

美国统计协会的执行总监Ronald Wasserstein指出，为证据标准设定特定阈值“对科学无益”。去年，该协会发布了关于使用P值的明确建议，这在其177年的历史上还是第一次。

Wasserstein说他还没有加入目前关于P值阈值的争论，但是表示“我们应该接受不止存在一个‘魔法’数字”。ⓝ

Nature|doi:10.1038/nature.2017.22625

投票：你觉得P值阈值应该降低吗？

点击“阅读原文”阅读英文原文

相关文章

7月发表在预印本网站PsyArXiv上的一篇文稿引起了轰动。该论文提出，社会科学和生物医学的P值阈值应当被调低至0.005。

P<0.005让你害怕？粒子物理学家投来嘲讽的眼神

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至朋友圈，如需转载，请邮件Chinapress@nature.com。未经授权的翻译是侵权行为，版权方将保留追究法律责任的权利。

登录查看更多

相关内容

阈值

关注 0

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

专知会员服务

17+阅读 · 2020年7月6日

《为读博入坑开个好头》节省时间、减轻压力、稳步前进

专知会员服务

61+阅读 · 2020年7月1日

如何写论文？这份《科研论文撰写策略》看下

专知会员服务

147+阅读 · 2020年6月15日

【KDD2020】从用户行为中挖掘隐含的相关性反馈，用于Web问题的回答

专知会员服务

35+阅读 · 2020年6月13日

【2020最新干货综述】基于知识图谱嵌入的链接预测综述， 43页pdf

专知会员服务

167+阅读 · 2020年5月24日

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

27+阅读 · 2020年3月18日

【普林斯顿大学Avi Wigderson教授新书】《数学与计算：技术和科学的革命性理论》340页pdf

专知会员服务

78+阅读 · 2020年2月14日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【CCF优秀博士学位论文奖-2019初评】面向健康的非干预式体征感知关键技术研究，西北工业大学王天本

专知会员服务

29+阅读 · 2019年11月8日

GAN 为什么需要如此多的噪声？

AI科技评论

14+阅读 · 2020年3月17日

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

DBAplus社群

9+阅读 · 2019年9月4日

物理学家终于找到了一种拯救薛定谔猫的方法

中科院物理所

8+阅读 · 2019年6月10日

Science揭露：PD-1效果好不好，竟然与这一点有关！

生物探索

3+阅读 · 2019年5月6日

外泌体相比干细胞的优势是什么？

外泌体之家

43+阅读 · 2018年11月15日

生姜外泌体miRNAs调节肠道菌群缓解肠道炎症|Cell Host & Microbe

外泌体之家

4+阅读 · 2018年11月1日

人间充质干细胞来源的外泌体通过逆转胰岛素抵抗和缓解β细胞损伤从而减轻II型糖尿病

外泌体之家

8+阅读 · 2018年7月30日

干细胞外泌体的市场分析

外泌体之家

8+阅读 · 2017年12月19日

讨论 | 你是否遇到过你完全不能理解的机器学习概念？

AI科技评论

3+阅读 · 2017年11月25日

王者荣耀有毒，是因为玩游戏有罪吗？这里有两位父亲的自白

中国企业家杂志

3+阅读 · 2017年7月6日

Attributed Network Embedding for Incomplete Structure Information

Arxiv

3+阅读 · 2018年11月28日

TTMF: A Triple Trustworthiness Measurement Frame for Knowledge Graphs

Arxiv

8+阅读 · 2018年9月25日

Incorporating Literals into Knowledge Graph Embeddings

Arxiv

7+阅读 · 2018年5月25日

Incorporating Glosses into Neural Word Sense Disambiguation

Arxiv

4+阅读 · 2018年5月21日

Harvesting Paragraph-Level Question-Answer Pairs from Wikipedia

Arxiv

3+阅读 · 2018年5月15日

Recurrent Autoregressive Networks for Online Multi-Object Tracking

Arxiv

9+阅读 · 2018年3月4日

Harmonious Attention Network for Person Re-Identification

Arxiv

7+阅读 · 2018年2月22日

CryptoRec: Secure Recommendations as a Service

Arxiv

6+阅读 · 2018年2月7日

Latent nested nonparametric priors

Arxiv

4+阅读 · 2018年1月15日

Multilingual Topic Models

Arxiv

3+阅读 · 2017年12月18日

VIP会员