原文以‘One-size-fits-all’ threshold for P values under fire为标题
发布在2017年9月19日的《自然》新闻上
原文作者:Dalmeet Singh Chawla
一部分科学家反对进一步提高统计显著性发现的认定标准。
何为“显著性”发现?研究人员对此意见不一。今年7月,72名研究人员将目标锁定P值,呼吁降低这个常用却饱受诟病的统计数值的阈值。9月18日,88名研究人员回应表示,更好的解决方式是让学者证明他们使用某个特定P值的合理性,而不是随意采用一个阈值。
几十年来,P值一直被用于衡量显著性,但是学者越来越意识到它的缺陷以及它被滥用的可能。2015年,一本心理学期刊全面禁止使用P值。
P值被用来检验“零假设”,一个假定被检测的现象之间不存在任何关联的默认状态。P值越小,结果为随机产生的可能性越小——假定该零假设是真的。当P值小于0.05时,结果通常被认为“具有统计显著性”——零假设被推翻。
7月,一些研究人员(包括积极推动提高研究结果再现性的人)在PsyArXiv预印本平台发表了一篇评论文章(之后发表在《自然-人类行为》上),认为该阈值应该降低至0.005,以防止假阳性出现在社会科学和生物医学文献中。
但是,该文章的第一作者、荷兰爱因霍芬科技大学的实验心理学家Daniel Lakens说:“在所有科学领域都推行一个阈值太极端了。”“当你让大家解释自己的研究时,科学就会进步,”他补充道。
意外后果
一些研究人员担心降低P值阈值会加剧“发表偏倚”(包含阴性结果的研究得不到发表)。更严格的P值阈值也有可能导致更多的假阴性——称一种实际存在的现象不存在。“在你执行任何一条政策前,你必须确定不会产生任何预期之外的负面结果,”Lakens说。
他和同事提出,研究人员应该在收集数据前,选择他们实验的P值阈值,并说明理由。阈值的大小将基于研究发现的潜在影响力以及它的惊人程度等因素。这样的阈值可以通过注册报告(registered reports)加以评估。注册报告指这样一类科学文章,在开展实验前,报告中的实验方法和拟议分析要先经过同行评议。
“我认为没有一个研究人员会主动说他们需要一个更严格的证据阈值,”德州农工大学的统计学家Valen Johnson提出反对意见,他是上述7月发表的文章的其中一位作者。而另一位作者、南加州大学的行为经济学家Daniel Benjamin则表示,许多科学家都倾向于宽待自己的研究。
但是Lakens认为通过研究人员提供的理由和解释,就能看清任何企图操控P值的行为。“至少所有人都认为改变0.05这未经仔细考量的数值是件好事,”他说。
美国统计协会的执行总监Ronald Wasserstein指出,为证据标准设定特定阈值“对科学无益”。去年,该协会发布了关于使用P值的明确建议,这在其177年的历史上还是第一次。
Wasserstein说他还没有加入目前关于P值阈值的争论,但是表示“我们应该接受不止存在一个‘魔法’数字”。ⓝ
Nature|doi:10.1038/nature.2017.22625
投票:你觉得P值阈值应该降低吗?
点击“阅读原文”阅读英文原文
相关文章
7月发表在预印本网站PsyArXiv上的一篇文稿引起了轰动。该论文提出,社会科学和生物医学的P值阈值应当被调低至0.005。
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件Chinapress@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2017 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved