相信但凡搞科研的,都会跟p值有剪不断理还乱的爱恨情仇。为什么明明看起来差别那么大,一统计,p值还是大于0.05呢?没办法,只能不断地扩大样本量,祈求p值能够降下去。天下苦「p值」久矣,这不,最近全球800多位科学家联署,呼吁学术界停止对于所谓统计学差异的执念。
联署科学家认为,统计学分析经常让科学家们否认那些看起来显而易见的差异。一直以来,科学家们被灌输的观念就是,只要统计学上结果不显著(p>0.05),则表明前提假设无效。
将研究结论的正确与否完全寄托于p值是否小于0.05,仔细想想,好像是有些问题。2016年,美国统计协会就曾发表声明,提醒科学家们不要滥用统计显著性和p值。
联署科学家认为,不应该仅仅因为p值大于阈值(如0.05),就断定没有「差异」或「没有关联」。这些错误和类似的错误在学术界普遍存在。对数百篇研究论文的调查发现,统计上不显著的结果在大约一半的文章中被解释为「没有差异」或「没有影响」。在很多情况下,薄弱的证据有时候会变得可信。联署科学家呼吁停止以传统的二分法的方式使用p值,即以结果是否有统计学差异反驳或支持科学假设。
联署科学家认为,问题出在人类的认知而不是统计上:将结果分成「统计学显著性」和「统计学不显著性」,人们会想当然地以为两者之间有明显的差异。然而,很多情况下并非如此,如p=0.049和p=0.051在统计上被划分为「统计学差异显著」和「统计学差异不显著」,导致完全相反的研究结论,而实际上,二者基本差不多。
不幸的是,科学家和期刊编辑普遍错误地认为,超过统计意义的临界值就足以证明结果是「真实的」。此外,对统计显著性的过分关注也会导致研究人员人为地去选择统计方法和需要分析的数据。
所有的统计学指标,包括p值,在不同批次的研究中一般会有所不同,而且往往达到令人惊讶的程度。事实上,仅仅是随机变化就很容易导致p值的巨大差异。例如,即使研究人员可以进行两次完美的重复研究,每一次都有80%的概率达到p<0.05,偶尔一次p<0.01,另一次p>0.30也没什么奇怪。因此,无论p值是小还是大,都要格外小心。
联署科学家呼吁,学术界必须学会接受不确定性,而不是简单的「是」或「否」。
当报告p值时,应该以合理的精度给出(例如,p=0.021或p=0.13),而不是使用星号或字母等来表示统计显著性。
最后,联署科学家呼吁学术界取消统计显著性。滥用统计意义对科学界造成了很大伤害。p值和其他统计指标都有它们的位置,但现在是统计显著性在学术界消失的时候了。
资料来源:https://www.nature.com/articles/d41586-019-00857-9