罗纳德·菲舍尔(Ronald Fisher)1925 年,英国遗传学家、统计学家罗纳德·菲舍尔(Ronald Fisher)出版《研究者的统计方法》(Statistical Methods for Research Workers)一书。这本书奠定了他现代统计学之父的地位。他在书中着重讲到研究人员应如何将统计检验理论应用于实际数据,以便基于数据得出他们所发现的结论。当使用某个统计假设来做检验时,该检验能够概述数据与其假设的模型之间的兼容性,并生成一个p值。菲舍尔建议,为方便起见,可以考虑将p值设为0.05。对于这一点,他专门论述道:“在判断某个偏差是否应该被认为是显著的时候,将这一阈值作为判断标准是很方便的。”他还建议,p值低于该阈值的结论是可靠的,因此不要把时间花在大于该阈值的统计结论上。菲舍尔的这一建议被越来越多的人所接受,p<0.05逐渐与“统计显著性”画上了等号,成为“显著”的数学定义。到20世纪中叶,研究人员开始称某项结果“高度显著”或“几乎不显著”。“显著”一词变得更像是建议,而不是判断。后来,统计显著性和p值由于标准明确、计算方便逐渐成为衡量科学研究可靠性的重要标准。Nature发文:是时候放弃“统计显著性”了!获800人签名支持今年3月,学者Valentin Amrhein,Sander Greenland和Blake McShane提出,如果没有这个概念可能会更好。他们希望“统计学显著”这个概念应该退出历史舞台,他们的观点得到很多人的支持。他们在《自然》期刊上撰文,要求将“统计显著”这个词从统计学中去掉,此文获得800多位学者的签名支持,其中不乏量化和统计学领域的重要人物。他们的这篇文章名为《科学家们起来反对统计学意义》(Scientists rise up against statistical significance)。标题犹如战斗檄文一样令人振奋。在文章发出不到24小时,就有250多人签名支持,一周之内吸引了超过800名研究人员共同反对。大学里好不容易听懂的统计学,会变成一件没“意义”的事情吗?为什么要放弃统计学显著性的概念?几代人以来,研究人员一直被警告说:统计上不显著的结果并不能“证明”零假设(即假设各组之间没有差异,或者某个处理方法对某些测量结果没有影响)。统计上显著的结果也不能“证明”其他一些假设。这种误解用夸大的观点扭曲了文献,而且导致了一些研究之间的冲突。三位统计学家提出一些建议,让科学家们不至于成为这些误解的牺牲品。首先明确必须停止的事:永远不应该仅仅因为P值大于阈值(如0.05)就得出“没有差异”或“没有关联”的结论;或者,仅仅因为置信区间包含0就得出这样的结论。同时,我们也不应该断定两项研究之间存在冲突,只因为其中一项研究的结果具有统计学意义,而另一项则没有。这些错误浪费了研究工作,误导了政策决策。当区间估计包含严重的风险增加时,得出结论认为统计上不显著的结果显示“无关联”是荒谬的;同样荒谬的是,声称这些结果与先前研究中显示相同观察效果的结果相反。然而,这些常见的实践表明,依赖统计意义上的阈值会误导我们。