什么是正态分布?
正态分布(Normal distribution)概念是由德国的数学家和天文学家棣莫弗(Abraham de Moivre)于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学研究,故正态分布又叫高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
正态分布的主要特征
- 集中性:正态曲线的高峰位于正中央,即均数所在的位置。
- 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
- 均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
- 正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。
- u变换:为了便于描述和应用,常将正态变量作数据转换。
为什么要进行正态性检验?
正态性检验主要用于判断连续性变量是否服从或近似服从正态分布。因为很多常见的统计学方法都要求数据满足正态性,如常见的t检验、方差分析、Person相关等。在考虑采用这些检验方法时,需要对数据进行正态性检验。如果数据不服从正态分布,直接采用t检验、方差分析等参数检验的方法,有可能导致统计效能下降和假阴性风险增加。
正态性检验需要注意的几个问题:
4.1 数据在我电脑里,做不做正态性检验,审稿人又不知道。估计这么想的人也不少,首先不说科研诚信的问题,就算你在文章里写明已做正态性检验,有的审稿专家一看,就知道你做没做。难道这些人有特异功能?这倒没有,其实也不用。大量数据模拟显示,如果一组数据的标准差与均数接近,甚至是大于均数,那么这组数据很有可能不服从正态分布。这就是一些统计背景的专家看你的统计结果,就能判断你的数据符不符合正态分布的秘诀,是不是感觉又学了一手。
4.2 样本量足够大,是不是可以默认数据满足正态性?持这种观点的人不在少数,其实这种认识是不对的,这种观点的来源是对中心极限定理的误读,中心极限定理指的是无论一组数据的分布如何,是正态分布也好,不是正态分布也好,从这组数据中多次抽样,然后计算每个样本的统计量(如均值),当抽样的次数足够大的时候,这些样本的统计量(如均值)服从近似正态分布。而非一组数据的数特别多,这组数据就符合正态分布。
4.3 当进行两组及多组间的比较,需要分组检验正态性,而不是合并进行!只要其中一组不满足正态性,就判断该变量不符合正态分布。
4.4 需要注意的是,当数据的样本量较大时,正态性检验可能会比较敏感,更容易提示数据不符合正态分布,这时候,我们一般推荐图示法(如直方图、QQ图等)来判断数据的正态性。在直方图中,只要数据呈现钟型分布(中间高,两端逐渐下降,左右两侧呈现对称或近似对称),可判断数据符合正态分布或近似正态分布,可以选择参数检验的方法(如t检验、方差分析)。在QQ图中,数据点和理论直线基本重合,可认为数据符合正态性。可能会有人提出疑问:图示法有些主观,有时候不好判断。当不太确定的时候,咨询统计专家不失为一种明智的做法。
数据不满足正态性检验,有哪些处理方法?
估计很多人应该对t检验、方差分析比较熟悉,但当数据不服从正态分布的时候,就会慌神、手足无措,其实大可务必。如果数据不满足正态分布,我们也有对应的解决方法,一种是对数据进行转换(如对数转换等),使转换后的数据满足正态分布,继而采用参数检验的方法,如t检验、方差分析等。
第二种是直接用非参数检验的方法,如两组独立样本选择Mann-Whitney U test,三组及三组以上选择Kruskal-Wallis test。
我的建议是如果数据不满足正态分布,直接选用非参数检验的方法。
SPSS实战
常见的正态性检验有Kolmogorov-Smirnov检验(即柯尔莫戈洛夫-斯米诺夫检验,简称KS检验)和Shapiro-Wilk检验(即夏皮-威尔克检验,简称SW检验),当检验结果的p值小于0.05,则认为数据不满足正态性。
查看数据集:
共四个变量
sex性别,分类变量, 编码:1男 0女
age 年龄,数值变量
bmi体质指数,数值变量
disease 疾病状态,分类变量,编码:1患病 0未患病
分析-描述统计-探索,打开探索对话框。
disease进入因子列表框,age进入因变量列表,然后点击统计模块,在统计对话框中,勾选描述和离群值,点继续;然后点击图模块,勾选因子级别并置、直方图、含检验的正太图,点继续,最后点确定。更直观的操作步骤如图所示。
结果:
正态性检验结果如何看
当数据量≤50时,倾向于以S-W检验结果为准;
当数据里>50时,倾向于以K-S检验结果为准;
当数据量>5000时,SPSS只会显示K-S检验结果。
本例中,因为SPSS软件使用的是中文版本,结果解读如下:
柯尔莫戈洛夫-斯米诺夫:即KS检验,适用条件为样本量>50。本例中,我们比较病人和健康人的年龄差异,故需要分别看这两组的年龄分布情况,上表显示,两组的样本量(可参考自由度那一列数值)均大于50,故以KS检验结果为准,两组检验的p值(即显著性那一列)均大于0.05,说明这两组年龄均符合正态分布,故认为年龄满足正态性,故选择t检验进行组间比较。
参考资料
医学统计学. 颜虹. 人民卫生出版社
Medcalc统计分析方法及应用. 李志辉. 中国工信出版集团 & 电子工业出版社
百度百科. 正态分布
spss统计分析. 正态性检验方法 —— K-S检验和S-W检验的区别
临床流行病学和循证医学. 正态性检验的几个知识点
医学方. 正态性检验的R语言实现-图示法