白话统计学05—标准化和z分布(学习分享)

引言

上一小节中,我们重温了正态分布曲线,讨论了它的基本性质。在这一小节中,我们就来看看如何利用数据的正态分布这一属性。

一、情景引入

设想在一次期末考试中,你的生物学课程成绩为65分,满分是100分,统计学课程的成绩为42分,满分是200分。哪门课程的分数“更好”呢?这个问题表面看上去很容易回答,其实则不然。首先,必须界定一个标准,“更好”究竟意味着什么。如果“更好”意味着考试中正确回答的比例,那么显然生物学考得更好。可统计学考试比生物学考试难得多,那么仅凭正确回答的比例来判断表现优劣是否公平呢?一种更公平的做法是看与班级其他同学相比,你做得如何。要进行这种比较,首先的对数据进行标准化,即把它们对应的数据处理成同一水平。该怎样进行标准化呢?

只有知道某个分布的均值和标准差之后,才能对其进行标准化,进而比较两者的优劣。假设生物学考试的均值是60,标准差是10。这意味着你的得分比均值高5分,也就是说高出均值0.5个标准差。进一步假设统计学考试的均值是37,标准差是5,你的得分还是比均值高5分,但这代表了高出均值整整1个标准差。有了这些统计值之后,你会认为哪门课考得更好呢?为了全面理解这一问题的答案,我们需要更加详细地考察标准化和z分数。

二、标准化与z分数详解

正如前面的例子所见,用不同量表测量的两个变量的取值往往难以比较。例子中,生物学考试的测量单位是1~100,统计学考试的测量单位是1~200。如果变量具有不同的测量单位,那么比较原始取值( 即这些考试得分65和42)几乎毫无意义。我们需要采用某种方法将两个考试置于同一测量单位之下,换言之,即对其进行标准化。统计学中最常用的一种标准化方法是将原始取值转换为标准差单位,或z分数。这种方法的公式非常简单,如表5-1所示:

表5一1中的公式所示,将个别原始取值减去均值后再除以标准差,即完成了对一个取值的标准化(即得到z分数)。如果原始取值大于均值,则z分数为正;如果原始取值小于均值,则z分数为负。如果整个符合正态分布的取值都经标准化后:标准化分布的平均z分数(即均值)必为0,这一分布的标准差必为1.0,形成标准化正态分布。

三、Z分数的运用

1.判定个别取值相对于分布中其他取值的大小。

例如,一个学生在一门考试中得到了-1.5的z分数,那么这个学生的得分比考试成绩均值低1.5倍标准差。另一个学生得到了0.29的z分数,我就会知道这个学生的得分比考试成绩均值高0.29个标准差单位。但仅通过Z分数,我们仅能知道相对的情况,并不能知道具体情况是怎样,比如以上z=0.29的学生,他参加的这门考试难不难,他到底做对了多少题,参加考试的有多少人等等。也许在不同的情形下,得到的具体结果就不一样了。

2.确定分布中某百分位数对应的原始取值。

z分数的一种重要特征是:z分数的特性常被用于确定正态分布数据集合的百分位数取值(percentile scores)。如果取值服从正态分布,则可以利用z分数找出哪个取值位于分布的第90百分位(即分布中10%的取值在其之上,90%的取值在其之下的那个原始取值)。之所以能够做到这一点,是因为统计学家们已经帮我们计算出来了取值落入均值与任意z分数(即高于或低于均值的标准差单位数)之间的确切比例。其实,如果你有足够的数学背景知识,你也可以在原始的正态分布中通过微积分的方法计算出来,不过这好像有点浪费人力物力了。

图5-1刻画的就是标准正态分布,其给出了正态分布取值落入不同Z分数值之间的比例(概率):如z∈(0,1)的比例为34.13%,而z>3(即原始样本数据大于3倍标准差)的比例为0.5-0.3413-0.1359-0.0215=0.0013=0.13%。

例1:假设学术能力评估测试(SAT) 中的数学成绩服从正态分布,均值为517,标准差为100。已知这一分布中第50百分位数的取值是517,如果想知道第90百分位数的取值,就要采取下列简单步骤。

Step 1:利用统计学教科书中的z分数表,找到第90个百分位数代表的z值,附录A中能找到的最接近0. 90的值是0. 889 7,该值位于1.2和0.08的交叉位置。于是在这个例子中,第90百分位数对应的z分数为1.28,即z=1.28。

Step 2:将z分数转换为原始测量单位。平均分为517,标准差为100。公式如下:

       X=μ+(z)(σ)= 517+1.28 x 1.28 = 645

这个方程中,X是原始取值,μ是分布的平均取值,z是已经得到的z分数,σ是分布的标准差。

Step 3:对结果加以表述并回答初始问题。此次学术能力评估测试中数学成绩分布的第90百分位数的取值是645。图5-2描绘了这一z分数、百分位数取值以及相应的原始取值。

注意:正态分布曲线下对应的面积指的是(-∞,z)曲线在的面积。故这里说的90%面积指的是z=1.28左侧的面积,而10%指的是z=1.28右侧的面积。因为标准整体分布关于z=0对称,故均值μ到z=1.28的面积为(50%-10%)=40%。

3.将已知的原始取值转换为百分位数取值。

例如,在以上分布中有一个学生在学术能力评估测试中数学部分得了425分。如果我们想知道分布中比425更高或更低的比例,应该怎么计算呢?转换方法如下:

Step 1:首先将原始取值转换为z分数。本例中,原始取值是425 (X=425)。只需将均值(517) 和标准差(100) 的数值代人z分数公式,即可完成转换。

z = (425-517)/100 =-0.92

step 2:根据z分数,查阅附录A,找到正态分布中z分数低于-0.92的比例。注意到本例处理的是一个负的z分数,而附录A只列出了正的z分数。但因为正态分布是对称的,所以无论z分数是正还是负,分布中落人z分数以外的尾部的比例是相同的。由附录A中的z分数表可知,正态分布中82.12%的取值z分数小于0.92 (即在其左侧),从而17.88%的取值z分数大于0.92。这意味着分布中有17.88%的取值z分数小于-0.92。

注:正态分布曲线下对应的面积指的是(-∞,z)曲线在的面积。通过查表,我们只能知道(-∞,0.92)下的面积,故需要利用正态分布左右对称的原理,对其进行简单的数学处理,得到(-∞,-0.92)下的面积。

Step 3:对结果加以表述。如图5-3,-0.92 的z分数对应着原始取值425,该年学生在学术能力评估测试数学成绩分布中的第17.88百分位数是425,有17.88的得分小于425。”

4.计算正态分布的两个原始取值之间的取值比例。

例如,假设你在学术能力评估测试中的数学成绩是417,而你朋友的成绩是567。朋友炫耀道:“哇~,我超出你这么多,我们之间差了有一半的考生吧”。他的话挫伤了你的自尊心,你决定看看他说的究竟对不对。你需要做的是:

step1:先将各个原始取值转换为z分数。

你的z分数是:z = (417-517)/100 = -1.00

你朋友的z分数是:z=(567-517)/100 = 0.5

step 2:根据z分数,从附录A中查找正态分布中位于均值和每个z分数之间的取值比例(或百分比)。注意到本例处理的是一个负的z分数和一个正的z分数。由附录A可知,分布中小于z值1.00的面积是0.8413,小于z值0.50的面积是0.6915。根据z分数和曲线下面积绘制示意图,如图5-4。

Step 3:得出结论:你得老实承认失败,才不至于颜面无存。你对朋友说道:“哈哈,可不止一半考生在学术能力评估测试中的数学成绩在你我之间,而是53.28%”(见图5-4)

5.计算位于正态分布均值同一侧的两个原始取值之间的取值比例。

例如,设想你有另外一个朋友在学术能力评估测试中的数学成绩原始分为617,现在你想确定分数在567~617之间的考生比例。这个算法是不是也很简单呢,这个问题就自己思考一下吧。这里我得提醒各位看官,想要知道z分数对应的百分位数及曲线下面积,除了动动脑袋想一想,最稳妥的方法还是绘制一个示意图,这样结果就一目了然了,可参考图5-5。

小结:

上述例子诠释了z分数的常见用途,既有助于理解整个取值分布,又有助于理解分布中的个别取值。需要注意,只有分布中的数据服从正态分布时,z分数才适用于确定百分位数取值。对于非正态分布的数据,z分数就不再适用。

非正态分布也可以计算百分位数取值,只不过不再需要通过z分数转换罢了,而是先将数据排序,然后找到有一定比例取值在其之下、有一定比例取值在其之上的那个取值。这其实就是第3章中针对一个简单频数分布来确定中位数的方法。

四、将正态分布的结论推导至偏态分布资料,就会犯错

如果分布不是正态分布,则不能通过计算z分数来得出准确的百分位数取值(参见第4小节中关于正态分布重要性的讨论)。

 

 


总结:z分数为解释原始取值与均值之间的关系提供了一种方便的工具。我们可以将z分数解释为标准差单位,也可以根据z分数来计算百分位数,从而利用z分数快速简便地确定分布中一个具体取值与其他取值的相对位置。通过查阅附录A给出的正态分布概率表,我们还可以利用z分数来确定分布中的一个给定取值有多么不同寻常(即随机选取对象时得到如此大小的单个取值的概率)。下一小节将利用关于均值、标准差、正态分布、z分数和概率的信息来解释统计学中重要的概念——标准误。
参考书籍:
1.中国人民大学出版社《白话统计学》第3版   蒂莫西.C.厄丹(Timothy C.Urdan)著,彭志文译
统计与绘图

白话统计学06—标准误(学习分享)

2019-11-30 18:02:46

统计与绘图

白话统计学04—正态分布(学习分享)

2019-11-30 18:04:43

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索