1. 95%置信区间不能量化变异性。95%置信区间是一个范围,我们有95%的把握说这个范围包含了总体的真实均值。注意,不是说它包含了95%的值。
如上图所示,是从同一总体中抽取样本量大小不同的3个数据集,对于左侧的小样本量而言,95%置信区间与数据范围相似,对于右侧的大样本量而言,样本中的值只有很小一部分位于95%置信区间内。这是毫无疑问的。95%置信区间定义了一个范围,这个范围包含总体真实均值的可能性为95%。大样本量要比小样本量推断出来的总体真实均值更精确,因此,大样本量计算得到的置信区间非常窄。
不要误以为95%置信区间是包含了95%的值。
2. 如何理解95%?
确切地讲,95%置信区间包含总体真实均值的可能性为95%;而不能说总体真实均值落在95%置信区间内的可能性为95%,后者的说法是不正确的。
那么这两种说法有什么区别呢?为什么后一种说法是不正确地呢?
总体真实均值是一个固定的值,即使重复试验,总体真实均值也不会改变。他要么在那个区间,要么不在那个区间,没有其他可能性。所以说总体真实均值在某个范围内的可能性是95%的说法严格来讲是不正确地。
相反,计算得到的95%置信区间取决于我们碰巧收集到的数据。如果我们重复试验的话,计算得到的95%置信区间几乎是不同的。假设重复了100次试验,那我们期望的是95次的置信区间包含了总体真实均值,5次的置信区间不包含总体真实均值,只能说有个概率性。因此,可以说95%置信区间有95%的可能性包含了总体真实均值。但我们永远不知道某次试验的置信区间是否真正地包含了总体真实均值。
3. 95%置信区间没什么特别之处。
传统意义上,人们喜欢计算95%置信区间,当然我们可以计算任何所需的置信度的置信区间。当我们计算不同置信度的置信区间时会发现,99%置信区间通常会比95%置信区间更宽,而90%置信区间比95%置信区间更窄。这是完全合理的,因为如果区间包含真实均值,那这个区间肯定比较宽,如果要确保100%包含,那他必须包含所有可能的值,因此肯定非常宽。如果我们只期望这个区间有50%的概率包含总体真实均值,那这个区间可以很窄。