方差分析模型是基础统计学中一种非常常见的统计模型,在临床试验、生产实践和社会生活中都有着广泛的用途。方差分析的基本思想是变异分解,它是将数据的总平方和和总自由度分解为研究因素的部分和随机的部分,然后借助F检验来进行统计决策。有心的小伙伴知道,在非均衡设计的方差分析中,SPSS和SAS等统计软件提供了四种类型的平方和。通常来说,方差分析中平方和的计算公式是固定的,如组间平方和计算公式为:

一个研究因素的平方和应该只有一种才对,为什么非均衡设计会有四种呢?当前国内的教材主要从一般线性模型的角度来解释四种类型平方和,这种解释十分抽象而不易理解,本文试图从均值的角度对四种类型平方和进行解释,为您揭开四种类型平方和背后的神秘面纱。
文章将包括以下四个部分:首先介绍方差分析的两种设计类型:均衡设计和非均衡设计;其次,我们引入一个例子来说明,非均衡的研究设计会出现什么问题;进而,我们介绍解决非均衡设计数据时的一种均值——未加权均值,并介绍以此为基础上的Ⅰ型、Ⅱ型、Ⅲ型和Ⅳ型平方和以及相互之间的关系;最后,文章介绍了如何在四种类型平方和之间进行选择。
方差分析中,均衡设计是指研究因素各水平的所有可能组合都有相等数量的观测数据,非均衡设计则是指研究因素各水平的所有可能组合有数量不等的观测数据。这里以两因素析因设计为例来做具体解释。
我们想调查饮食与锻炼两个因素对降低胆固醇的效果,因此设计了如下一个试验。研究设计时,饮食因素分了两个水平:高脂饮食和低脂饮食。锻炼因素也分了两个水平:不锻炼和适度锻炼。显然在本研究中,两个研究因素各水平的所有可能组合数为2*2=4种,即高脂饮食不锻炼、高脂饮食适度锻炼、低脂饮食不锻炼、低脂饮食适度锻炼。如果四种组合下的样本量都相同,则为均衡设计,否则为非均衡设计。如表1和表2所示,表格中的数字为各种组合下样本量,显然表1为均衡设计,表2为非均衡设计。
在了解什么是非均衡设计之后,我们再来看一下非均衡设计存在哪些问题?这里先抛出结论——非均衡设计会引起混淆。这是为什么呢?
为方便理解,我们还是先看一下均衡设计条件下的情况,如表3所示。在这个均衡设计的例子中,每种组合下均有3个样本观测值。现在为了评价饮食对降低胆固醇的效应,我们可以分别计算低脂饮食组和高脂饮食组的胆固醇下降的均值,二者的差值应当是饮食对降低胆固醇的效应值,很显然这个值为25-11=14。注意到这个均衡设计中,锻炼因素在低脂饮食组和高脂饮食组组间的频数分布是一致的,也就是说无论是高脂饮食组还是低脂饮食组,均有一半人进行适度锻炼,另一半人不锻炼。这就决定了我们在计算饮食的效应值时,就可以不考虑锻炼因素,同样在计算锻炼的效应值时,可以不考虑饮食的因素。用维恩图表示两个效应之间的关系,如图1所示,饮食和锻炼两个因素效应之间没有重叠,互不相关。
现在我们来看一个极端的情况,数据见表4。这个例子之所以极端主要在于,“低脂饮食不锻炼”和“高脂饮食适度锻炼”两种组合下都没有受试对象,显然这是一个非均衡设计。在这个例子中,低脂饮食组胆固醇同样平均下降25个单位,高脂饮食组为11个单位,二者的差值为25-11=14。同样的计算方法,我们能把14称为饮食的效应值吗?答案是否定的,因为在这个例子中,饮食和锻炼的效应是完全混在一起的:低脂饮食组的每个受试者都处于适度锻炼状态,而高脂饮食组的每个受试者都处于不锻炼状态。我们无法知道,两组之间胆固醇降低的差异是由于饮食还是锻炼引起的,低脂饮食组胆固醇降低更多可能完全是因为低脂饮食,也可能完全因为适度锻炼,也可能二者兼有。在评价锻炼的效应时,存在同样的问题。用维恩图来表示这个例子中两个因素的效应(见图2),二者的效应应该完全重叠。
上面的例子比较极端,这里我们再看一个更常见的情况,如表5所示。在这个例子中,“低脂饮食不锻炼”以及“高脂饮食适度锻炼”均有1个受试对象,低脂饮食和高脂饮食胆固醇下降水平仍然分别为25和11。在这个非均衡设计中,我们仍然不能用25-11=14作为饮食的效应值(除非是无偏样本),因为我们注意到低脂条件下83.33%的受试者进行了适度锻炼,而高脂条件下只有16.67%的受试者进行了适度锻炼。假设适度锻炼和低脂饮食对降低胆固醇均有显著作用,那么在该研究设计中,由于低脂饮食组适度锻炼占比更大,那么低脂饮食组计算的胆固醇下降均值应该更多,而高脂饮食组不锻炼占比更大,因此高脂饮食组计算的均值应该偏小。这就导致我们在计算均值还是均值差求得的效应值,均混入了锻炼因素的效应,因此,在这个设计中,饮食和锻炼的效应没有完全混在一起,但存在部分混淆。维恩图3展示了两个因素效应之间的关系:饮食和锻炼的一部分效应是混合在一起的,如图中面积3部分,面积1是饮食的“净效应”,面积2是锻炼的“净效应”。
这个例子清晰的展示了:当各个组合下样本量不相等会引起的一个问题——研究因素之间的效应会出现混淆。之所以会出现混淆,正是因为不等样本量引起的,不等样本量引起组间频数分布不同,导致的行变量和列变量之间产生了相关性——进而无法区分一部分或全部效应来自行变量还是列变量。
如果基于上述均值计算平方和来评价饮食因素的效应,我们将得到上述维恩图中的面积1+3,也就是说这种方法将饮食和锻炼之间一部分混淆的效应分配给了饮食因素。非均衡设计中,为评价饮食的效应,正确的方法应该是计算维恩图中的面积1,评价锻炼的效应时,应该计算面积2。为了计算图中的面积1和2,就不能采用上述的均值计算方法。因此,统计学家提出了未加权均值(上述均值称为加权均值),并在此基础上计算平方和来估计上图中面积1和2。限于篇幅,这里不给出未加权均值的计算公式,只是不加证明的给出结论:加权均值和未加权均值与四种类型平方和密切相关,所有研究因素按照未加权均值计算的平方和就是Ⅲ型和Ⅳ型平方和(实际计算平方和时,还用到了调和平均值。);一部分研究因素按照未加权均值计算平方和,另一部分研究因素按照加权均值计算平方和就是Ⅰ型、Ⅱ型平方和。
四种类型平方和之间的区别主要在于如何分配因素之间效应的混淆部分,即上图中的面积3。两因素析因设计中,除了两个研究因素之间的主效应,研究因素之间往往还存在交互效应,主效应和交互效应之间往往也有重叠。这里以维恩图来完整地表示主效应与交互效应之间、以及四种类型平方和之间的关系(图4):
上述维恩图中,长方形面积表示总平方和,面积8表示误差平方和,剩下三个圆形围成的面积表示饮食、锻炼、饮食和锻炼交互项的平方和,可以看到,目前三个圆形之间存在重叠(如果是均衡设计,三个圆形之间将没有重叠)。正是因为对重叠部分分配不同,才形成了四种类型的平方和。当按照饮食、锻炼、交互项依次将研究因素纳入模型时,四种类型平方和分配情况如下:
当按照锻炼、饮食、交互项依次将研究因素纳入模型时,四种类型平方和分配情况如下:
比较两个表格后,四种类型平方和之间的关系就很清楚了:Ⅲ型平方和计算的是研究因素的“净平方和”(采用未加权均值,控制了其他研究因素),对于研究因素之间混淆的部分没有计算在内,因此称为部分平方和。Ⅰ型平方和与研究因素进入模型的顺序有关,先进入模型的研究因素,会将该研究因素与后续研究因素之间混淆的平方和分配给自己(使用加权均值),最后进入模型的研究因素只分配到“净平方和”(使用未加权均值计算而来),因此Ⅰ型平方和称为顺序平方和。Ⅱ型平方和是将研究因素主效应之间混淆的平方和忽略不计(未加权均值),而将研究因素主效应与交互效应之间混淆的平方和分配给主效应(加权均值)。表格中Ⅲ型和Ⅳ型平方和结果相同,通常来说二者的结果是一致的,但当两个因素某一组合下无样本观测数据时,二者有所不同。
从维恩图中还可以发现,在非均衡设计中,由于Ⅰ型平方和将因素之间混淆的部分分配给某个因素,因此所有平方和相加的结果将等于总平方和,而其他三种类型平方和并未计算一部分混淆的平方和,因此相加的结果常常不等于总平方和。此外,还需要说明的是,均衡设计中,三个圆圈之间没有重叠,四种类型平方和是相等的。
四种类型平方和之间应该如何选择呢?看到这里也许你会不假思索的选择Ⅲ型平方和。因为只有Ⅲ型平方和计算的是研究因素的“净效应”(不是全部效应,有一部分效应和其他研究因素混合在一起无法区分),而Ⅰ型和Ⅱ型平方和中都混杂有其他研究因素的效应。你这样选择也因为统计软件默认给出的就是Ⅲ型平方和,统计教材在介绍四种类型平方和时,大多推荐使用Ⅲ型平方和。其实究竟该选择那种平方和,最终还是取决于你的研究设计和研究目的。Ⅰ型平方和有两个使用场景:①如果你的研究设计是一个裂区设计,研究因素之间存在主次之分,那么从理论上可以认为,主次研究因素之间混淆的平方和应该分配给主因素,因此可以选择Ⅰ型平方和;②如果不等样本量确实是随机抽样造成的,或者说总体中的分布确实如此,例如总体中确实是低脂饮食者更爱运动,高脂饮食者不运动,这时也应该使用Ⅰ平方和,因为此时计算的才是真正的效应。Ⅱ型平方和由于将研究因素与交互项之间混淆的平方和分配给了自己,因此常用在无交互作用的方差分析模型中。Ⅳ型平方和的选择最为简单,当两个研究因素某一组合下完全没有观测数据时,使用Ⅳ型平方和。
还需要明确的一点是,选择那种平方和都应当在合理的研究设计框架之下。例如临床试验中,某种药物组合下由于不良反应过多,导致该组合下受试者大量退出,由此造成的非均衡数据不是统计方法所能解决的,过高的退出率破坏了受试对象随机分配这一前提,在这种情况下,再多的统计调整也无法弥补这一缺陷。