上一期介绍了内参基因筛选和normalization方法的选择,本期讨论生物学重复及技术学重复。
生物学重复
树有粗细长短,人有高矮胖瘦,这是生物群体中个体差异的真实写照。受各种限制条件,生物学实验不可能针对整个群体,而只能通过取样过程,以部分来反映整体。因此,样本是否具有代表性,会直接决定最终结论是否具有普适性或者无偏倚。样本的数量、地域性(空间)和节律性(时间)等是影响其代表性的重要因素,尤其在动物实验中,样本数量更是一个关键指标。
之前的推送文章中,详细的讨论了导致样本多样性的空间异质性和时间异质性。总的来说,研究目的决定了生物学重复的来源层次,如小鼠肝脏组织的基因表达水平变化,就可能需要10只小鼠,在每只小鼠肝脏的5个不同部位各取样一次,那么每个组就是50个样本,包含了个体和组织两个生物学重复的层次。处理前后表达水平变化幅度及测量误差决定了生物学重复的数量,建议在实验设计时通过power analysis进行预估。
当可用于实验的对象数量不多时,有时由于生物变异程度较大,导致得不到显著的统计学差异。Fig. 1展示的是激活素A对小鼠胚胎干细胞中Brach表达的影响,一共三个生物学重复[1]。如果以此数据进行t检验分析,会发现激活素A对Brach表达影响无显著的统计学差异,无论使用浓度高低(Fig. 2柱形图中黑色方块)。究其原因有两个,一是Control 3的Brach表达出现了明显的变异(红框所示);二是在2号个体中,3 ng/ml激活素A的作用导致Brach表达上调的幅度明显小于1号和3号个体(绿框所示)。
Figure 1. Activin A对小鼠ES cell中Brach表达的影响
对于这种由于生物学重复数量较少导致变异程度大的实验,建议使用一些数据转换方法来尽可能减少outlier及背景水平波动的影响,如对数转换 + mean centering + autoscaling[1]。Fig. 2展示了数据转换过程,最后可以得到显著的统计学结果(白色柱形图部分)。要注意的是,采用的数据转换方法不能改变倍数差异。
Figure 2. 不同的数据转换过程所产生的影响
在方法中要备注生物学重复的层次水平描述和每个水平上的数量,同时如采用数据转换分析方法,同样需要加以描述。
技术学重复
生物学重复是为了展示真实存在的生物个体差异,而技术学重复则是为了展示测量同一值时的系统误差。一般默认同一样本至少要做三个技术学重复,少于三个时得到的mean Cq会较大程度的偏离真实值,同时也无从判断outlier。qPCR软件一般都会报告Cq值的标准差SD,这对数据统计分析具有重要提示意义。统计上讲,采用简化模型分析可知区分两倍表达量差异需要SD<0.25 cycle,而降低SD最直接有效的方式就是增加技术学重复的数量。
与生物学重复一样,技术学重复也有不同的层次。在基因表达实验中,反应过程除了最后的qPCR还有之前的反转录,如要降低反转录过程中的变异程度,也可以设置技术学重复。如Fig. 3所示,有2 x 3个生物学重复和3 x 3个技术学重复,共54个反应来完成整个实验。在方法中同样要备注技术学重复的层次描述及每个水平上的数量。
Figure 3. 一个2x3x3x3的RT-qPCR实验设计[2]
下一期讨论重复性的两个指标——reproducibility和repeatability。
参考文献
1. Willems, Erik, Luc Leyns, and JoVandesompele. “Standardization of real-time PCR gene expression data fromindependent biological replicates.” Analytical Biochemistry 379.1 (2008):127-129.
2. Kitchen, Robert R., Mikael Kubista, andAles Tichopad. “Statistical aspects of quantitative real-time PCRexperiment design.” Methods 50.4 (2010): 231-236.