在BSA(bulk segregant analysis)的结题报告中,我们经常看到欧几里得距离(Euclidean distance,ED,又称欧氏距离)算法的结果。欧几里得这位大数学家的名字我们都不算陌生,但是欧几里得距离是什么,它又是怎样应用到遗传学研究的领域当中来的呢?
要理解欧几里得距离,我们先要了解欧几里得空间。我们通常所在的空间是三维空间,三维空间任意的点可以被一个三维的坐标定义。而将三维拓展为更高的n维,即得到了n维欧几里得空间。而在n维空间中两个点之间的距离,我们就称之为欧几里得距离。
在具体的应用中,如果一组数据拥有n个相互独立的变量,我们就可以将其置于n维的欧几里得空间中,并应用欧几里得距离来量化两组数据之间的差异。我们都知道,在二维平面上,两点之间的距离计算如下:
那么应用到n维空间中,欧几里得距离的计算也同理,是坐标轴各方向差值的平方和开根号,计算如下:
应用到BSA上,欧式距离可以计算同一个位点上,两个混池之间的遗传距离。根据BSA的原理(BSA专题(一)——BSA性状定位简介),两个极端性状子代混池只在控制性状的QTL及其连锁位点出现差异,所以通过各个位点欧几里得距离的计算,我们可以判断哪些位点更可能是控制对应性状的QTL。计算公式如下:
可以看出,这里将各个位点的SNP抽象成了四维欧氏空间中的一个点,并且对两点之间的距离进行了计算,得到了两点之间的欧氏距离。欧几里得距离最早由Hill等应用于高通量测序的BSA分析中(Hill et al., 2013)。迄今为止,已经有相当多的BSA研究应用欧几里得距离算法作为定位区间挖掘的算法。
实际应用中,我们在BSA的两组混池之间可能会得到数十万甚至上百万个SNP,有的SNP可能实际与性状无关,但因为抽样偏差,导致计算得到的ED值很高,如何能将这些统计异常值排除掉,只留下真正的QTL呢?这里就要用到BSA常用的滑窗计算法。在一个窗口内,对所有位点的ED值进行拟合,这样因为抽样偏差造成的个别点高ED值的峰就会被抹去,但是真正的QTL及其周边相连锁的位点计算出的高ED值会在滑窗拟合后得到保留。
上图是某物种BSA的ED拟合图,图中的每一个散点都是一个SNP位点的ED值,而黑线是滑窗拟合后的ED值。我们可以清晰地看到,每条染色体上都有ED值较高的点,但是经过滑窗拟合后,只有染色体5B上保留了一个很强的峰值信号。这个信号峰的位置即直观地指示了QTL所在的位置。
当然你可能也注意到,对于一个双等位基因的位点(即在群体中,这个位点有且只有2个等位基因,或者说2种碱基类型)来说,ED的取值上限是根号2,但是图中的ED值上限却是2,这是为什么呢?因为在BSA定位区间计算过程中,为了降噪去除掉那些干扰信号,会对ED值进行乘方处理。上图即是使用了ED^2的值进行运算和展示,根据实际降噪结果,会在2-6次方之间浮动。
上述就是欧几里得距离应用于BSA分析的基本原理了,不过在ED之外,还有SNP-index等其他方法,能从不同的角度对BSA数据进行分析,根据实验设计灵活应用,才能够拨开云雾见天日,最终挖掘出我们与性状相关的QTL区间。当然,欧几里得距离作为一种常用的数学计算指标,在除BSA外的其他领域也有相当广泛的应用,但是只要了解其基础原理,其他方面的应用也都是万变不离其宗,可以一以贯之地进行理解。