微生物扩增子测序图表解读(上)

很多小伙伴有过这样的经历,在拿到公司出具的报告之后,仍然一头雾水,几十页的报告内容看着丰富却不知该怎么运用,看似一大堆数据图表却不知如何下手,那么怎样给报告中的数据赋予灵魂让它真正成为对你有帮助的分析呢?让它真正成为对你有帮助的分析呢,今天一文扫除困惑。
 
16s分析结果详解
1. OUT是我们要搞清的一个重要概念,可以说是后续分析的基石
OTU (operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种,相似性小于93%-95%,可以认为属于不同的属。样品中的微生物多样性和不同微生物的丰度都是基于对OTU的分析。
 
有了OTU这个概念之后,就不难理解下表。对每个样本的测序数量和OTU数目进行统计,并且在表栺中列出了测序覆盖的完整度。

其中 SampleName表示样本名称;SampleSize表示样本序列总数;OTUsNumber表示注释上的OTU数目;OTUsSeq表示注释上OTU的样本序列总数。
 
2. Coverage
Coverage是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。计算公式为:C=1-n1/N 其中n1 = 只含有一条序列的OTU的数目;N = 抽样中出现的总的序列数目。
 
下表是对每个样本在分类字水平上的数量进行统计,并且在表栺中列出了在每个分类字水平上的物种数目。

其中SampleName表示样本名称;Phylum表示分类到门的OTU数量;Class表示分类到纲的OTU数量;Order表示分类到目的OTU数量;Family表示分类到科的OTU数量;Genus表示分类到属的OTU数量;Species表示分类到种的OTU数量。
 
我们可以看到绝大部分的OTU都分类到了属(Genus),也有很多分类到了种(Species)。但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性,还有大量的菌仍然没有被测序和发现。
当然,对这些种属的构成还可以进行柱状图展示:

横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数目或比例。同一种颜色代表相同的分类级别。图中的每根柱子中的颜色表示该样本在不同级别(门、纲、目等)的序列数目,序列数目只计算级别最低的分类,例如在属中计算过了,则在科中则不重复计算。
 
3. 韦恩图
韦恩图是对样本之间或分组之间的OTU进行比较获得。

4. 样品构成丰度
4.1 稀释曲线
微生物多样性分析中如何验证测序数据量是否足以反映样品中的物种多样性?
 
稀释曲线(丰富度曲线)可以派上用场。它是用来评价测序量是否足以覆盖所有类群,并间接反映样品中物种的丰富程度
 
不免有同学有疑惑,稀释曲线怎么来的?
 
它是利用已测得16S rDNA序列中已知的各种OTU相对比例计算抽取n个(n小于测得reads序列总数)reads时出现OTU数量的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列)与其相对应的OTU数量的期望值做出曲线来。至此,我们虽然知道了稀释曲线的由来,那么这个五彩缤纷的稀释曲线该怎么看呢?
 
当曲线趋于平缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种,增加测序数据无法再找到更多的OTU
 
反之,则表示样品中物种多样性较高,还存在较多未被测序检测到的物种。

横坐标代表随机抽取的序列数量;纵坐标代表观测到的OTU数量。样本曲线的延伸终点的横坐标位置为该样本的测序数量。
 
4.2 Shannon-Winner曲线
Shannon-Wiener 曲线,是利用shannon指数来进行绘制的,反映样品中微生物多样性的指数,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。
 
当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物物种信息。

横坐标代表随机抽取的序列数量;纵坐标代表的是反映物种多样性的Shannon指数,样本曲线的延伸终点的横坐标位置为该样本的测序数量。其中曲线的最高点也就是该样本的Shannon指数,指数越高表明样品的物种多样性越高。
 
好奇的同学又有疑问,Shannon指数怎么算的?
 
这里有Shannon指数的公式:

其中,Sobs= 实际测量出的OTU数目; ni= 含有i 条序列的OTU数目;N = 所有的序列数。
 
4.3 Rank-Abundance曲线
该曲线用于同时解释样品多样性的两个方面,即样品所含物种的丰富程度均匀程度

横坐标代表物种排序的数量;纵坐标代表观测到的相对丰度。样本曲线的延伸终点的横坐标位置为该样本的物种数量
 
物种的丰富程度由曲线在横轴上的长度来反映,曲线越,表示物种的组成越丰富物种组成的均匀程度由曲线的形状来反映,曲线越平坦,表示物种组成的均匀程度越高如果曲线越平滑下降表明样本的物种多样性越高,而曲线快速陡然下降表明样本中的优势菌群所占比例很高多样性较低
 
但一般超过20个样本图就会变得非常复杂而且不美观!所以假如没超过20个样可以考虑该图哦~
 
5Alpha多样性(样本内多样性)
Alpha多样性是指一个特定区域或者生态系统内的多样性,常用的度量指标有Chao1 丰富度估计量(Chao1 richness estimator)、香农威纳多样性指数(Shannon-wiener diversity index)、辛普森多样性指数(Simpson diversity index)等。
 
计算菌群丰度Chaoace 
计算菌群多样性ShannonSimpson
 
Simpson指数值越大,说明群落多样性越高;Shannon指数越大,说明群落多样性越高。

看了那么多指数,可能觉得有点晕,到底每个指数是什么意思呢?
当然要解释下咯:
 
5.1 Chao1是用chao1 算法计算群落中只检测到1次和2次的OTU数估计群落中实际存在的物种数。Chao1 在生态学中常用来估计物种总数,由Chao (1984) 最早提出。Chao1值越大代表物种总数越多
 
Schao1=Sobs+n1(n1-1)/2(n2+1)
其中Schao1为估计的OTU数,Sobs为观测到的OTU数,
n1为只有一条序列的OTU数目,n2为只有两条序列的OTU数目。
 
5.2 Shannon用来估算样品中微生物的多样性指数之一。它与 Simpson 多样性指数均为常用的反映 alpha 多样性的指数。Shannon值越大,说明群落多样性越高

5.3 Ace用来估计群落中含有OTU 数目的指数,由Chao 提出,是生态学中估计物种总数的常用指数之一,与Chao1 的算法不同。
 
5.4 Simpson用来估算样品中微生物的多样性指数之一,由Edward Hugh Simpson ( 1949) 提出,在生态学中常用来定量的描述一个区域的生物多样性。Simpson 指数值越大,说明群落多样性越高。
 
6. Alpha多样性指数差异箱形图
分别对 Alpha diversity 的各个指数进行秩和检验分析(若两组样品比较则使用 R 中的wilcox.test 函数,若两组以上的样品比较则使用 R 中的 kruskal.test 函数),通过秩和检验筛选不同条件下的显著差异 Alpha Diversity指数。

7. Beta多样性分析(样品间差异分析)
也许我们有听说Beta多样性在最近10年间成为生物多样性研究的热点问题之一。
 
具体解释下:
Beta多样性度量时空尺度上物种组成的变化, 是生物多样性的重要组成部分, 与许多生态学和进化生物学问题密切相关!
 
7.1 PCoA分析
PCoAprincipalco-ordinates analysis)是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,PCoA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。重要的是,它是可以用来观察个体或群体间的差异的。

每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。
 
7.2 PCA分析
主成分分析(Principalcomponent analysisPCA 是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要的前几位特征值,采取降维的思想,PCA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。

详细关于主成分分析的解释推荐大家看一篇文章,http://blog.csdn.net/aywhehe/article/details/5736659
 
一起来看看包含PCoA研究的文章。

研究背景:全球塑料产量飞速增长,而且呈持续上升的趋势,因此导致大量塑料废物排放到环境中,从沿海河口到大洋环流,从东大西洋到南太平洋海域。塑料废弃物具有化学稳定性和生物利用率低的特点,可长期存在于海洋中,从而影响海洋环境包括海洋生物的生存。
 
作为一个独特的底物,塑料碎片可以吸附海洋中的微生物并形成个“塑性球”。以生物膜形式存在于塑料碎片上的微生物群落。许多研究表明,无论是在海洋还是淡水生态系统中,附着在塑料碎片上微生物群落的组成明显不同于周围环境(水和沉积物),而且易受位置、时间和塑料类型的影响。
 
主要图表:
两两群落差异指数的PCoA图:

PCoA 图可以清楚地看到,SW区细菌群落的置信椭圆与pdsd的置信椭圆有显著的偏差(p<0.05),而sd上细菌群落的置信椭圆几乎覆盖了pd的置信椭圆(p>0.05),这表明pdsd上的细菌群落有相似之处。
 
不同样本和处理下的细菌群落(前 10 位)丰度分布:

底物(SWSDPd)上的主要属为细菌和假互斥单胞菌,暴露两周后,这些菌可能是分布广泛和适应性强的三种底物(SWSDPD)。暴露4周后,弧菌相对丰度增加.此外,暴露6周后,自养细菌(如扁平菌和硝酸菌)的数量增加。这三种底物上个细菌群落的生长模式也与3.2的结果一致。图5还显示,在6个星期内,在429个原位点中,假单胞菌在pd上的相对丰度高于swsd(anovap<0.05)

研究结论:首先,营养物质 (TN TP) 与生物膜的平均生长速率呈正相关,而盐度与生物膜的平均生长速率呈负相关。盐度是影响PD的个细菌多样性的主要因素,而温度、溶解氧和养分(TNTP)在类似的盐度条件下可能具有二次效应。尽管种聚合物类型对PD上的细菌群落的多样性具有较少的影响,但是在细菌群落中的一些属显示对PD的聚合物类型的选择性,并且倾向于将其优选的基质定殖。大的相对丰度SWPDSD间属显著差异。盐度是改变河口地区Pd条件致病菌富集的主要因素。另外,在种病原物种丰富的基础上,PD具有较高的致病性。
 
7.3 NMDS分析(非度量多维尺度分析)
NMDSNonmetricMultidimensional Scaling)常用于比对样本组之间的差异,可以基于进化关系或数量距离矩阵。

每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。
 
7.4 排序分析
PCAPcoANMDS分析都属于排序分析(Ordinationanalysis)。
排序(ordination)的过程就是在一个可视化的低维空间或平面重新排列这些样本。
目的:使得样本之间的距离最大程度地反映出平面散点图内样本之间的关系信息。
排序又分两种:非限制性排序和限制性排序。
 
1、非限制性排序(unconstrainedordination)
——只使用物种组成数据的排序
(1) 主成分分析(principalcomponents analysis,PCA)
(2) 对应分析(correspondenceanalysis, CA)
(3) 去趋势对应分析(Detrendedcorrespondence analysis, DCA)
(4) 主坐标分析(principalcoordinate analysis, PCoA)
(5) 非度量多维尺度分析(non-metricmulti-dimensional scaling, NMDS)
 
2、限制性排序(constrainedordination)
——同时使用物种环境因子组成数据的排序
(1) 冗余分析(redundancyanalysis,RDA)
(2) 典范对应分析(canonicalcorrespondence analysis, CCA)
 
比较PCAPCoA
在非限制性排序中,16S和宏基因组数据分析通常用到的是PCA分析和PCoA分析,两者的区别在于:
PCA分析是基于原始的物种组成矩阵所做的排序分析,而PCoA分析则是基于由物种组成计算得到的距离矩阵得出的。
PCoA分析中,计算距离矩阵的方法有很多种,包括如:Euclidean, Bray-Curtis, and Jaccard,以及(un)weighted Unifrac (利用各样品序列间的进化信息来计算样品间距离,其中weighted考虑物种的丰度,unweighted没有对物种丰度进行加权处理)
生物信息学

微生物扩增子测序图表解读(下)

2019-11-15 22:32:53

生物信息学

微生物扩增子测序图表解读(中)

2019-11-15 22:34:13

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索