简单易懂,事半功倍。
提高接受率,人人国自然!

【文献解读】ploidyNGS:可视化探索基因组倍性

小编的话

本文作者薛猫是资深生物信息分析工程师,在基因组及基因组重测序方面有丰富的经验,负责并参与过多个合作项目,在PNAS,BMC等国际学术期刊发表文章9篇。

了解一个物种或者细胞的基因组的倍性,在进化、群体、基因组研究上有重要的意义。比如组装多倍体物种的基因组,需要了解它的倍性,评估组装的难度。但是,怎样检测或者推算基因组的倍性呢?通常在实验室用流式细胞实验就可以了。但是如果你恰好做了基因组surveyNGS数据在手头,那你完全可以用好这些数据,做一下倍性分析

 

目前已经有一些流程利用NGS数据推算基因组的倍性,比如:AbsCN-seq、CLImAT或者ConPADE。但是这些流程或者软件目前都有一些明显的短板。AbsCN-seq除了mapping数据外,还需要全外显子的数据。CLImAT基于MATLAB,不能免费使用。ConPADE是专门为高等多倍体植物开发的,对mapping的质量很敏感,容易引起估算偏差。

 

最近有个团队开发了一款流程ploidyNGS,专门针对二代测序数据,估算基因组的倍性。PloidyNGS的原理很简单,就是统计每个等位基因点上的reads支持比例。比如,对于单倍体来说,除了测序错误的reads外,所有的reads都支持一个allele。对于二倍体物种来说,取决于杂合度。高度纯合的话,所有的正确测序reads都会支持一个allele,杂合度高的物种,大约一半reads支持一个allele,另一半支持另外一个allele。对于三倍体的物种来说,如果是多等位基因(比如ABC)的话,每个allele的支持率为1/3,如果是双等位基因(比如AAB)的话,2/3的reads支持一个allele,剩下的1/3支持另外一个allele。以此类推,详见Table1.

 

Table 1 A table with theexpected bi-allelic proportions for each ploidy level

知道了原理,接下来说说具体怎么做。

先是把reads mapping到参考基因组(做survey的时候,建议做一个低深度的基因组组装版本),过滤掉单allele位点及过高频率的allele(比如95%),然后按照每个allele的reads支持率排序,从最低到最高排序,分别被标记为fourth、third、second、first。然后用ggplot作直方图。

 

利用模拟数据和测试数据,研究者对真菌的基因组做了倍性评估。如Figure1所示,横坐标是allele的频率,纵坐标是多态性位点数目。A图是单倍体基因组统计图,有两个峰值点,分别在5%和95%左右,前者是测序错误造成的,而后者是单倍体基因组的最高频率单态峰。B图有四个峰值,分别在5%、50%、50%及95%。5%是测序错误,两个50%,是杂合多态性峰,95%则是最高频率的单态峰。这些结果和Table1的理想比例值较为一致。

 

Figure 1 Exemplary resultsfrom ploidyNGS, here just showing the two most frequent putative alleles A)Haploid yeast strain CEN.PK113-7D B) Diploid yeast strain RedStart.

 

最后再附上三倍体和四倍体的图像,供参考(Figure2Figure3),看看每个峰值是不是和Table1给出的理想比例值一致呢?

Figure 2  the histogram of triploid genome

Figure 3 the histogram of tetraploidgenome

 

PloidyNGS流程用python和R串写而成。

下载路径点这里:https://github.com/diriano/ploidyNGS

参考文献:

Renato et.al. ploidyNGS: Visually exploring ploidy with Next Generation Sequencingdata.

除特别注明外,本站所有文章均为SCI666原创,转载请注明出处,谢谢。sci666 » 【文献解读】ploidyNGS:可视化探索基因组倍性

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SCI666 学习、交流、分享

生信分析交流群综合科研交流群