1. sci666首页
  2. 实用技巧
  3. 工具介绍

Count——基因组进化分析软件

基因的翻转率(Gene turnover rates)以及基因家族大小的进化(Evolution of gene family sizes)是基因组进化分析中两个重要的模块。今天要介绍的这款基因组进化分析软件Count,功能强大,操作简便,有多种分析和计算方法可供选择,页面十分友好,它会成为你基因组进化分析的好帮手。
 
Count是一款进行基因家族分析的软件该软件综合了基因进化分析中常用的方法,如DolloWagner简约法(Dollo & Wagner Parsimony)、基因丢失倾向法(Propensity for Gene Loss),以及系统发育新生消亡模型(Birth-and-Death model)的概率分析方法。它根据系统发育树分支分布的情况以及分支的长短,结合基因家族数值统计表(该表可以用OrthoFinder直接生成,或者用Excel手动整理),来推断物种祖先基因组的大小以及各个基因家族的得到、丢失、扩增、收缩情况。
 
CountJava编写,可以直接在MacOSXWindows以及Unix/Linux系统下运行,可以通过访问http://www.iro.umontreal.ca/~csuros/gene_content/count.html直接下载。下载好之后,运行软件,点击首页SessionStart new session来选择要上传的数据。我们今天以软件包test文件夹中的示例文件来进行演示,首先选择KOGs-euk7.tre树文件,树文件包含了物种分支的分布和长度信息。

Count——基因组进化分析软件

打开文件后,软件会显示物种的系统发育树。

Count——基因组进化分析软件

树文件载入之后,就可以接着导入基因家族数值统计表了。点击DataOpen annotated table,在这里我们选择test文件夹中的示例文件KOGs-annotated.txt文件,基因家族数值统计表包括了基因家族编号、KOG数据库分类号、详细的注释结果和每个物种的序列数目。

Count——基因组进化分析软件

Count还可以应用birth-and-death模型推算物种全基因组的整体翻转率Rates,点击上方Rates中的Optimize rates

Count——基因组进化分析软件

出现一个参数和模型选择界面。可以根据自己需要进行修改。

Count——基因组进化分析软件

Count——基因组进化分析软件

修改之后点击Perform optimization,计算结束后,会显示如下界面。其中,左上方的数字表格展示了基因获得、丢失以及复制率的数值,右上方是获得、丢失以及复制率的图表展示,下方是展示了各个分支的得失率。当选定左上方的表格中的具体数值时,下方的树上的枝干也会将详细信息进行重点标注。

Count——基因组进化分析软件

数值表格展示了分支(branch-specific)的原始基因获得、丢失概率以及基因复制率。

Count——基因组进化分析软件

该图表展示了种系(family-specific)基因获得、丢失概率以及基因复制率的变化情况。

Count——基因组进化分析软件

下方的图展示了各个分支的基因得失和复制情况。在这里,实线和虚线代表着不同的意义,实线和虚线的比例等于展示的分支的长度与实际分支长度的比值。树的左边是说明界面,显示了不同的比率的缩放比例。

Count——基因组进化分析软件

点击发育树的节点(或者左上方的数值表格)会显示更多详细的信息,包括旁系同源(inparalog)和异同源(xenolog)物种存在的概率。如图中显示节点3node 3)没有后代分支(offsprings)的概率为0.08,拥有一个后代分支的概率约为0.70

Count——基因组进化分析软件

然后我们进行下一步的祖先基因家族推算及物种基因组进化分析,Count提供了四种对应的分析方法:
1Dollo parsimony:假设每个基因家族仅出现一次,然后用系统特异性解释存在缺失模式;
2Wagner parsimony:优化每个基因家族个体的得失情况,推断严谨度(penalty)的最小值;
3posterior probabilities:通过后代(外围分支)基因组大小,计算内部节点基因家族大小的概率以重建祖先的基因组;
4、基因丢失倾向法PGL (Propensity for Gene Loss)

Count——基因组进化分析软件

这四种方法都有相似的结果页面,由三部分组成,包括基因家族个性化展示界面、种系进化(基因得失数目)展示界面,以及展示在下方的发育树。

Count——基因组进化分析软件

左上方的表格中每一行代表一个基因家族,它们的信息包括基因家族索引号、名称、功能注释、末端分支出现该家族在的个数(#lin)、该家族在末端分支的出现次数(#mem)和系统进化框架(phylogenetic profile),最后一列列出了使用的分析方法。在进化框架profile 中黑色条块表示基因家族存在,条块的高度与每个节点家族大小的对数成正比。在家族表格中可以选中多行,右方的种系进化(基因得失数目)展示界面(lineage table)会显示基因家族得失的总和,下方的发育树会对所选中家族的进化历史进行可视化标注。

Count——基因组进化分析软件

系统表格合计了选中家族的数目,包括所选基因家族的总数(Families),每个节点展示multi-member家族的总数(:m)、每个节点边缘基因家族的得(:g,gains)、失(:l,losses)扩增(++,expansions)和收缩(–,contractions)。

Count——基因组进化分析软件

分析页面下方展示的发育树显示了所选中的基因家族的进化历史推断情况。当选中的家族数目少于7个时,就会将每一个分开进行展示。

Count——基因组进化分析软件

如果数目大于7,就会汇总展示总数。

Count——基因组进化分析软件

图中空的矩形表示基因家族相对于祖先基因组发生了基因丢失,阴影代表存在。上半部分的信息显示了基因家族存在多重成员(multiple members),阴影面积的大小在单个矩形的水平程度的正比就是这个多重成员以及基因家族存在(下部分)的可能性。

Count——基因组进化分析软件

(该图片来自 Count使用说明书)
 
Dollo parsimony分析方法中,基因家族的多重成员被忽略,因此在种系表格中不存在扩增和收缩数值,下方展示的发育树中也仅仅推断了基因家族水平上的特征(存在以及得失情况)。

Count——基因组进化分析软件

Wagner parsimony方法中,每个节点上的边缘上,选中的基因家族的得失也会用绿色和橘黄色的条块来展示。可以调整严谨度(penalty)。

Count——基因组进化分析软件

最后,可以导出推算祖先基因家族相关的数据。

Count——基因组进化分析软件

导出的数据格式如下。

Count——基因组进化分析软件

这款软件操作十分简便,把大家从复杂的命令行中解救出来,将对基因组进化压力的分析变得十分简单高效,可选用的计算方法也比较丰富。今年发表在Nature Communications的研究《Genomic inference of the metabolism and evolution of the archaeal phylum Aigarchaeota》中的有关基因家族与进化历史的研究,就是使用了Count

Count——基因组进化分析软件

Ancestral genomecontent reconstruction using COUNT software.
图片来源:Nature Communications
 
希望这款软件可以在未来的分析中帮助到大家,相信你会爱上它的!
 
参考文献:
Csuos, M. Count: evolutionary analysis of phylogenetic profiles with parsimony and likelihood[J]. Bioinformatics, 2010, 26(15):1910-1912.
来源: http://www.sci666.com.cn/19388.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

(857)626-2666

在线咨询:点击这里给我发消息

邮件:123456@whu.edu.cn

QR code