对于经常构建进化树的朋友来说,MEGA应该是个老朋友了。MEGA从1993年的第一个版本问世一直锤炼到去年刚刚发布的MEGA-X,已经经历了26年,在这期间,MEGA共更新八个版本,先后在Molecular Biology and Evolution、Bioinformatics、Computer Applications in the Biosciences等期刊上发表共十篇论文,总引用量已经超过11万。对于如此熟悉的一个老朋友,让我们今天一起来了解一下它的新版本MEGA-X,开发它更多的使用方法。MEGA-X的官网网址是 https://www.megasoftware.net/,它支持在Windows、MacOS 以及Linux 系统下运行,有图形界面和命令行两个版本可供选择,支持64 位和32 位,与之前的版本比较,MEGA-X 最大的特点是大数据运算能力增强,并且支持多种计算平台。
我们选择了10个不同种的16S rRNA序列进行下载。另外,此处还可以比对下载2-3条大肠杆菌(Escherichia coli)和沙门氏杆菌(Salmonella)的16S rRNA序列作为外类群(在Organism选项中进行物种限定),后面推断进化时间的时候可以用到。将所有下载的序列整理在一个文件中,为了方便后面的建树可以将菌株名称后面多余的信息在这里替换删除掉(只是名称上的信息,不要改动碱基序列),然后将文件的扩展名改为.fasta。在MEGA-X首页选择DATA,点击Open a File/Session,选择刚才的文件。
打开文件时询问「Analyze or Align File?」,此处点击Align。序列中可能会出现混合碱基符号,混合碱基符号指两种或多种碱基(核苷)混合物的表示符号,或未完全确定可能属于某两种或多种碱基(核苷)的符号:R表示A+G;Y表示C+T;M表示A+C;K表示G+T;S表示C+G;W表示A+T;H表示A+C+T;B表示C+G+T;V表示A+C+G;D表示A+G+T;N表示A+C+G+T。
分析后返回主页面,接下来我们要选择一个最优的模型,提高建树的精确度。如果想要快速建树可以省去这一步,直接选择默认的模型。点击MODELS中的Find Best DNA/Protein Models(ML) 软件就会根据你的数据帮你计算寻找最适合的模型。
分析时选择默认参数,开始进行分析计算。
不久就会显示分析计算结果。具有最低BIC分数(BayesianInformation Criterion)的模型被认为是最好地描述替代模式。对于每个模型,还给出了AICc值(Akaike Information Criterion, corrected,值越低拟合程度越好),以及用来计算上述两个分值的最大似然值(lnL)和参数数量(包括分支长度)。在这里就可以看到,BIC分数最低的模型是K2+G+I,K2+G+I在这里就是最好的模型。