转录组测序技术(RNA-seq)作为目前二代测序领域最普遍的技术手段,自从转录组测序问世以来,已经开发了数百种分析工具。根据转录组分析内容可大致将其分析流程分为质控,比对,转录本组装,差异表达分析和差异基因注释。目前,分析的每一步都有很多软件,其软件的性能和分析效率不尽相同。转录组的质控环节较为简单,当去完接头得到clean data后,接下来的就是基因组比对环节,常见的软件有Hisat2,STAR、TopHat和Bowtie等。下面,主要是以Hisat2软件为主,介绍软件的使用。
1. 软件介绍
Hisat2是一款快速且较敏感的可用于二代测序分析比对软件。Hisat2使用两种索引进行比对,分别为全基因组索引和局部索引。Hisat2优化了BWT算法,使用了有效的数据结构和算法,其运行速度更快且使用的内存更小。Hisat2可以在Linux、Mac OS X和Windows下的命令行上运行(http://ccb.jhu.edu/software/hisat2/manual.shtml#what-is-hisat2)。
2. 软件安装
方法一:
下载:
使用下方链接下载Hisat2源代码。
http://ccb.jhu.edu/software/hisat2/downloads/hisat2-2.0.0-beta-source.zip
解压:
安装:
安装成功:
方法二:
使用conda进行搜索:
使用conda进行安装:
安装成功:
使用conda时,conda会自动配置软件所需环境,不需另外下载,因此推荐使用conda进行安装。
3. 软件使用
(1) 对参考基因组建索引
Hisat2软件官网提供部分物种参考基因组的索引文件,例:人,小鼠、果蝇、秀丽隐杆线虫和酵母等,这些物种的索引文件可直接在官网下载。
下载人hg19的索引文件:
对于官网没有提供的物种的参考基因组索引文件,可使用Hisat2软件提供的命令进行构建索引文件。
Hisat2提供两个脚本用于将GTF文件转换为Hisat2所需的文件。
构建索引成功后:
注:可通过hisat2-build -h参数查看构建索引命令的其他参数。
(2) 测序数据与参考基因组比对
构建索引成功后,就可以开始比对步骤。由于二代测序下机数据是raw data,需要将接头序列和低质量序列过滤掉,可以使用fastp软件等对raw data进行过滤,得到clean data。
将过滤后的clean data使用Hisat2软件与参考基因组进行比对,生成SAM文件。
一般转录组测序测序策略采用双端测序,本次实验所用的数据是双端数据。若待比对数据是单端数据,则可将-1和-2参数替换为-U即可。
注:可使用hisat2 -h参数查看比对命令的其他参数。
比对结果显示如下:
本次实验的数据共有10845264的配对序列,其中有95.26%的序列是唯一比对,比对效率为98.87%。
(3) sam文件处理
Hisat2比对结果为sam文件,由于sam文件较大,需要使用samtools软件将sam文件转换为bam文件以节省存储空间并进行后续处理。
samtools软件是处理sam文件和bam文件的常见软件之一,可用于对sam文件和bam文件的相互转换,bam文件处理和统计等。可使用conda或下载源码形式进行安装。
使用以下命令对sam文件进行处理,最终生成的*.sort.bam文件用于下一步的转录本组装等步骤。
4. 经验总结
构建参考基因组索引时,若Hisat2官网提供,则在官网下载即可。若未提供,需要自行根据Hisat2软件提供的构建索引的命令构建参考基因的索引,需要注意的是,若参考基因组过大,构建索引的时间可能过长,可通过增加CPU和内存的方式进行优化。
比对时,需要注意使用的比对数据应该为过滤后的clean data以保证后续分析的准确性。比对完成后,Hisat2会生成比对结果,若比对效率过低就需要考虑参考基因组版本选择是否合适或测序数据质量是否有问题。在分析过程中,我们可能或多或少遇到一些问题,我们需要做的就是多试多练多总结经验。
至此,转录本分析的第一步——比对的操作过程就介绍完了,希望对大家有所帮助。请小伙伴们期待下一期生信菜鸟的上道经验分享吧~
学习到了,谢谢!