转录组测序技术(RNA-seq)作为目前二代测序领域最普遍的技术手段,自从转录组测序问世以来,已经开发了数百种分析工具。根据转录组分析内容可大致将其分析流程分为比对,转录本组装,差异表达分析和差异基因注释。目前,分析的每一步都有很多软件,其软件的性能和分析效率不尽相同。上篇文章小编为各位小伙伴介绍了转录组分析的第一步——比对,不知道小伙伴们尝试了没有,接下来小编来介绍转录组分析的第二步——转录本组装吧~转录本组装主要分为两种情况,对于有参转录组分析来说,转录本组装主要就是将比对到参考基因组的read组装成转录本接着进行下游的新转录本鉴定和转录本定量等分析,常见软件有StringTie和cufflinks。而对于无参转录组分析来说,转录本组装主要是将测序reads从头组装成转录本,常见软件有Trinity,Oases和SOAPdenovo-Trans。下面,主要是以StringTie软件为主,介绍软件的使用和结果的解读。1. 软件介绍StringTie是一个快速高效的将比对后的reads组装成转录本的软件。它使用网络流算法及可选的从头组装步骤来组装和量化全长转录本。StringTie的输入文件可以是短序列的比对文件也可以是组装后的文件。StringTie的输出文件可以使用Ballgown,cuffdiff等软件进行差异表达分析。stringtie可以在Linux、Mac OS X和Windos下的命令行上运行(http://ccb.jhu.edu/software/stringtie/)。2. 软件安装方法一:下载:使用下方链接下载StringTie源代码。http://ccb.jhu.edu/software/stringtie/dl/stringtie-2.1.4.tar.gz解压:
merge功能生成的结果文件同样为gtf文件,用于记录所有样本转录本merge过后的结果,gtf文件介绍见StringTie组装部分。4. 经验总结:参考基因组的注释文件可在下载参考基因组时进行下载,若提供的注释文件为GFF格式可使用gffread软件将其转换成GTF文件。使用StringTie进行merge时,提供的list需是所有样本的gtf文件的绝对路径。至此,转录本分析的第二步——转录本组装的操作过程就介绍完了,本次的内容还是比较简单易操作的,希望小伙伴们真正上手尝试一下,我们下一期再见吧~5. 参考文献:Pertea M , Kim D , Pertea G M , et al.Transcript-level expression analysis of RNA-seq experiments with HISAT,StringTie and Ballgown[J]. Nature Protocols, 2016, 11(9):1650.