大家好,基因家族分析上一期分享了一篇文章,获得了挺多小伙伴的反馈,想让我再汇总一下分析方法,那么好,我就汇总下,只当是抛砖引玉,欢迎各位小伙伴留言讨论。
第一篇-Hsp20家族识别
Genome-wide analysis of the potato Hsp20 gene family: identification, genomicorganization and expression profiles in response to heat stress
1、数据下载:PGSC数据库下载potato所有的蛋白序列,Pfam数据库下载Hsp20基因家族HMM文件PF00011 。
2、使用hmmsearch 阈值 e-value <=0.001 来搜索Hsp20 家族基因。
3、使用拟南芥Hsp20蛋白作为队列与potato所有的蛋白库进行比对,阈值e-value <=0.001。
4、“Hsp20” and “small heat shock protein”关键字 在PGSC中搜索。
5、Hsp20不完整domain或分子量在15-42之外的蛋白过滤掉。
第二篇:NBS-LRR家族识别
Identification and distribution of the NBS-LRR gene family in the Cassava genome
1、下载全基因组蛋白和Pfam数据库NBS (NB-ARC) 基因家族HMM文件PF00931
2、使用hmmsearch 阈值E-value < 1 × 10-20 来搜索NBS家族基因。
3、搜索得到的蛋白序列利用clustalw进行多序列比对,然后利用hmmbuild 构建hmm文件。
4、功能注释在拟南芥和UNIREF100 中最接近的同源序列进行过滤。
5、至少含有一个partial kinase domain 并与NBS domain无关的序列被滤除(NBS domain 小于 partial kinase domain)。
第三篇-WRKY家族识别
Genome-wide investigation of WRKY gene family in pineapple: evolution andexpression profiles during development and stress
1、下载全基因组蛋白和Pfam数据库WRKY 基因家族HMM文件PF03106。
2、使用hmmsearch 默认参数搜索,阈值E-value < 0.01 来搜索WRKY家族基因。
3、候选WRKY家族基因使用PFAM 和 SMART来进行验证,核查是否存在保守结构域。
4、人工核查N-terminal 是否含有heptapetide sequence 。
5、RNA-seq数据回比到genome和gene model 上,预测不正确的WRKY基因通过PCR和测序来进行实验验证。
以上就是3篇不同基因家族的预测分析方法,简单的总结一下:
第一:全基因组蛋白质序列和pfam数据库家族hmm模型文件准备。
第二:hmmsearch 进行比对搜索,并根据比对情况设置阈值。
第三:核查。方法有很多,如数据库、RNA-seq数据、蛋白家族分子量等都可以进行。
注意,模式生物的蛋白家族也是可以用来进行纠错的。
好了,小伙伴们,基因家族分析的方法简单介绍到这里,你是不是也想试一试了呢?