1. sci666首页
  2. 实用技巧
  3. 生物信息学

蛋白生信分析进阶篇:蛋白初级结构分析

作为生命活动的具体执行者,蛋白质自然是生命科学研究的重点。然而,蛋白质的结构多种多样、功能变化多端、胞内走位风骚、互作伴侣无数,不知虐哭了多少科研汪。那么,面对一个素未谋面的蛋白,如何能快速的了解它的前世今生并预测其未来呢?

 

这里,我将介绍一整套流程,带领科研汪们优雅地将陌生蛋白按在地上摩擦。

 

我以一篇发表于《Science》(PMID : 27708039)文章,大部分人都不熟悉的蛋白SagA为例,分两个专题,蛋白初级结构分析(进阶篇)以及三级结构分析和功能预测(高级篇),介绍蛋白质生物信息学分析的一整套流程。

本期笔者将从蛋白结构入手,解析蛋白的初级结构。
 
1、 跨膜段预测
了解目的蛋白是胞内蛋白、跨膜蛋白还是胞外蛋白对于我们推测蛋白的作用十分有帮助,这里介绍两款跨膜段预测软件。
 
1.1 TMPREDhttps://embnet.vital-it.ch/software/TMPRED_form.html
检索界面非常简单,输入蛋白FASTA序列即可。

蛋白生信分析进阶篇:蛋白初级结构分析

结果界面:直接看strongly preferred model这里提示N端存在胞内段,从5-27位氨基酸有一段由胞内向胞外的跨膜段Score>500才有意义)。因此SagA可能具有一个跨膜段。

蛋白生信分析进阶篇:蛋白初级结构分析

1.2 TMHMMhttp://www.cbs.dtu.dk/services/TMHMM/
检索界面,输入FASTA序列,提交。

蛋白生信分析进阶篇:蛋白初级结构分析

结果界面非常直观,如下图,在1-4氨基酸是蓝色(inside,胞内段),5-27是红色(transmembrane,跨膜段),27以后紫红色(outside,胞外段)。与TMPRED的预测结果一致。

蛋白生信分析进阶篇:蛋白初级结构分析

2、信号肽预测
网址:http://www.cbs.dtu.dk/services/SignalP/。跨膜蛋白如果存在信号肽,它会在信号肽处切割,产生一段胞外分泌蛋白,这能帮我们预测蛋白的作用方式;另一方面,信号肽会影响重组蛋白的表达,如果想要构建重组蛋白,先预测信号肽位置,设计PCR引物时,去掉信号肽片段
 
检索界面,输入FASTA序列,选择正确的分类(此处为革兰阳性菌),提交。

蛋白生信分析进阶篇:蛋白初级结构分析

如果存在信号肽,会给出切割位点(cleavage site,如下图绿色虚线)。可以直观的根据是否存在绿色虚线峰来判断有无信号肽以及及切割位点。这里的SagA20-30氨基酸的位置有信号肽切割位点,这与前面预测的5-27为跨膜段的结果对应,共同提示SagA是一种分泌蛋白。

蛋白生信分析进阶篇:蛋白初级结构分析

除了上述的两个网站外,还有些网站可以预测蛋白的亚细胞定位,比较强大的是“Compartments”,网址https://compartments.jensenlab.org/Search。因为Sag为细菌蛋白,此处没有查询其亚细胞定位情况,大家可以用“Compartments”查询真核蛋白的亚细胞定位。
 
3、蛋白保守结构域查询
蛋白的保守结构域通常就是其功能域,对于蛋白功能有很强的提示作用,这里给大家推荐2个极好用的保守结构域预测网站。
 
3.1 Pfam在线工具,http://pfam.xfam.org/search
检索界面:可以直接粘贴FASTA序列,也可以通过文件批量提交蛋白序列(支持邮件返回结果)。

蛋白生信分析进阶篇:蛋白初级结构分析

结果界面:这里的Clan相当于保守序列超家族的意思,其它不必多做介绍了,可以看到Pfam预测出C422-518氨基酸位置有一个NLPC/P60保守序列,文献检索提示NLPC/P60与肽聚糖水解相关。

蛋白生信分析进阶篇:蛋白初级结构分析

3.2 NCBI-CD: https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
在检索框中输入蛋白序列,提交,进入结果界面。

蛋白生信分析进阶篇:蛋白初级结构分析

结果的第一部分给出了蛋白的保守结构域分布情况这里SagA有两个保守结构域,分别位于N端的1-225位氨基酸(cwlo1),以及C端的422-514位氨基酸(NLPC/P60),另外存在一个保守结构域超家族(301-505)。可见多个软件联合预测还是必要的,能有效避免遗漏。

蛋白生信分析进阶篇:蛋白初级结构分析

结果的第二部分具体介绍保守结构域相关信息。点开蓝色Assession,可以进入到对保守序列功能的详细介绍。从信息中我们推测SagA可能是一种肽聚糖水解酶。

蛋白生信分析进阶篇:蛋白初级结构分析

4、含相似保守结构域的蛋白搜索CDART
网址:https://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?cmd=rps寻找与目标蛋白具有相同保守结构域的其他蛋白,能有效将我们的研究结果扩展开来,找到功能相近的其它蛋白,妥妥的又是一把科研题材!
 
如下图,输入蛋白序列,进入结果界面。结果根据保守结构域的不同组合分类,并在每一类左侧展现与目标蛋白保守结构域的相似评分,以及匹配蛋白条数。

蛋白生信分析进阶篇:蛋白初级结构分析

点击“Lookup sequence in Entrez”即可看到这些蛋白的信息。还可通过左侧和右侧工具条限定物种、来源蛋白库、序列长度和感兴趣的种属等信息。

蛋白生信分析进阶篇:蛋白初级结构分析

好了,今天介绍了如何预测蛋白的跨膜段、信号肽解析及保守结构域;下期将为大家介绍如何预测蛋白的三级结构、以及三大功能数据库(KEGG/COG/eggNOG)功能注释。
封面图来自网络

这些可能会帮助到你: 问答社区 | 共享百度SVIP | 留言建议

欢迎入群交流:生信分析群: 732179952 · Meta分析群: 797345521 · 医学科研交流群: 797345521

发表评论

登录后才能评论