1. sci666首页
  2. 实用技巧
  3. 工具介绍

如何通过DAVID数据库来进行GO分析

DAVID数据库是做GO分析常用的数据库,DAVID官网给出了2003-2017年该数据库的引用情况,引用量每年都呈增长之势,并且近年来引用量非常可观,这或许是二代测序技术的突飞猛进带来的流量吧。Whatever,这个数据库依然是权威并获得广泛认可的的数据库。

如何通过DAVID数据库来进行GO分析

好了,言归正传,我们如何通过这个数据库来进行GO分析呢。首先,我们要有原材料,就是需要分析的差异基因。一般输入的是基因的名称,也就是GeneSymbol,当然也可能是其他格式的代号,比如Emsemble Gene ID。这里我们以Gene Symbol为例,就是下面这样的名称。

如何通过DAVID数据库来进行GO分析

Gene symbol

然后,我们打开DAVID,输入网址https://david.ncifcrf.gov/home.jsp,在主页面点击start Analysis。

如何通过DAVID数据库来进行GO分析

然后,分四步走。

第一步,在下图箭头1所指的框里填入gene名称;

第二步,箭头2所指的框是一个下拉框,其中选择OFFICIAL_GENE_SYMBOL;

第三步,箭头3处,选择Gene List;

第四步,点击4处Submit list。

如何通过DAVID数据库来进行GO分析

然后会出现这个,提醒你检测到不同物种,需要选择物种。

如何通过DAVID数据库来进行GO分析

点确定。

我们做的物种是人,就选第一个,然后点击下方按钮Select Species。选好物种后,再点右侧Functional Annotation Tool

如何通过DAVID数据库来进行GO分析

随后,出现这样的页面,

如何通过DAVID数据库来进行GO分析

上述我们得到了BPCCMF的结果。

我们都知道GO包含三个大类(啊?你不知道,那赶紧去度娘恶补一下),BP(Biological Process生物学过程,比如参与了细胞免疫,凋亡,细胞增殖等等),CC(cellular component,所处细胞中的位置,比如蛋白在细胞膜、线粒体中还是在核内等),MF(Molecular Function,分子功能,比如是个什么酶,还是个载体蛋白什么的),比如我们分析在肿瘤和癌旁中找到的差异基因在这三大类中分别聚集在哪些小类中,便可以从整体上看到哪些过程或者功能可能在癌症中占重要的比重。

讲完上述三大类的含义,我们以其中BP为例,来下载数据,点击右侧Chart,会弹出一个框,显示的各小类中基因富集情况,然后点击Download File可以下载下来数据。

如何通过DAVID数据库来进行GO分析

点击下载数据后,又会出来一个新的页面,上面密密麻麻写满了字母和数字。

如何通过DAVID数据库来进行GO分析

看起来很乱,没关系,鼠标放在页面上,Ctrl+A全选中,复制,然后新建一个txt文档,文件名字自己随便起,为了便于识别,我起的名字叫“BP.txt”,然后将复制的文字粘贴到txt中,保存。用excel打开,便是清清爽爽的表格了。

如何通过DAVID数据库来进行GO分析

上述表格是按照P值来从小到大排序的,我们取红框中的三行,然后取前十列,也就是p值最显著的10列,复制,粘贴到一个新的excel表格中,然后再Term后增添一列Term,然后做如下图所示转换,用MID函数将横杠以及之前的一串删除,后面的每行下拉就完事了,然后每一行都完成转换。

如何通过DAVID数据库来进行GO分析

然后,将PValue完成-log10转换,得到如下所示的值。

如何通过DAVID数据库来进行GO分析

最终得到下图的三列,然后可以用来作柱状图了。选中Term和Count这两列数据,在excel中选插入中的条形图,即可作出GO分析的条形图。

如何通过DAVID数据库来进行GO分析

如何通过DAVID数据库来进行GO分析

当然,这个图稍显朴素,但是如果用R语言,就可以做的五彩缤纷一些,比如,做个气泡图,

如何通过DAVID数据库来进行GO分析

或者条形图,

如何通过DAVID数据库来进行GO分析

 OK! That’s all!

这些可能会帮助到你: 问答社区 | 共享百度SVIP | 留言建议

欢迎入群交流:生信分析群: 732179952 · Meta分析群: 797345521

发表评论

登录后才能评论