文献解读:GEO数据库甲基化芯片挖掘发3分SCI

今天,我将为大家解读一篇3.96分的SCI,借此来学习GEO数据库甲基化芯片发SCI的套路,文章的题目是:Aberrantly methylated-diferentially expressed genes and pathways in colorectal cancer。

首先简单介绍一下,GEO数据库(GENE EXPRESSION OMNIBUS)是NCBI旗下主打基因表达芯片的数据库,它的网址是http://www.ncbi.nlm.nih.gov/geo,或者直接通过PUBMED的菜单栏进入。

小硕在此申明,GEO数据库的芯片数据是不花钱的!而且数据海量,更新较快!小伙伴们迫不及待了吧,Let´s go!

 1、摘要 

全文思路明确,从GEO数据库中下载4张芯片,其中2张基因表达芯片(GSE68468, GSE44076)2张甲基化的芯片(GSE29490, GSE17648),是不是感觉芯片在手,天下我有?

接着利用GEO2R工具找出甲基化的差异基因(methylated-DEGs)DAVID网站做功能和富集分析,STRING网站做蛋白互作网络图(PPI),利用Cytoscape软件的MCODEapp构建PPI聚类功能模块。

最终,找出了异常甲基化的差异表达基因和通路,这些Hub基因可能作为异常甲基化的生物标志物,以此服务于结肠癌的精准治疗。

 2、芯片数据下载及预处理  

Totally 186 CRC and 55normal mucosa specimens were enrolled in GSE68468 (platform: GPL96 AfymetrixHuman Genome U133A Array) while 98 CRC and 50 normal mucosa specimens wereenrolled in GSE44076 (platform: GPL13667 Afym[1]etrix Human Genome U219 Array).”这句来源于原文中,咋一看,不了解GEO的小伙伴可能有点懵,一会GSE,一会GPL?请看下面表格内容。

总结一下,GEO数据库的表达谱信息主要储存在DataSetsProfiles中,而数据下载说到底就是要得到表达矩阵,即“基因在行,样本在列”的矩阵。

在下图的GEO DataSets输入研究的癌症,然后就可以选择自己需要的芯片,里面关于芯片的信息非常详细,下载原始文件,整理后即可得到需要的表达矩阵。哈哈,还是挺容易实现的。

 

 3、数据处理 

利用GEO数据库自带的GEO2R工具将样本分为正常组和病例组,设定cut-off(P < 0.05and |t| > 2),寻找出差异表达基因(DEGs)和差异甲基化基因(DMGs)

再利用EXCEL中的MATCH函数进行匹配,去除重叠的基因,同时获得甲基化芯片和表达谱芯片的交集,最终得到低甲基化高表达基因411个,高甲基化低表达基因239个,利用R软件代码实现韦恩图制作,文中的韦恩图确实不错哈。

选取典型的芯片的TOP100基因(包括50高表达和50低表达基因)做差异基因的热图,可通过R代码实现热图的制作。

 4、GO功能富集分析 

DAVID网站(网址https://david.ncifcrf.gov/)实现GO功能富集分析,这个还是比较简单的,直接上图了。分别从生物学过程(BP)细胞组成(CC),分子功能(MF)低甲基化高表达基因、高甲基化低表达基因功能注释,选取排名前5的富集分析制成下表。

 5、KEGG通路分析 

同样,利用DAVID网站进行KEGG通路分析,分别预测了低甲基化高表达基因、高甲基化低表达基因富集的通路。

6、PPI网络构建、模块分析和Hub基因选择

蛋白互作网络图(PPI)通过STRING网站来制作(网址https://string-db.org/)PPI聚类功能模块则用Cytoscape软件的MCODEapp制作。其中PPI网络图,以Interactionscore0.4作为cut-off值;利用Cytoscape软件,筛选出MCODE评分>3、节点数>4PPI网络中的模块制作聚类模块分析图。筛选出节点degree大于10的即为Hub基因。

最终分别筛选出低甲基化高表达基因排名前五的Hub基因:CAD,CCND1, ATM, RB1 and MET;高甲基化低表达基因排名前五的Hub基因:EGFR,ACTA1, SST, ESR1 and DNM2

 7、Hub基因在TCGA数据库中验证 

 

分别将低甲基化高表达的Hub基因和高甲基化低表达的Hub基因在TCGA中观察Hub基因的甲基化状态和表达差异,最终结果如下表,大部分Hub基因在TCGA中和GEO数据库中的甲基化状态和表达差异是一致的,这对作者的GEO数据库分析加强了说服力。

综上,可以看出本文甲基化数据挖掘步骤:

(1)GEO芯片下载和预处理:GEO数据库直接下载原始数据;R软件的GEOquery包(上bioconductor官网搜索)。预处理一般就是将原始文件整理成我们需要的表达矩阵。

(2)差异基因和甲基化基因的筛选:本文采用的是GEO在线工具GEO2R分组后设定cut-off值P < 0.05and |t| > 2,分别可以筛选出高、低表达基因,高、低甲基化基因,利用EXCEL中的MATCH函数去除重叠的基因,同时对低甲基化高表达的基因求交集,对高甲基化低表达基因求交集。制作韦恩图,选取典型芯片做热图。当然,这一步也可以用R软件跑,最终结果是一致的。

(3)GO和KEGG分析:DAVID网站直接实现。

(4)PPI网络构建、模块分析和Hub基因选择:STRING网站做蛋白互作网络图,利用Cytoscape软件的MCOD app构建PPI聚类功能模块。通过cut-off值设定,节点degree大于10的即为Hub基因。

(5)TCGA数据库验证:利用TCGA数据库分析Hub基因的甲基化状态和表达差异,看是否与GEO数据库一致,以增强说服力。

做到这里,已经3.96分了,小硕设想,如果继续把Hub基因进行共表达或预后分析,是不是影响因子又得上涨呢!当然,前面这些步骤都不用花经费!假如你的老板经费充足,继续来个小样本的实验验证吧,估计小伙伴们手已痒痒,赶紧准备发文吧!我们明天将手把手教你R语言实操分析GEO数据库甲基化芯片。

文献解读

文献精读-成神经管细胞瘤亚型的全基因组landscape

2019-4-10 5:55:41

文献解读

文献精读-基因共表达网络分析口腔鳞癌中的关键模块和hub基因

2019-4-17 3:17:52

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected].
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索