数据解构
挑——差异表达miRNA筛选
本文首先通过GEO数据库筛选食管癌差异表达microRNAs(miRNAs)。作者选用了GSE114110和GSE43732两个数据集进行分析。值得一提的是,作者还利用R语言的limma包对数据集进行了标准化处理。作者设定的阈值为|log2FC|≥ 1和P < 0.05,由图E和F的火山图可以看出筛选出的差异表达miRNAs相比于平时我们筛选mRNA时是要相对少一些的。作者使用的是limma包进行的差异表达分析,使用GEO数据库的在线工具GEO2R也能达到同样的目的。筛选到差异基因后,作者使用R语言VennDiagram包制作韦恩图,使用网站Draw Venn Diagrams (http://bioinformatics.psb.ugent.be/webtools/Venn/)也可做出类似的图。最终筛选得到3个上调的和5个下调的miRNAs。
此外再提一句,在分析多个数据集时,可以将多个数据集的数据合并分析,但是必须得先去掉批次效应。如果不想去进行去批次的操作,可以像这篇文章这样采用取交集的方式,这样也算是有一定道理的。
联——miRNA靶基因预测
miRTarBase(http://mirtarbase.mbc.nctu.edu.tw/php/index.php)是一个经过实验验证的miRNA-靶基因相互作用数据库,作者利用这个数据库对8个差异表达的miRNA的靶基因进行了预测。3个上调的和5个下调的hub miRNAs总共分别预测出468和753个可能的靶基因。
除了miRTarBase网站外,常用的miRNA靶基因预测网站还有Targetscan、ENCORI、miRDB、miRWalk等。
圈——miRNA靶基因GO和KEGG富集分析


联——PPI网络分析得到hub基因,miRNA-hub基因互作网络构建
作者又使用STRING数据库对预测出468和753个可能的靶基因分别作了蛋白蛋白互作(PPI)分析,并进一步地利用Cytoscape软件筛选得到hub基因各10个。然后对这20个基因做了GO和KEGG富集分析。本文作者将GO分析的三大类:生物过程(BP)、分子功能(MF)、细胞组分(CC)分开展示,并对靶基因、hub基因分别做富集分析,因此得到的图比较多。
随后,作者利用Cytoscape软件构建miRNA-hub基因网络。由于miR-196a-5p和miR-1-3p所关联的hub基因最多,作者进一步地利用miRNACancerMAP数据库分析了miR-196a-5p和miR-1-3p所涉及的信号通路。

miRNACancerMAP(http://cis.hku.hk/miRNACancerMAP/)是一个可以预测、构建癌症miRNA调节网络的在线工具,只需点击网站上方的Quick Search,输入想要研究的miRNA,即可得到分析结果。

靠——miRNAs预后价值分析
随后,作者利用利用TCGA数据库、细胞系以及临床样本验证了miR-196a-5p和 miR-1-3p的表达情况。并利用基于TCGA数据的starBase数据库对miR-196a-5p和miR-1-3p进行Kaplan-Meier生存分析,以评估其预后价值。

干湿结合
到这里其实这篇文章已经可以发表了,但最新的Aging已经不收纯生信文章了,要发5分必须补湿实验。
干湿结合的参考组合有:
1、生信+临床标本验证
2、生信+功能表型验证(细胞或者细胞+动物均可)
3、生信+临床+功能表型验证
4、生信+临床+功能+机制研究
这篇文章运用的是“生信+临床+功能表型验证”组合,作者做了一点实验来验证miR-196a-5p和miR-1-3p对食管癌细胞增殖和迁移的影响。所用实验为CCK-8、EdU和Transwell等常规实验技术,比较简单。这里作者只是用了miRNAmimics做实验,其实还可增加使用miRNA inhibitors的实验。

总结
到此全文就结束了,总结一下,作者先用GEO数据库筛选得到食管癌差异表达miRNAs(挑),然后利用筛选得到的8条miRNAs预测靶基因(联),并对靶基因进行富集分析(圈);进一步地在靶基因中筛选得到hub基因(联),并筛出两条与hub基因联系最多的miRNAs(联);最后对这两条miRNAs进行生存分析,来说明临床意义(靠),其实本文还可增加临床相关性分析,ROC曲线等分析进一步丰富内容。此外,这篇文章还增加了一点湿实验的内容:利用细胞系和临床样本验证两条miRNA的表达情况(临床标本验证),并利用细胞实验验证其对食管癌细胞增殖迁移能力的影响(功能表型验证)。
整体来说,全文基本全部按照“挑、圈、联、靠”的生信套路来进行,所用技术以在线工具为主,适合初学者模仿。
最后再给大家归纳一下干湿结合研究套路模板(加粗的是本文所用的方法):
干:
挑:差异表达分析筛选目的基因
圈:GO/KEGG富集分析、GSEA富集分析、WGCNA网络分析、其他特殊分析(miRNA相关通路预测、免疫浸润等等)
联:蛋白蛋白互作(PPI)分析、miRNA交互作用、分子网络构建
靠:生存分析、临床相关系分析、单因素/多因素分析、差异表达预后分析、ROC曲线
湿:
1、临床标本验证(包括细胞系和临床样本)
2、功能表型验证(细胞或者细胞+动物均可)
3、临床+功能表型验证
4、临床+功能+机制研究
关于生信文章的内在逻辑套路,酸菜老师已经用“挑圈联靠”四字箴言做了精妙的总结。对于本文“挑圈联靠”四个层面的解析,summer老师已经做了非常好的解读,不用我多说,建议大家先看完这一部分。做好这两步准备工作,咱们撸起袖子开聊。
返修文章的选题
数据集选择与整理

利用各种在线数据库的相互验证 总结和建议