1. sci666首页
  2. 文献解读

文献解读:单基因无编程无实验纯生信分析发文思路(套路)

近年来生物信息学发展如火如荼,有不少文章都是通过挖掘数据库中的公开资源从而发表的。应用比较广泛的一种数据挖掘套路就是从数据库中选择数据集,分析癌症和非癌症组的基因表达水平,找出在癌症组中显著性高表达或低表达的基因。进而对这些差异表达基因进行包括GO和KEGG的生物功能分析。最后,通过构建蛋白互作网络(PPI)筛选出疾病中最为重要的几个枢纽基因。如果后续有条件进行实验的话可以对枢纽基因的功能进行进一步验证。

这次要介绍的方法可以说是上面一个套路的继承,是主要聚焦于一个基因,通过多个数据库信息进行该基因表达差异的验证,以及该基因与疾病临床病理特征间关联的研究。如果你已经筛选出了数个枢纽基因,或者是从其他文章中借鉴基因应用于自己的研究领域,那么这套分析方法就很实用了。

下面我们就一篇今年8月发表在Journal of cancer (F=3.1)上的文章为例,具体介绍一下数据挖掘的思路。

文献解读:单基因无编程无实验纯生信分析发文思路(套路)
这篇文章目的在于阐明AKR1B10的表达与肝细胞癌HCC结局之间的可能关系,作者利用GEO,Oncomine和TCGA数据库中的信息验证了AKR1B10在癌症中的表达水平,并基于TCGA数据库进行了临床病理特征分析和生存分析。具体分析步骤如下:
1
数据下载
从GEO数据库中挑选出肝细胞癌的七个数据集 GSE14520, GSE25097, GSE33006, GSE45436, GSE55092, GSE60502, GSE77314。从TCGA数据库中下载肝细胞癌相关的mRNA数据。

 

2
AKR1B10表达水平的验证
作者首先通过GEO数据库中的七个数据集和TCGA数据库验证了AKR1B10在肝癌组中高表达(图1)。又通过对Oncomine数据库中7个肝癌研究进行meta分析,也验证了AKR1B10在肝癌中的高表达(图2)。综合上述验证,AKR1B10在肝癌中的高表达这一结论可信度较高。
文献解读:单基因无编程无实验纯生信分析发文思路(套路)
图1 AKR1B10在GEO数据库和TCGA数据库中高表达
文献解读:单基因无编程无实验纯生信分析发文思路(套路)

图2 AKR1B10在Oncomine数据库中高表达

3
AKR1B10的生存分析
验证了AKR1B10的表达水平,下一步作者对AKR1B10进行了生存分析。首先,作者通过TCGA数据库验证表明肿瘤组中AKR1B10高表达与肝细胞癌患者的不良预后相关(图3A)。随后,作者又通过Kapan-Meier Plotter再次验证获得了相同的结论,即AKR1B10高表达预示着不良预后(图3B)。

一般生存分析做到这一步就可以了,但这篇文章中作者后续又进行了亚组分析。一是按照一年总生存期(OS)、三年OS、五年OS分为三组分别进行AKR1B10的生存分析,结果是每一组中AKR1B10的高表达均是一个危险因素。另外,作者又按照患者是否有肝炎病毒感染、性别、人种和是否饮酒分组,在每个亚组中进行了AKR1B10的生存分析。最后,根据肝细胞癌的不同分期和分级分组,文章也逐步在每个组中进行了生存分析。亚组分析是一个补充性的分析,可以根据自己研究的情况决定是否要做。

文献解读:单基因无编程无实验纯生信分析发文思路(套路)

图3 AKR1B10在HCC中的生存分析

4
AKR1B10与HCC临床病理特征间的联系
下一步,利用之前下载的TCGA数据,作者分析了AKR1B10表达量与肝细胞癌临床病理特征间的联系。见图4,分析结果表明AKR1B10高表达组中,患者男性更多、年龄更大、家族史更多、肝癌危险因素(如饮酒)更多。除此之外,AKR1B10高表达组患者肝脏纤维化和炎症程度更重。
文献解读:单基因无编程无实验纯生信分析发文思路(套路)

 图4 AKR1B10与HCC临床病理特征的关联

5
蛋白互作网络(PPI)分析和GO/KEGG分析
最后一步就是基因的功能分析了。只有一个目标基因的时候怎么做富集通路分析呢?这时仍可以运用STRING数据库。使用STRING分析出与AKR1B10产生交互作用的十个基因DCXR, ALDH9A1, ALDH7A1, ENSG00000257767, LCT, GALM, SORD, ALDH1B1, DHDH , ALDH3A2(图5A),随后,对这些基因进行GO和KEGG分析,筛选出有意义的富集通路就可以了(图5B)。
文献解读:单基因无编程无实验纯生信分析发文思路(套路)

图5 AKR1B10的PPI分析和GO/KEGG分析

到这一步文章的数据挖掘就算完成了,总结一下分析流程:

一、下载关于目标基因的数据

二、基于多个数据库进行目标基因的表达量验证

三、对目标基因进行生存分析

四、分析目标基因与疾病临床病理特征间的关联

五、对目标基因进行功能分析

其实这篇文章还可以加入临床数据进行验证,通过临床样本验证AKR1B10的表达量,继而分析AKR1B10与疾病临床病理特征间的关联,这样将进一步增加文章的可信度。文章这种生物信息学分析也可以为进一步通过细胞、动物实验研究目的基因功能做好铺垫。

这样的分析步骤十分清楚,如果你已经有筛选出的目标基因,或者希望将其他疾病中的功能基因移植到新的领域中进行研究,那么不妨试一下这种数据挖掘方式。

来源: http://www.sci666.com.cn/17600.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

评论列表(1条)

  • 馒头
    馒头 2019年12月30日 下午11:01

    为什么文章搜不到 😕

联系我们

(857)626-2666

在线咨询:点击这里给我发消息

邮件:123456@whu.edu.cn

QR code