m6A的纯生信文章思路

无论医疗工作者还是研究生等等,如何在繁忙的工作生活中运用最短的时间,无需做实验发一篇SCI,一直是我们最头疼的问题!而如今纯生信文章就是作为SCI入门级别的不二选择!小编今天就为大家介绍一篇热点m6A的纯生信文章,摸清套路,总结方法,就是我们看文章的第一步。文献网址:https://pubmed.ncbi.nlm.nih.gov/32500031/

文章主要思路是首先通过TCGA下载结直肠癌的m6A基因表达及临床信息,然后筛选出差异性m6A基因。并进一步生存预后分析得出相关基因(YTHDC2、ALKBH5),从而构建癌症预后模型。最后通过与流行病学数据的相关性研究、预测生存概率来验证预后模型的可靠性及科学性。

 

研究背景
根据2018年全球疾病负担研究,结直肠癌(colorectal cancer,CRC)是全世界最常见的高发病率恶性肿瘤之一,也是癌症相关死亡的第三大原因。近十年间,越来越多的研究关注CRC发病过程中多种分子途径,特别是遗传和表观遗传学。

有研究表明,在结直肠癌中,表观遗传的改变会更早和更频繁。其中,RNA甲基化(m6A)在体内会影响细胞成长分化,从而导致一系列疾病的发生如肿瘤,神经疾病,免疫疾病,胚胎发育迟缓等等。因此,探讨m6A的调控作用,能对癌症的发生发展,早期标志物的选择提供新的见解。

m6A,全称:N6-甲基腺苷,是真核生物信使RNA(mRNA)修饰中最普遍的形式。其由多种蛋白质参与调控修饰,主要分为一下三种:

  1. m6A甲基化阅读蛋白(Readers):YTHDF1,YTHDF2,YTHDF3等,功能是识别RNA甲基化修饰的信息,介导下游RNA转录,翻译等过程。

  2. 甲基化转移酶(Writers):主要包括METTL3,METTL14,WTAP,KIAA1492等,功能是引起RNA发生m6A甲基化修饰。

  3. 去甲基化酶(Erasers):主要包括FTO,ALKBH5等,功能是导致RNA发生去甲基化修饰。 

 

套路解析
1
研究对象

首先从TCGA中下载522个样本数据,其中包括487个结直肠癌样本,35个癌旁组织样本(表1)。

表1 结直肠癌样本的临床信息
2
差异性m6A分析
本文先选取12个m6A基因,包括5个writer个(METTL3,METTL14,WTAP,RBM15,ZC3H135),5个readers(YTHDC1,,YTHDC2,YTHDF1,YTHDF2,HNRNPC),2个erasers(FTO,ALKBH5)。

再进一步在癌症与癌旁组织样本中进行差异表达分析,结果求出7个下调基因(METTL14, WTAP, YTHDC1, YTHDC2, ALKBH5, FTO, and YTHDF2),及1个上调基因(YTHDF1)。

在不同癌症分期中进行差异表达分析,结果求出上调基因(WTAP)和下调基因(FTO)(图1)。以上结果提示m6A调控基因与CRC发生发展具有潜在关联,为建立CRC预后风险模型提供数据支持。

图1 m6A基因在CRC中差异表达情况
3
m6A基因与临床预后相关性分析
根据8种差异m6A基因的表达情况进行层次聚类分析,结果显示最佳样本聚类数为5。同时计算肿瘤样本间的欧氏距离及总体生存概率,结果提示m6A基因与临床预后的潜在关联(图2)。

图2 a 样本聚类情况;b 肿瘤样本间的欧式距离;c 不同样本聚类数的生存概率情况
4
CRC预后模型建立
将12个m6A基因进行临床预后分析,多因素COX回归结果显示YTHDC2与ALKBH5表达量是CRC发生的影响因素。

并将两个基因通过LASSO回归分析构建预后模型,以风险评分中位数分组进行Kaplan-Meier存分析。结果显示不同分组的生存概率具有显著的统计学意义,提示预后模型的可靠性及科学性(图3)。

图3 a COX回归分析结果 b 不同风险评分的生存概率
5
预后模型与流行病学数据相关性分析
将预后模型与年龄、性别、肿瘤分期进行相关性分析,结果显示只有肿瘤分期与风险评分具有统计学差异,分期越晚,风险评分越高。

同时将年龄,性别,肿瘤分期,风险评分纳入到多因素COX回归分析中,结果显示m6A模型预测生存预后具有可靠性,不受年龄,性别及肿瘤分期的影响(图4)。

图4 a-c 预后模型与流行病学数据相关性分析;d 多因素COX回归分析结果
6
预后模型的验证
首先构建列线图预测出1年、3年、5年生存概率,其次通过与实际生存概率比较,提示吻合程度较高。结果表明此预后模型可作为流行病学特征的补充,提高对CRC预后的评估(图5)。
图5 a 1年、3年、5年生存概率预测情况;b-d 预测生存概率与实际生存概率吻合程度
总结
下面就是文章的流程图:

从图中可以看出,文章的总体主要还是遵循传统的思路:数据下载—求差异—预后分析—模型建立。并且文章新颖的一点是最后进行的(预后模型与流行病学数据相关性分析),这样能够一定程度探讨两者的相互影响,进而证明模型的可靠性,这也是一开始很多小伙伴没有考虑到的问题。同时文章还有需要补充的地方,就是外部数据的验证,相信加上这一点,更能加深模型的科学性与广泛性!

并且小编通过查找Pubmed发现,虽然m6A一直是生信的宠儿,但大多数文章都集中在IF=5以上,都是结合实验的高分文章,而纯生信低IF的仍在少数中。所以这类型目前仍可作为入门SCI的敲门砖。冠上新的热门基因,替换癌症类型,加上外部基因的验证,摇身变成新的文章啦!

话不多说,小编又要开始敲代码了~~~
文献解读

如何用好公开数据库多种组学数据?

2020-8-4 18:56:43

文献解读

公开数据库纯生信 影响因子5分的HRDscore

2020-8-5 18:24:17

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected].
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索