基于DNA甲基化驱动基因构建胃癌预后列线图模型

大家好,这次给大家分享的文献是Development and Validation of a Prognostic Nomogram for Gastric Cancer Based on DNA Methylation-Driven Differentially Expressed Genes,2020年发表在International Journal of Biological Sciences杂志上,即时影响因子5.03。文章主要是研究DNA甲基化驱动的胃癌差异表达基因,利用列线图构建临床预测模型并进行外部数据集验证。

术语

列线图:又叫诺莫图,常用于评估肿瘤学和医学的预后情况,可将Logistic回归或Cox回归的结果进行可视化呈现。

DEGs:差异表达基因

DNAm:DNA甲基化,是DNA化学修饰的一种形式,能够在不改变DNA序列的前提下,改变遗传表现。

一.研究思路

从TCGA GDC获取胃癌的表达谱数据,识别出343个GC组织差异表达基因DEGs(log2|FC|>1,p<0.05),DNA甲基化水平与mRNA表达水平呈负相关的基因作为DNAm驱动基因,采用Wilcoxon秩和检验方法找到胃癌组织与正常组织之间差异的DNAm驱动基因。应用K-M分析研究DNAm驱动基因与GC患者生存时间的关系。采用多因素cox回归分析进一步筛选DNAm驱动基因,构建DNAm驱动基因的风险分数。将风险分数与临床数据结合起来,通过列线图构建临床预测模型并用外部数据集进行验证。

二、结果

1. 识别胃癌差异表达基因和DNAm驱动基因

从343个胃癌样本和30个正常样本中得到2737个DEG,其中649个上调,2088个下调。应用甲基混合物分析(MethylMix)从71个TCGA胃癌样本中识别出71个DNA甲基化驱动基因(47个高甲基化和24个低甲基化),通过热图显示其甲基化水平(图2A)。GO分析发现这些DEGs的GO功能在转录调控、DNA模板化、金属离子结合、转录因子活性、序列特异性DNA结合、核酸结合和胚胎骨骼系统形态发生等方面都有显著的富集。然而,来自ConsunsPthDB数据库的反应性数据库通路分析显示,这些基因在Pink/parkin介导的有丝分裂和其他六种通路介导的有丝分裂中显著富集(图2C)。

图2

2.   胃癌预测风险评分模型的建立

将DEGs和DNAm驱动基因取交集,利用K-M分析研究13个DNAm驱动基因与OS之间的关系,通过对数秩检验筛选出9个DNAm驱动基因,进一步通过LASSO回归得到的6个DNAm驱动基因(PODN、MYO1A、NPY、MICU3、TUBB6和RHOJ)作为预后基因(图3A),并给出风险评分计算公式:风险评分=(0.2159037*NPY mRNA水平)+(0.2069438*MICU3 mRNA水平)+(-0.2337186*MYO1A mRNA水平)+(0.1574830*RHOJ mRNA水平)+(0.1584843*TUBB6 mRNA水平)+(0.3310443* PODN mRNA水平)。对于有完整临床数据的300名患者,根据六种基因表达特征计算风险评分,并用X-tile图确定与预后最相关的的风险分数截止值。超过风险评分临界值的患者,共163名,被归为高危组,其余137名被归为低危组。两组的K-M分析显示,高危评分组的OS显著缩短(图3B)。所有患者的基因表达谱和相关的风险评分可视化热图如图3C所示。

图3

3.   胃癌中OS预测列线图的建立与评价

在单变量和多变量回归分析中,年龄、阳性淋巴结数量和风险水平被认为是显著的预测因素(图4A)。综合上述所有重要的预测因素,构建了一个综合列线图(图4B)。C指数和鲁棒性C指数分别为0.701和0.695。模型在3年和5年的OS校准曲线显示了列线图的准确预测能力(图4D)。ROC分析的AUC值也显示了6个基因特征的预后能力。与年龄和阳性淋巴结数目相比,列线图的AUC较大(图4E),表明列线图的灵敏度明显优于年龄或阳性淋巴结数目。决策曲线分析表明列线图具有较强的临床预测能力(图4F)。

图4

4.   列线图的外部验证

在GEO数据集GSE62254(图5A、B、C和D)对列线图进行进一步验证。1年、3年和5年生存率校准曲线显示,预测结果与实际观测结果之间存在明显的一致性(图5C)。ROC分析显示验证集1年、3年和5年生存时间的AUC较好(图5D)。同时将已知的DNAm驱动基因预测模型与基于C指数的风险评分模型从第一年到第五年进行了比较。结果表明,风险评分模型在训练集和验证集中效果最好(图5E)。

图5

5.   6种DNAm驱动的DEGs在肿瘤和正常组织中的甲基化程度及基因表达

在6个DNAm驱动的DEG中,5个(PODN、NPY、MICU3、TUBB6和RHOJ)是高甲基化的,而MYO1A是低甲基化的(图6A和C),在TCGA样本中(图6B),甲基化与mRNA水平呈显著负相关。此外,高甲基化驱动的DEGs在GC组织中的mRNA表达较邻近的非肿瘤胃组织显著降低(图6D)。

图6

6.   CNV、突变特征和KEGG富集

上述流程筛选的的DNAm驱动的DEG(PODN、MYO1A、NPY、MICU3、TUBB6和RHOJ)不仅受到甲基化影响,还受到基因扩增、缺失和突变的影响(图7A)。为了进一步研究影响风险评分模型的潜在信号通路,在高风险和低风险两组中进行KEGG通路的GSEA。如图7B所示,高危评分组前五位的信号通路分别是“钙信号通路”、“扩张型心肌病”、“ECM受体相互作用”,“肥厚型心肌病HCM”和“神经活性配体-受体相互作用”,而低风险评分组(图7C)前五位的信号通路是“氨酰-TRNA生物合成”、“DNA复制”、“嘧啶代谢”、“RNA降解”和“剪接体”。绝大多数上述信号通路被报道参与肿瘤的进展,为进一步探索GC的分子机制奠定了基础。

图7

结语

本篇文章利用TCGA数据库与GEO数据库,识别出胃癌的差异表达基因和DNA甲基化驱动的差异表达基因。通过KM分析、单因素和多因素回归分析、lasso回归分析、列线图的构建与验证等一系列方法,识别出与胃癌预后显著相关的风险因素,并进行了外部数据集验证。可以说思路很严谨,文章环环相扣,分析方法丰富且适用,可以说是一篇将DNA甲基化与了临床预测模型完美结合的文章!

文献解读

中药单体小檗碱抗多发性骨髓瘤作用靶点的筛选及鉴定

2020-4-1 23:18:53

文献解读

文献解读:5分肾癌之自噬基因预后预测模型文章思路

2020-4-1 23:33:19

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索