Identification of an Autophagy-Related Prognostic Signature for Clear Cell Renal Cell Carcinoma
肾透明细胞癌数据集构建自噬相关基因风险模型对患者的预后进行预测
发表期刊:Front Oncol.
发表日期:2020 May 29
影响因子:4.137
DOI:10.3389/fonc.2020.00873
01
图1 流程图
02
肾细胞癌是起源于肾小管上皮的恶性肿瘤,是泌尿系统常见的恶性肿瘤,其中透明细胞肾细胞癌(ccRCC)是最重要的亚型。目前,手术切除是ccRCC的主要治疗方法,但ccRCC预后差,复发率高,常见的临床变量如TNM分期,具有良好的预后价值,但由于肿瘤的异质性,TNM分期不能准确预测患者的预后。因此,迫切需要在ccRCC患者中发现新的分子标志物,实现早期诊断并提高ccRCC患者生存率。
自噬是细胞内自我消化过程,通过溶酶体维持细胞内稳态。自噬在维持细胞成分合成和降解之间的平衡方面起着关键作用。研究表明,自噬失调与癌症密切相关可以防止或延缓肿瘤的形成。众多研究表明,增强自噬可以抑制ccRCC的进展,自噬水平越低,ccRCC的分期和分级越高。虽然,许多促进肾癌自噬的药物已被开发出来,并取得了良好的治疗效果。然而,这些药物的作用主要集中在自噬对ccRCC进展和治疗的影响,很少有研究者研究自噬相关基因在ccRCC预后中的作用。
本研究中作者从TCGA数据库中肾透明细胞癌(KIRC)患者的表达数据中获得45个与自噬相关的差异基因,并对其生物学功能进行分析并揭示了这些自噬相关基因(ARGs)在ccRCC中的作用。
03
1.数据来源
-自噬相关的基因:HADb数据库,包含232个ARGs
-表达矩阵与了临床信息:TCGA数据库ccRCC患者的RNA-seq表达谱数据,cBioportal数据库中ccRCC患者的DFS数据。
2.生信分析
-差异分析:阈值FDR <0.05和| log2 fold Change| > 1
-富集分析:R软件包cluster Profiler进行富集分析,R软件包Goplot可视化结果,GSEA富集分析,阈值P < 0.05和FDR < 0.25
-构建预后模型:单因素、多因素cox回归分析,R软件包survivalROC计算AUC
04
1.ARGs差异分析
——–
作者从TCGA数据库中下载530例患者的RNA-seq表达谱数据以及临床信息,从RNA-seq表达谱中提取232个ARG的表达数据,获得222个表达数据。然后,在癌症组织和正常进行差异分析,共获得了45个差异表达的ARG,其中9个下调的ARG和36个上调的ARG(图2)。
图2. 正常组织和癌症组织ARGs异分析
2.差异ARGs功能注释
———
然后作者将45个差异表达的ARG进行功能富集分析,GO功能富集显示这些基因主要富集自噬,肽酶活性的正向调节,凋亡信号通路的调节,细胞生长的调节,线粒体自噬,RG主要集中在自噬体,自噬体膜,蛋白质磷酸酶结合,P53结合,磷酸酶结合等功能上(图3A)。KEGG通路富集结果显示这些基因主要富集在表皮生长因子受体(EGFR)酪氨酸激酶抑制剂耐药性,表皮生长因子受体(ErbB)信号传导途径,内分泌耐药性,丝裂原活化蛋白激酶(MAPK)信号传导等途径(图3B-C)。
图3. 差异ARGs GO功能富集分析与KEGG通路富集分析
3.构建预后风险模型
———
作者基于45个差异ARGs,使用所有的ccRCC患者携带的预后信息,进行单因素cox回归分析,结果发现有23个ARGs预后值的预后显著相关(图4)。然后进行多因素cox回归分析,结果显示有11个ARGs与患者的预后显著相关。最后,作者基于11个ARGs的风险评分公式:Risk score = (0.57 × BID ) + (0.2696 × ERBB2 ) + (0.4565 × CASP4 ) + (0.2726 × IFNG ) + (0.2433 × ATG16L2 ) + (0.2629 × EIF4EBP1 ) + (−0.4475 × PRKCQ ) + (−0.3273 × BAG1 ) + (−0.2611 × CX3CL1 ) + (−0.4178 × RGS19 ) + (−0.3370 × BNIP3 )。
图4 差异自噬相关基因的单变量Cox回归分析
4.ccRCC患者的预后情况与风险评分的相关性
———
作者使用风险模型公式对患者进行风险评分,并根据所有患者的风险得分的中值将患者分为高低风险两组,KM曲线显示两组患者之间生存情况存在显著差异P= 1.221e-15,图5A),且高风险患者的5年的生存率(40.1%)低于低风险患者5年的生存率(78.8%)。小提琴图显示基因BID,RGS19,CASP4,IFNG,ATG16L2和EIF4EBP1在高风险组中高表达,而PRKCQ,BAG1,CX3CL1,ERBB2和BNIP3在低风险组中高表达(图5B)。最后,评估了风险得分与患者生存率之间的相关性,结果显示随着风险评分的增加,患者的生存时间减少,死亡率增加(图5C-D)。这些结果表明,风险得分准确地反映了患者的生存,而自噬相关的OS signature能准确地预测了患者的预后。
图5. 基因风险得分对患者生存状态的预测
进一步,为了验证预后基因风险得分是否能作为ccRCC患者的独立预后因素,作者对临床变量和风险得分进行cox回归分析。单因素Cox回归分析显示;年龄、stage分期、grade分级、T分期、M分期和风险评分与ccRCC患者OS显著相关(图6A),多因素Cox回归分析显示;年龄、stage分期、grade分级和风险评分与ccRCC患者OS显著相关(图6B),这些结果显示风险得分可作为一个独立的预后因素。最后,使用ROC曲线来评估风险基因模型预测的准确性,结果显示风险基因模型的AUC为0.738,表明了风险基因模型具有良好的预测性能(图6C)。此外,作者在高低风险两组之间进行GSEA富集分析,探究风险得分与基因功能的关系,结果显示:自噬和肾癌相关的通路在低风险组显著(图6D-E)。
图6 基因风险模型与其他因素相比可作为独立的预后因素
5.验证集患者OS验证基因风险模型的鲁棒性
———
为了验证基于整个TCGA数据集构建的与OS显著相关的基因风险模型是否具有鲁棒性,作者将整个数据集中的530名ccRCC患者随机分为训练集(n=265)和验证集(n=265)。根据这个风险得分公式,计算出每个患者的风险得分,并根据风险得分的中值将训练集和验证集中的患者分为高风险组和低风险组,结果与训练集中得到的结果一致,高风险组患者的生存时间低于低风险组,且两组之间的生存状态存在显著差异(p<0.01,图7A-B)。此外,训练集和验证集具有很高的AUC,训练集中1年、3年和5年OS的AUC分别为0.775、0.785和0.809(图7B)。验证集1年、3年和5年OS的AUC分别为0.701、0.669和0.711(图7D)
图7. 在验证集中验证风险模型基因对患者OS的鲁棒性
6.预后基因风险模型对ccRCC患者临床因素的预测性能
———
作者进一步分析了预后相关的基因风险模型对不同临床因素的ccRCC患者的预测性,结果显示预后基因风险模型能将不同年龄段、不同性别、不同grade分级、不同stage分期、不同M分期和不同T分期的ccRCC患者分为高低风险两组,且高风险组的生存时间比低风险组短,且存在显著差异(图8),这说明预后基因风险模型能对不同类型的临床变量患者进行很好的预测。
图8. 预后基因风险模型对不同类型临床变量患者的预后情况进行预测
7.预后基因风险模型与临床病理特征的关系
———
作者进一步分析了预后相风险基因与临床病理变量之间的相关性,结果显示,G3-4的风险得分高于G1-2(P=1.653e-06,图9A),M1的风险得分高于M0(P=0.002,图9B),N1的风险得分高于N0(P=0.004,图9C),III-IV的风险得分高于I-II(P=1.102e-05,图9D),风险得分高于G1-2(P=1.653e-06,图9A)T3-4高于T1-2(P=5.676e-05,图9E)。这些结果提示,危险度越高,ccRCC的恶性程度越大。因此,基因风险模型可以准确预测ccRCC的进展。
图9. 风险评分与临床病理变量之间的关系
8.ARGs与临床病理变量之间的相关性
———
作者为了进一步分析了风险模型中的每个基因与ccRCC患者临床病理变量之间的关系。结果显示:BID,ERBB2,CASP4,PRKCQ,BAG1,INFG,EIF4EBP1,CX3CL1,RGS19和BNIP3与阶段显著相关;BID,ERBB2,CASP4,BAG1,INFG,EIF4EBP1,CX3CL1,RGS19和BNIP3与等级显著相关; BID,ERBB2,CASP4,PRKCQ,BAG1,INFG,EIF4EBP1,CX3CL1,RGS19和BNIP3与T期显著相关; BID,ERBB2,CASP4,BAG1,INFG,EIF4EBP1和RGS19与M期显著相关;ERBB2,PRKCQ,CX3CL1和BNIP3与性别显著相关。但是,ATG16L2与性别,分期,年级,T期或M期无显著相关性。
9. 基于ARGs构建与患者DFS相关的风险模型
从cBioportal数据库获取431个ccRCC的DFS数据,基于差异ARGs,首先使用单因素cox回归分析,得到19个与DFS显著相关的基因,然后使用多因素回归分析,得到5个与DFS显著的基因,进一步基于5个基因构建一个风险评分:risk score = (0.5163 × BID) + (−0.4748 × BAG1) + (0.1084 × APOL1) + (−0.6522 × NKX2-3) + (0.3866 × EIF4EBP1). 根据公式计算每个患者的风险得分,并根据风险得分中值将整个数据集中的患者分为高风险组和低风险组。K-M分析显示高风险组的DFS时间明显短于低风险组(P=9.177e-10,图10A),ROC分析显示1年、3年和5年的AUC分别为0.745、0.754和0.756(图10D)。这些结果基因风险得分能对ccRCC患者的DFS进行很好的预测。
为了验证基于整个TCGA数据集构建的与DFS显著相关的基因风险模型是否具有鲁棒性,作者将整431名患者被随机分为训练集(n=216)和验证集(n=215)。根据风险得分公式,计算出每个患者的风险得分,并根据风险得分的中值将训练集和验证集中的患者分为高风险组和低风险组,结果与训练集中得到的结果一致,高风险组患者的DFS时间B比低风险组时间短,且两组之间的DFS状态存在显著差异(p<0.01,图10A-B)。此外,训练集和验证集具有很高的AUC,在训练集中,1年、3年和5年DFS的auc分别为0.746、0.759和0.796(图10E);在验证集中,1年、3年和5年DFS的auc分别为0.741、0.748和0.711(图10F)。进一步,为了验证DFS基因风险得分是否能作为ccRCC患者的独立预后因素,作者对临床变量和风险得分进行cox回归分析。单因素Cox分析显示,grade分级、stage分期、T分期、M分期基因风险得分与DFS显著相关(图10G),多因素Cox回归分析显示,grade分级、stage分期和基因风险得分与DFS显著相关(图10H)。
图10. 在ccRCC患者中构建与DFS相关的分析模型