术语
• MIBC(muscle‐invasive bladder cancer) 肌肉浸润性膀胱癌
• NMIBC(non–muscle‐invasive bladder cancer) 非肌肉浸润性膀胱癌
• OS (overall survival)总生存
被认为是肿瘤临床试验中最佳的疗效终点,当患者的生存期能充分评估时,它是首选终点
• DFS (disease-free survival)无病生存期
最常用于根治性手术或放疗后的辅助治疗的研究
• DCA (Decision Curve Analysis)决策曲线分析
1.研究思路
• 数据下载:TCGA‐BLCA 数据下载于UCSC Xena;GEO 数据集:GSE13507, GSE32548, GSE32894,GSE48075;gene sets和gene list下载于Gene Set Enrichment Analysis (GSEA) database;
• GSVA对4个GEO数据集进行分析;展示GSEA对EMT通路的富集结果;对NMIBC和MIBC进行生存曲线的绘制;
• Lasso和cox分析筛选出7个EMT相关的signature,用计算结果对TCGA-BLCA分组后进行生存曲线、risk score模型以及时间依赖的ROC曲线绘制;
• 在GEO数据集中对7个EMT相关的signature进行如上相同的确认(生存曲线、risk score model、时间依赖的ROC);
• 在DFS数据集中对7个EMT相关的signature进行如上相同的确认(生存曲线、risk score model、时间依赖的ROC);
• 对临床特征进一步细分后,在每一个临床分类下绘制生存曲线;
• 对临床病理特征进行单因素和多因素cox回归,确定出包括EMT相关signature在内的可作为独立预后因子的3个特征,得到3年或5年OS预测的Nomogram,并绘制矫正曲线和DCA;
2.结果
主要是用GSVA对GEO数据集进行分析,然后,维恩图分别展示激活和抑制的基因集;在激活基因集的交集中找到了要研究的EMT通路;用GSEA对4个GEO数据集的EMT通路的富集情况进行展示;对MIBC和NMIBC绘制生存曲线;
GSVA以非参数无监督的方式研究在基因集水平的差异;GSEA为富集分析的方法之一,功能基因集打分FCS(functional class scoring),可以下载软件分析,也可用R包分析;

富集了EMT通路后,又利用Lasso和cox回归的方式,将基因数目从200多个(上面有提到,基因集可以直接从Gene Set Enrichment Analysis (GSEA) database下载)减少到7个基因的signature,得到了一个公式:LAMA2 expression *0.0382 + GPC1 expression *0.0726 + ECM1 expression *0.0717 + FBN2 expression *0.0386 + LRP1 expression*0.0685 + PVR expression *0.00903 + FUCA1 expression *(−0.0475),依据这个公式计算得到的score进行分组后绘制生存曲线、风险模型和ROC曲线;

将训练集换成验证集后,生存曲线、风险模型、ROC再来一波,这里用到的临床数据是OS;

验证集有个小的改变,生存曲线、风险模型、ROC再来一波,这里用到的临床数据是DFS;

KMplot批量产出生存曲线

以上都是对预后基因signature的建立和验证,这里用单因素和多因素cox,确立了EMT相关signature在内的可作为独立预后因子的3个特征;

第一次来到SCI666,打个卡吧
厉害了