基因组不稳定是造成肿瘤异质性及驱动肿瘤进展的关键因素,确定不同其潜在的分子特征有重要的临床意义。2021年3月发表在frontiers in cell and Developmental Biology(IF=5.201)上的纯生信文章Identification of the Prognostic Significance of Somatic Mutation-Derived LncRNA Signatures of Genomic Instability in Lung Adenocarcinoma则为如何将这一切入点应用到肿瘤预后模型中提供了一个示范。
肺癌是恶性肿瘤中发病率和死亡率最高的一种复杂疾病,其特征是广泛的基因组不稳定性。肺腺癌(LUAD)是肺癌的一种亚型,鉴于LUAD预后差且临床异质性大,基于其突变表型开发新的生物标志物可以为LUAD患者的风险分层和预后评估提供更好的指导。
TGCA的临床数据,体细胞突变数据和转录组数据(这里我们主要用到的是lncRNA数据)(N=457)
GEO数据集GSE31210(你要的验证集有了~)。
LUAD患者基因组不稳定相关lncRNA的筛选
首先,作者基于基因组数据分析,计算了每个样本的累计体细胞突变情况,并将排名靠前的TOP25%的样本定义为基因组不稳定组,同时将排名靠后的bottom25%的样本定义为基因组稳定组。随后将两组样本进行差异分析,即可得到传说中的基因组不稳定相关lncRNA(fig 1A)。
为了验证所得到的lncRNA是否能够准确的反应患者的基因组不稳定性,作者基于上述差异lncRNA的表达进行了聚类分析,得到两个cluster(fig 1B),并对两个cluster样本的突变数进行了统计,结果表明,两个cluster的样本间突变数具有显著差异,即这两个cluster一个是基因组不稳定型cluster,一个是基因组稳定型cluster(fig 1C)。与此同时,前人报道的一个能够驱动基因组不稳定的基因 UBQLN4,在基因组不稳定型cluster中高表达(fig 1D)。
这个部分的分析,是这篇文章比较亮眼的部分,找到了一个相对少见的切入点,为后续模型构建提供了一个基因list。
后续就是大家比较常见的模型构建思路了:筛选预后相关的lncRNA→模型构建→模型验证(生存分析加ROC)→nomogram模型构建。。。。。此处省略1000字,请大家根据下面的流程图进行脑补~
在这篇文章中,作者将临床数据、体细胞突变数据与转录组数据相结合,基于基因组不稳定性相关的lncRNA, 构建了肺腺癌的预后模型,为LUAD患者的临床个性化管理和治疗决策提供一个有用的指标。模型构建部分是比较常规的分析,需要划重点的是基因组不稳定性相关的XXX鉴定,得益于TCGA中一个样本可能会同时上传基因组数据及其他数据类型,这个切入点才有了分析的可行性,除了可以迁移到不同数据不同疾病的模型构建类思路中,连ceRNA都可以被救赎,如可以构建XXX(疾病)中基因组不稳定性驱动的XXX(不同分子类型)的ceRNA调控网络。