笔者在检索近期生信相关文章时发现一个特点,模型构建这一思路在肿瘤类疾病中的应用真是越来越广泛了啊。其核心思路就是通过前期差异分析/预后分析/相关性分析筛选各种可能的相关因素,再通过模型构建将筛到的可能因素糅合在一起,通过最终的打分实现对于所关注的科学问题的预测。
这里的科学问题可以是肿瘤的发生/转移/复发等,而纳入的因素则更是五花八门,基础版的肿瘤分期/年龄/性别/有预后价值的基因等,升级版可以将常规的mRNA换成miRNA/lncRNA/circRNA/甲基化等,私人定制版的可以做免疫浸润水平/吸烟状态/肿瘤大小/治疗等。
说到这里,大家应该也能发现模型构建能实现的基础条件在于所收集的样本是否有临床性状,对于肿瘤类疾病,依托于各个完善的数据库,从模型构建入手还是比较友好的。对于非肿瘤类疾病,可用的临床信息都比较少,一般常见思路是基于疾病相关的基因来构建简单模型进而对疾病的发生进行预测。
我们以2020年2月12号发表在Journal of Inflammation Research(影响因子4.953)上的Integrated Gene Expression Profiling Analysis Reveals Probable Molecular Mechanism and Candidate Biomarkerin Anti-TNFα Non-Response IBD Patients这篇文章为例,看一下模型构建在非肿瘤类疾病上的应用。

在这项研究里,作者基于基因表达谱分析后的模型构建,筛选出了炎症性肠炎中对抗肿瘤坏死因子治疗无反应的生物标志物。
炎症性肠炎(inflflammatory bowel disease ,IBD)主要包含克罗恩病(Crohn’s disease ,CD) 及溃疡性肠炎(ulcerative colitis,UC)这两种类型,目前主要治疗方式是抗肿瘤坏死因子(anti-TNFα)类药物,约有三分之一的病人对该药物治疗无反应,患者必须经常接受长时间的治疗以确定所选择的药物是否有效,所以就很有必要对药物反应进行预测。
首先作者在GEO数据库中筛选了8个炎症性肠炎的数据集,其中包含6个肠组织来源的数据集(其中5个作为训练集,即Discovery,1个作为验证集,即Validation),2个外周血单核细胞来源的数据集(均为验证集,即Validation)。

鉴于训练集样本来自多个数据集,为了在后续分析中将不同数据集的样本混在一起使用,作者做了去批次效应处理。

基于去批次处理后的训练集样本,进行药物应答组和无应答组之间的差异分析。



截止到目前为止,作者所做分析都是一些常规分析,当然这些也是非肿瘤类疾病研究的基本框架。
作者随后将PPI筛选出的hub gene纳入LASSO回归模型,进而筛选与疾病相关的标志物,并基于ROC曲线对筛选出的标志物在肠组织及血样数据集中进行了验证。AUC值均大于0.5。

基于CIBERSORT,作者进行了药物应答组和无应答组之间的免疫细胞组成的差异分析,发现与应答组相比,无应答组患者肠道组织中的M2巨噬细胞相对较少,M1巨噬细胞(M1巨噬细胞是可以产生促炎细胞因子的巨噬细胞)在M1和M2巨噬细胞中的比例在无应答组中很高。

如果模型构建的数据量再大点,模型的准确性可以做到更高。如果探究生物标记物与免疫细胞间的相关性,也可以进一步揭示疾病的作用机理。