肿瘤+免疫微环境(大热)+公共数据库高级套路你值得拥有!
话不多说,直接上干货!
1. 数据获取-标准化-微环境解析
下载GEO和TCGA的转录组数据,数据预处理如下:首先将探针对应到基因上,去掉无注释信息的探针,多个探针对应同一个基因则选择平均表达量最大的探针作为该基因的表达水平。使用目前引用量最高,影响力最大的方法:CIBERSORT[1] 解析肿瘤微环境1000例(XX肿瘤);
2. 免疫细胞的生存预后
使用单因素cox回归批量分析各种免疫细胞的预后作用,22种免疫细胞的预后森林图如下。
3. 机器学习选择最佳预后Panel
使用LASSO联合Bootstrapping方法重复迭代运行1000次,选择被LASSO重复抽取大于600次的变量,随机抽取6/10的患者作为训练组,进行多因素cox回归,计算每个细胞的系数,将各细胞浸润风度的值乘以系数相加获得肿瘤微环境风险评分Immunoscore,评分在训练集和验证集的生存曲线如下:
4. 风险评分与肿瘤微环境浸润Pattern的关系
接下来进一步探索风险评分与肿瘤微环境浸润模式(无监督聚类:采用ConsensuclusterPlus[2]确定最佳聚类k)的关系,发现CD8+T细胞,M1型巨噬细胞,CD4+激活型T细胞浸润丰富的肿瘤,风险评分显著更低。
5. 风险评分与肿瘤基因组的关系
肿瘤通过表达新抗原介导APC抗原递程于T细胞,T细胞的浸润和激活介导了肿瘤微环境的塑造,因此肿瘤基因组的改变是介导肿瘤微环境变化的前提因素,为进一步寻找肿瘤基因组改变和肿瘤微环境的关系,我们利用微环境风险评分通过多种统计方法寻找与肿瘤微环境风险评分显著相关肿瘤基因突变信息,可发现一些与肿瘤微环境显著相关的突变基因。
(图片来自于TMEscore[3])
总结
基础框架做到这里大概影响因子3-4分了,接下来可以继续完成一些高级分析丰富结果(具体加微信详询)如果完成了基础+高级,那么6分应该没有问题了。是不是从没觉得发文章可以如此容易呢? 以上是我们分析团队针对某个肿瘤的大数据分析结果,癌种数据有限,接受预定,手快有,手慢无。
References
[1].Newman AM, Liu CL, Green MR, et al. Robust enumeration of cell subsets from tissue expression profiles. Nature Methods 2015;12:453.
[2].Monti S, Tamayo P, Mesirov J, et al. Consensus Clustering: A Resampling-Based Method for Class Discovery and Visualization of Gene Expression Microarray Data. Machine Learning 2003;52:91-118.
[3].Zeng D, Li M, Zhou R, et al. Tumor Microenvironment Characterization in Gastric Cancer Identifies Prognostic and Immunotherapeutically Relevant Gene Signatures. Cancer Immunol Res 2019;7:737-750.
这个确实是热点,有文章推荐吗