术语
•HNSCC (head and neck squamous cell carcinoma)头颈部鳞状细胞癌
•Consensus Cluster 一致性聚类
• nearest-centroid classifier 最近质心分类
1
研究思路
• 数据来源:TCGA-HNSCC和GSE65858 (LHNG cohort)
• 基于1703个免疫相关基因对HNSCC进行亚型的划分
• 对分类亚型进行免疫概况(免疫细胞和免疫检查点)的展示
• 在验证集(LHNG cohort)用最近质心分类分成同样的4类后进行相同的分析
• 在测试集和验证集进行非免疫基质细胞和炎症趋化因子表达的分析
• 对4个亚型进行预后的分析(生存分析)
2
结果
这里采用(Consensus Cluster)一致性聚类的方法,利用1703个免疫相关基因将TCGA的HSNCC样本划分为4个亚型;Consensus Cluster Plus包,利用无监督聚类的方法,确定数据集中可能的聚类数目(即k,这里用的是4)以及聚类中的成员(即C1、C2、C3和C4包括哪些病人)(更详细的可以看Consensus Cluster Plus的说明书);PCA、维恩图、热图(top 100 genes)均是另一种形式的聚类结果展示;

这里是热图展示不同亚型的特定免疫细胞的表达和检查点通路分子的表达;同时用箱线图展示了6种免疫细胞和8种免疫检查点分子的表达情况,这里主要看p值了解是否为显著差异;

LHNG cohort在文章多次提到,为GSE65858 数据;即将测试集(TCGA-HNSCC)换成验证集(GSE65858 ),进行上述的相同操作(热图和箱线图);
TCGA和GEO这样作为测试集和验证集的情况用得比较多;这里对GEO数据集的分类采用了最近质心分类的方法,即取训练集每个亚型的平均值为中心,待分类的样本(验证集中的样本)归属为离得最近的中心点的亚型;

在TCGA和LHNG数据集,利用MCP-counter对endothelial cells和 fibroblasts的表达进行计算,此外,还进行了趋化因子的计算,并用箱线图进行表示;

为TCGA和LHNG cohort的4 个亚型作生存曲线的绘制,比较4个亚型是否会有预后差异;

3
结语
文章依然是TCGA作测试集,GEO作验证集展开分析;这里主要是免疫相关的一些分析,利用表达数据进行免疫细胞和免疫检查点的表征,最后再落到不同亚型的预后差异(一般分型后,生存分析总是绕不开的)上;文中提到的分析,可以通过学习相应的R包或使用网页工具来做,总的来说,难度不高,可以学起来。