研究人员表示,单细胞转录组学分析被广泛用于研究人类肿瘤。然而,将肿瘤微环境中的正常细胞类型与恶性细胞区分开并解析肿瘤内克隆亚结构仍然具有挑战性。为了解决这些挑战,研究人员开发了一种集成的贝叶斯分割方法,称为非整倍体肿瘤的拷贝数染色体核型分析(CopyKAT),这个方法能够在高通量单细胞RNA测序(scRNA-seq)数据中以平均5 Mb的基因组分辨率来估算基因组拷贝数。研究人员使用CopyKAT分析了21种肿瘤中的46,501个单细胞,包括三阴性乳腺癌、胰腺导管腺癌、间变性甲状腺癌、浸润性导管癌和胶质母细胞瘤,它准确地(98%)区分了癌细胞与正常细胞。在三阴性乳腺癌中,CopyKAT揭示了克隆性亚群,这些亚群在癌症基因(例如KRAS)的表达和特征(包括上皮到间质转化、DNA修复、细胞凋亡和缺氧)方面有所不同。这些数据表明,CopyKAT可以帮助分析各种人类实体肿瘤的scRNA-seq数据。
单细胞分析中的主要挑战是区分肿瘤微环境中的正常细胞和恶性细胞,一种区分肿瘤细胞与正常细胞的有效方法是鉴定非整倍体的拷贝数,除二倍体基因组的基质细胞外,非整倍体的拷贝数在大多数肿瘤中常见(88%)。在之前就出现过如 inferCNV, HoneyBadger可以通过RNA数据来估计基因组拷贝数;但是这些方法主要适用于分析具有较低细胞通量、高测序深度的第一代scRNA-seq,这些方法不适用分析来自高通量scRNA-seq平台的数据(微滴和纳米孔平台),这些平台进行全转录组扩增仅在非常稀疏的覆盖深度处对mRNA的3’或5’末端进行测序;而且这些方法不能准确地解析特定染色体断点的基因组位置或根据其非整倍体拷贝数对肿瘤和正常细胞进行分类。为了应对这些挑战,研究人员开发了CopyKAT并将其应用于各种人类肿瘤的单细胞转录组上,以识别非整倍体肿瘤细胞并描绘出在肿瘤块内共存的不同亚群的克隆结构。
图1
CopyKAT的统计工作流程将贝叶斯方法与分层聚类相结合,以计算单细胞的基因组拷贝数图谱,并根据高通量3’scRNA-seq数据定义克隆亚结构(图1)。该工作流将唯一分子标识符(UMI)计数的基因表达矩阵作为计算的输入。分析开始时是按行注释基因,以便按基因组坐标对它们进行排序。执行Freeman-Tukey变换来稳定方差,然后进行多项式动态线性建模(DLM)来平滑单细胞UMI计数中的异常值(图1a)。下一步是以高可信度检测二倍体细胞的子集,以推断正常2N细胞的拷贝数基线值。为此,将单个细胞合并为几个小的分层群集,并使用高斯混合模型(GMM)估算每个群集的方差(图1b)。通过遵循严格的分类标准,将估计方差最小的群集定义为“可靠二倍体细胞”。当数据仅包含少量正常细胞或肿瘤细胞受限于具有近二倍体基因组且拷贝数异常(CNA)事件时,可能会发生潜在的错误分类。在这种情况下,CopyKAT提供了一种“GMM定义”模式来逐一识别二倍体正常细胞,其中假定单个细胞为三种基因表达的高斯模型混合态,分别代表了基因组的增益、损失和中性状态。当处于中性状态的基因至少占表达基因的99%时,才将单个细胞定义为置信度高的二倍体细胞。
为了检测染色体断裂点,整合了泊松-伽马模型和马尔可夫链蒙特卡洛(MCMC)迭代以生成每个基因窗口的均值,然后应用Kolmogorov-Smirnov(KS)测试来加入均值差异不显着的相邻窗口(图1c)。为了加快计算速度,将成千上万的单个细胞分裂成簇,找到共有的染色体断点,并将它们合并在一起,形成样本中整个细胞群体的基因组断点的并集。然后,将跨越每个细胞中相邻染色体断点的所有基因的后验平均值计算为每个窗口的最终拷贝数值。通过将基因重排到220kb可变基因组箱中,进一步将所得的拷贝数值从基因空间转换为基因组位置,以大约5 Mb的分辨率获得每个单个细胞的全基因组拷贝数概况。基因组分辨率是根据整个基因组中邻近基因的中位距离(〜20 kb)乘以基因窗口大小(25个基因)得出的。然后,对单细胞拷贝数据进行分层聚类,以识别非整倍体肿瘤细胞与二倍体基质细胞之间的最大距离;如果基因组距离不显着,我们将切换到GMM定义模型来逐个预测单个肿瘤细胞(图1d)。最后,将单细胞拷贝数据聚类以鉴定克隆亚群,并计算代表亚克隆基因型的共有图谱,以进一步分析其基因表达差异(图1 e)。
为了评估CopyKAT的性能,研究人员对乳腺肿瘤(DCIS1)样本使用3’scRNA-seq(10X Genomics)的得到1,480个单个肿瘤细胞转录组(图1),然后使用CopyKAT(图2 a,b)从scRNA-seq数据得到全基因组拷贝数图谱,同时使用先前发布的inferCNV 方法对相同数据进行分析,然后对分析的结果进行了比较(图2c,d)。为了生成DNA拷贝数分布图的“事实”参考,研究人员从DCIS1中分选了数百万个非整倍性肿瘤细胞,用于全基因组批量DNA测序(图2e,f)。结果表明,CopyKAT在220 kb的基因组分辨率下与参考DNA拷贝数分布图呈现了高度一致性(皮尔森相关=0.82)。在DNA-seq数据中检测到的大多数CNA都被CopyKAT在scRNA-seq数据分析中得到了准确的识别,包括4、6、8、12、17、20号染色体的染色体增益以及2、3、9、10和15号染色体的损失(图2 a,b)。
图2 abcd
图2 efgh
在同一数据集上运行了inferCNV ,使用成纤维细胞(利用标记基因ACTA2和FN1手动识别了基质细胞)的marker基因来提供所需的内部基线参考。为进一步比较数据,作者将inferCNV 的结果转换为与CopyKAT相同的基因组分辨率(220kb可变区),结果显示inferCNV 的信号低于CopyKAT的信号,但通过相关分析(Pearson相关= 0.79),表明inferCNV分析结果也与DNA-seq参考数据高度一致(图2c,d)。但是inferCNV主要局限性在于它只能报告基因窗口的平滑平均值,而不能检测到染色体断点或拷贝数片段的特定坐标。然而这可以通过CopyKAT实现,它通过重复采样不同基因大小间隔的相邻局部区域,进一步从两种方法推断拷贝数状态与参考DNA-seq拷贝数谱的相对距离。该分析表明,与inferCNV 报告的滑动窗口平均值相比,CopyKAT分割结果显著(P<0.001,t检验)更接近参考DNA拷贝数状态(图2g)。此外,CopyKAT在5到500个基因的不同大小的基因间隔中表现出更稳定的性能(图2h)。
接下来,作者通过将scRNA-seq结果与真实标准(DNA-seq拷贝数)进行比较,评估了DCIS1数据中CopyKAT检测染色体断点的敏感性和效率。进行自举以重新采样单个细胞并估计检测灵敏度的变化。补充图里说明了其它分辨率下检测到CNA的百分比,以及CopyKAT对分段参数(KS.cut)的敏感性,KS.cut参数值越大,断点检测变得就更严格,检测到的断点也会减少,当KS.cut超过0.3(范围为0到1),分段值得准确性会大大下降,这些数据表明,CopyKAT可以从高通量3’scRNA-seq数据以中等基因组分辨率(5 Mb)准确推断DNA拷贝数分布。(对这部分结果感兴趣的读者看方法和补充图哈)
应用实例(1):实体瘤中肿瘤和正常细胞的分类
作者们将CopyKAT应用于先前发表的来自5名胰腺癌(PDAC)、5名三阴性乳腺癌(TNBC)和5名间变性甲状腺癌(ATC)的3’scRNA-seq数据,可根据其拷贝数差异来区分肿瘤细胞和正常细胞(图3)。
图3 a
图3a:在五个PDAC患者中,CopyKAT一共分析了9,717个单细胞转录组,预测肿瘤细胞具有的全基因组CNA与先前报道一致,并成功鉴定了所有个体中的非整倍体肿瘤细胞亚群,同时将非整倍体肿瘤细胞的UMAP投影共定位到表达簇,对比显示使用已建立的肿瘤上皮标志物对表达簇进行评分,有趣的是在所有五个患有PDAC的个体中,利用肿瘤表达的标志物得到得二个高表达细胞群都仅在两个上皮簇中的一个(c1)中检测到了全基因组的CNA,这表明另一个簇可能是无法通过基因表达去判别,所里它为正常二倍体上皮细胞(c2),CopyKAT在识别肿瘤细胞方面达到了很高的准确性(98.5%一致性),估计的肿瘤纯度为:从6%至18%(图3d),这与先前的组织病理学数据”由于高间质细胞群体,PDAC的个体通常具有低肿瘤纯度“的结论一致。
图3 def
图3 b
图3b:在5个ATC肿瘤中CopyKAT分析了19,568个细胞,类似的预测肿瘤细胞的全基因组CNA与先前报道一致,在UMAP表达数据中,利用肿瘤标志物预测的非整倍体细胞对应于所有个体中的一到两个簇,显示出较高的上皮细胞评分。基于预测的非整倍体肿瘤细胞与c1(在ATC1中为c1和c2)的共定位,鉴定肿瘤细胞的平均预测准确性为97%,在ATC肿瘤中观察到了广泛的肿瘤纯度(2-80%)(图3e),与ATC肿瘤病理数据中报道的范围一致。
图3 c
图3c:在TNBC的五个个体中CopyKAT分析了8,944个单细胞的3’scRNA-seq。在所有五个TNBC样本中,确定了与先前报道的TNBC个体的频繁CNA,umap表明预测的非整倍体肿瘤细胞对应于上皮基因组评分阳性的基因表达簇(图3c),在四个肿瘤个体(TNBC1,TNBC2,TNBC4,TNBC5)中,上皮评分为阳性的簇(c1-c2)直接对应于CopyKAT预测的非整倍体簇。然而,在肿瘤3个体(TNBC3)中,上皮基因组(c1)呈阳性的三个簇中只有一个显示全基因组的CNA。整个TNBC肿瘤的预测准确性较高(98%)。有趣的是,在三种情况下(TNBC1,TNBC2,TNBC5),推断的拷贝数分布图均定位于两个以上的上皮基因表达呈阳性的肿瘤特异性表达簇,这表明与PDAC和ATC肿瘤相比,TNBC在肿瘤块中存在多个非整倍体克隆。
这些数据表明,仅根据scRNA-seq数据推断出的非整倍体拷贝数谱,CopyKAT即可准确地(98%±3%s.d.)区分多种实体瘤中的肿瘤细胞和正常细胞,而无需特定的基因表达标记。
应用实例(2):scRNA-seq数据分析
虽然研究数据表明CopyKAT可以从3’scRNA-seq数据准确估计拷贝数数据,但作者们想进一步研究了该方法是否可以广泛应用于第一代scRNA-seq数据(SMART-seq2)和5’scRNA-seq(10X Genomics)。作者们对两个雌激素受体阳性浸润性导管癌(ER + IDC)肿瘤(IDC1,IDC2)进行了5’scRNA-seq ,并分析了先前发表的涉及两个多形性胶质母细胞瘤研究(GBM;GBM1,GBM2)。
图4 abcd
图4abcd: IDC1和IDC2的5’scRNA-seq(10X Genomics)测序中总共有7,780个单细胞。CopyKAT在每个肿瘤中鉴定出两个簇,分别代表正常细胞(N)和肿瘤细胞(T),其中两个肿瘤均显示了8p染色体(MYC)的大幅扩增(图4 a,c)。scRNA-seq表达数据的聚类表明,在两个肿瘤中推断的非整倍性肿瘤细胞与显示高上皮marker分数的聚簇共定位(图4b,d),这证实了CopyKAT预测的准确性。与TNBC样本相似,两种ER + IDC肿瘤均显示出高的肿瘤细胞(分别为97%和87%)。
图4 efgh
图4 efgh:接下来,对使用第一代全长scRNA-seq(SMART-seq2)生成的GBM1(MGH125)和GBM2(MGH128)的两个个体的已发表的scRNA-seq数据集([GSE131928]*)使用CopyKAT分析。与仅具有部分基因覆盖的高通量3’或5’scRNA-seq方法(10X Genomics)相反,全长SMART-seq2数据具有覆盖整个基因转录本的序列读数。但是,SMART-seq2的细胞通量低(分别为332和184个细胞),并且没有扩增偏差的UMI被移除。为了执行CopyKAT分析,使用了标准化基因表达计数数据的TPM / 10矩阵。在这两个样品中,观察到非整倍体肿瘤细胞和二倍体正常细胞簇之间的明显分离(图4e,g)。CopyKAT推断的非整倍性肿瘤细胞簇表达高水平的EGFR(图4f,h),这是GBM 已建立的肿瘤细胞标记。
总体而言,这些数据表明CopyKAT与多种scRNA-seq技术兼容。
*[GSE131928]:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE131928
应用实例(3):推断乳腺肿瘤的克隆亚结构
为了描述克隆亚结构将癌症基因型与表型联系起来,研究者将CopyKAT应用于三名患有TNBC的个体产生的scRNA-seq数据中(图5)。基于拷贝数差异将推断的拷贝数概况进行聚类以识别亚群,并从单细胞谱的簇中计算出共有拷贝数概况以识别具有拷贝数差异的基因组区域。从亚克隆表达谱中,进行了差异表达(DE)和基因标记分析,以鉴定亚克隆之间的表型差异。
图5 ad
在TNBC1中,797个非整倍体拷贝数细胞的聚类确定了两个主要亚克隆(A,B),分别占肿瘤质的44%和28%(图5a)。聚集的热图鉴定了所有肿瘤细胞共有的克隆扩增(1q,6p,8q,10p,16p和18p)和克隆缺失(1p,4q,5q,8p,10q,13和14)。这些基因组区域包括《癌症基因组图谱》(TCGA)中的许多已知乳腺癌基因,包括MDM4,PIK3CA,EGFR,MYC,GATA3,PTEN,CCND1,RB1和其他它因(图5 a,上)。共有拷贝数图谱的聚类热图揭示了亚克隆CNA事件,包括克隆A(4p,7q,9p13.2–q22.2和17q)中的亚克隆扩增和克隆B(3p26.3–p25.1 6q,7p,11q,Xp11.23和Xq)中的亚克隆扩增,在肿瘤块中有所不同(图5a,下)。DE分析确定了两个亚克隆之间的329个差异表达基因(P值<0.01,| log 2 (倍数变化)|≥0.5),其中47%位于亚克隆CNA区(补充图4a)包括已知的癌症基因,例如在亚克隆A中2q染色体上过表达的IDH1和在亚克隆B中过表达的16q染色体上过表达的CDH1(图5a,下)。这两个非整倍体亚克隆对应于高维空间中的不同表达簇(图5d上)。单细胞基因集变异分析(GSVA)鉴定了相对于亚克隆B富含亚克隆A的几种癌症标志,包括雄激素反应和上皮-间充质转化(EMT)以及其他癌症标志(图5d下)。研究者还对其它二位患者TNBC2,TNBC5也做相同的克隆亚结构分析。
这些结果表明,CopyKAT可以从scRNA-seq数据解析肿瘤中的克隆拷贝数亚结构,并鉴定出存在于肿瘤块内的乳腺癌基因和癌症亚克隆表型的差异。
CopyKAT的优势:利用CopyKAT可对scRNA-seq数据(高通量3’或5’scRNA-seq、SMART-seq2)进行非整倍体基因拷贝数分析,在几种不同的实体癌类型中都是可行的,包括PDAC,ATC,DCIS,TNBC,IDC和GBM,即使在肿瘤纯度非常低(<15%)或很高(> 90%)的情况下也可以。CopyKAT与高通量scRNA-seq方法兼容,并且还与第一代scRNA-seq方法的数据兼容。
CopyKAT的局限性:并非所有癌症类型都具有可用于区分正常细胞和肿瘤细胞的非整倍体拷贝数事件。特别是,小儿癌症和造血系统癌症(例如AML和CLL)的拷贝数变化很少,因此可能不适合CopyKAT分析。另一个限制是,CopyKAT主要限于基于整个基因组读取深度的变化来检测CNA事件,而不能用于检测其他有助于基因组多样性的基因组事件,包括染色体结构重排、插入、缺失和体细胞突变。此外,由于3’scRNA-seq数据的技术差异,CopyKAT无法在具有独特基因型的单个细胞的基因组上提供可靠的拷贝数信息。这使得CopyKAT更适合于分析许多细胞已扩增并具有相似基因型的肿瘤中亚克隆,而不是分析复杂细胞或极为罕见的亚群。CopyKAT一个潜在问题是,当scRNA-seq数据集没有任何肿瘤细胞时,CopyKAT可能会尝试错误地检测具有最高基因表达水平的簇中的CNA事件。在这种情况下,推断的CNA事件将与这些癌症中已知的细胞遗传事件不一致,具体需要忽略。
CopyKAT软件可从GitHub获得:https://github.com/navinlabcode/copykat