估计肿瘤纯度的方法TPES,是根据体细胞单核苷酸变异(SNVs)的可变等位基因片段(VAFs)在拷贝数中性的肿瘤片段中的分布来估计DNA纯度。
纯的肿瘤样本的变异等位基因分数(VAF)分布应该是0.5,(例如观察肿瘤细胞,如果所有的细胞都含有相同的异质突变,那么肿瘤细胞纯度为100%,变异等位基因分数是50%,即每个染色体的一半)。一些技术手段和癌型特异因素会影响VAF值,并且例如,如果SNV在拷贝数为3的区域出现,其VAF是只会在1/3,2/3或1左右波动。
认为二倍体片段内的克隆单等位SNV适合于TP评估,命名为p-SNV。通过使用保守的方法选择合适的p-SNV,用来评估TP,确定用来评估纯度值所需的最小SNV数量。为了最大程度减少每个样本的假阳性p-SNV数量,TPES使用两个主要的过滤步骤。
TPES的第一个过滤步骤:
(i)通过对每个基因组片段的log2R值(肿瘤与正常细胞覆盖率进行log2转化),进行保守筛选,如[-0.1,0.1],来识别拷贝数中性片段中SNVs。
(ii)通过染色体倍性(TPES输入参数为连续值)来调整log2R分布,解释非整倍性基因组。
(iii)通过保留那些分别在定义的阈值之上和之下的替代碱基和AF的读取次数(默认设置为5和0.55),来选择假定杂合SNVs。
TPES的第二个过滤步骤:
为了避免性别分层,将X和Y染色体从分析中排除。首先指定一组杂合的拷贝数中性SNVs,即cnn-SNVs,cnn-SNVs是SNVs的子集。在第二个过滤步骤中,TPES从设置的cnn-SNV中删除假定的亚克隆突变。通过使用一定范围的带宽值的核密度评估(KDE)使观测cnn-SNVs的VAF分布平滑化。
该方法用于TCGA数据集,获得不同肿瘤类型的p-SNVs。为了系统地评估能够可靠地估计TP的最小数量的p-SNVs,将TPES与基于SCNA的评估方法进行了比较。图A显示,> 9个p-SNVs与CLONET估计值具有很大的相关性;ABSOLUTE和ASCAT观察到了类似的趋势。
通过对TCGA的30个癌型的7809个样本用TPES和其余7种方法进行评估,用斯皮尔曼相关评估结果,CLONET 与 TPES有高的一致性(图A,B)。
例:TCGA_A8_A0A7
(1)使用数据:
TCGA_A8_A0A7_seg:
TCGA_A8_A0A7样本的SEG文件,为数据框。
TCGA_A8_A0A7_maf:
TCGA_A8_A0A7样本的体细胞SNVs计数数据,为数据框,包含SNV的染色体,SNV的位置,参考和替代碱基count,以及样品ID。
TCGA_A8_A0A7_ploidy:
TCGA_A8_A0A7样本的染色体倍性数据,数据框。
(2)计算纯度:
TPES_purity(ID= "TCGA-A8-A0A7", SEGfile = TCGA_A8_A0A7_seg,
SNVsReadCountsFile =TCGA_A8_A0A7_maf, ploidy = TCGA_A8_A0A7_ploidy,
RMB = 0.47, maxAF= 0.55, minCov = 10, minAltReads = 5, minSNVs = 10)
参数解释:
#RMB:
参考匹配偏差(Reference Mapping Bias)值。参考基因组在任何给定的位点上只包含一个等位基因,因此携带非参考等位基因的读序列在比对时不太可能被匹配到;导致了从0.5的偏移,它可以用1−medAF评估,其中medAF是样本的种系杂合SNPs等位分数(AF)的中位数。默认值为0.47。
#maxAF:
对SNVs等位基因分数(AF)分布的滤波。这个对于确保只保留杂合SNVs是必要的。无性系和亚无性系SNVs,其AF大于maxAF,将会被去除。
#minCov:
保留SNV的最小覆盖范围
#minAltReads:
保留的SNV的替代碱基的最小覆盖范围
#minSNVs:
评估纯度所需的最小SNV数量
(3)输出结果:
TPES_purity:
sample:样本ID
purity:TPES评估的样本纯度
purity.min:TPES评估样本的最小纯度
purity.max:TPES评估样本的最大纯度
n.segs:TPES使用的中性片段的拷贝数
n.SNVs:TPES使用的SNVs数
RMB:用来评估纯度的参考匹配偏差值
BandWidth:TPES选择的密度函数的平滑带宽值
log:报告运行是否成功,否则提供调试信息
TPES_report函数生成关于TPES_purity使用的假定克隆SNVs的等位基因分数值和TPES_purity计算的密度函数的图形报告。
例:TCGA_A8_A0A7
TPES_report(ID= "TCGA-A8-A0A7", SEGfile = TCGA_A8_A0A7_seg,
SNVsReadCountsFile =TCGA_A8_A0A7_maf, ploidy = TCGA_A8_A0A7_ploidy,
RMB = 0.47, maxAF = 0.55, minCov =10, minAltReads = 5, minSNVs = 10)
输出图形:
柱状图表示了推测的克隆和亚克隆SNVs在拷贝数中性片段和TPES检测到的峰值的等位分数分布。密度图表示密度函数如何根据不同的带宽值变化;只考虑导致最多两个峰值的带宽值。
TPES方法是通过计算体细胞单核苷酸变异(SNVs)的可变等位基因片段(VAFs)的分布来评估DNA的纯度,它的优势是计算拷贝数为中性的肿瘤纯度,比如SCNAs非异常的甲状腺癌(THCA)和肾脏肾透明细胞癌(KIRC)。同时TPES方法与其他评估肿瘤纯度的方法有很高的一致性。
Locallo A, Prandi D, Fedrizzi T, Demichelis F. TPES: tumor purity estimation from SNVs. Bioinformatics. 2019;35(21):4433–4435. doi:10.1093/bioinformatics/btz406