
全文摘要
体细胞突变检测准确性可能会影响癌症患者的突变发现和治疗管理。为了解决这个问题,作者在机器学习的基础上开发了一种体细胞突变发现方法,该方法在识别经过验证的肿瘤改变方面优于现有方法(敏感性97% vs 90%~99%;阳性预测值98% vs 34%~92%)。使用此方法对来自1368 TCGA样本的成对肿瘤正常外显子组数据进行分析,该算法与TCGA MC3突变集的一致性为74%,并且还发现TCGA MC3集中可能存在假阳性和假阴性突变,包括在临床上可靶向的基因。对于先前用免疫检查点抑制剂治疗过的黑色素瘤和肺癌患者,该机器学习算法的高质量体细胞突变评估可改善基于肿瘤突变负荷的临床结果预测。与其他临床测序分析相比,将机器学习突变检测应用于临床二代测序(NGS)分析中可以提高检测结果的准确性。以上分析基于机器学习的分析可改进对肿瘤特异性突变的鉴定,并对癌症患者的研究和临床管理具有重要意义。
结果
01
基于机器学习Cerebro检测高可信度体细胞突变的策略概览

- somatic confidence scores <0.75
- <3 distinct mutant fragments in the tumor,
- <10% mutant allele fraction (MAF) in the tumor
- <10 distinct coverage in the normal sample were removed.
- 其中一份数据:
作为配对正常样本。
- 其中第二份数据:
通过计算机算法模拟,将超过30000体细胞变异事件(包括碱基替代、插入和缺失,突变位点占比 1.5%到100%)引入NGS数据中,为分类器提供一系列肿瘤特异性突变。
同时引入将被错误识别为突变的超过200万个NGS错误和测序伪像(为分类器提供了试验获得的代表结果)。
构建训练数据集是机器学习的一部分内容,添加计算机突变的优点:
试验获得的突变在整个外显子区域不能提供足够的灵敏度,而计算机模拟可提供片段内的训练数据。
02
评估机器学习发现突变的准确性

03
评估Cerebro 在TCGA数据集中的突变召回准确性



04
体细胞突变负荷与肿瘤免疫治疗的反应的相关性


05
临床二代测序分析中的体细胞突变评估效能(cerebro与常见体细胞突变检测方法效能比较)



