如何在缺乏对照样本情况下准确检测体细胞突变

正常人一生中细胞分裂次数高达1016量级次【1】,每次细胞分裂都会伴随着体细胞突变的随机发生。不同类型的细胞发生突变概率不一,其中早期胚胎发育过程中平均每次细胞分裂随机产生约2-3个单碱基体细胞突变【2】。对正常人中体细胞突变的探索有助于了解人体发育过程和突变发生、累积机制,近期研究还显示体细胞突变会造成很多非癌症疾病,如局灶性皮质发育不良(Focal cortical dysplasia)、孤独症等【3】。然而检测非癌症样本中发生的体细胞突变具有很强的挑战性,因为:1. 随机发生的多数突变因没有选择优势而通常只存在于很小一部分细胞中,这给检测灵敏度造成了挑战;2. 这些伴随发育过程发生的突变往往广泛存在于多组织中,缺乏用于排除测序噪音和其他假阳性位点的对照样本,对检测准确性造成了困难。

2020年1月6日,来自哈佛医学院生物医学信息学系的Peter J. Park教授实验室团队(第一作者为窦岩梅博士)Nature Biotechnology发表论文“Accurate detection of mosaic variants in sequencing data without matched controls”, 该研究开发了一个基于机器学习的工具“MosaicForecast”。与现有其他算法相比,MosaicForecast的检测特异性提高了数倍:实验验证显示MosaicForecast在一组全基因组数据中单碱基体细胞突变验证率达到80-90%,对短序列插入缺失达到60-80%的验证率。

现有二代测序数据大约存在约千分之一数量级的测错率,另外测序比对造成的错误等都是影响检测体细胞突变准确率的重要因素【4】。错误位点往往呈现出一系列特殊“特征”,如碱基测序质量下降,测序比对质量下降,单条序列错配率高等等,并且这些特征往往不是相互独立的,比如一个错误的位点往往同时具有上述三条特征。而与传统的基于一系列过滤器(filter)来提高验证率的方法相比,机器学习方法的内在固有优势在于可以通过训练得到更复杂的,通常是非线性的分类特征,从而能够更准确地对真实位点和假阳性位点进行分类。开发机器学习方法的难点在于如何建立一个可靠又足够大的训练集:与癌症不同,针对正常人中体细胞突变的研究并不多,缺乏能够用来建立训练集的“真集”和“假集”;而用模拟(simulation)方法建立的数据集又往往不能代表真实数据的具体情况。MosaicForecast采取了一个使用read-level phasing来进行in-silico训练的策略:我们首先对候选位点进行phasing和特征提取,然后用10-30%的phasable位点进行训练,最后对70-90%的un-phasable位点集合进行分类,真正做到了“从数据中来,到数据中去”,从而达到高准确性检测体细胞突变的目的。

与现有多种方法相比【5-7】MosaicForecast的准确率达到了几倍到几十倍的提升,且在重复序列(RepeatMasker)区间也达到了较高的准确率。另外MosaicForecast还实现了对短序列插入缺失(INDEL)体细胞突变的检测。MosaicForecast的源代码以及训练模型已经发表于github网站:https://github.com/parklab/MosaicForecast 。

图1:MosaicForecast工作流程

图2:MosaicForecast与其他工具比较

原文链接:

https://doi.org/10.1038/s41587-019-0368-8

1. Quammen, D. Contagious cancer: The evolution of a killer. Harper’s 316 (1895): 42. (2008).

2. Ye, A.Y. et al. A model for postzygotic mosaicisms quantifies the allele fraction drift, mutation rate, and contribution to de novo mutations. Genome Res 28, 943-951 (2018).

3. D’Gama, A.M. & Walsh, C.A. Somatic mosaicism and neurodevelopmental disease. Nat Neurosci 21, 1504-1514 (2018).

4. Dou, Y., Gold, H.D., Luquette, L.J. & Park, P.J. Detecting Somatic Mutations in Normal Cells. Trends Genet 34, 545-557 (2018).

5. Cibulskis, K. et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol 31, 213-219 (2013).

6. McKenna, A. et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res 20, 1297-1303 (2010).

7. Huang, A.Y. et al. MosaicHunter: accurate detection of postzygotic single-nucleotide mosaicism through next-generation sequencing of unpaired, trio, and paired samples. Nucleic Acids Res 45, e76 (2017).

研究进展

Cohesin-CTCF锚定DNA环的结构基础

2020-1-7 13:08:13

研究进展

董一洲团队开发基于维生素-脂质纳米颗粒的细胞疗法以治疗脓毒症

2020-1-7 13:09:07

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索