文献解读:人类癌症中线粒体基因组分析

今天跟大家文献解读的是三月份发表在Nature GeneticsIF25.455)杂志上的一篇文章
Comprehensive molecular characterization of mitochondrial genomes
in human cancers
人类癌症中线粒体基因组的全面分子表征
 
线粒体是真核生物中重要的细胞器,长期以来,人们一直怀疑线粒体参与了致癌过程,因为能量代谢的改变是癌症的一个常见特征。而这篇文章则是开创性地做了泛癌中全面的,多维的线粒体分子分析。包括线粒体体细胞突变、细胞核转移和拷贝,它们与细胞核体细胞改变的相互作用,以及线粒体基因的表达谱及其与临床相关核基因的联系等,为将线粒体生物学转化为临床应用奠定了基础。
 
数据处理
1.数据生成和收集
作者从PCAWG2,658个癌症样本及其匹配的正常组织样本的全基因组数据中提取了mtDNA测序readsBAM文件,用BWA匹配到人类参考基因组(hs37d5)。从CGHub获得了TCGA13种癌症类型的RNA-seq BAM文件(paired-end,使用Cufflinks定量13个线粒体蛋白质编码基因的mRNA表达水平。
 
2.体细胞突变定义
使用PCAWG提供的Sanger识别核基因组突变。使用VarScan2识别线粒体突变。作者还应用了一系列下游生物信息过滤器,以进一步消除假阳性:首先,过滤了种系多态性和假阳性。从非参考到参考等位基因中删除了多等位基因mtDNA突变和反向突变。其次,检查了DNA交叉污染,测试了从癌症样本中检测到的mtDNA突变与已知mtDNA多态性的重叠程度是否比整体平均发生率预期的重叠程度更大(73.5%;P<0.01)。第三,检查了96种可能的突变类别中的总体mtDNA替代特征。删除了四个具有很高的C>G替换比例且具有强烈的序列上下偏倚的样本。
然后,检查了由于错误映射来自人类参考基因组中未表达的遗传核mtDNA-like序列(称为numts)的错误匹配而导致的假阳性。 这些候选突变体表现出一些特定特征:(1)它们在多个样品中表现为高度复发的mtDNA体细胞突变;(2)线粒体的VAF仅略高于1%截止标准;(3)匹配的正常样本也有一定数量的等位基因突变。 为了消除这些假阳性样本,作者应用了两项统计检验:(1)匹配的正常序列中突变候选物的VAF是否在正常范围内(<0.0024) 及(2

是否在正常范围内(<0.0357),其中Nmut是突变等位基因计数,RD是核基因组的平均读取深度, nortum分别是正常和匹配的肿瘤组织。根据这两个标准,当一个突变为异常值时,在接下来的分析中删除该候选基因。
 
3.截短突变分析 
考虑到mtDNA特异的突变特征,检查了先前报道的mtDNA错义替换的dN / dS比值。将截短突变定义为导致截短的蛋白质产物的突变(即无意义的突变和移码插入/缺失),因此将样品分类为截短组(携带至少一个VAF≥60%的截短突变)。ND5蛋白结构域信息是从Pfamhttp://pfam.xfam.org/protein/P03915)获得的。癌症基因普查列表可从http://cancer.sanger.ac.uk/cosmic/download获得。
 
4.SMNTsomatic mtDNA nuclear transfer
作者用癌症和匹配的对照样本的WGS数据,运用他们之前发表的流程鉴定mtDNA向核基因组的易位。(Ju, Y. S. et al. Frequent somatic transfer of mitochondrial DNA into the nuclear genome of human cancer cells. Genome Res. 25, 814–824 (2015).
 
5.MtDNA拷贝数分析
为了更好地估计癌症样品的mtDNA拷贝数,采用以下公式,该公式结合了肿瘤的纯度和倍性信息:

 其中f是肿瘤纯度,CNmtDNA拷贝数,coverage_depthmtDNAcoverage_depthgDNA是单个WGS BAM文件中的mtDNA和核基因组DNA的平均覆盖深度,ploidycancer是肿瘤细胞中的染色体组数,正常细胞是2个。

 

6.mtDNA结构变异分析
为了研究mtDNA基因组中的大缺失或重复,作者以正常mtDNA序列为参考,寻找肿瘤mtDNA序列的读数深度的变化。计算所有正常样本中100个碱基对大小的条带中mtDNA基因座的标准化深度,然后,计算了每个肿瘤样品中mtDNA读取深度的偏差。当10个bins在相对深度中连续增大或减小时(z score> 3),将该区域视为结构变异的候选。
 
7. TCMA数据门户建设
本文将预先计算的mtDNA分子数据(包括mtDNA突变,核转移,拷贝数和表达)存储在CouchDB数据库中。其Web界面由JavaScript实现,表由DataTables可视化,共表达网络可视化由Cytoscape实现的。
 
结果
1.癌症线粒体基因组的突变景观
经过数据处理,本文最终在2,536个高质量癌症样本中鉴定出7,611个体细胞替代和930个小插入缺失。在所有癌症样本中,调节性D-loop区和ND4基因中观察到几个突变热点(图1b)。在13种蛋白质编码基因中,ND5是大多数癌症类型中突变最频繁的基因,而ND4在前列腺癌和肺癌中最常见,COX1在乳腺癌、宫颈癌和膀胱癌中最常见。不同肿瘤类型的mtDNA突变特征非常相似,CG>TA58.3%)和TA>C G34.2%)替代分别是频率最高和次高的突变类型(图1c)。这些突变特征表明线粒体特异的,复制耦合的突变过程主要负责癌症的体细胞mtDNA突变。癌组织中体细胞突变的最大VAF与年龄呈正相关(图1dP <2.2×10-16。表明,绝大多数mtDNA体细胞突变是:(1)在细胞谱系表型正常的早期获得。(2)肿瘤细胞的细胞谱系总体上趋向于同质性。
在几种癌症类型中观察到线粒体突变和核基因组突变负担之间的显着正相关,线粒体和核基因组中的突变数均与相应癌症类型中患者的年龄显着相关(图1e)。大多数癌症类型的多数患者中都存在核驱动因子改变,但显著比例的患者具有非沉默的mtDNA突变且尚无已知的核驱动因子,这表明在这些类型的癌症中,如果没有核驱动因子,则可能存在mtDNA突变的潜在功能性贡献(图 1f)。

 1.癌症线粒体基因组的突变景观和过程
 
2.线粒体基因组中的超突变过程
在接受调查的2536个癌症样本中,有7个病例显示出大量的mtDNA体细胞置换(> 13个突变),大于背景分布的预期值(图2a)。这些超突变样品中的突变谱有时与背景LG> AT> C替代显性信号有明显区别(图2b)。携带33个突变的乳腺癌样品(样品IDSP6730),其中30个位于2kb区域(图2c),从而导致局部超突变率(比背景高75倍以上)。总的来说,这些证据表明28个局部突变(19个错义,4个沉默和5tRNA突变)是通过单击灾难性突变机制获得的。

 2. 超突变癌症线粒体基因组的表征
 
3.mtDNA突变对癌症类型的选择性压力
对于13mtDNA基因的截短突变,文章发现大多数癌症类型中阴性选择的证据,这表明完整的线粒体功能在癌细胞中的重要性。例如,与错义突变或沉默突变相比,mtDNA截短突变的VAF明显受到抑制(图3a)。肾癌,结肠直肠癌和甲状腺癌显示出相反的趋势,其中mtDNA截短突变表现出比背景明显更高的VAFF检验,P <2.2×10-16;图3a)。在肾癌中,尤其是在发色团和乳头状类型中,近乎均质的> 60VAF)截短突变的富集非常明显,这表明正常线粒体功能的失活是肿瘤发生的重要步骤(图3b)。mtDNA截短突变富含ND5。与肾嫌色细胞癌和大肠癌相比,肾乳头状癌的ND5截短突变在氨基末端区域富集(Fisher精确检验,P = 0.05;图3c)。结合核基因的突变数据,发现两种肾癌类型中的高VAF截短突变与已知癌症基因的突变互斥(Fisher精确检验,P = 0.01;图3d)。此外,具有mtDNA截短突变的样品在癌症相关途径中显示出基因表达上调(图3e)。总的来说,这些结果强烈表明线粒体截短突变在特定癌症类型的起始和克隆进化中的致癌作用。

3. mtDNA截短突变模式
 
4.mtDNA的体细胞转移到核基因组中
SMNT分析部分,本文在21种组织类型的2658例癌症病例中发现了55例阳性病例(2.1%)。SMNT率根据癌组织类型而异(Fisher精确检验,P <1×10-5;图4a)。带有SMNTs的样品在核基因组中显示出比对照组样品高得多的全局和局部结构变化(P=1×10-4:图4b)。SMNT整合位点(断点)在空间上比预期的更接近倒置与易位断点(图4c)。这些结果表明,通常将mtDNA片段转移到核DNA中的过程与核基因组结构变异背后的某些特定过程进行了机械结合。

 4. mtDNA转移到癌症核基因组

 
5.mtDNA的拷贝数和结构变异
在通过了纯度过滤器的2157个癌症样品中,作者发现跨癌症类型和癌症类型的mtDNA拷贝数存在很大差异:mtDNA在卵巢癌样品中含量最高,而在髓样癌中含量最低(图5a)。源自同一组织的不同癌症亚型有时表现出不同的mtDNA拷贝数分布(图5b)。在具有高等位基因截短突变的样品中,mtDNA的拷贝数明显更高(图5c),这表明mtDNA的剂量效应被选择用于补偿截短突变的有害作用。与匹配的正常组织的WGS数据(n=507)比较,观察到慢性淋巴细胞性白血病,肺鳞癌和胰腺腺癌患者的癌症样本中mtDNA拷贝数增加,但在肾透明细胞癌,肝细胞癌和骨髓增生性肿瘤的患者中拷贝数减少(图5d)。
评估mtDNA拷贝数的潜在生物医学意义,发现结直肠癌和皮肤癌中mtDNA拷贝数与患者诊断时的年龄显著正相关(SpearmanRs = 0.31P <1.7×10−4;图5e)。多种癌症类型中mtDNA拷贝数与肿瘤分期之间相关(图5f)。
文章使用WGS数据检查了已知存在于前列腺癌和老年组织中的线粒体基因组中的局灶拷贝增减。在2658个癌症样品中,发现三个(0.11%)在mtDNA中显示出显著的结构变异(图5g)。

 5.mtDNA拷贝数的泛癌全景图
 
6.线粒体基因的共表达网络分析
为了了解13mtDNA基因在癌症中的功能影响,文章使用了13种癌症类型的4,689 TCGA肿瘤样品中提取的RNA-seq数据对基因表达水平进行了定量。mtDNA基因在三种类型的肾癌(生色团,乳头状细胞和透明细胞)中高表达,而在三种类型的鳞状细胞癌(子宫颈癌,肺癌和头颈癌)中表达较弱(图6a)。
WGCNA程序包构建由核基因和线粒体基因组成的加权基因共表达网络。根据边的强度进行基因集富集分析(GSEA)。发现氧化磷酸化是排名最高的通路,突出了线粒体基因在能量产生中的重要作用(图6b)。文章还检查了以mtDNA为中心的共表达网络(图6c)。发现在各种癌症类型中,mtDNA基因几乎总是紧密相连,且几个临床上可操作的基因是与mtDNA基因显示强共表达模式的相邻基因(图6c)。

 6. 不同癌症类型中mtDNA基因的共表达模式
 
7.癌症线粒体图谱(TCMA
为了促进线粒体相关的生物学发现和临床应用,文章开发了一个开放式,用户友好的数据门户网站癌症线粒体图谱(TCMA),http://bioinformatics.mdanderson.org/main/TCMA:OverviewTCMA中有四个模块:体细胞突变,核转移,拷贝数和基因表达。前三个模块基于ICGCWGS数据,并为每个癌症样本的相应特征提供详细注释。最后一个模块基于TCGARNA-seq数据,并提供一个交互式界面,用户可以通过该界面以便捷的导航和缩放功能查看共表达网络。用户不仅可以按癌症类型浏览和查询分子数据,还可以下载所有数据进行自己的分析。
综上,这篇文章通过多种癌症的线粒体WGS数据表征了线粒体分子的体细胞突变、核转移和拷贝数,并通过RNA-seq数据对线粒体的13个编码基因进行了功能分析。该文章是第一篇全面分析了泛癌中的线粒体分子特征的文章,且涉及癌症类型最多,这将有助于科研工作者对线粒体功能和癌症的进一步研究。感谢阅读!
文献解读

新型冠状病毒肺炎患者死亡影响因素分析

2020-3-22 16:47:52

文献解读

文献解读:肝癌miRNA预后标志物分析

2020-3-22 16:58:16

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索