某些癌症驱动基因在不同的生物学背景下表现出不同的抑癌基因或抑癌行为,难以识别,我们将这种基因称为双重作用的癌症驱动基因。
目前已有几种方法来发现癌症驱动基因和通路,但这些方法没有整合生物过程以及它们与基因异常的联系来预测癌症驱动基因。本文中的方法能够解释癌症相关的通路,通过整合来自文献的通路信息和转录组数据中的基因相互作用,来识别必要的癌症驱动基因。然后基于多组数据分析,对Moonlight下发现的基因进行排序。如果该基因在进一步的数据整合后表现出显著性,就将该基因定义为癌症驱动基因。此外,通过研究肿瘤内部和肿瘤间的异质性,我们确定了癌症类型或亚型中的双重作用基因。
1. Moonlight概述
Moonlight将来自文献、通路数据库和多组学信息整合到一个基因的作用和功能的综合评估中(Fig. 1a),可以检测特定肿瘤和起源的癌症驱动基因事件,包括潜在的双重作用基因,并阐明它们的下游影响。免费的开源R包(http://bioconductor.org/packages/MoonlightR/.)。
一旦Moonlight利用基因表达数据确定了肿瘤中发生改变的致癌过程,它就能检测到激活或抑制这一过程的基因。我们将这些基因定义为致癌介质。当Moonlight识别出第二个证据(如超甲基化或低甲基化)时,预测出的致癌介质可以定义为关键的癌症驱动基因。
Moonlight利用基因表达数据作为主要信息来源来识别癌症驱动基因(Fig. 1 b),提供了两种方法:专家学习和机器学习。
2. Moonlight识别乳腺癌的致癌介质
采用基于专家的方法,选取细胞凋亡和细胞增殖作为代表性的生物学过程,从TCGA中选择了乳腺癌作为研究对象。使用TCGAbiolinks包比较肿瘤组和正常组。发现了3390个基因在正常/肿瘤样本中存在差异表达。这些基因在32个生物学过程中显著富集(Fig. 2a)。
根据GO和KEGG数据库的定义,细胞增殖过程中有3938个注释基因,有1172个由Moonlight鉴定为差异表达基因(Fig. 2a)。细胞凋亡过程有1284个注释基因,390个有差异表达(Fig. 2a)。在对乳腺浸润性癌的分析中,Moonlight预测了776个癌症驱动基因(626个致癌基因和150个抑癌基因)。
3. 将Moonlight应用于泛癌
在综合18种癌症类型的3123种致癌介质中,Moonlight确定了1076种类似抑癌基因和1896种类似肿瘤基因的介质(Fig. 2c)。151个驱动基因显示了双重作用效应(Fig. 2d)。
4. 癌症驱动基因与癌症异质性相关
Moonlight可以用来研究癌症(乳腺癌)分子亚型。共揭示了638个针对个体亚型的癌症驱动基因:luminal A (221 oncogenes and 180 tumor suppressors)、luminal B (51 oncogenes and 73 tumor suppressors)、basal-like (14 oncogenes and 76 tumor suppressors)、HER2-enriched (8 oncogenes and 15 tumor suppressors)(Fig. 2e)。
5. DNA甲基化影响癌症驱动基因的活性
使用Moonlight基于专家的方法识别了18种TCGA癌症类型的正常和肿瘤样本之间的差异甲基化区域,并整合了RNA和表观遗传数据来识别关键基因。
Moonlight检测到233个基因与高甲基化(肿瘤抑制关键)有关,404个基因与低甲基化(肿瘤基因关键)有关。我们认为这些基因是关键的表观遗传癌症驱动基因。
Moonlight总结的CpG岛启动子区域的机制如下:(1)致癌基因激活与启动子位点的DNA低甲基化有关,(2)抑癌失活与启动子位点的DNA高甲基化有关。
6. 癌症驱动基因优先排列在染色质开放区域
由于表观遗传变化与染色质开放性共同影响转录活动,我们还研究了Moonlight预测的癌症驱动基因是否在染色质开放性水平上发生分子变化。对18种TCGA癌症类型的基因表达和ATAC-seq数据进行了整合分析。检测到5种癌症类型在癌基因启动子区域的染色质开放性峰值信号高于抑癌基因 (Student’s t test p< 0.05, Fig. 3a);在6种癌症类型中,抑癌基因在内含子区域显示出比癌基因更高的峰值(Student’s t test p<0.05, Fig. 3b)。
Moonlight在不同区域识别出相互排斥的峰:抑癌基因内含子区域的开放染色质( Fig. 3b)和癌基因启动子区域的开放染色质( Fig. 3a)。与抑癌基因相比,癌基因的染色质峰值信号总体较高( Fig. 3c)。
7. 关键的癌症驱动基因重塑拷贝数景观
我们要研究通过Moonlight预测的癌症驱动基因是否在拷贝数水平上显示出分子变化。在Moonlight预测的18种癌症类型的3123癌症介质中,848出现拷贝数变化,358出现关键的拷贝数癌症驱动基因。例如,在乳腺癌中观察到癌基因CCND1和CCNE1的扩增,还鉴定了抑癌基因中的缺失,如DACT2和TGFBR3(Fig. 4a)。
8. 致癌介质在突变中表现出差异
我们还研究了哪些癌症驱动基因在突变水平上出现了改变。Moonlight应用于泛癌数据显示内含子区肿瘤抑制基因突变(Fig. 4b)和启动子区癌基因突变(Fig. 4c)。Fig. 4d展示了不同突变类型对Moonlight预测乳腺癌的癌症驱动基因的分析结果。
9. 致癌介质对生存结果有负面影响