肿瘤药敏多组学数据库(GDSC数据库 https://www.cancerrxgene.org/是肿瘤细胞药物敏感性和肿瘤治疗基因组数据最大公共资源,是由Sanger研究所(英国)的癌症基因组项目与MGH麻省总医院癌症中心(美国)分子治疗中心之间的一项由Wellcome资助的合作项目的一部分。含有肿瘤细胞系抗癌药物敏感性数据和细胞系基因组学数据,致力于发现肿瘤治疗靶点以改善肿瘤治疗,可以免费获取。下面,小编根据GDSC的9个主要模块对其进行简单介绍,模块间的功能有交叉。
关于GDSC
为了让大家在了解GDSC数据前,更好的了解GDSC创建的动机和意义,故先给大家介绍一下GDSC的相关信息(参考about版块和GDSC文献)。
-
证据表明肿瘤基因组变化会对肿瘤的治疗反应产生影响。例如,靶向慢性髓细胞性白血病(CML)的BCR-ABL易位蛋白质产物彻底改变了该疾病的治疗方法,使得患者五年生存率达到90%。随着新化合物的出现,在其早期开发过程中鉴定预测性生物标志物的系统方法可能会对新癌症药物开发的设计、成本和最终成功产生深远影响。 -
NCI60细胞系专家组和相关的药物筛查开创了使用癌细胞系将药物敏感性与基因型数据关联研究的方法。癌细胞系随后被用于鉴定罕见的药物敏感性基因型,包括突变的EGFR,BRAF和EML4-ALK易位,这些基因型可高度预测临床反应。 -
基于这些研究背景,故GDSC中提供了人类癌细胞系大规模筛选的结果,结合了详细的基因组和基因表达分析,以系统地识别对多种癌症药物的药物敏感性生物标记。
总结来说:GDSC创建的直接目的是发现可能预测药物反应的治疗性生物标志物,最终目的是基于生物标志物改善癌症治疗。
1.1 主页部分:数据资源丰富
-
根据首页可知该数据库支持3种检索方式:药物名、癌基因或者细胞系的名称。
-
GDSC中收录的518个抗癌化合物的作用广泛,涉及24种通路(详细见下方截图)。点击右侧对应的链接,可以通过化合物、细胞系、癌基因进行浏览。
-
GDSC内部由GDSC1和GDSC2两个数据库组成。

-
GDSC1主要收录的是2010-2015年间的测序和试验结果。 最新版本的GDSC1包含有987个细胞系,367个抗癌化合物,以及310904个药物反应IC50值(即半抑制浓度,凋亡细胞与全部细胞数之比等于50%时所对应的药物浓度,反应细胞对药物的耐受程度。IC50值越低,则说明细胞对药物越敏感)和AUC值(低浓度药物发挥肿瘤细胞抑制效应,对应低AUC值;相反则对应高AUC值)。 -
GDSC2主要收录的是2015至今的测序和试验的结果。 最新版本的GDSC2包含有809个细胞系,198个抗癌化合物,以及135242个药物反应IC50值。 -
GDSC1与GDSC2的比较: GDSC2是基于改进的技术、设备和程序等所得到的的最新数据。GDSC1使用DNA染料(Syto60),而GDSC2使用代谢测定法(CellTitreGlo)来确定细胞活力。GDSC2中已经重复了许多来自GDSC1的实验,官方建议使用GDSC2!但是,实际上选用哪个数据集,有研究者自行决定。从数据量来说,GDSC1的量更大,也就是说GDSC1中的数据较GDSC2更多。
1.2 抗肿瘤化合物
-
GDSC中纳入的化合物包括细胞毒性化学治疗剂和靶向治疗化合物,来自商业、学术合作者以及生物技术和制药行业。 -
通过抗肿瘤化合物进行浏览:可展示不同化合物的别名、靶点。靶点通路、药物ID、筛查机构,以及其在GDSC1或GDSC2中的数据总量(对应细胞系的数量)。可在右侧的筛选框中输入自己感兴趣的抗癌化合物,进行结果筛选。点击药物名可链接至GDSC的可视化界面,展示该药物在不同细胞系中的IC50/AUC、在不同组织中的数据、以及火山图和散点图。
网页提供在线版的分析和可视化结果: 例如查看顺铂在泛肿瘤中的数据,图的下方对应数据表格的下载选项。
1.曲线图:展示顺铂与GDSC1泛肿瘤中的IC50值。绿色对应的细胞系顺铂敏感,而红色对应的细胞系对顺铂耐药。
2.直方图:展示顺铂在GDSC不同组织类型中的IC50分布。
3.火山图(Volcano Plot):展示基因特征和药物敏感性之间的联系(ANOVA分析)。满足p值<0.001且FDR<25%,被认为具有统计显著性(绿色对应敏感,红色对应耐药,灰色对应不具有显著性)。与所有细胞系的IC50均值相比,x轴的右侧代表敏感,x轴的左侧代表耐药,圆圈的大小代表细胞系的数量。将鼠标悬停在圆圈的上方,可显示该圆圈对应的信息。结合下方的表格,可见4个显著性结果的具体信息,表明这4个基因型突变与细胞耐药相关。
4.散点图:展示与IC50相关的基因组学改变(突变型 vs 野生型)。可根据GDSC数据分析出的结果选择基因突变特征,绘制野生型与突变型两组将的散点图。小编在这里选择STAG2绘制两组间的散点图:突变组有22个细胞系,野生组有715个细胞系,每一个点对应一个细胞系。MWW(Mann Whitney Wilcoxon)检验的p值<0.05,说明组间差异具有显著性,即说明带有SATG2突变的细胞会受到顺铂的显著抑制。
-
展开基因突变特征的选项,可知有2个突变特征与顺铂敏感相关,有3个特征有顺铂耐药相关。
综上,在结合网站的分析和可视化中,我们未限定癌型,网站默认进行pan-cancer分析。在网站上进行分析时,一般可通过从pan-cancer筛选药物,再通过特定肿瘤类型缩小范围,从而获得针对肿瘤亚型的结果。
1.3 肿瘤基因突变

-
通过基因突变进行浏览:在左上角的下拉框中勾选感兴趣的肿瘤类型或泛肿瘤,在右上角的筛选框中输入感兴趣基因名,可以探究基因突变类型。通过该基因突变的链接,以可视化展示基因突变与药敏数据的关联。
1.4 肿瘤细胞系

-
通过肿瘤细胞系进行浏览:可展示细胞系的名称、细胞模型的passports、cosmic ID、TCGA分类等。 -
点击浏览结果中的链接均可进行对应的跳转,如点击细胞系的名称,可链接至GDSC的可视化页面:展示针对该细胞系的药敏结果,绿色表示该细胞系对该药物敏感,红色表示该细胞系对该药物耐药。
1.5 版本更新

-
更新:GDSC数据库平均每年都会有一个版本的更新,有时候一年也会有几次小的数据更新,目前的最新版本是8.2(更新时间是2020年2月)。根据最新版本的数据统计结果,本数据库共收录518种药物,988个细胞系,446146检测药物-反应的IC50值。
-
数据增减:总的来说,GDSC提供的数据逐年增加。但是根据8.1版本的IC50值数量低于8.0版本的IC50值数量,提示数据量并不是持续增加的。而是在持续质控标准(quality control,QC)下,不满足QC阈值的细胞系数据将被移除:如RPMI-2650从GDSC1中移除,NCI-H1395从GDSC1和GDSC2中移除。
文末小结
在本次分享中,小编重点介绍了GDSC数据库的数据概览、搜索方式和可视化结果。接下来,小编会从以下几个方面进行补充:
2.GDSC的数据介绍和获取;
3.GDSC数据库和其他药敏数据库的异同;
4.GDSC数据库文献精读1;
5.GDSC数据库文献精读2。
感兴趣的伙伴可以一起加入学习,欢迎投稿!
参考文献
[1] Garnett, M.J., et al., Systematic identification of genomic markers of drug sensitivity in cancer cells. Nature, 2012. 483(7391): p. 570-5.
[2] Yang, W., et al., Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells. Nucleic Acids Res, 2013. 41(Database issue): p. D955-61.
[3] Roy, R., et al., Expression Levels of Therapeutic Targets as Indicators of Sensitivity to Targeted Therapeutics. Mol Cancer Ther, 2019. 18(12): p. 2480-2489.