简单易懂,事半功倍。
提高接受率,人人国自然!

快速提取Oncomine数据库数据(4)Oncomine举例

举一个栗子

视频如下:

原创视频,原创R包,欢迎转载

以下内容可以不读

以下为《ONCOMINE: A Cancer Microarray Database and Integrated Data-Mining Platform》的google翻译

介绍

使用DNA微阵列进行基因表达谱分析已成为研究癌症转录组的有效方法。 超过100篇已发表的研究报告对人类癌症样本进行了分析,确定了大多数主要癌症类型和亚型的基因表达特征,并揭示了与肿瘤的各种特征相关的基因表达模式,包括肿瘤分级或分化状态,转移潜能和患者生存[ 1-24 ]。此外,已经使用这些全基因组筛选鉴定了新组织[ 25,26 ]和血清[ 27,28 ]生物标志物以及潜在治疗靶标[ 29,30 ]。 这些发现突出了DNA微阵列对癌症研究的显着影响; 然而,我们认为由于数据可用性和整合的限制,用微阵列进行基因表达谱分析的全部潜力尚未实现。 对于大多数已发表的微阵列研究,其中可能包含数十或数百个癌症标本的数千个基因测量,作者对其数据进行了一种解释,并仅报告了证明其特定假设的一部分基因。 完整的微阵列数据集有时可作为补充数据提供,但即使是这种情况,数据集通常也会作为神秘的文本文件,以非系统的方式存储和处理,因此仅对具有计算专业知识的人有用。 尽管现在已经制定了用于记录和交换微阵列数据的标准[ 31 ],并且已经敦促作者在发表时提供完整的数据集[ 32 ],但只有在统一,逻辑分析时才能达到癌症微阵列数据的全部潜力。 ,并使癌症研究界很容易获得。

在这里,我们描述了我们通过基于网络的数据库和数据挖掘平台系统地策划,分析和提供所有公共癌症微阵列数据的持续努力,该平台被命名为ONCOMINE ( www.oncomine.org )。 我们的努力还包括集中来自各种基因组资源的基因注释数据,以便快速解释基因在癌症中的潜在作用。 此外,我们正在将微阵列数据分析与其他资源相结合,包括基因本体注释和治疗目标数据库。 在本报告中,我们描述了ONCOMINE提供的微阵列数据收集和分析,数据检索和可视化方法,并展示了重要发现的潜力。

Go to:

数据收集和分析

由于这项持续努力的目标是汇编,分析和提供所有公共癌症微阵列数据,我们通过文献检索确定了所有潜在的研究,重点关注那些已经产生人类癌症组织样本的基因表达谱的研究。 我们检索了完整的数据集(如果可用),如果没有,我们联系作者请求数据集。 截至2003年5月1日,我们编目了152项癌症微阵列研究的信息( ONCOMINE提供的目录),其中40项研究可用并汇总,共计37,901,459个基因测量来自3,762个微阵列实验。 我们通过单个方法独立处理和标准化每个数据集(参见方法部分),并将每个微阵列特征映射到Unigene build 159。

虽然许多分析方法已经应用于微阵列数据,但我们选择使用t-统计学作为差异表达的度量的差异表达分析,以及错误发现率[ 33 ]作为重要性的校正度量。 为了定义潜在的差异表达分析,我们审查了每个数据集中的样本。 34个数据集的样本对应于至少一个感兴趣的比较类别,包括癌症各自的正常组织,高级(未分化)癌症低级别(分化癌症)癌症,不良结果(转移,复发或癌症) – 特异性死亡)癌症良好结果(长期或无复发存活)癌症,转移性癌症原发性癌症和癌症亚型1(例如,雌激素受体阳性) 对比亚型2(例如,雌激素受体阴性)。 我们共进行了81次差异表达分析,包括939,117种基因/癌症假说。 可以在ONCOMINE (见下文)探索在这些分析中最差异表达的基因。

Go to:

GENE模块

统一癌症微阵列数据,然后通过单一方法处理,标准化和分析所有数据集,允许基因中心分析。通常,研究人员使用单个微阵列数据集来识别与特定癌症类型或亚型相关的一组基因。 使用ONCOMINE ,用户现在可以在所有可用数据集和差异表达分析中评估和可视化所选基因的差异表达。 在搜索感兴趣的基因后, ONCOMINE列出了包含该基因的所有差异表达分析,并允许用户选择感兴趣的分析。 对于选定的分析,提供统计结果并将其链接到微阵列数据的图形表示。 为了说明使用ONCOMINE进行基因中心分析的价值,我们搜索了ERBB2(即HER2 / neu ),这是一种已知在乳腺肿瘤亚组中扩增并被抗体治疗药Herceptin靶向的致癌基因[ 34 ]。 根据Sorlie等人的研究,我们首先研究了乳腺癌中ERBB2的表达。 [ 21 ]。 我们发现,正如预期的那样,相对于正常乳腺样品,ERBB2在一小部分乳腺癌样品中高度过表达( P = .057; 图1A )。 接下来,我们研究了所有“癌症正常”分析中的ERBB2表达。 有趣的是,ERBB2在弥漫性大B细胞淋巴瘤(DLBCL)中相对于正常血B细胞( P = 1.2e-6)显着过度表达,非小细胞肺癌(NSCLC)相对于正常肺( P = 1.7e) -5和P = 1.1e-5),卵巢癌相对于正常卵巢( P = 1.0e-5),但在大多数其他癌症类型中没有。 图1B描绘了这些分析,以及选择的其他不重要的分析,作为ERBB2的多数据集框图。 值得注意的是,其他独立研究已经证实了HERCOM / neu与NSCLC和卵巢癌的关联,其他独立研究[ 35 ],赫赛汀用于NSCLC的临床试验正在进行中[ 36 ]。

学习模块

STUDY模块提供标准基因表达颜色图,以显示在所选分析中最差异表达的基因。 许多差异表达分析类似于原始出版物中的分析; 但是,使用ONCOMINE ,它们是集中式的,并应用了一种强大的统计方法。 此外, ONCOMINE提供的一些分析未在原始出版物中进行,因此增加了这些微阵列数据集的价值。 例如,Ramaswamy等人。 发表了一份关于多因素类型分类的报告,突出了一个可以准确分类不同来源的肿瘤类型的聚焦基因集[ 16 ]。 因为数据集还包括许多癌症类型的相应正常组织样本,我们进行了多次“癌症正常”差异表达分析,包括胰腺癌正常胰腺 – 一种无法从任何其他可用数据集中检测到的假设。 关于STUDY模块的最后一点:为GENE模块提供了直接链接,因此如果通过探索差异表达分析来识别感兴趣的基因,用户可以在其他差异表达分析中快速评估基因的表达(如下所示)与前列腺素)。

Go to:

基因本体整合

许多癌症微阵列研究的重点是确定潜在的治疗靶点或诊断标志物。 如果基因在特定癌症中高度过表达,通常被认为是潜在的靶标或标记物,并且它们的分子功能或定位表明它们可能适合于血清或组织中的药理学抑制或检测。 为了发现在癌症中过表达的潜在靶标或标记物的平台,我们用相关基因本体描述符注释基因。 通过结合GO本体联盟的基因本体注释创建了三个本体类别[ 37 ]:1)膜结合,可以通过抗体疗法靶向; 2)激酶,可被小分子激酶抑制剂抑制; 3)分泌,可作为血清生物标志物。 几乎所有分析中都存在来自每个本体类别的显着过表达基因。 可以在ONCOMINE探索在特定分析中最差异表达的特定本体类别(例如,膜)中的基因(例如,肺腺癌正常肺)。 此外,特定的GO注释(例如,DNA结合)也可用于过滤差异表达分析。

为了证明这种方法的实用性,我们将重点介绍使用ONCOMINE鉴定卵巢癌血清生物标志物的分析。 卵巢癌尤其需要改进的血清生物标志物以帮助早期检测,因为当治疗选择有限时,卵巢癌通常在疾病过程中出现。 最近,一项研究表明前列腺素可能是卵巢癌的潜在血清生物标志物[ 28 ]。作者描述了少数卵巢癌细胞系,发现前列腺素相对于正常卵巢细胞系过表达,然后使用酶联免疫吸附试验显示前列腺素蛋白在卵巢癌患者血清中高水平存在。 使用ONCOMINE中的“分泌”过滤器,我们根据Welsh等人的研究,寻找卵巢癌中过表达的基因。 [ 23 ],其中描述了27个原发性卵巢癌。该搜索独立地证实前列腺素是卵巢癌中具有分泌性注释的最高度过表达的基因之一( 图2 )。 如果这个资源可用于前列腺素研究的作者[ 28 ],他们可以避免他们对从ONCOMINE直接进行验证研究的细胞系进行微阵列分析。 值得注意的是,发现编码其他五种分泌蛋白的基因比前列腺素(LIF,SPINT2,LGALS3BP,LYZ和ECGF1)更显着地过表达,这表明可能存在更准确的生物标志物。 对前列腺素的基因中心分析显示,该基因在前列腺癌中也高度表达,如两个独立数据集和肺癌的子集所定义,表明该标记的作用更加广泛。

已知的治疗目标整合

基于这样的假设,即治疗剂在其靶标高度表达的癌症类型中最有效(例如,乳腺癌中ERRB2过表达导致赫赛汀易感性),我们试图提供一个平台来探索所有已知治疗靶点的表达。癌症,甚至是针对除癌症以外疾病的癌症。 我们假设该平台可能导致新的药物靶标 – 癌症类型关联,表明目前使用的治疗剂的新应用。 我们通过查询治疗目标数据库[ 38 ]和自动PubMed搜索(参见方法部分)编制了一套148种已知药物靶标及其各自的药物。 发现这些靶中的65个在至少一个差异表达分析中显着过表达(数据未显示)。

研究模块中,用户可以应用治疗目标过滤器来识别在特定差异表达分析中最过表达的目标。 例如,我们发现PTGS2,也称为COX-2,是膀胱癌中相对于正常膀胱组织最显着的过表达药物靶标( Q = 3.1e-15; 图3A )。 COX-2是前列腺素生物合成中的关键酶,并且被非甾体类抗炎药物如阿司匹林靶向。 我们不知道,COX-2之前已被证实在膀胱癌中过度表达,并且COX-2抑制剂Celcoxib被证明可抑制大鼠膀胱肿瘤的形成[ 39 ],目前正在进行III期临床试验以预防膀胱癌在人类中的作用[ 40]。 虽然之前已经建立了这种关联,但我们的巧合发现支持了这种方法的价值。

这种方法产生的大多数假设仍有待探索。 例如,胰腺癌迫切需要有效的治疗策略,因为目前的治疗效果有限,存活率低于5%[ 41 ]。 通过应用药物靶标过滤器,我们发现ABL1(Abl酪氨酸激酶)是胰腺癌中相对于正常胰腺最显着的过表达药物靶标( Q = 0.0097; 图3B )。 Abl激酶由Gleevec靶向,Gleevec是一种小分子抑制剂,最近被批准用于慢性粒细胞白血病的一线治疗[ 42 ]。 尽管ABL1过表达的胰腺样本数量很少( n = 8),但这种关联是新颖的,值得探索。 如果进一步的研究证实ABL1过度表达并证明其在胰腺癌发生中的作用,也许Gleevec在其管理中可能是有用的。ABL1的基因中心分析进一步揭示其在胶质母细胞瘤( P = .0012)和成神经管细胞瘤( P = .0005)中过表达。

Go to:

ONCOMINE额外和未来方向

为了促进基因在癌症中的潜在作用的快速解释, ONCOMINE提供了集中的基因注释资源,整合来自其他生物信息学资源的信息,包括Swiss-Prot,LocusLink [ 43 ]和Unigene,并提供与人类蛋白质参考数据库的直接链接( HPRD)[ 44 ]和SOURCE [ 45 ],以及京都基因和基因组百科全书(KEGG)[ 46 ]和Biocarta的途径资源。 ONCOMINE网站提供在线教程,通过一系列样本分析证明其功能。 未来的工作将包括收集额外的微阵列数据集,增加与其他基因组资源的整合,以及基于相关性的分析。 ONCOMINE还作为一个平台,探索从癌症微阵列概要中确定的“metasignatures”,如我们的伴随报告(提交出版物)中所述。

总之, ONCOMINE是生物信息学发现的强大平台,可将癌症微阵列数据和分析功能带到癌症研究界的指尖。 我们希望这项工作以及ONCOMINE的持续支持和发展将刺激癌症微阵列数据的进一步研究和最大限度地获取和假设生成,最终导致对癌症的理解和新诊断和治疗策略的发展。

Go to:

方法

数据收集,处理和存储

微阵列数据集从公共网站下载或由作者根据请求提供。 下载特定数据集的网址列于ONCOMINE ( www.oncomine.org )。 作者可获得的所有数据都包括在处理和分析中,但不包括负值。 对所有数据进行对数变换,每个阵列的中值居中,标准偏差归一化为每个阵列一个。 研究由以下惯例命名:FirstAuthor_TissueTypeProfiled(例如,Dhanasekaran_Prostate)。 为了促进多学科分析,将微阵列特征映射到Unigene Build 159.数据存储在Oracle 8.1关系数据库中。

数据分析

对于数据库中存在的40个微阵列研究中的每一个,我们回顾了分析的样品。 34项研究至少有4个样本对应于一个感兴趣的分析的两个类别,并进一步分析。 感兴趣的分析包括癌症各自正常组织,高级(未分化)癌症低级别(分化癌症)癌症,不良结果(转移,复发或癌症特异性死亡)癌症良好结果(长期或复发) – 免费存活)癌症,原发性癌症转移性疾病,以及亚型1 亚型2.在将样品分配到类别后,使用总访问统计2002(FMS Inc.,维也纳,FMS公司,使用t-统计学)评估每个基因的差异表达。 VA)。 t-试验既可以双面进行差异表达分析,也可以进行单侧进行特异性过表达分析。 出于整个研究分析的目的,通过错误发现率的方法校正P值以进行多重比较。校正的P值被指定为Q值[ 33 ],其中Q = P * n / i ( n =基因总数; i = P值的分类等级)。

药物目标

药物靶标由两种方法定义。 首先,针对具有确定的拮抗剂,抑制剂或抗体的所有靶标,询问治疗靶标数据库[ 38 ]。 确定了109个独特的药物靶标。 使用SOURCE [ 45 ]提供的基因名称,符号和别名将目标映射到Unigene build 159。 其次,国家癌症研究所(NCI)临床试验数据库( http://www.nci.nih.gov/clinicaltrials/ )中的所有药物名称都经过自动PubMed搜索,识别药物名称和单词“标题中的抑制剂“或”抗体“。 手动调查该标题列表中的药物及其特定目标(例如,利妥昔单抗,CD20)。 通过该方法鉴定了53个独特的靶标。 总共鉴定了148种具有特异性药物抑制剂或抗体的独特基因靶标。

基因本体论

GO基因本体[ 37 ]与Unigene Cluster ID相关的注释从SOURCE下载[ 45 ]。 通过组合多个注释创建了三个本体类别。 以下注释是膜结合类别的一部分:细胞粘附受体,G蛋白偶联受体,质膜,外周质膜蛋白,跨膜受体和跨膜受体蛋白酪氨酸激酶。 以下是激酶类别:1-磷脂酰肌醇3-激酶,细胞周期蛋白依赖性蛋白激酶,二酰基甘油激酶,鸟苷酸激酶,丝裂原活化蛋白(MAP)激酶,MAP激酶激酶,MAP激酶激酶激酶,非跨膜蛋白酪氨酸激酶,蛋白激酶,蛋白激酶C,蛋白丝氨酸/苏氨酸激酶,蛋白酪氨酸激酶,受体信号蛋白酪氨酸激酶,跨膜受体蛋白丝氨酸/苏氨酸激酶和跨膜受体蛋白酪氨酸激酶。 最后,以下注释是分泌类别的一部分:细胞外,细胞外基质和细胞外空间。

ONCOMINE

ONCOMINE是使用三层架构开发的。 后端包括用于存储微阵列数据和统计数据的Oracle 8i数据库,以及用于各种生物数据库的一系列键索引平面文件。 处理应用程序逻辑和核心功能的中间层是使用Python( www.python.org )开发的。 前端客户端是使用ZOPE( www.zope.org )实现的。ONCOMINE可在www.oncomine.org上找到 。

Go to:

致谢

我们感谢Vasudeva Mahavisno的图形和Douglas Gibbs的硬件支持。 DRR是医学科学家培训计划的研究员,AMC是皮尤学者。

参考文献略

 

除特别注明外,本站所有文章均为SCI666原创,转载请注明出处,谢谢。sci666 » 快速提取Oncomine数据库数据(4)Oncomine举例

评论 抢沙发

  • QQ号
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SCI666 学习、交流、分享

生信分析交流群综合科研交流群
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

切换登录

注册

我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活