lnCAR:lncRNA的综合数据库 工具介绍 20年5月12日 转载大师 取消关注 关注 私信 笔者是做癌症相关研究的,相信如果是同研究方向的小伙伴都知道 lncRNA 对于癌症的发展调控的重要性。 然而,想要探究 lncRNA 在肿瘤中的机制时,却发现相关的数据源太少。不过,好在笔者发现了一个关于 lncRNA 的综合数据库。 做 lncRNA 相关的研究的朋友,可以借助这个数据库进行前期调研,不需要花费大功夫在获取 lncRNA 数据以及一些可以轻易查询下载的信息上。 今天,笔者就带大家来了解一下这个数据库。 网 址:https://lncar.renlab.org/ lnCAR1 通过对芯片数据重新注释,将 10 种癌症(膀胱癌,乳腺癌,子宫颈癌,结肠直肠癌,食道肿瘤,胃癌,肝癌,肺癌,卵巢癌和前列腺癌)总共54000 个样本整合起来构建了这个关于 lncRNA 的综合数据库。 图片来源:软件截图 该数据库有提供探索功能(「Explorer」),高级搜索(「My lncRNA」),数据汇总(「Statistics」)以及分析结果下载(「Download」)。 1. 探索目的 lncRNA——Explorer: 存在两种模式,差异表达分析和生存分析。(使用常见的 lncRNA HOTAIR 进行演示) 1.1 差异表达分析模式 图片来源:软件截图 1)「Switch Data Type」选择「Differential Expression」进入差异表达探索模式 2.)选择差异比较的方式: Tumor vs Normal,癌组织与正常组织对照; High grade vs Low grade,高等级与低等级癌组织对照,肿瘤的等级(grade)= 显微镜下癌细胞外形异常程度的标示; High stage vs Low stage,高分期与低分期癌组织对照,实体肿瘤的分类(stage)= 肿瘤的大小和(或)肿瘤有无扩散; Metastasis vs Primary,转移灶与原发灶对照; Treatment vs Control,药物治疗前后对照; Other Features,其他特征指的是癌灶特异性特征,例如雌激素受体,孕激素受体和乳腺癌中的 HER2 状态;在肺癌和食道癌中的吸烟和饮酒状况。 3)选择目的癌种(Breast cancer)(此步骤可以跳过) 4)输入目的 lncRNA(HOTAIR) 图片来源:软件截图 上图为 HOTAIR 在不同癌种的一个多个数据集差异表达的荟萃分析得到的综合值的热图(红色代表上调,绿色代表下调)。 1.2 获取基本信息 点击具体的数据格子,可以获取具体的信息:HOTAIR 基因信息摘要,包括基因符号,基因描述,基因 ID,链和相关 lncRNA 转录本。 图片来源:软件截图 上述的 ENSG,ENST 是来源于 ensemble 数据库,G 代表基因(Gene),T 代表转录本(Transcript);「100124700」是来源于 NCBI 的 HOTAIR 的 Gene ID;「HGNC:33510」则是源于 HGNC 数据库的基因编号。 也就是说,如果想要更为细致的基因信息可以通过这些链接进行查询。 1.3 转录本信息(这些转录本都是非编码转录本) 图片来源:软件截图 除了提供不同转录本链接和对应的长度,还提供 lncRNA 编码小肽可能性,该转录本的保守性以及 RNA 的二级结构。 1)lncRNA 编码小肽可能性预测 图片来源:文献截图 前文提到了 lncRNA 的定义有一点是其不编码蛋白,但是越来越多的研究表明 lncRNA 也可以编码微肽,例如 smORF2。 该数据提供了两种编码能力预测的方法: [1] CPAT score:CPAT score>= 0.364 认为是包含可编码序列 [2] CNCI score:CNCI score>= 0 认为是包含可编码序列 CPAT 和 CNCI 是不同的分析方法,可能具有不同的结果。 2)lncRNA 的保守性 该数据库将 lncRNA 转录本保守性界定在 0 到 1 之间,越高则保守性越高。而高度保守的基因序列是被认为有功能价值的,而 lncRNA 普遍保守性较低。 3)lncRNA 的二级结构 图片来源:软件截图 二级结构对 RNA 正常功能非常重要,有时甚至比序列重要。这可以帮助用于分析非编码 RNA。该数据库提供预测结果的下载。 1.4 差异表达分析的具体信息——Expression 图片来源:软件截图 图片来源:软件截图 该数据库提供了多种差异表达结果的保存格式。 点击右方的小眼睛,可以获取具体数据集的箱型图,可以保存直接使用。 1.5 lncRNA 共表达 mRNA 网络——Co-expression network 图片来源:软件截图 为了发现一项研究中每个感兴趣的 lncRNA 和蛋白质编码基因的共表达模式,这里计算了所有蛋白质编码基因之间的成对表达相关性。选择具有强相关性(Pearson 系数| r |> 0.3)的前 200 个编码基因,来代表 lncRNA 共表达网络。 1.6 KEGG 富集分析——KEGG pathway 图片来源:软件截图 lncRNA 共表达网络构建完,为了预测该 lncRNA 的功能,所以使用 lncRNA 共表达的编码基因进行 KEGG 富集分析,获取对应的 KEGG pathway 富集。 1.7 ceRNA 网络构建——ceRNA network 图片来源:软件截图 作者利用 starBase2 获取 lncRNA-miRNA 和 miRNA-mRNA 相互作用对,并基于具有正相关性的 lncRNA 和蛋白编码基因,构建了一个 ceRNA 相互作用网络。 ceRNA 其实是非常混乱的(我们并不需要知道有哪些 lncRNA,miRNA 或者 mRNA 参与网络构建,因为 ceRNA 组成是非常多的)。 然而,该数据库绘制的 ceRNA 网络是非常惊艳的,提供了 lncRNA-miRNA-mRNA 的基因染色体定位。不同圈代表不同层次,紫线代表 lncRNA-miRNA 的互作,红线代表 miRNA-mRNA 的互作。 1.8 lncRNA 被低通量实验验证的信息——Validated By Low-Throughput Experiments 例如,实时 PCR 和 Northern 印迹获得的验证结果。 图片来源:软件截图 Lnc2Cancer, LncRNADisease 等数据库是手动收集 lncRNA 研究文章并对其进行归纳;由于 lncRNA 的种类是非常多的,但是真正被研究的其实不多,所以这一功能在多数时候是未显示的。 2. lncRNA 生存分析 图片来源:软件截图 1)「Switch Data Type」选择「Differential Expression」进入差异表达探索模式 2)选择目的癌种的生存信息:(Bladder cancer-Overall survival survival) 包括 Overall survival(OS),总体生存期; Metastatic-free survival(MFS),转移无病生存期; Relapse-free survival(RFS),无病生存期; 3)输入目的 lncRNA(HOTAIR) 图片来源:软件截图 点击右侧「小眼睛」,即可获取对应数据集的生存曲线,也可保存。 2.1 获取数据集信息 图片来源:软件截图 点击「Analysis ID」的链接,即可获取该数据集信息。 图片来源:软件截图 即可获取该数据集使用注释信息「GPL6102」,测序平台「Illumina human-6 v2.0 expression beadchip」,数据集「GSE13507」,文章的标题年份和 PMID,癌种和生存信息的类型以及该数据集的样本总数。 3. 高级搜索(「My lncRNA」) 应用场景可以但不限于:如果想知道某个基因具体位置是否存在 lncRNA。 例如,我想知道 EGFR 某个外显子是否有 lncRNA。因为,本文使用的注释信息是 Ensembl(GRCh38.90)和 Refgene(GRCh38,更新至 201704)的,所以填写的基因定位应该是 GRCh38 版本的。 图片来源:软件截图 EGFR 的定位是 chr7:55,019,277-55,205,617,总共有 186,341 个碱基,但是该数据库有个局限,是只允许 50,000 个碱基区域。所以,随意选择一个 50,000 间距的范围进行探究,这段区域上 lncRNA 的差异表达。 图片来源:软件截图 即可获取差异表达信息和生存分析。 图片来源:软件截图 上述就是 chr7:55019277-55024277 间,所有探针的表达水平。 图片来源:软件截图 4. 数据汇总——Statistics 图片来源:软件截图 1)选择 Lung cancer 展示,可以知道关于肺癌的数据样本数目以及测序平台以及注释个数。 图片来源:软件截图 2)统计不同注释平台对应了的测序平台比例。 图片来源:软件截图 3)统计不同差异比较条件的样本个数,绘制成柱状图和饼图。 图片来源:软件截图 4)统计不同生存资料的样本个数,绘制成曲线图和饼图。 图片来源:软件截图 5)统计不同类型肺癌的差异表达基因,绘制成柱状图。 图片来源:软件截图 6)统计不同类型肺癌的与生存预测意义的基因,绘制成柱状图。 图片来源:软件截图 7)人性化设计,方便换一种癌种。 5. 分析结果下载——Download 图片来源:软件截图 lnCAR 数据库中的所有分析结果都可以从「Download」模块下载。用户可以下载每种癌症亚型的差异表达分析和生存分析的分析结果。 总 结 图片来源:软件截图 先上图,该数据库可以是目前为止最为全面的 lncRNA 数据库。 首先,它的数据集数目是最大的,其次它的功能是最丰富的,除了获取差异表达 lncRNA,ceRNA 网络构建以及 lncRNA 的功能富集,还可以获取 lncRNA 相关的生存分析。 尽管探针并不特异,具有多个转录本,但是探针重注释为 GEO 积累的数据带来了更多的信息,老芯片新用途,对于前期探索是一个很好的数据库。最后,再进行湿的实验验证一番,增加该数据库的真实性。 参考资料: 1. Zheng Y, Xu Q, Liu M, et al. lnCAR: a comprehensive resource for lncRNAs from Cancer Arrays. Cancer Res. 2019:canres.2169.2018. 2. Dhamija S, Menon MB. Non-coding transcript variants of protein-coding genes – what are they good for? RNA Biol. 2018;15(8):1025-1031. 3. https://www.dana-farber.org/for-patients-and-families/becoming-a-patient/international-patients/chinese/inspiration/%E7%99%8C%E7%97%87%E7%AD%89%E7%BA%A7%E5%92%8C%E7%99%8C%E7%97%87%E5%88%86%E7%B1%BB%E7%9A%84%E5%8C%BA%E5%88%ABgrade-and-stage-of-cancer/ 推荐阅读: 肿瘤转移数据的数据库工具HCMDB介绍及使用方法 常用的查询各种RNA的PCR引物序列数据库 lnCAR——帮助挖掘与分析lncRNA lncRNAMap:有GEO分析结果的lncRNA在线工具 ImmLnc:NC免疫相关的lncRNA研究工具 lncRNA