常见高通量数据库汇总

数据库的提供了生物信息学的极大便利,也是数据挖掘的基础。现在最常见的数据库主要是GEO,TCGA,OMIM等数据库,尤其是前两者,几乎是肿瘤数据挖掘的必备数据库,TCGA更是专门肿瘤数据库。但是科学研究并不全是肿瘤研究,这里精选介绍3种强大的,而且是非肿瘤的数据库,希望对大家有用。

1
peoteomexchange数据库

peoteomexchange数据库是专门蛋白质组学的数据库,包含了各种疾病和各种组织。该数据库有很多科学家把自己发表了文章的数据上传到这里,形成了庞大的数据资源。另外,蛋白组学类的期刊比如《journal of proteome research》,《FEBS Journal》,《Biomolecules》等期刊要求组学数据公开并放在peoteomexchange数据库中,这也使得组学数据更加容易查到。数据库的网址是:

http://www.proteomexchange.org/

有时候这个网址不一定可以打开,用VPN即可。

peoteomexchange的操作和使用比较简单,下载和上传数据都可以。数据挖掘需要下载数据,直接检索相关基因名称,组织名称,疾病即可。值得一提的是,现在最热门的外泌体,其蛋白质组学数据也被收录在peoteomexchange数据库中,这使得该数据库适用于各类研究。
以甲状腺乳头状癌为例。每一个蛋白组学数据都有特定的数据库的ID,一般是以PXD开头。点击进入后会有详细的数据来源介绍,包括文章名称,样本种属,组织来源,质谱检测平台,并提供了数据下载列表。一般的数据会有分析好的数据,大多数数据都会提供质谱的原始数据,可以下载下来自己重新搜库和分析。

Peoteomexchange数据库挖掘的生信文章很少,但是蛋白质组学数据+ RNA-seq的数据联合应用的文章已经有一些,蛋白表达+基因表达,IF在5分左右。peoteomexchange数据库可以提供蛋白质组学数据,而RNA-seq数据可以来源于GEO,这适用于各种疾病的数据挖掘,可能是未来生信挖掘联合分子的思路。附上联合分析的文献Doi: 10.1038/s41598-018-30088-3.

2
ClinVar

ClinVar是NCBI下的与疾病相关的人类基因组变异数据库,提供一个标准化的,可信度高的遗传变异和临床表型相关的数据库。ClinVars整合了abSNP, abVar,Pubmed, OMIM的多个数据库的数据信息,详细收录了基因变异,临床表型,实验数据和功能注释与分析等信息。网址:

https://www.ncbi.nlm.nih.gov/clinvar/

ClinVar的操作和检索也很简单,在NCBI的官网下,下拉菜单中选中ClinVar后,可以输入基因名称,蛋白名称,疾病名称,染色体位点等信息进行检索。

比如检索帕金森病,输入“parkinson’s disease”为例,可以检索出疾病相关的基因名称,突变位点,是否具有临床意义等信息。点击进入展示了基因的详细信息,并有实验证据和相关的文献列表,可以在PMID出点击链接到该文献。

ClinVar还会对数据库中的位点,根据注释信息的可靠性,分成了1到4个不同的星级,星级越高,可信度越高。ClinVar也是在生信文章中也常被使用,想详细了解其在文献中使用的小伙伴可以自己检索尝试,这里附一篇生信文献参考:Doi: 10.3390/ijms21082802

3
ArrayExpress

ArrayExpress整合了高通量功能基因组数据,是一个常用的微阵列公共数据库。数据来源于超过5万次的杂交和超过1500000次的独特表达谱,而且数据量还在不断增长,比GEO Datasets 收录的数据更加专注高通量和简洁。ArrayExpress网站是:

https://www.ebi.ac.uk/arrayexpress/

网址一般不需要VPN即可进入,使用的话直接检索基因名称,疾病名称等即可,操作很方便。以帕金森病为例,输入后能够得到一个列表,可以很清楚的看到数据库ID,相关文献的标题,芯片检测类型,种属等。比如做LincRNA,miRNA或者甲基化等,可以很清楚地找到想要研究的类型,可以在type出进行类型的排序。

选定目标数据集以后,点击进入能够看到详细信息,并且提供了数据集下载链接,包含压缩包,txt格式等,可以免费下载和后续分析。ArrayExpress和GEO数据库联合使用进行生信和meta分析,是最常见的发SCI思路,可以容易地检索到,这里附录上一篇非肿瘤的2020年的文献Doi:10.3389/fnins.2020.00209

4
Vesiclepedia

Vesiclepedia数据库是一个细胞外囊泡分子数据库,包含了独立研究的蛋白质,mRNA,miRNA,脂质等数据。数据库公开且免费,可以下载数据进行分析。数据库网址是:

http://microvesicles.org/index.html

数据库的使用非常简单清晰,可以直接输入想要检索的基因名称,或者是miRNA名称等进行检索。另外,还可以按照种属、囊泡种类、和样品类型进行检索。

以检索TSG101为例,可以看到各个种属的分子表达,选中后,可以得到一个列表,展示了在各个类型的细胞中的分子表达,并有链接到PubMed的文章链接。一般Vesiclepedia数据库可以与GEO等数据库联合使用进行生信分析,附一篇相关的文章Doi: 10.1038/s41598-019-45151-w

5
miRBase数据库
miRBase序列数据库是一个庞大的公共数据库,专注地收录了miRNA序列数据,注释,预测基因靶标等信息的全方位数据库,在miRNA信息公共数据库中占有很重要的角色。数据可以下载进行分析。miRBase数据库网址是:

http://www.mirbase.org/

数据库的使用比较简单,进入数据库以后,可以在search栏目下进行检索。可以按照miRNA的序列,名称,物种等进行搜索。以人的“miR-105-2为例”,结果会展示miRNA的序列,靶基因及其序列,染色体位置,生理功能,相关参考文献等。

6
MalaCards

MalaCards数据是一个人类疾病数据库,是一个综合性的数据库网站,收录并整合了72数据库信息。MalaCards数据库网址是:

https://www.malacards.org/

数据库的使用比较直接,在检索里面搜索疾病名称即可,以帕金森为例,检索后可以展示帕金森相关的疾病分子,KEGG信号通路,还有其他数据库收录的突变基因等。

在高通量数据获得成本很高的前提下,可以使用数据库的数据进行分析并指导实验。生信文章的发表,离不开数据库使用和数据挖掘,上述peoteomexchange数据库,ClinVar数据库和ArrayExpress数据库等极大补充了数据来源的问题。在前期工作中,这些数据库的应用适用于特定组织高通量数据很少的情况下,可以考虑这些数据库的组合使用去扩展样本量和数据量。

工具介绍

新版PubMed实现IF和分区的可视化、一键导入Endnote和文献全文获取

2020-6-24 21:07:49

工具介绍

肿瘤药敏多组学数据库(GDSC)概览

2020-6-25 20:30:09

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected].
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索