数据库的提供了生物信息学的极大便利,也是数据挖掘的基础。现在最常见的数据库主要是GEO,TCGA,OMIM等数据库,尤其是前两者,几乎是肿瘤数据挖掘的必备数据库,TCGA更是专门肿瘤数据库。但是科学研究并不全是肿瘤研究,这里精选介绍3种强大的,而且是非肿瘤的数据库,希望对大家有用。
peoteomexchange数据库是专门蛋白质组学的数据库,包含了各种疾病和各种组织。该数据库有很多科学家把自己发表了文章的数据上传到这里,形成了庞大的数据资源。另外,蛋白组学类的期刊比如《journal of proteome research》,《FEBS Journal》,《Biomolecules》等期刊要求组学数据公开并放在peoteomexchange数据库中,这也使得组学数据更加容易查到。数据库的网址是:
http://www.proteomexchange.org/
Peoteomexchange数据库挖掘的生信文章很少,但是蛋白质组学数据+ RNA-seq的数据联合应用的文章已经有一些,蛋白表达+基因表达,IF在5分左右。peoteomexchange数据库可以提供蛋白质组学数据,而RNA-seq数据可以来源于GEO,这适用于各种疾病的数据挖掘,可能是未来生信挖掘联合分子的思路。附上联合分析的文献Doi: 10.1038/s41598-018-30088-3.
ClinVar是NCBI下的与疾病相关的人类基因组变异数据库,提供一个标准化的,可信度高的遗传变异和临床表型相关的数据库。ClinVars整合了abSNP, abVar,Pubmed, OMIM的多个数据库的数据信息,详细收录了基因变异,临床表型,实验数据和功能注释与分析等信息。网址:
https://www.ncbi.nlm.nih.gov/clinvar/。


比如检索帕金森病,输入“parkinson’s disease”为例,可以检索出疾病相关的基因名称,突变位点,是否具有临床意义等信息。点击进入展示了基因的详细信息,并有实验证据和相关的文献列表,可以在PMID出点击链接到该文献。

ClinVar还会对数据库中的位点,根据注释信息的可靠性,分成了1到4个不同的星级,星级越高,可信度越高。ClinVar也是在生信文章中也常被使用,想详细了解其在文献中使用的小伙伴可以自己检索尝试,这里附一篇生信文献参考:Doi: 10.3390/ijms21082802
ArrayExpress整合了高通量功能基因组数据,是一个常用的微阵列公共数据库。数据来源于超过5万次的杂交和超过1500000次的独特表达谱,而且数据量还在不断增长,比GEO Datasets 收录的数据更加专注高通量和简洁。ArrayExpress网站是:
https://www.ebi.ac.uk/arrayexpress/


选定目标数据集以后,点击进入能够看到详细信息,并且提供了数据集下载链接,包含压缩包,txt格式等,可以免费下载和后续分析。ArrayExpress和GEO数据库联合使用进行生信和meta分析,是最常见的发SCI思路,可以容易地检索到,这里附录上一篇非肿瘤的2020年的文献Doi:10.3389/fnins.2020.00209

Vesiclepedia数据库是一个细胞外囊泡分子数据库,包含了独立研究的蛋白质,mRNA,miRNA,脂质等数据。数据库公开且免费,可以下载数据进行分析。数据库网址是:
http://microvesicles.org/index.html


以检索TSG101为例,可以看到各个种属的分子表达,选中后,可以得到一个列表,展示了在各个类型的细胞中的分子表达,并有链接到PubMed的文章链接。一般Vesiclepedia数据库可以与GEO等数据库联合使用进行生信分析,附一篇相关的文章Doi: 10.1038/s41598-019-45151-w

http://www.mirbase.org/


MalaCards数据是一个人类疾病数据库,是一个综合性的数据库网站,收录并整合了72数据库信息。MalaCards数据库网址是:
https://www.malacards.org/


在高通量数据获得成本很高的前提下,可以使用数据库的数据进行分析并指导实验。生信文章的发表,离不开数据库使用和数据挖掘,上述peoteomexchange数据库,ClinVar数据库和ArrayExpress数据库等极大补充了数据来源的问题。在前期工作中,这些数据库的应用适用于特定组织高通量数据很少的情况下,可以考虑这些数据库的组合使用去扩展样本量和数据量。