数据库的挖掘能够提供科研思路,少走弯路,加速课题进展。对于不会编程的科研人员来说,点点鼠标就可以进行数据库挖掘与在线分析可以说是一股暖流。闲话不多说,上干货。
一. 高通量测序分析与可视化数据库
-
NCBI的GEO数据库(https://www.ncbi.nlm.nih.gov/gds)。包含各种高通量测序的原始数据以及处理后数据。原始数据的分析需要一定的生信基础,但是运气好的话,文章作者会上传处理后表达矩阵,可直接下载表达矩阵进行分析。
2. GDC(https://portal.gdc.cancer.gov/)。面向癌症的数据库,收录了各种癌症病人的高通量测序数据。
3. cBioPortal (https://www.cbioportal.org/)。同样是面向癌症的数据库,但是比GDC,TCGA容易上手。里面整合分析了各种数据库收录的测序结果(如TCGA),并以可视化的方式展现出来。
4.GCTA(http://cnsgenomics.com/software/gcta/#GWASanalysis)。用于做GWAS分析的网站。
5.ChIP-seq数据库(http://cistrome.org/db/#/)。可根据转录因子与来源进行筛选,目前种属只有人和小鼠。
6.UALCAN(http://ualcan.path.uab.edu/cgi-bin/ualcan-res.pl)。以各数据库收录的测序数据为基础,进行可视化的数据挖掘。
7. LIMORE(http://www.picb.ac.cn/limore/)。由中科院-马普学会计算生物学研究所与中科院上海生物化学与细胞生物学研究所开发。收录了肝癌病人与肝癌细胞系的RNA-seq与耐药性数据。
二. 基因与蛋白的关联分析
-
Coexpedia(http://www.coexpedia.org/search.php)。绘制基因共表达网络,只需要自己输入基因,该网站会根据已有数据库绘制共表达网络。
2.String(https://string-db.org/)。蛋白质相互作用关系可视化网站。
三. 基因与蛋白注释数据库
-
常见的Uniprot,NCBI, Genecards等。
-
BioGPS(http://biogps.org/#goto=welcome)。可查看各组织基因表达丰度。
3. GEPIA(http://gepia.cancer-pku.cn/)。由北大团队开发,功能强大。可查看肿瘤与正常组织的基因表达丰度,并且可绘制生存曲线以及进行相关性分析。
四. 转录因子数据库
-
AnimalTFDB(http://bioinfo.life.hust.edu.cn/AnimalTFDB/#!/。华中科技大学团队开发,收录了目前已知的各个动物物种的转录因子数据,包括结构域,靶点等。
2. planttfdb(http://planttfdb.cbi.pku.edu.cn/)北大团队开发,收录了植物转录因子数据。
五. 蛋白质数据库
-
TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)。蛋白跨膜结构域预测。
2. Pfam(http://pfam.xfam.org/)。蛋白结构域预测与功能分析。
3. PDB(http://www.rcsb.org/)。收录了目前已知的蛋白质的结构数据。
六. 其他数据库。
-
细胞marker数据库:CellMarker http://biocc.hrbmu.edu.cn/CellMarker/
2. 单细胞测序数据库scRNASeqDB https://bioinfo.uth.edu/scrnaseqdb/
3. GO分析与可视化数据库:g:profiler (http://biit.cs.ut.ee/gprofiler/gost)
4. BIGBIM(https://www.biosino.org/bigbim/tools)。由中科院-马普学会计算生物学研究所开发,涵盖了多种数据分析工具,非常值得研究。
5. RNAcenter(https://rnacentral.org/)。非编码RNA数据库。
6. biorxiv(https://www.biorxiv.org/)。预印版文章收录网站,一些作者为了寻找建议或者想和同行提前分享自己的研究成果会在文章正式发表前先放到这个网站上。
7. 学术打假网站:https://pubpeer.com/。如果不是曹雪涛,我还不知道有这么一个网站。
有教程吗
相关教程后期会逐步更新