手把手教你用R语言下载TCGA数据:UCSCXenaTools

各位朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA数据教程推文。还记得它吗?

UCSC-XENA

 

或许你看了之前的推文,了解到了该网站,甚至亲自操作了一番,你这个时候或许会说,这种感觉不正是像极了爱情吗?

今天,我们学习一下,基于UCSC-XENA开发出的R包UCSCXenaTools.

在提到UCSCXenaTools该包的时候,我们或许需要了解一下该包的前身XenaR包,这个包提供了一个简单的UCSC Xena接口,可以获取一些UCSC Xena存储的信息,包括GDC、TCGA、ICGC、GTEx、CCLE等数据库的上千个数据集。特别是TCGA(hg19版本)的一部分数据UCSC做了非常好的标准化处理,但是有将近四年没有更新,UCSCXenaTools便是在此基础上开发出来的

1. UCSCXenaTools安装极其简单:

 

2. 加载该包:

 

可以看到,这里它还提供了github的地址,以及如果用这个包,如何在文章中引用。

3.使用XenaHub()可以获取所有的资源,另外可以通过参数指定感兴趣的,包括hosts,cohorts以及datasets。结果返回一个XenaHub对象。Hosts函数:Get hosts of XenaHub object;Cohorts函数:Get cohorts of XenaHub object;Datasets函数:Get datasets of XenaHub object

4. 为了简化hosts()的输入,我们可以使用hostName指定我们想要搜索TCGA的内容,如下:

 

结果如下:

 

5. 可以看到有1629个数据集,太多了。下面使用XenaFilter ()函数进行过滤,比如我们下载临床数据,如下,返回的对象依然是XenaHub:

 

6.   假如你只想选择跟肺癌相关的数据集,这个时候你还需要再加一些条件:

 

7.   如果你很清楚你想要做的,可以使用dplyr的管道操作符进行连续过滤,不过过滤后返回的还是XenaHub对象:

 

8. 检索下载,先构建一个query对象(当前还没有用类封装),就是一个数据框,存储了主机地址,下载的url等:

 

9.数据下载

默认XenaDownload函数将下载数据到当前目录的Xena_Data目录下,如果数据已经下载,将提示并不会下载,可以使用force=TRUE强制下载。

 

10. 数据下载之后就可以将数据导入R,背后用的是readr包的read_tsv函数

 

结果如下:

 

这个时候,我们就发现临床信息就被读进R里面了。

Ok,今天的教程主要是带大家体验TCGA基于R语言的第一种数据下载方式,下期我们继续推出TCGA的第二种编程方式下载,今天的数据下载先讲到这,下期再见。

工具介绍

miRTissue:一款miRNA-target-protein相互关系分析的神器

2019-4-26 14:01:11

工具介绍

如何通过文献了解你所在的科研领域

2019-4-27 14:03:59

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected].
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索