1. sci666首页
  2. 实用技巧
  3. 生物信息学

tcga数据读入clinical(临床信息)文件的时报错

我们的学员最近用培训班代码分析tcga数据预后的时候,向我们反应了数据读取上的问题,主要是读入clinical文件的时候出现报错。

不知道出于什么原因,tcga里面直接下载的临床文件与之前相比发生了一些奇怪的变化。

变动之前是这样的

tcga数据读入clinical(临床信息)文件的时报错

变动之后

tcga数据读入clinical(临床信息)文件的时报错

变动之后的数据每个样本的信息都重复了一次,并且空白的数据出现了单引号,读取的时候出现报错

tcga数据读入clinical(临床信息)文件的时报错

这是引号在读取的过程中产生的干扰,我们只需要加上一个参数quote,就可以消除引号的功能,将其只作为普通字符读入,

tcga数据读入clinical(临床信息)文件的时报错

但是仍然出现报错,因为这里还有行重复的问题没有解决,行名是不可以有重复的,所以我们先不要指定行名,先读入数据

clinical = read.table("E:/clinical.cart.2020-05-09/clinical.tsv",                      sep="t",header=T,                      quote = "")

然后去除重复,

clinical = clinical[!duplicated(clinical$case_submitter_id),]

去除重复之后,再把”case_submitter_id”这一列赋值成行名

rownames(clinical) = clinical$case_submitter_id

这样就成功读取了,重复也清除干净,可以进行临床数据分析了!

tcga数据读入clinical(临床信息)文件的时报错

这些可能会帮助到你: 问答社区 | 共享百度SVIP | 留言建议

欢迎入群交流:生信分析群: 732179952 · Meta分析群: 797345521

发表评论

登录后才能评论