tcga数据读入clinical(临床信息)文件的时报错

我们的学员最近用培训班代码分析tcga数据预后的时候,向我们反应了数据读取上的问题,主要是读入clinical文件的时候出现报错。

不知道出于什么原因,tcga里面直接下载的临床文件与之前相比发生了一些奇怪的变化。

变动之前是这样的

变动之后

变动之后的数据每个样本的信息都重复了一次,并且空白的数据出现了单引号,读取的时候出现报错

这是引号在读取的过程中产生的干扰,我们只需要加上一个参数quote,就可以消除引号的功能,将其只作为普通字符读入,

但是仍然出现报错,因为这里还有行重复的问题没有解决,行名是不可以有重复的,所以我们先不要指定行名,先读入数据

clinical = read.table("E:/clinical.cart.2020-05-09/clinical.tsv",                      sep="t",header=T,                      quote = "")

然后去除重复,

clinical = clinical[!duplicated(clinical$case_submitter_id),]

去除重复之后,再把”case_submitter_id”这一列赋值成行名

rownames(clinical) = clinical$case_submitter_id

这样就成功读取了,重复也清除干净,可以进行临床数据分析了!

生物信息学

UCSC Xena下载mRNA数据进行单基因分析流程

2020-5-18 17:25:32

生物信息学

如何使用R语言进行肿瘤样本纯度计算?

2020-5-22 14:45:40

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索