如何使用R语言进行肿瘤样本纯度计算?

免疫浸润的研究目前是如火如荼,可谓是现在研究的热点话题,很多纯生物信息学的文章也在不断的抢发该领域的文章。今天小编给大家分享一个关于肿瘤纯度的计算的帖子。

首先会给大家简单介绍一下肿瘤的微环境,肿瘤微环境是肿瘤细胞所处的细胞环境,其组成包括细胞外基质、可溶性分子和肿瘤基质细胞。许多细胞,如T细胞、髓源抑制细胞、巨噬细胞等,都被催化至此,构成肿瘤的微环境。可以看出肿瘤微环境不仅仅包括免疫微环境还包括基质微环境。而我们目前最多见到的便是肿瘤免疫微环境。

在肿瘤微环境中,免疫细胞和基质细胞是两种主要类型的非肿瘤组分,并且已被提出对于肿瘤的诊断和预后评估具有价值的。而目前对于肿瘤纯度计算用的最多的便是ESTIMATE算法。其官网地址如下:https://bioinformatics.mdanderson.org/estimate/rpackage.html

ESTIMATE全称为Estimation of STromal and Immune cells in MAlignant Tumor tissues using Expression data,即利用表达数据估计恶性肿瘤组织中的基质细胞和免疫细胞。通过使用ESTIMATE算法,我们预测出免疫评分和基质评分,从而预测基质细胞和免疫细胞的含量,预测到基质和免疫细胞的含量之后,便可以计算每个肿瘤样本中的肿瘤纯度,如果基质细胞和免疫细胞含量多了,那么肿瘤纯度就低,反之肿瘤纯度就高了。

预测用到的数据就是基因表达的数据,通过ESTIMAT软件预测,可以得到三列信息:

stromal scor 基质细胞打分

immune score 免疫细胞打分

estimate score 综合打分,就是基质细胞打分和免疫细胞打分的综合

ESTIMATE安装很简单,如下:

使用很简单,首先准备一个表达谱数据,这里我们直接利用内置的表达谱数据,如下:

system.file函数是做什么的呢?这个函数是可以获取R包内的测试文件的路径,如下:

ESTIMATE综合了多个平台,一共囊括了10412个所谓的`common gene`。首先需要使用、filterCommonGenes函数,其两个参数分别是input.f即输入文件路径,输入文件是一个表达谱数据的矩阵文件,output.f 则是gct输出数据文件,存放的位置:

另外需要注意的一点:filterCommonGenes函数可以支持 Gene Symbol或 Entrez Gene ID 。

这样就实现了表达谱转换为 gct格式,并且保存为OV_genes.gct文件。
这个时候需要读取0412genes.gct文件中的计算评分,保存到为 estimate_score.gct。

需要借助的是estimateScore函数,输入刚产生的gct文件和一个需要导出的路径位置即可。注意platform,由于测试数据使用的芯片数据,所以 plotform 的值是 affymetrix,如果是二代测序数据,则需要把 platform的值设置为 illumina。

数据进一步整理,通过读取生成的文件,整理成每个样本的肿瘤纯度,如下:

最后的scores的最后一列即代表肿瘤纯度。

Ok,今天的推文就到这,我们分享了如何使用ES工具计算每个肿瘤样本的纯度,希望能对大家有所帮助,最后,欢迎大家留言,有不正确的地方,也请大家留言指正。

生物信息学

tcga数据读入clinical(临床信息)文件的时报错

2020-5-20 22:58:41

生物信息学

量化免疫浸润时CIBERSORT的注意事项

2020-5-28 21:05:27

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索