1. sci666首页
  2. 实用技巧
  3. 生物信息学

如何使用R语言进行肿瘤样本纯度计算?

免疫浸润的研究目前是如火如荼,可谓是现在研究的热点话题,很多纯生物信息学的文章也在不断的抢发该领域的文章。今天小编给大家分享一个关于肿瘤纯度的计算的帖子。

首先会给大家简单介绍一下肿瘤的微环境,肿瘤微环境是肿瘤细胞所处的细胞环境,其组成包括细胞外基质、可溶性分子和肿瘤基质细胞。许多细胞,如T细胞、髓源抑制细胞、巨噬细胞等,都被催化至此,构成肿瘤的微环境。可以看出肿瘤微环境不仅仅包括免疫微环境还包括基质微环境。而我们目前最多见到的便是肿瘤免疫微环境。

在肿瘤微环境中,免疫细胞和基质细胞是两种主要类型的非肿瘤组分,并且已被提出对于肿瘤的诊断和预后评估具有价值的。而目前对于肿瘤纯度计算用的最多的便是ESTIMATE算法。其官网地址如下:https://bioinformatics.mdanderson.org/estimate/rpackage.html

ESTIMATE全称为Estimation of STromal and Immune cells in MAlignant Tumor tissues using Expression data,即利用表达数据估计恶性肿瘤组织中的基质细胞和免疫细胞。通过使用ESTIMATE算法,我们预测出免疫评分和基质评分,从而预测基质细胞和免疫细胞的含量,预测到基质和免疫细胞的含量之后,便可以计算每个肿瘤样本中的肿瘤纯度,如果基质细胞和免疫细胞含量多了,那么肿瘤纯度就低,反之肿瘤纯度就高了。

预测用到的数据就是基因表达的数据,通过ESTIMAT软件预测,可以得到三列信息:

stromal scor 基质细胞打分

immune score 免疫细胞打分

estimate score 综合打分,就是基质细胞打分和免疫细胞打分的综合

ESTIMATE安装很简单,如下:

如何使用R语言进行肿瘤样本纯度计算?

使用很简单,首先准备一个表达谱数据,这里我们直接利用内置的表达谱数据,如下:

如何使用R语言进行肿瘤样本纯度计算?

system.file函数是做什么的呢?这个函数是可以获取R包内的测试文件的路径,如下:

如何使用R语言进行肿瘤样本纯度计算?
ESTIMATE综合了多个平台,一共囊括了10412个所谓的`common gene`。首先需要使用、filterCommonGenes函数,其两个参数分别是input.f即输入文件路径,输入文件是一个表达谱数据的矩阵文件,output.f 则是gct输出数据文件,存放的位置:

另外需要注意的一点:filterCommonGenes函数可以支持 Gene Symbol或 Entrez Gene ID 。

如何使用R语言进行肿瘤样本纯度计算?
这样就实现了表达谱转换为 gct格式,并且保存为OV_genes.gct文件。
如何使用R语言进行肿瘤样本纯度计算?
这个时候需要读取0412genes.gct文件中的计算评分,保存到为 estimate_score.gct。

需要借助的是estimateScore函数,输入刚产生的gct文件和一个需要导出的路径位置即可。注意platform,由于测试数据使用的芯片数据,所以 plotform 的值是 affymetrix,如果是二代测序数据,则需要把 platform的值设置为 illumina。

如何使用R语言进行肿瘤样本纯度计算?
如何使用R语言进行肿瘤样本纯度计算?
数据进一步整理,通过读取生成的文件,整理成每个样本的肿瘤纯度,如下:
如何使用R语言进行肿瘤样本纯度计算?

最后的scores的最后一列即代表肿瘤纯度。

如何使用R语言进行肿瘤样本纯度计算?

Ok,今天的推文就到这,我们分享了如何使用ES工具计算每个肿瘤样本的纯度,希望能对大家有所帮助,最后,欢迎大家留言,有不正确的地方,也请大家留言指正。

这些可能会帮助到你: 问答社区 | 共享百度SVIP | 留言建议

欢迎入群交流:生信分析群: 732179952 · Meta分析群: 797345521

发表评论

登录后才能评论