简单易懂,事半功倍。
提高接受率,人人国自然!

文献解读:如何用TCGA数据库DNA甲基化芯片发5分文章?

各位科研芝士的朋友好,我们今天解读一篇利用TCGA数据库中的DNA甲基化芯片分析的文章。此文18年发表在CLINICAL EPIGENETICS 杂志上,最新影响因子5.49分

下载DNA甲基化的数据
首先作者下载了TCGA数据库中(level 3)的DNA甲基化的数据,不过他下载的是Human Methylation27 BeadChip,就是27k的甲基化芯片数据,这类芯片所能捕获到的甲基化位点相对较少,主要是检测人基因组2.7万个甲基化位点。
信息下载和样本筛选

作者接着下载了这些病人的临床信息,包括年龄,性别,生存时间等,然后做了关键一步,就是样本筛选。首先对有生存时间的病人样本进行保留,接着对肿瘤病理学分期不清楚的阶段进行剔除,作者选定了(G1,GX,GB)三个分期,认为这三个分期可能会有不同的生物学行为,就对这三个分期的病人样本也剔除。最后保留了551个病人样本和27578个甲基化位点进行后续分析。

样本拆分

从上面我们可以看到,551个病人样本,数量还是十分可观的,接着作者按照2:1切分样本,2/3为训练数据集,1/3为测试数据集,用训练集训练出一个模型,测试集来验证这个模型。

识别DNA甲基化位点并建立模型

在训练数据集中,识别与病人生存率相关的DNA甲基化位点并建立模型,这个是文章具体计算过程,其实就很简单,作者实际上针对病人的整体生存时间,只进行了单变量cox分析和多变量cox分析,最后作者采用多变量分析中的逐步回归法(stepwise)成功抓取了5个重要的甲基化位点,根据他们在模型中的参数,构建了这样的一个预后风险表达式。

模型的验证与评估

接着作者对模型进行验证,就拿剩下的1/3数据集去验证模型的稳定性,以及考察模型是不是独立的预后因子,理论上大家做到这一步,就要结束了,作者为了强调自己模型的优越性,就做了下一步,也是提分的关键。

突出自己模型的优越性 

作者将已经报道的biomarker和自己的biomarker在验证数据集里面进行比较,通过下面的ROC曲线来展示结果估计这个就是打动审稿人的一块砖。

OK,这个文章就结束了,这篇文章思路非常清晰,以DNA甲基化为切入点来构架预后模型,整个流程和我们之前做预后的流程几乎一样,希望大家有所收获。

除特别注明外,本站所有文章均为SCI666原创,转载请注明出处,谢谢。sci666 » 文献解读:如何用TCGA数据库DNA甲基化芯片发5分文章?

分享到: 更多 (0)

评论 抢沙发

  • QQ号
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SCI666 学习、交流、分享

生信分析交流群综合科研交流群
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

切换登录

注册

我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活