WGCNA分析详解专题(一)

此次分析详解专题将讲述以下内容,老规矩,如有理解错误,还请各位大侠批评指正!

  1. WGCNA适用于什么分析内容?

  2. 表型变量中的分类变量应该如何合理的数值化?

  3. 做WGCNA分析我该使用什么数据,是否需要过滤?

  4. 我该选取哪些基因进入分析?是全部的基因还是只用差异表达的基因?

  5. 多少样本量合适呢?怎么检测异常(离群样本)?

  6. 如何选取softpower?

  7. 如何选取模块以及模块中的Hub基因?

WGCNA分析应用(一):发育调控

此次讲解应用的文章信息如下:

TitleA novel microglial subset plays a key role in myelinogenesis in developing brain

Published Date28 September 2017

Published JournalThe EMBO Journal(2017 IF: 10.557)

第一作者Agnieszka Wlodarczyk,Department of Neurobiology Research, Institute for Molecular Medicine, University of Southern Denmark(南丹麦大学), Odense, Denmark(丹麦)

1.背景知识

Microglia:小胶质细胞。中枢神经系统 (central nervous system,CNS) 中的细胞大致分为两类:神经元(neurons)和神经胶质细胞(glial cells)。小胶质细胞是神经胶质细胞的一种,正常情况下,数量不多,主要分布在大脑、小脑的皮质以及脊髓的灰质中。主要功能:作为中枢神经系统固有的免疫效应细胞,针对刺激,形成活化的小神经胶质细胞,可表达各种抗原,行使抗原递呈细胞(APC)的功能。

2.数据使用(WGCNA分析使用数据)

数据情况如下:GSE78809(17个样本)

  • 8个新生儿Neonates:4个CD11C+和4个CD11C-

  • 6个EAE(experimental autoimmune encephalomyelitis):3个CD11C+和3个CD11C-

  • 3个成年组adult:3个CD11C-

解读主要有17个样本,每一个类别都有大于三个以上的生物学重复,有与大脑发育相关的新生儿组别和成年组别。

 

3.结果解读

文章中主要有8个结果,这里我们主要看WGCNA部分的结果,结果3:Distinct gene signatures in microglia subsets during development and EAE


1.使用的数据:作者使用的是二代测序数据中
所有基因表达的CPM值

WGCNA was applied to the count per million (CPM) expression data.

2.图A:样本关系聚类图这里看到三个组成年组新生儿组以及EAE组都分开了,并且组内的CD11c+和CD11c-也可以区分开。

疑问点:有意思的是作者用来做样本聚类的数值,我在文章找了老久没有看到图中横纵坐标的值是怎么算的,有知道的可以下方留言讨论哈。一般来说,对样本进行聚类可以做层次聚类和PCA分析,WGCNA常见的是层次聚类树。

 

3.图B:模块聚类树,图的上部分是对基因进行的聚类树,下面是根据相似性聚成的模块,文章中总共得到了7个模块,我们可以在图E中看到是那几个模块以及每个模块涉及到的功能。


 

4.图E:每个模块的基因数以及各个模块的功能,灰色模块是没有聚类到任何模块的基因集合。

 

5.图C:表型和模块相关性图,这里可以看出哪些模块和你关注的表型之间的关系是否显著

这张图需要用到一个很重要的表型数据,这里可以看到作者是如何将分类变量数值化的,文章中是这样描述的:

Six binary variables were generated that were used to calculate the module trait relationships in which all groups were set to zero with the exception of particular groups of interest:
  • control(1’s for microglia obtained from healthy control brain)
  • CD11c (1’s for both EAE CD11c and neonatal CD11c),
  • EAE (1’s for CD11c negative and microglia obtained from EAE brains),
  • neonatal (1’s for CD11c negative and microglia obtained from neonatal brains),
  • CD11c EAE, and CD11c neonatal.

翻译为表格就是:

对这张图的解读很重要,它关系到了你后面挑选的具体重点分析模块,以及你如何看这里面的正相关和负相关,曾经有个小伙伴问我:
这里的负相关算相关么?我看到的大多数文章都是对正相关的结果进行的分析

具体的模块与表型以及联合模块功能的解读这里就不详细说了,文章中描述非常详细,如何将所挖掘到的模块与发育联系起来。

 

4.总结

这篇文章IF在10以上,虽然发表时间比较早了,但是还是值得仔细读一下的。特别是对结果层面的生物学意义的解读,很多文章最终结果都只是空泛的说挖掘出了一个biomarker就完了,空洞又无趣。 作为技术层面的细节,这篇文章里可以看到用于WGCNA分析的目的,样本数,组内重复样本数,用来分析的基因,用基因的什么值,表型数据如何数值化以及对结果如何进行解读和下游分析。

文献解读

非肿瘤生信分析文献解读:冠心病如何筛选和综合分析新miRNA

2020-4-28 23:45:04

文献解读

WGCNA分析详解(二)

2020-4-29 14:59:34

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索