搜索
查看: 1940|回复: 0

我的StatQuest笔记: 富集分析(1)

[复制链接]

3

主题

4

帖子

64

积分

注册会员

Rank: 2

积分
64
发表于 2018-9-15 23:31:08 | 显示全部楼层 |阅读模式
富集分析是经常用到的一种分析基因功能的方法,可以将一大串的莫名其妙的基因名列表转换成更容易理解的少数通路信息。
富集分析的方法、流派十分众多,根据PLoS Computational Biology 2012年的综述,可以将富集分析的方法分为3个世代:第一代为Over-representation analysis (ORA),第二代为Functional class scoring (FCS),第三代为Pathway topology (PT)。这篇笔记主要记录ORA的学习体会。 pathway analysis.png
Over-representation analysis
StatQuickie视频对ORA的解释非常有趣。它给出的场景是:随手抓一把m&m巧克力糖,发现是7枚蓝色,1枚红色。那么这个结果算是正常还是特殊?如何求得p值? mm1.png
已知的信息是,两包m&m糖果 (80枚) 的正常组成是这样的: mm2.png
这样就可以求得,从这样一个整体中,取出8枚糖果,结果为7蓝1红的概率。这属于高中数学的范畴,可以用超几何分布 (hypergenomic distribution) 的概率公式:

1.png
而p值的含义本质上是更罕见事件的概率积分,即

2.png
Y叔关于ORA的说明书中,对以上数值定义如下:In this equation, N is the total number of genes in the background distribution, M is the number of genes within that distribution that are annotated (either directly or indirectly) to the node of interest,n is the size of the list of genes of interest and k is the number of genes within that list which are annotated to the node. The background distribution by default is all the genes that have annotation. User can set the background via universe parameter.
也就是说,在这里,N为2包糖果的总数40;M为2包糖果红色和蓝色的糖果的数量,分别为4,8;n为手里糖果的总数8;k为手里红色和蓝色糖果数量,分别为1,7
需要注意的是,ORA不仅仅可以通过超几何分布求p值,也可以通过卡方分布、二项分布的公式求得p值。但超几何分布在多数情况下比较符合通路分析的场景
主要学习材料
  • Khatri P, Sirota M, Butte AJ. Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges. PLoS Computational Biology. 2012;8(2):e1002375.
  • Yu G, Wang L, Yan G, He QY. DOSE: an R/Bioconductor package for Disease Ontology Semantic and Enrichment analysis. Bioinformatics. 2015, 31(4):608-609.
  • StatQuest/StatQuickie 视频 31


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-7-15 19:11 , Processed in 0.024488 second(s), 32 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.