搜索
查看: 984|回复: 0

我的StatQuest笔记: 富集分析(1)

[复制链接]

3

主题

4

帖子

64

积分

注册会员

Rank: 2

积分
64
发表于 2018-9-15 23:31:08 | 显示全部楼层 |阅读模式
富集分析是经常用到的一种分析基因功能的方法,可以将一大串的莫名其妙的基因名列表转换成更容易理解的少数通路信息。
富集分析的方法、流派十分众多,根据PLoS Computational Biology 2012年的综述,可以将富集分析的方法分为3个世代:第一代为Over-representation analysis (ORA),第二代为Functional class scoring (FCS),第三代为Pathway topology (PT)。这篇笔记主要记录ORA的学习体会。
Over-representation analysis
StatQuickie视频对ORA的解释非常有趣。它给出的场景是:随手抓一把m&m巧克力糖,发现是7枚蓝色,1枚红色。那么这个结果算是正常还是特殊?如何求得p值?
已知的信息是,两包m&m糖果 (80枚) 的正常组成是这样的:
这样就可以求得,从这样一个整体中,取出8枚糖果,结果为7蓝1红的概率。这属于高中数学的范畴,可以用超几何分布 (hypergenomic distribution) 的概率公式:

而p值的含义本质上是更罕见事件的概率积分,即

Y叔关于ORA的说明书中,对以上数值定义如下:In this equation, N is the total number of genes in the background distribution, M is the number of genes within that distribution that are annotated (either directly or indirectly) to the node of interest,n is the size of the list of genes of interest and k is the number of genes within that list which are annotated to the node. The background distribution by default is all the genes that have annotation. User can set the background via universe parameter.
也就是说,在这里,N为2包糖果的总数40;M为2包糖果红色和蓝色的糖果的数量,分别为4,8;n为手里糖果的总数8;k为手里红色和蓝色糖果数量,分别为1,7
需要注意的是,ORA不仅仅可以通过超几何分布求p值,也可以通过卡方分布、二项分布的公式求得p值。但超几何分布在多数情况下比较符合通路分析的场景
主要学习材料
  • Khatri P, Sirota M, Butte AJ. Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges. PLoS Computational Biology. 2012;8(2):e1002375.
  • Yu G, Wang L, Yan G, He QY. DOSE: an R/Bioconductor package for Disease Ontology Semantic and Enrichment analysis. Bioinformatics. 2015, 31(4):608-609.
  • StatQuest/StatQuickie 视频 31


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:PCA原理 statQuest
下一篇:我的StatQuest生物统计学专题——线性模型Pt1.5:多重回归
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-18 07:34 , Processed in 0.031875 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.