搜索
查看: 5376|回复: 3

[mRNA-seq] 表达量的8种normalization方法比较

[复制链接]

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2016-11-16 12:13:01 | 显示全部楼层 |阅读模式
paper: http://bmcbioinformatics.biomedc ... 6/s12859-015-0778-7
分别比较了,RC, UQ, Med, TMM, DESeq, Q, RPKM, and ERPKM ,值的仔细读一读,但是想搞清楚统计学原理,就需要下点功夫了。

7种常见的标准化方法,它们分别是:
1Total count,TC
2. Upper Quartile, UQ
3. Median, Med

4. DESeq:前提假设大多数基因不是差异表达的基因,该方法可使用DESeq Bioconductor package。

5. Trimmed Mean of M-values(TMM): 前提假设大多数基因不是差异表达的基因,该方法可使用edgeR Bioconductor package。

6. Quantile (Q):可使用Bioconductor包limma的normalizaQuantiles()功能。
7. Reads Per Kilobase Per Million mapped reads (RPKM),可使用cufflinks。

所有这些方法又可根据其原理而分为两类,第一类基于库的大小(TMM,DESeq),第二类基于read数目的分布(TC,UQ,Med,Q,RPKM)。

第一类中的TMM,DESeq的前提假设都是大多数基因的表达是没有差异的,然后,基于这个假设根据均值,或者中值,比例等提出一个标准化的因子进行标准化。

但是对于TMM这种方法,比例的计算是根据每次测序的数据和参考数据进行比较;而DESeq却是考虑了所有的样本。

第二类标准化的方法的前提则是read数目的分布应该具有相似性,或者是单四分位数(TC,Med,UQ,RPKM),或者是全部的四分位数(Q)。


更多阅读推荐:
http://bioconductor.org/packages/release/bioc/html/DESeq.html
http://cole-trapnell-lab.github.io/cufflinks/
http://www.bioconductor.org/packages/release/bioc/html/edgeR.html
http://www.bioconductor.org/packages/release/bioc/html/limma.html
http://bib.oxfordjournals.org/content/14/6/671.short




上一篇:【菜鸟Python练习13】[ROSALIND-IEV] Calculating Expected Offspring
下一篇:文献阅读
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

0

主题

14

帖子

243

积分

中级会员

Rank: 3Rank: 3

积分
243
发表于 2017-2-1 21:35:34 | 显示全部楼层
有没有方法把这两种方法结合起来呢?
RPKM考虑到了gene的长度,DEseq均一化了文库,可能还是对DEseq的均一化方式不太懂
回复 支持 反对

使用道具 举报

0

主题

8

帖子

65

积分

注册会员

Rank: 2

积分
65
发表于 2017-3-4 15:45:51 | 显示全部楼层
群主介绍了8个readcounts 归一化的方法,我们知道在差异分析时候需要归一,如DESeq和EdgeR,没有毛病;而RPKM或者FPKM用来表示转录本丰度,这是另外一种层面的标准化,也是在论文中常见。我的问题是:1. 如何根据自身的情况选择在差异分析时选择合适的校正方法?或者有哪些情况应该选择哪一类校正方法? 2.是否用RPKM和FPKM之外的方式表达转录本丰度?

针对第二个问题,我贴出审稿人给出的意见:
Although the authors used DESEq to perform the differential expression analysis to compare the gene expression profiles they just used RPKM values, it is not clear why they have not normalized by VST, which would reduce the potential problems from different libraries sizes and possible inconsistency of RPKM among samples. I recommend the authors reassess their method of normalization or support their decision based on the current literature。
回复 支持 反对

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-3-4 20:48:30 | 显示全部楼层
我只是推荐一个paper你们阅读,我并没有做深度了解,也没办法给你们确切答案
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-23 08:25 , Processed in 0.040963 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.