搜索
查看: 1067|回复: 0

转录组分析标准化及过滤选择笔记

[复制链接]

13

主题

66

帖子

276

积分

中级会员

Rank: 3Rank: 3

积分
276
QQ
发表于 2019-10-10 08:53:40 | 显示全部楼层 |阅读模式
Background
当使用某些统计分析时,低表达的转录本将会导致最终结果的偏向性,尤其是使用t检验时。
尤其技术上的不同带来的read count差异已经通过泊松分布模型解释,该模型假设read count的变异和read count的均值一致(sd=mean)。此外,生物性重复之间的read count差异远大与泊松分布所预设的那样,该现象就是over-dispersion。为解决over-dispersion,负二项式分布的广义线性模型被用来解决该问题,针对数据分析,这给实验人员带来了多个选择方面:1)哪些read count应该包含或舍弃;2)那种标准化方式将最小化样本间的偏向性;3)最好的用于识别差异表达基因的模型。
针对726个数据集,根据条件分组。意欲研究:表型/环境/性别对个体基因表达的影响;first-order交互项的影响:表型x环境/表型x性别/环境x性别;second-order交互项的影响:表型x环境x性别
实验方法:1)研究标准化前后去除不可信阈值的read,带来的影响;2)选择8种不同的标准化方式,评估其减少偏差的效果以及对差异基因检出的影响;3)评估不同统计模型检出差异表达基因的能力。使用分析软件,edgeR/DESeq/SAS
结论:首先使用DESeq方法对read count进行标准化,然后再去除低表达基因更可行灵活,同时使用edgeR/DESeq软件的负二项式广义线性模型检出差异。两种标准化方式,  DESeq和TMM,都能在样本间恰当排列比对(aign)其read count分布,同时有效地应对数据的动态变化。然而,TMM对与标准化先后的过滤策略敏感。此外,每个条件下至少3个生物学重复可以满足足够的检出及统计学意义,尤其是针对three-way interaction of these factors。
ResultsApplication of low gene expression threshold
非常低的read count不能从背景噪音中有效识别。具有很低表达的基因可能不足以代表所有样本中情况,因此,该基因容易被错误识别为差异表达。
因此,需要定义个合适的read count阈值来过滤低表达数据。这里根据文章选择不在转录范围的基因间区95%位置的read count作为基因编码区域的检出阈值(文中采用的是RPKM值,针对基因间区,5%位置的基因间区的RPKM值为4,因此选择RPKM不低于4作为表达的基因,其对应的type I错误为5%;这好似本身存在4的count噪音,对应TPM值为5)。针对所有的标准化方法,均采用该对应阈值,所有样本中都低于该阈值的基因过滤掉,只要一个样本达到该阈值,就保留。
其中8中标准化方法如下:
Comparison of normalization strategies
TMM标准化方法:在参考样本的极端log-fold-change(M值)和极端absolute表达水平(A值)都去除的前提下,根据参考样本的weighted log-fold-change值来对read count进行标准化;一般而言,样本的上四分位值最接近平均上四分位值的样本被选作参考样本。
DESeq标准化方法:类似TMM,根据所有样本的的read count的几何均值得到的参考样本,对read count进行标准化。
标准化的一个目的就是在不同的样本间比对排列read counts,然而并非所有标准化方法都能满足,TC和RPKM方法无法满足该要求;另外,标准化的目的在于减少背景噪音带来的条件内的变异,Q标准化方法就不能解决该问题。一般而言,TMM, DESeq, UQ和Med方式可有效改善系统偏差。
使用workflow1,搭配DESeq和TMM标准化read count,比较去除非编码区域基因数据和原始数据(所有基因)的差异检出,DESeq方法标准化数据有超过85%的差异基因相同,TMM方法标准化带来约73%的一致性差异基因。且大部分差异是由于非编码基因的去除所致。因此,DESeq和TMM标准化方法可应对较大的数据变化范围。
Comparison of dispersion estimation methods
不同于芯片数据, RNA测序数据不具有连续分布特征。一个通用的处理就是使用泊松分布来匹配数据分布。然而泊松分布假设数据的均值和变异是相等的,但是当RNA-seq数据表现出over-dispersion时,该模型就不能理想匹配。
为采用使用负二项式分布的广义线性模型来检出差异表达基因,该分布依赖一估计离散参数,该参数控制了count数据的均值和变异的关系。该评估参数将会影响最终的广义线性模型差异基因的检出。使用DESeq和edgeR软件来针对每一个基因评估离散参数。DESeq首先计算每一基因的离散值,然后根据评估值匹配一个曲线,然后将离散值分配到每一个基因上,based on a choice between the greater of the per-gene estimated or the fitted value;edgeR根据Cox-Reid adjusted profile likelihood评估common离散值,然后再使用经验贝叶斯模型评估每个基因的离散值。
采用DESeq评估离散值,除了RPKM标准化和Q标准化之外的标准化方法,都具有类似的图形形状趋势。
比较workflow1和workflow2,所有的离散评估结果都能很好地相互对应。然而,Q和RPKM标准化方法对于过滤策略敏感,前后差异较大。
Comparison of differential gene expression models
采用两种不同的方法来检出差异基因:使用负二项式分布的广义线性模型和使用log-正态分布的变异检出(ANOVA)。
由表中结果可知,合适的标准化方法对差异的检出非常重要。然后和edgeR方法检出的差异比较。这里比较了workflow1和workflow2,以及workflow3。这两软件检查的差异基因及数目的差异很少,有高达96%的一致性。因此,虽然DESeq和edgeR软件采用了不同的算法,但是识别的差异基因及数目一致性很好。然而和采用ANOVA模型的差异检出结果比较,其差异很明显。
正如所期待的那样,未经标准化的read count在不同方法检出过程中,其重复性最差。
在使用广义线性模型检出差异时,一致性差异基因及数目的检出会根据其匹配模型中交互项的顺序而改变。这里评估了三种匹配模型:1)first-order interaction项依次位于main-effect模型,其交互项顺序为,基因型x环境,基因型x性别,环境x性别;2)针对main-effect模型,分别添加交互项;3)use a model with the main effects and all first order interaction terms, with the reduced model having each first order iteraction term removed in turn。
结论:假如对基因型x环境交互项感兴趣,使用第一种模型方式更有有利于识别最大潜在的针对基因型x环境效应的差异基因。
Statistical power calculaitons
重复越多,检出敏感性越高。对于second-order差异基因,针对80%的检出效果,2个重复约能检出差异大于2.5倍或更高的基因;3个重复,能够检出1.8倍或更高的差异基因。
表型差异越大,达到相同检出效果,所需要的样本重复数就相对较小。
经验表明需要至少3个样本重复方可满足大部分所考虑差异基因的检出。
DisccusionFiltering strategy
main effect的差异检出对于workflow1/workflow2的过滤策略不敏感,而first/second interaction terms对于过滤策略敏感,尤其是采用Med/TMM/Q方法标准化时,workflow1/2对差异基因的一致性影响较大。若在标准化前将低表达值去除,那么数据中值肯定会改变,Med方法将会带来差异;此外,TMM标准化方法是采用位于中间40%和90%的read count数据计算标准化参数,因此也受到影响;最后,Q标准化方法采用read count的秩序,因此去除最小read counts也会带来影响。
workflow1/2带来的结果差异不大。推荐采用workflow1,标准化read后在再去除低表达基因,这样若使用不同的低表达阈值过滤数据,就不需要重新进行标准化过程。
发现read count是否过滤带来的差异基因变化不大,可能是因为:1)较大样本重复(8);2)过滤过程并没去除很多基因(基数大)。
推荐,当测序数据仅表现出较少的数目基因是,或着重于罕有的转录本时,过滤策略的选择不会得到保证,然而,拥有小量read count的基因仅出现在一个样本中时,会带来假阳性风险。
Normalization methods
DESeq和TMM标准化方式被设计用来解决样本read count数目变化范围大的情况。TMM方法拥有可调整参数方便用于较大read count动态变化范围,然而TMM过程对于过滤策略敏感(过滤先后)。
Model comparison
ANOVA假设read count呈正态分布。然而,RNA-seq read count具有非常大的动态范围,其波动范围典型性地偏向分布两端的低的read count,该数据不能很好匹配正态分布。
Dispersion estimation
尽管edgeR/DESeq采用不同的算法来评估离散值,针对DESeq或TMM标准化的数据,其检出差异基因及数目一致,这表明,这两款软件都能很好的用于离散度评估。
Statistical power considerations
增加生物样本重复数量会减少假阳性数目,同时增加重复和测序深度将提高低表达基因的差异检出。3个样本的重复将倍数增加2个样本重复的差异检出,因此推荐至少3个生物重复。

参考:Comparison of normalization and differential expression analyses using RNA-Seq data from 726 individual Drosophila melanogaster
             Expression in Aneuploid Drosophila S2 Cells
             https://haroldpimentel.wordpress.com/2014/05/08/what-the-fpkm-a-review-rna-seq-expression-units/

个人翻译,欢迎大家指正呀




上一篇:Forest plot(森林图) | Cox生存分析可视化
下一篇:非模式生物blast注释笔记
苛求远离完美
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-3-31 17:45 , Processed in 0.023448 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.