搜索
查看: 616|回复: 0

我的StatQuest学习笔记——FDR及实现

[复制链接]

3

主题

3

帖子

50

积分

注册会员

Rank: 2

积分
50
发表于 2018-9-6 17:27:32 | 显示全部楼层 |阅读模式
FDR及实现


1.什么是FDR
FDR (false discovery rate),中文一般译作假阳性率。在转录组分析中,主要用在差异表达基因的分析中,控制最终分析结果中,假阳性结果的比例。FDR(假阳性率)错误控制法是Benjamini1995年提出的一种方法,基本原理是通过控制FDR值来决定P值的值域。
2.为什么要用FDR
FDR矫正是为了去除那些看起来差异显著,但实际并不尽然的数据。

在转录组分析中,如何确定某个转录本在不同的样品中表达量是否有差异是分析的核心内容之一。在对大量“normal”小鼠的某一基因X进行Reads计数时,虽然每次RNA-seq的测序并不相同,但这些数据基本符合正态分布。而当对不同Sample中基因X进行测序时,如果我们对Sample 1Sample 2进行t检验,得到的p值很大可能是> 0.05,但也有< 0.05的概率发生,这种现象称为“假阳性”。当p< 0.05,说明这两个samples是来自不同种类的小鼠(即两个不同的正态分布)。
因为转录组分析并不是针对一个或几个转录本进行分析,转录组分析的是一个样品中所转录表达的所有基因的转录本。所以,一个样品当中有多少转录本,就需要对多少转录本进行假设检验。假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例QV/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%。
3.如何进行FDR校正
1)假设总共有m个候选基因,每个基因对应其p-value
2)将所有基因的的p值按照从大到小排序,然后利用下述公式计算每个p值所对应的FDR值。公式:p * (n/i)
p是这一次检验的pvaluen是检验的次数,i是排序后的位置ID(如最大的P值的i值肯定为n,第二大则是n-1,依次至最小为1)。
3.将计算出来的FDR值赋予给排序后的p值,如果某一个p值所对应的FDR值大于前一位p值(排序的前一位)所对应的FDR值,则放弃公式计算出来的FDR值,选用与它前一位相同的值。因此会产生连续相同FDR值的现象;反之则保留计算的FDR值。
4. FDR值按照最初始的p值的顺序进行重新排序,返回结果。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:有没有大神知道这个图片里的内容是啥意思啊,谢谢谢谢
下一篇:小洁详解《R数据科学》--插播dplyr习题
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-7-24 09:19 , Processed in 0.035342 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.