搜索
查看: 1271|回复: 0

我的StatQuest笔记-标准差、标准误、置信区间

[复制链接]

5

主题

7

帖子

92

积分

注册会员

Rank: 2

积分
92
发表于 2018-9-15 09:53:40 | 显示全部楼层 |阅读模式
本帖最后由 mqcmqs 于 2018-9-15 13:39 编辑

以下图为例,我们随机从总体中抽取了5只小鼠的体重进行了测量,重复了5次抽样过程, 每次抽样的均值和标准差均已经呈现在了图中(竖线是均值,横线是标准差)。
我们将5次抽样的均值放在一起进行比较,如下图所示,纵向虚线表示的 5次抽样的样本均值的平均数,横向虚线表示的是5次抽样的样本均值的标准差也即是我们常说的标准误。(有个稍难理解的地方在于,由于人力、物力的限制,我们通常只能进行一次抽样的过程,但是还是有标准误的,就是样本标准差除以样本的个数)
标准差VS 标准误
在我们作图时,有三种常见的error bars,分别是:标准差、标准误、置信区间
均值加减1倍的标准差,能覆盖68%的数据,加减2倍的标准差,能覆盖95%的数据。样本均值的标准差要小于总体数据的标准差。
均值有标准差,那标准差也就有相应的标准差,其实各种统计量都可以进行标注差的分析。
置信区间
通过bootstrap,我们可以非常容易的了解置信区间。
Bootstrap在我看来,就是一个有放回重复抽样的过程, 如下图所示:我们从雌鼠群体中随机抽取12个小鼠进行称重,计算样本的均值,然后重复进行抽样>10000次,就会得到>10000个的样本均值,其中覆盖95%均值的区间就被称作95%置信区间。
如果我们再抽取一个样本,我们想看该样本的均值是否与总体的均值无显著差异,我们直观点就看该样本均值是否位于95%区间内,如果位于95%区间之外,那我们就说该样本均值与总体均值有统计学上的差异(p=0.05)。
接着,我们继续从雄鼠群体中进行类似的抽样过程,也能得到相应的抽样均值分布。如果两个抽样群体的95%置信区间没有overlap的时候,那我们就认为雄鼠体重的群体均值与雌鼠体重的群体均值有统计学上的差异(p=0.05)。
如果95%置信区间有overlap的地方,那么就需要进行t-test了。同理,90%、99%置信区间都是这个道理。





上一篇:我的StatQuest笔记: 重复与有效样本量
下一篇:0914 Chapter 3 使用dplyr进行数据转换
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-21 09:16 , Processed in 0.240757 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.