搜索
查看: 963|回复: 0

我的StatQuest生物统计学专题——标准差、标准误与置信区间

[复制链接]

3

主题

3

帖子

50

积分

注册会员

Rank: 2

积分
50
发表于 2018-9-6 17:19:26 | 显示全部楼层 |阅读模式
本帖最后由 zyt5 于 2018-9-6 17:21 编辑

StatQuest学习笔记——标准差、标准误与置信区间



标准差(StandardDeviation,SD)
定义:标准差是样本数据方差的平方根,它衡量的是样本数据的离散程度。
                                                   
举例:当测量5个小鼠的重量时,红色的竖线为均值(mean),标准差(StandardDeviation)则是以mean为中心的左右对称的红色横线。
标准误(Standard Error,SE or SEM)
定义:衡量对应样本统计量抽样误差大小的尺度。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。
     
举例:将上述试验重复5次,每试验都对5只不同的小鼠进行测重,每次试验都获得了一个平均值和标准差,下图不同颜色的线条表示。


将5次测量的均值放在一起,计算这些均值的均值与标准差。此时,得到的标准差称为标准误(TheStandard Error)。

标准差与标准误的区别
标准差是样本数据方差的平方根,它衡量的是样本数据的离散程度;标准误是样本均值的标准差,衡量的是样本均值的离散程度。而在实际的抽样中,习惯用样本均值来推断总体均值,那么样本均值的离散程度(标准误)越大,抽样误差就越大。所以用标准误来衡量抽样误差的大小。
     
标准差是衡量一个样本数据的离散程度,如图:



     
标准误则是衡量一组样本均值的离散程度,如下图:



置信区间(confidence intervals)
定义:置信区间(Confidence Interval)是用来对一个概率样本的总体参数进行区间估计的样本均值范围,它展现了这个均值范围包含总体参数的概率,这个概率称为置信水平。
     
置信水平代表了估计的可靠度,一般而言,我们采用95% 的置信水平进行区间估计。

举例:我们检测一批雌性小鼠(12只)的体重,并计算该样本的均值,这里引入自举(bootstrap):

Bootstrap方法
Bootstrap一词来源于西方神话故事"theadventures of Baron Munchausen"归结出的短语"to pull oneself up by one'sbootstrap",意味着不靠外界力量,依靠自身提升性能。
Bootstrap的基本思想是:因为观测样本包含了潜在样本的全部的信息,那么我们不妨就把这个样本看作"总体"。那么相关的统计工作(估计或者检验)的统计量的分布可以从"总体"中利用MonteCarlo模拟得到。其做法可以简单地概括为:既然样本是抽出来的,那我何不从样本中再抽样。
     
继续回到案例中,此时,我们从这批小鼠中自举(bootstrap)一些样本,例如我们随机选取12只(肯定有重复挑中的小鼠,这个没有关系),自举后,计算这次抽样的均数,然后再自举,再算均数,这个过程持续很多次(大于1000次),计算出的均数如下所示:
随后,我们计算置信区间。

置信区间有什么用?
这个95%的置信区间就是指,它覆盖了这次自举所有数据的95%均值范围。由于这个置信区间覆盖了95%的均值,那么我们就知道,均数在这个区间之外的概率是不到5%(0.05只是一个界限)。那也就是说,任何在这个区间之外的数字的概率p值是小于0.05的(也就是说有显著意义)。
均值是对“真实值”的估计(真实值是无法知道的,只能通过不断地测量一步一步接近)。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:0905 R数据科学啃书-练习题
下一篇:有没有大神知道这个图片里的内容是啥意思啊,谢谢谢谢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-22 15:15 , Processed in 0.029104 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.