搜索
查看: 38|回复: 0

StatQuest生物统计学专题(03)-标准误、标准差与置信区间

[复制链接]

3

主题

3

帖子

50

积分

注册会员

Rank: 2

积分
50
发表于 2018-9-14 21:26:15 | 显示全部楼层 |阅读模式
前言本文主要内容为标准误,标准差以及置信区间,对应视频8、11、12。
标准差与标准误? Standard Deviation Vs Standard Error标准差假设我们测定了5个小鼠的体重,红色竖线标志着5个体重的平均值;红色横线即标准差,它以平均值为中心左右对称,反应了数据的离散程度。

标准误如果我们又重复进行5次上述实验且每次均采用不同小鼠测量,同样得出了每组实验的均值和标准差,如下图:
随后,我们将这五组实验的平均值放到同一坐标轴上,然后对这些均值取平均值与标准差,这时得到的标准差即标准误。
标准差与标准误标准差是数据方差的平方根,平均分布在均值两侧可衡量数据的离散程度。标准误是多个均值的标准差,用以衡量数据均值的离散程度。注:单组数据依然可以取得标准误。

总结:标准差是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。
置信区间 Confidence IntervalsBootstrapping 自助法假设我们有一堆群小鼠,随机抽取12只小鼠测定体重并计算均值。如果我们想知道整个种群的情况,我们可以通过Bootstrap方法进行估算,其步骤如下:1)随机抽取12只小鼠进行测定(重置抽样,可重复抽取);2)计算随机样本的均值;3)重复步骤1,2直到你取到足够多的样本(>10,000),汇总其均值。

95%置信区间 95% Confidence Intervals95%置信区间即包含95%所测数据均值的区间范围。

置信区间的用途1)置信区间可估计参数真值所在的范围,同时还给出此区间包含参数真值的可信程度。如95%置信区间表明在此区域外真值出现的概率不高于5%,因此有充足理由认为比较的二者来自同一总体的可能性不足5%即p<0.05,差异具有显著性。

2)置信区间可用来比较两组样本差异是否具有显著性。比如,我们同时用Bootstrapping方法估计了雌雄小鼠的体重如下图,从图中可知这两组数据的95%置信区间没有重叠这表明雌雄小鼠体重差异具有显著性即p<0.05。



下图则是另一种情况,两组数据95%置信区间出现重叠,这时仍有可能两组数据差异存在显著性,具体需要进行t检验进一步分析。

TipsBootstrap的本意是靴带,来自短语:“pull oneself up by one′s bootstrap”,18世纪德国文学家拉斯伯(Rudolf Erich Raspe)的小说《巴龙历险记(或译为终极天将)》(Adventures of Baron Munchausen) 记述道:“巴龙掉到湖里沉到湖底,在他绝望的时候,他用自己靴子上的带子把自己拉了上来。”现意指不借助别人的力量,凭自己的努力,终于获得成功。在这里“bootstrap”法是指用原样本自身的数据抽样得出新的样本及统计量,根据其意现在普遍将其译为“自助法”。由于常用“显著”来表示P值大小,所以P值最常见的误用是把统计学上的显著与临床或实际中的显著差异相混淆,即混淆“差异具有显著性”和“具有显著差异”二者的意思。其实,前者指的是p<=0.05,即说明有充分的理由认为比较的二者来自同一总体的可能性不足5%,因而认为二者确实有差异,下这个结论出错的可能性<=5%。而后者的意思是二者的差别确实很大。举例来说,4和40的差别很大,因而可以说是“有显著差异”,而4和4.2差别不大,但如果计算得到的P值<=0.05,则认为二者“差别有显著性”,但是不能说“有显著差异”。由于“有显著差异”和“差异具有显著性”容易混淆,因而现在有些期刊提倡用“差异有统计意义”来代替“差异有显著性”,用“差异无统计意义”、“差异有高度统计意义”来代替“差异不显著”和“差异有高度显著性”。
数据可视化下的标准误、标准差与置信区间
1)标准差可展示出数据是如何在均值上下分布的;较大的标准差表明数据离散度较高;论文等中常用来展示数据的情况。2)标准误则主要用来展示均值的情况。3)置信区间与标准误相关。

假设我们测定了一系列小鼠的体重并作出其正态分布曲线图,横坐标为小鼠体重,纵坐标为该体重小鼠所占比例。

首先,我们取五只小鼠测量体重并计算平均值与标准差,结果如下图所示。


随后,我们多次重复上述步骤,结果下图。

从图中我们发现,所测得均值较原始数据离散度更低,标准误的数值较标准差更小。
那么问题来了,我们是否可以在不消耗大量时间精力的同时获得标准误?答案是可能的,第一种方法仅适用于极少数情况,你可以通过公式计算而得,这仅仅适用于样本量较小的情况;第二种方法是通过Bootstrapping获得,这适用于所有情况,其步骤如下图。



上一篇:StatQuest生物统计学专题(02)-样本量与重复
下一篇:我的StatQuest生物统计学专题——一般线性模型Pt1:线性回归
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-9-22 04:30 , Processed in 0.080908 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.