搜索
查看: 214|回复: 0

我的StatQuest笔记: 区分标准差和标准误

[复制链接]

3

主题

4

帖子

60

积分

注册会员

Rank: 2

积分
60
发表于 2018-9-14 14:27:18 | 显示全部楼层 |阅读模式
本帖最后由 emberwhirl 于 2018-9-14 14:34 编辑

标准差与标准误概念理解
此处主要难点为理解标准误 (standard error) 的意义.
首先了解标准差 (standard deviation) 的意义
标准差是用来描述定量资料离散程度的统计量,为方差的算术平方根。
如果在一个整体中反复抽样,可以把每次抽样的均数和平均差都算出来。图中所示的是5次抽样 (即,样本个数为5),每次抽样样本量均为5
(参考《卫生统计学》p50)
初学者容易混淆样本个数 (number of samples)样本量 (sample size)两个概念。多数随机抽样研究 (例如绝大多数的RCT),一般样本个数为1,样本量根据研究者需要决定 (所以才会有calculating sample size的环节)

把以上5次抽样得到的均数绘制在同一张图上,求得这些均数的标准差。
标准误 (standard error) 就是这些均数的标准差。

概念拓展
  • 样本均数的理论标准误与总体标准差σ和样本量n的关系:

    然而实际研究中,总体标准差σ往往是未知的,常用样本标准差S近似估计。
    样本均数的估计标准误与样本标准差S和样本量n的关系:

    注意:尽管StatQuest视频讲解标准误用的多次抽样的方法,但对于均数的标准误可以由以上公式估算,无需反复抽样。其他统计量的标准误则很少用公式直接估算。
  • 标准误是与样本量的平方根成反比的。所以,当样本量达到一定数量后,再继续增大样本量,所得到的标准误减少是有限的。
  • 大数定理 (law of big numbers): the average of the results obtained from a large number of trials should be close to the expected value, and will tend to become closer as more trials are performed.
  • 中心极限定理 (central limit theorum, CLT): when independent random variables are added, their properly normalized sum tends toward a normal distribution even if the original variables themselves are not normally distributed.

概念辨析
参考《卫生统计学》p59

  • 标准差是刻画个体资料分布的离散程度的指标,标准差越小,个体资料的离散程度就越小。标准误是刻画统计量的平均抽样误差大小的指标,标准误越小,统计量的平均抽样误差就越小。
  • 随着样本量的逐渐增大,(1) 样本标准差随机波动的幅度越来越小,并且稳定在总体标准差附近;(2) 样本均数的标准误越来越小,并且趋向于0。

经典习题
参见《卫生统计学》p62. 第4-6题.

背景:某研究者做了一个儿童血铅浓度的流行病学调查,共调查了1000人,检测每个人的血铅浓度。已知血铅浓度一般呈非正态分布。
错误的表述:
  • 由于该研究样本量大,可以认为这些血铅浓度近似服从正态分布 (错误)
  • 对于现有1000人的血铅浓度资料而言,可以认为该资料的均数近似服从正态分布 (错误)

正确的表述:
  • 由于该项研究样本量大,可以认为随机抽样所获得的血铅浓度的样本均数近似服从正态分布
  • 现有1000人的血铅浓度的样本均数为定值

个人见解与体会
  • 尽量使用英文术语,避免使用容易产生歧义的中文术语。这一点之前学习专业课的时候就深有体会。例如癫痫发作 (seizure) 和 癫痫 (epilepsy) 两个术语,尽管两者有紧密的联系,但是二者的英语术语差别甚大,基本不太会搞混,但是中文术语因为共享了”癫痫“这个词,不管是读书还是听报告,都很容易搞混。同样的事情也发生在了统计学里。例如,为了理解standard deviation和standard error,常常需要辨析“样本个数” (number of samples) 和”样本量“ (sample size) 两个概念;因为两个中文术语共享了“样本”这个词,我在口头表达时经常需要停顿一下,分辨两者是什么意思,再选择我需要的那一个术语,但它们的英语术语非常直观地将两个概念区分开来,并不需要刻意去记忆哪个是哪个。
    为了避免被中文绕晕,最好先把英文材料理解透彻再啃中文材料。
  • 利用Shiny编写网页小程序,可以更好地理解standard deviation, standard error, confidence intervals 等概念之间的关联,以及它们会如何随着样本个数和样本量变化. (Understanding confidence intervals)

主要学习材料:



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:zhejiangbi的StatQuest生物统计学专题
下一篇:edgeR包
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-11-17 05:06 , Processed in 0.030227 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.