搜索
查看: 253|回复: 0

StatQuest生物统计学专题(01)-基础

[复制链接]

3

主题

3

帖子

62

积分

注册会员

Rank: 2

积分
62
发表于 2018-9-14 20:05:46 | 显示全部楼层 |阅读模式
本帖最后由 张云 于 2018-9-14 20:36 编辑

前言
本系列笔记为StatQuest视频的学习笔记,本篇为基础知识介绍,对应视频1-3
直方图 Histogram
现在来假设一个场景---我们需要测量一个足球队所有球员的身高,首先我们做出一条标识高矮的线,并用线上的点来表示所测得身高。

然而这种图有一个致命缺陷:身高相同的人点会互相遮挡,因此我们需要一种直观展示所有人身高的图形。 如下图这种将所有相同的点叠加起来并予以展示的图即直方图(histogram)。


直方图的特点

在直方图中组距?(bin)的大小直接会对图形产生影响。过小和过大均不适宜,合适的bin才会得出合适的图形。

统计分布 Statistical distribution
什么是统计分布??
我们已经测定了球员的身高,现在我们依据所测得身高将他们不同区间内,由此获得了直方图并发现大部分人身高位于5-6英尺之间合1.52-1.83m,高于6英尺或低于5英尺的人极少。

如果我们把bin进一步缩小(为0.25 英尺)即可得到下图,然后我们发现大部分人身高集中在5.25-5.75之间,数据较之前更为精确了。同时 我们可以将身高数据的顶端用一个近似曲线连接起来,即可得到频数分布曲线,我们可以用此曲线来拟合直方图,从拟合曲线中也可得到与直方图相同的结论。

拟合曲线较直方图更有优势,首先它可以估算出在某一个组宽下的身高分布情况;直方图展示数据收到bin的制约,而曲线不受制约,它可估算任意范围内数据分布情况如:在5.021和5.317之间球员身高分布情况;直方图需要大量的数据耗时耗力,当你精力金钱相对匮乏时曲线则是一个更好的选择。 171819 直方图与曲线都反映了数据的分布情况。而数据的分布不仅有正态分布也有指数分布等等。

正态分布 Normal distribution
如下图这种类似于一个钟型(bell)曲线的我们可以称它为正态分布(normal distribution),正态分布/高斯分布曲线两头低,中间高,左右对称因其曲线呈钟形,因此又经常称之为钟形曲线。

下面是两种不同的正态曲线,左图是婴儿身高的正态曲线,右图是成人身高正态曲线;

从图中可看出婴儿身高平均值是20英寸,成人身高平均值70英寸;成人身高数据的标准差要高于婴儿身高在图上变现为婴儿的正态分布曲线相对高耸;95%的婴儿身高集中在20±1.2,95%成人身高集中在70±8的范围内。 绘制一条正态分布曲线,你需要1)知道数据的标准差;2)知道数据的方差。

模型
模型可用来定量地或定性地描述系统各变量之间的相互关系或因果关系。如图是有一个探讨小鼠体重和大小的一个模型。模型同时可以方程来展示通过小鼠体重与大小模型我们可算出小鼠的大小或体重。

模型是对现有数据的拟合,有一系列的指标可评判模型的拟合度以选择数据的合适模型。模型也可以是非线性的和复杂的。

抽样分布 Sampling distribution
先前我们得出了球员身高的直方图和曲线图,现在我们从这个分布内随机抽取一个样本(一个红色的点),抽中黑色方框内的概率比较高。

如图我们从正态分布中取两个样本,每个样本包含3个数据;对这两个相同分布的样本做t-test得到了一个较大的p值。

如果我们对来源于两个不同分布的样本进行t检验,结果会得出一个较小的p值。



上一篇:edgeR包
下一篇:StatQuest生物统计学专题(02)-样本量与重复
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-11-17 05:07 , Processed in 0.037191 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.