搜索
查看: 760|回复: 1

我的StatQuest生物统计学专题_I-线性回归与线性模型

[复制链接]

3

主题

6

帖子

56

积分

注册会员

Rank: 2

积分
56
发表于 2018-10-8 18:09:05 | 显示全部楼层 |阅读模式
线性回归与线性模型: Video16-22Youtube video classes https://www.youtube.com/watch?v=nk2CQITm_eo    线性回归,包括线性模型和回归分析。线性模型用来描述自变量X和因变量Y之间的线性关系,二者均为连续变量,二者之间的关系可以用线性关系得到解释的程度为相关的显著性。通过自变量X的新值可以预测新的因变量Y,但是需要先对线性模型的参数进行估计,即回归分析。回归分析的主要目的是在固定自变量和因变量的基础上,通过取样的方式对线性回归的参数进行估计,包括最小平方法(OLS)和最大似然法(ML)两种估计方法。
线性回归最重要的三个要点:R-code17
  • 最小二乘(OLS),对数据的线性拟合(平方以减少残差);
  • ,计算相关性,越大,相关性越高;
  • 计算 Rp 值,p 值越小,相关的显著性越高。
    LR-Three tips.png
    **R-code: **

mouse.data <- data.frame(
    size = c(1.4, 2.6, 1.0, 3.7, 5.5, 3.2, 3.0, 4.9, 6.3),
    weight = c(0.9, 1.8, 2.4, 3.5, 3.9, 4.4, 5.1, 5.6, 6.3),
    tail = c(0.7, 1.3, 0.7, 2.0, 3.6, 3.0, 2.9, 3.9, 4.0))
plot(mouse.data$weight, mouse.data$size)
mouse.regression <- lm(size ~ weight, data=mouse.data)
summary(mouse.regression)
abline(mouse.regression, col="red")
LR_R-code-results.png线性拟合和方差分析ANOVA    线性模型的一个基本组成部分,是将因变量y的总变量解释为与自变量x相关的各个小部分,通常用方差分析(ANOVA)来解释这种分割。ANOVA是用两个加性的部分来解释因变量的变异度,SS(mean) =SS(fit) + SSR,分别解释如下:
  • 线性模型预测值到每个观测值的距离的残差平方和(Sum of the Squared Residuals, SSR),或称偏差平方和。
  • 因变量Y中的总变量,即拟合平均值到每个样本值的平方和,称为方差平方和(Sum of Squares around the Mean, SS (mean)) 。
    LR_SSM.png
  • OLS拟合的平方和SS(fit), SS(fit) = ,是一个估计模型对预测准确度的度量。
  • 旋转回归线和对残差累积求和,此时具OLS的旋转回归线即数据的最佳拟合(the least Squares, [SS(mean)-SS(fit)]/SS(mean)
    LR_rotation-LS.png变异值(均方)和相关系数(方差解释)
    由于加性SS依赖于与之相关的观察数据的量,如 SS(mean) 总是随着不同观察数据量的增加而变大,因此将SS转化为均方(MS),即偏差平方的平均,是一种不依赖于样本容量的一种变量的测定,StatQuest中表示为Var(mean)。相关系数是Y与X间相关连的一种描述性测定,由y与x间线性相关所解释的Y的总变异比例测定,解释如下:
  • 平均值和拟合值的变异度之差,占平均值变异度的百分比,即后者对前者的解释程度。如下图,小鼠体型大小的60%变异程度可以由体重的不同引起的,即=0.6。若将平均值和拟合值替换为二者的平方和,计算结果相同。
    LR_variance-and-R2.png
  • 降维,即减少自变量x解释的变异度,零为系数则减少参数以降低拟合度的残差,从而获得较优的拟合结果。
    LR_less-parameters.png
  • p值,由F统计得出,为能用自变量变异解释的和不能用自变量解释的因变量变异度之间的比值。如下图公式,前半部分和公式相同,红色框部分参数表示自由度,用来将均差平方和转化为变异度。
    LR_Reduction-of-variance-F.pngLR_F-statistics-for-P-value.png
    R code:

simple.regression <- lm(size ~ weight, data=mouse.data)
   summary(simple.regression)
   abline(simple.regression, lwd=5, col="red")
ss.mean <- sum((mouse.data$size - mean(mouse.data$size))^2)
ss.simple <- sum(simple.regression$residuals^2)
(ss.mean - ss.simple) / ss.mean
f.simple <- ((ss.mean - ss.simple) / (2 - 1)) /
   (ss.simple / (nrow(mouse.data) - 2))
x <- seq(from=0, to=15, by=0.1)
y <- df(x, df1=1, df2=7)
   plot(x, y, type="l")
   abline(v=f.simple, col="red")
x.zero.to.line <- seq(from=0, to=f.simple, by=0.1)
y.zero.to.line <- df(x.zero.to.line, df1=1, df2=7)
   polygon(x=c(x.zero.to.line, 0), y=c(y.zero.to.line, 0), col="blue")
x.line.to.20 <- seq(from=f.simple, to=20, by=0.1)
y.line.to.20 <- df(x.line.to.20, df1=1, df2=7)
   polygon(x=c(x.line.to.20, f.simple), y=c(y.line.to.20, 0), col="red")
   pf(f.simple, df1=1, df2=7) ## the area under the curve that is blue
   1-pf(f.simple, df1=1, df2=7) ## the area under the curve that is red
   summary(simple.regression)
LR_F-value.png
未被自变量解释的因变量变异度,是指线性拟合后仍然存在的残差,如下图:
LR_P-value-unexplained.png
P~fit~ 和 P~mean~分别是拟合直线和平均值线的参数数量,二者之差为自变量可以解释的因变量变异度。在样本量更多而拟合模型的参数更少的情况下,p值可能会更小。
LR_F-parameters.png  ```
  回归与相关之间的关系:
      在处理二元数据且仅仅希望测定二元变量之间的线性关系(相关系数)强度时,并检验相关系数的显著性时,简单相关分析是恰当的。当从生物学角度来区分一个因变量 X,与预测变量 Y 且希望描述相关模型公式,并用模型估计参数由 X 预测 Y 时,需要进行回归分析。
  `
``
多元回归    当所有的自变量(预测变量)为连续变量的回归模型,称为多元回归模型。若所有的自变量时分类变量,用方差分析来处理数据。
  • 多元回归和简单回归的回归系数和显著性检验的计算方法相同,只是增加了自变量的纬度,相应增加了参数(值不同)。
    LR_Multiple-regression.png
  • 如果同一样本的多元回归和简单回归相关系数差异较大,而前者的P值较小,自变量的纬度增加对线性回归模型的拟合较佳。
    R-code:
    mouse.data <- data.frame(
        size = c(1.4, 2.6, 1.0, 3.7, 5.5, 3.2, 3.0, 4.9, 6.3),   
        weight = c(0.9, 1.8, 2.4, 3.5, 3.9, 4.4, 5.1, 5.6, 6.3),
        tail = c(0.7, 1.3, 0.7, 2.0, 3.6, 3.0, 2.9, 3.9, 4.0))
    plot(mouse.data)
    LR_QQ-plot.png
plot(mouse.data$weight, mouse.data$size, pch=16, cex=2)
simple.regression <- lm(size ~ weight, data=mouse.data)
    summary(simple.regression)
LR_M_Summary.pngabline(simple.regression, lwd=5, col="red")
LR_M_abline.png线性模型的条件矩阵 The Design Matrices in GLM   1/0条件矩阵适用于做 t 检验或者 ANOVA 方差分析,即任何有不同类别数据的情况下。条件矩阵也可以用其他数字矩阵代替,具体情况如下:
  • 验证两变量相关性的t检验 (实验组mutant和控制组control),对应的标准矩阵如下:
LR_Matrix-std.png
  • 不同矩阵可以对应不同的线性回归方程。不同变量是否出现在方程中由矩阵1/0决定。
LR_Matrix-formula.png
  • 相同的变量/参数数量 (p~fit~=2), 因而具有相同的F值,如下图所示:
LR_Matrix-same-F.png
  • 条件矩阵可以用二元类别数字,亦或其他序数,如下图拟合线的重合叉点。得到该拟合的数据集后,同样可以计算残差和p值。
    LR_matrix2.png
如何整合t检验和回归:R-code19
从常规t检验到整合线性回归的t检验,显著性会发生变化,可以用来检验两不同类型数据差异的显著性。
  • 常规T检验并不考虑变量间的回归关系,而后者在自然界和实验中都比较常见,如下图:
LR-t_normal-regression.png  **R code: **
Type <- factor(c(
  rep("Control", times=4),
  rep("Mutant", times=4)))
Weight <- c(2.4, 3.5, 4.4, 4.9, 1.7, 2.8, 3.2, 3.9)
Size <- c(1.9, 3, 2.9, 3.7, 2.8, 3.3, 3.9, 4.8)
model.matrix(~Type+Weight)
LR_R-code19-1.png
  • 控制组的正常小鼠为截距,实验组的突变小鼠为自变量,两组变量的斜率相同,所对应的条件矩阵如下图。取或不取突变组变量时,将获得控制组或实验组的回归线插值。 (2.4 x slope)在 R code中为Weight变量。
LR-t_2-regression.png
  • 简单模型的变化,会改变相同变量的线性回归t检验显著性值(图4-6)。
LR-t_fancy-simple-model.png
  • 高显著性F检验结果说明增加体重变量(小鼠体重和类型为自变量,p~fancy~ - p~simple~)后的回归模型比简单模型(分别只考虑平均大小、小鼠体重和小鼠类型为自变量)更加符合数据规律本身,即拟合度更高(P <= 0.003)。
LR-t_fancy-model.png
  • 更换简单模型为线性方程系数或变量参数 (考虑残差), 从而获得更小的F检验显著性
对summary(model)结果的解释:
LR_R-code19-2.pngp-value = 0.003367,以衡量拟合模型和常规T检验结果间的符合程度;权重weight的 p-value=0.00256,代表权重的参数数量是否能衡量模型对数据的最佳拟合,若不显著,则减少参数数量。TypeMutant,代表实验组小鼠类型变量对模型拟合程度的贡献,判断是否需要该变量。
  • 另一个例子来说明条件矩阵的作用,包括labA和labB两个实验重复组,及两组之间的差异,即区组设计。
LR-t_labA-B_matrix.png
R code:
Lab <- factor(c(
    rep("A", times=6),
    rep("B", times=6)))
Type <- factor(c(
    rep("Control", times=3),
    rep("Mutant", times=3),
    rep("Control", times=3),
    rep("Mutant", times=3)))
Expression <-c(1.7, 2, 2.2, 3.1, 3.6, 3.9, 0.9, 1.2, 1.9, 1.8, 2.2, 2.9)
model.matrix(~Lab+Type)
LR_R-code19-4.png
  • 增加变量变异程度的参数后,相关模型的显著性增加,说明突变和控制组间的变量差异对基因表达的影响比较显著。然而,该显著性只衡量了模型的拟合程度,并没有反映出实验组和控制组之间的差异程度。
    LR_R-code19-3.pngLR_R-code19-5.png
  • 虽然改变简单模型difference~(mutant-control)~,  p值发生变化,但是并不是所有p值都能反映数据的真实情况。因而应该通过多次拟合之后,按照所需要的p值选择相应的最佳模型。
    LR_R-code19-6.png




上一篇:关于用lumi包分析illumina表达谱芯片
下一篇:第11章 1-2节
回复

使用道具 举报

3

主题

6

帖子

56

积分

注册会员

Rank: 2

积分
56
 楼主| 发表于 2018-10-8 18:10:59 | 显示全部楼层
终于出现了五颜六色的帖子......
感谢群主的步步指点~
希望下次不会这么费劲了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-6-20 05:52 , Processed in 0.032119 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.