搜索
查看: 678|回复: 0

我的StatQuest笔记-Basic

[复制链接]

1

主题

1

帖子

32

积分

新手上路

Rank: 1

积分
32
发表于 2018-9-23 23:29:50 | 显示全部楼层 |阅读模式
本帖最后由 goulala 于 2018-9-23 23:45 编辑

正态分布
95%的测量值位于mean+/-2 standard deviations


R2
R2 =[ Var(mean) - Var(line) ]/ Var(mean)
Var= Sum (观察值-理论值)2
if R2=81%, that means there is 81% less variation around the line than the mean, or the size/weight relationship accounts for 81% of the variation.
总结:most of the variation in the data is explained by the size/weight relationship.

Least squares aka linear regression
We want to minimize the square of the distance between the observed values and the line
We do this by taking the derivative and finding where it is equal to =0  

Fitting a curve to data
sliding windows(eg, 取focal point周围离得最近的4个点,离得越近,权重越高)
通过wighted least squares画出fitting line,focal point在line上对应的点作为curve上的点。
将每个实际值作为focal point都走一遍上述流程即可得到一条curve,但是不平滑。
计算实际值和其在curve上对应点之间的距离,距离越大,权重越小,将Y轴距离权重和X轴离focal point距离权重相加,再走一遍上述流程,即可得到更平滑的curve。
这个过程可以重复进行,使得curve越来越平滑。
R语言中“lowess()”函数只能fit a line; “loess()”函数可以fit a line或者 a parabola

Generlized linear regression
R2=[ Var(mean) - Var(line) ]/ Var(mean)
=[Var(mouse size) - Var(after taking weight into account)] / Var(mouse size)
R2= The variation in mouse size explained by weight / Variation in mouse size without  taking weight into account
F = The variation in mouse size explained by weight / The variation in mouse size not explained by weight
The variation in mouse size explained by weight = Reduction in variance when we take weight in to account = Var(mean) - Var(line)
The variation in mouse size not explained by weight = Var(line)
The p-value for R2 comes from something called "F"

p^fit^ is the number of parameters in the fit line (intercept, slope)
p^mean^ is the number of parameters in the mean line (intercept)
t-value是T-test算出来的值,通过表格比对算出p(>t-value)的值,也就是p值


用R语言进行线性回归
疑问:intercept的estimate Std是什么意思?怎么算出来的?

Generlized linear regression 2       t tests and ANOVA

Design Matrices











Design Matrix Examples in R





  
Here is another example!



Q-Q plot
分位数是指在1/15时候的数据点的值,正态分布的1/15是保证分成15份,每份的数据点的概率和相同,也就是每份的面积相同,所以中间窄一些,两边宽一些。
QQ plot有两个轴,y轴是实际数据点的每个分位数,x轴是正态分布或者其他分布相应的分位数。所以QQ plot是用来检验数据服从哪种分布的,服从的越好,线越直。

Quantile Normalization
利用分位数进行归一化
就是三组值的最大值都变成这三个值的平均值
第二大的三组值都变成这三个值的平均值
以此类推


Maximum Likelihood Example - The exponential distribution
这个是指数分布的公式,λ是速率参数,代表了事件有多快发生
如何决定最优的λ值呢?
首先是输入一些x值,如x1,x2,x3...,代表前一个事件和后一个事件之间发生间隔的时间
得出来的y值便是对应于x值的发生的概率 ,把这些概率相乘,得到这些时间间隔全部出现的概率值,如下
要让总的概率值最大,则需要求导


Probability vs Likelihood
Probability和Likelihood区别:
Probability是在固定的分布下某个数据点或者数据区间对应的概率值,而Likelihood是指在固定数据集的情况下,某个分布下数据点所对应的概率值。一个是改变数据点,一个是改变分布。



Odds and LogOdds
odds是几率的意思,一张图告诉你odds是啥?
log of the odds可以使胜率和负率变得对称。


Odd Ratios and LogOdds Ratios
Odd ratio是啥捏?


如何比较cancer和mutated gene是否有关系?Odd ratio 帮助您!
数值越大,说明关系越强
那么怎么看他们的关系是否显著呢?
有三种方法:
1)Fisher‘s Exact Test
2)Chi-Square Test
3)The Wald Test

第二种方法原理:
第三种方法原理:
疑问:这个分布是所有wald test都用这个分布,还是这是在这个案例中用这个分布?




上一篇:0923 chapter 5
下一篇:在SRA上下载的fastq文件解压格式错乱怎么办
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-6-20 05:57 , Processed in 0.042550 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.