搜索
查看: 1160|回复: 2

我的StatQuest学习笔记——R平方和R

[复制链接]

3

主题

3

帖子

50

积分

注册会员

Rank: 2

积分
50
发表于 2018-9-12 20:42:20 | 显示全部楼层 |阅读模式
1. R和R2的概念:
R是相关系数,相关有很多种类型(线性和非线性)。一般情况下我们用的R指的是皮尔森相关系数,它指的是一种线性相关,范围从-1到1。-1指负相关,1指正相关。0指的是不存在线性相关。

R2是相关系数R的平方。我们通常说的R2是把皮尔森相关系数的这个R平方得到的R2。这里R2指的是在最佳拟合线(线性关系)中可以解释的比例。

举例说明:
我们按照小鼠的ID进行排序,计算小鼠重量的平均值。

随后,我们查看这组数据的变异(variation),我们就把每只小鼠的体重减去平均值,然后再平方,再加起来(这个在统计学上叫离均差平方和,英文是sum of squares of deviations from mean),用数学公式就是下面的这个样子:
如果我们不按照小鼠的ID对其进行排序,而是按照小鼠的大小(Size)排序,如下图,这组数据的variation并没有改变。
如果我们添加一条直线,使其基本符合小鼠重量和大小的变化趋势,如下图
这条直接是否能够比平均值代表这批小鼠的大小与体重的关系?其实是可以的,我们有个指标,就是R的平方,它能判断某条直线是否代表了小鼠的大小和体重的关系,如下所示:


2. 为什么使用R和R2
R的平方表示直线的拟合程度,R表示了两个变量变化的关系。
R平方可以更好的表明直线拟合的好坏程度,但是对于两个变量之间的关系时正相关还是负相关则没有办法判断,因为R平方之后的数值均为正数。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:如何轻松构建物种系统发育树
下一篇:FDR和benjamini-Hochberg方法及实现
回复

使用道具 举报

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2018-9-14 09:58:07 | 显示全部楼层
我想起来了一个很有趣的极端环境,两个变量:
第一个变量是1000个1,然后是 1,2,3,4,5 这样的1005个数值。
然后另一个变量是1000个1,然后是2,4,6,8,10,,这样的1005个数值。
那么,这两个变量的相关性如何?怎么样合理的度量呢?
回复 支持 反对

使用道具 举报

3

主题

4

帖子

64

积分

注册会员

Rank: 2

积分
64
发表于 2018-9-15 15:02:10 | 显示全部楼层
ydchen 发表于 2018-9-14 09:58
我想起来了一个很有趣的极端环境,两个变量:
第一个变量是1000个1,然后是 1,2,3,4,5 这样的1005个数 ...

我不知道我的想法对不对,但我的想法是,因为两个段的数据分布和数据量完全不同,我觉得应该分成两段去分析。

前面一段是1000个1,这样的话因为这里面没有变量,没有建模必要,没有分析相关性这么一说,全是定值。强行套R^2的公式的话,分母为0,无法求出R^2

后一段的话求出来R^2 =1。我觉得这是个极端情况,因为1:5这个序列不管乘上多少得到的新的序列,两个序列求R^2必然等于1。
纯从数学的角度,他们相关性很高。但是学习statquest系列课程的时候我们是站在生物学应用的角度去看这些问题的。R^2通常在这个情景下被赋予的一个意义是:我的模型预测值能多大程度上预测/解释我的实际值?假设我的实际值是(2:10) kg,测出来的结果却是(0.02:0.1) kg,那这个模型应该是失败的。R^2这时候不能用于评价该模型是否合适。但具体该用什么度量……我也不知道
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-18 07:36 , Processed in 0.030782 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.