搜索
查看: 710|回复: 0

[R] R数据科学 探索性分析

[复制链接]

14

主题

26

帖子

141

积分

注册会员

Rank: 2

积分
141
发表于 2018-9-10 16:47:36 | 显示全部楼层 |阅读模式
本帖最后由 李其龙 于 2018-9-10 16:50 编辑

探索性数据分析
文中说有两类问题总是有助于我们在数据中发现知识
我们可以粗略地将两个问题表述如下
(1)变量本身会发生何种变动?
(2)不同变量之间会发生何种相关变动?
首先先要定义几个术语
  • 变量:一种可以测量的数量、质量或者属性
  • : 变量在测量时的状态。变量值在每次测量之间可以发生变化
  • 观测:或称个案,指在相同条件下进行的一组测量。一个观测会包含很多的值,这些值又与变量相关联。
  • 表格数据:一组值得集合,其中每个值都有关联一个变量或者一个观测。如果每个值都有自己的所属单元格,每个变量都有自己所属的列,每个观测都有自己所属的行,那么表格数据就是整洁的。
    自己的理解:变量是表头,例如飞行时间、飞机质量;值是数字化的变量,例如飞行时间是2小时,质量是2吨;观测是值得集合,例如波音七四七飞行时间是2小时,质量是2吨。战斗机飞行时间是4小时,质量是1吨。把上述整合就是表格数据。
飞机型号
飞行时间
飞机质量
波音22
战斗41

开始学习
[Python] 纯文本查看 复制代码
1require(tidyverse)
2require(nycflights13)

分类变量在R中通常保存为因子和字符型向量
检查分类变量用条形图
[Python] 纯文本查看 复制代码
1ggplot(data=diamonds)+geom_bar(mapping = aes(x=cut))+theme_classic()

检查连续变量用直方图
[Python] 纯文本查看 复制代码
1ggplot(data=diamonds)+geom_histogram(mapping =aes(x=carat),binwidth = 0.5)+theme_classic()

使用不同的binwidth可以揭示数据的不同的模式
[Python] 纯文本查看 复制代码
1diamonds %>% count(cut_width(carat,0.5))

当在同一张图上叠加多个直方图时可以使用频率直方图
[Python] 纯文本查看 复制代码
1ggplot(data = diamonds,mapping = aes(x=carat,color=cut))+geom_freqpoly(binwidth=0.1)+ theme_classic()

典型值
条形图和直方图都用比较高的条形表示变量中的常见值,而用比较矮的条形表示变量中不常见的值。没有条形的位置表示数据中没有这样的值。为了将这些信息转换为有用的问题,我们看看是否具有意料之外的情况。
  • 哪些值是常见的?为什么?
  • 哪些值是罕见的?为什么?这和你的预期相符么?
  • 你能发现任何非寻常的模式么?如何解释?
[Python] 纯文本查看 复制代码
1ggplot(data = diamonds, mapping = aes(x=carat))+ geom_histogram( binwidth = 0.01)
2arrange(count(diamonds,carat),desc(n))





上一篇:GO.db
下一篇:0910 chapter1 and chapter 2 R数据科学啃书
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-22 02:15 , Processed in 0.029118 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.