搜索
查看: 674|回复: 0

[R] R数据科学-第一章ggplot2

[复制链接]

13

主题

26

帖子

340

积分

中级会员

Rank: 3Rank: 3

积分
340
发表于 2018-9-10 13:17:10 | 显示全部楼层 |阅读模式
第一章ggplot2
1. install packages
[AppleScript] 纯文本查看 复制代码
install.packages(“tidyverse”) library(tidyverse) tidyverse_update() ################## # 安装三个数据包 install.packages(c(“nycflights13”, “gapminder”, “Lahman”))

tidyverse 包括ggplot2, tibble, tidyr, readr, purrr和 dplyr包。
PART I Explore
CHAPTER 1: Data Visualization with ggplot2

以ggplot2包中的mpg数据为例,它是一个数据框,每行为一个数据,每列为一个观测。mpg包括38种车的数据。

[AppleScript] 纯文本查看 复制代码
# 查看该数据集
head(ggplot2::mpg)

displ:车发动机大小,hwy:车的燃油效率 - 用该数据集创造第一幅ggplot图
[AppleScript] 纯文本查看 复制代码
library(ggplot2)
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy))

ggplot() 函数产生最基础的坐标系统,然后可以在上面加图层,
[AppleScript] 纯文本查看 复制代码
# aes()将数字映射为图形
ggplot(data = mpg) + geom_point(aes(displ,hwy)) 

[AppleScript] 纯文本查看 复制代码
# 查看hwy和cyl的关系
ggplot(mpg,aes(hwy,cyl)) + geom_point()


Aesthetic Mappings
aesthetic美学的,在图中表示点的大小,颜色等 我们可以把点的颜色按某个数值分组,如class

ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, color = class))

也可以按点的大小分组
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, size = class))

或者映射给透明度或者形状
[AppleScript] 纯文本查看 复制代码
# Top
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, alpha = class))

[AppleScript] 纯文本查看 复制代码
# Bottom
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, shape = class))

# ggplot一次只能用6个形状,这里有7个,所以SUV不显示了
我们可以手动定义几何类型

ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy), color = "blue")

练习题: 1.为什么点不是蓝色的?
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(
mapping = aes(x = displ, y = hwy, color = "blue")
)

彩色里赋值。
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(
mapping = aes(x = displ, y =hwy, color = cty))

2.注意映射连续变量与分类变量的区别。如颜色连续变量为一个颜色从深到浅,分类变量为各个颜色的分类。
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(
mapping = aes(x = displ, y =hwy, color = displ))

4.一个变量有多个映射是可以的,但是造成了信息的冗余,一般不会这样做。

5. stroke是映射什么的?

[AppleScript] 纯文本查看 复制代码
ggplot(mtcars, aes(wt, mpg)) +
geom_point(shape = 21, colour = "black", fill = "white", size = 5, stroke = 1)

[AppleScript] 纯文本查看 复制代码
ggplot(mpg, aes(x = displ, y = hwy, colour = displ < 5)) +
geom_point()

注意:R语法很容易出错,注意(),“”是否配对,如果运行R代码无反应,按Esc键退出。

Facets 分面
增加信息的方式一个是将变量给映射,另外一个方法是将分类变量给分面,从而将图分成几个小的面。 分面有两种函数,facet_wrap(~分类变量,nrow,ncol)这个函数放入一个分类变量。


[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_wrap(~ class, nrow = 2)

facet_grid(a ~ b) 可以用两个组合变量来分面
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_grid(drv ~ cyl)

分面,可以用.留空。
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_grid(. ~ cyl)

[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_grid(drv ~ .)

练习题: 1. 如果用连续型变量来分面会出现什么后果?
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_wrap(~ cty, nrow = 2)

结果是将连续型变量转换为因子,每个因子都有一个分面。 2.该图中有空位子,表示什么意思?
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(mapping = aes(x = drv, y = cyl))

3.下面两个代码有何不同?
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_grid(drv ~ .)

[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_grid(. ~ cyl)

4.用分面代替颜色映射的优势和劣势是什么? 一幅图中人眼可以识别的颜色不超过9种,分面可以区分更多的信息,但是不容易相互比较。

3.6 Geometric Objects 几何对象
几何对象是把数据用图形的方式映射出来

[AppleScript] 纯文本查看 复制代码
# left
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy))

[AppleScript] 纯文本查看 复制代码
# right
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy))

每个几何对象函数都有对应的映射参数,但是具有独立性,有些不能通用
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))

许多几何对象可以展示多组图形,ggplot2会自动分组,但是不展示图例。
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy))

[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy, group = drv))

[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_smooth(
mapping = aes(x = displ, y = hwy, color = drv),
show.legend = FALSE
)

ggplot2也可以展示多个图层
同一张图显示多个几何对象–局部映射和全局映射的区别,如有冲突,以局部变量为准。
filter设置geom_smooth几何对象的过滤,se表示标准差 练习题: Exercise 3.6.2 该代码画图是什么样的?
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg, mapping = aes(x = displ, y = hwy, colour = drv)) +
geom_point() +
geom_smooth(se = FALSE)

color作为全局变量传递给point和smooth,因此,这两个都画出来了。

3.7 Statistical Transformations 统计变换
统计变换:绘图时用来计算新数据的算法叫做统计变换stat 每个几何对象函数都有一个默认的统计变换,每个统计变换函数都又一个默认的几何对象。 用几何对象函数geom_bar作直方图,默认统计变换是stat_count. 一般可以用默认的统计变换,以下情况要用新的统计变换: 1.覆盖默认的统计变换 - 直方图默认的统计变换是stat_count,也就是统计计数。当需要直接用原表格的数据作图时就会需要覆盖默认的。

[AppleScript] 纯文本查看 复制代码
library(tibble)

demo <- tribble(
~a, ~b,
"bar_1", 20,
"bar_2", 30,
"bar_3", 40
)
# 默认stat=count,这里改成 "identity"

ggplot(data = demo) +
geom_bar(
mapping = aes(x = a, y = b), stat = "identity"
)

2.覆盖从统计变换生成变量到图形属性的默认映射 直方图默认的y轴是x轴的计数。此例子中x轴是五种cut(切割质量),直方图自动统计了这五种质量的钻石的统计计数,当你不想使用计数,而是想显示各质量等级所占比例的时候就需要用到prop。
[AppleScript] 纯文本查看 复制代码
ggplot(diamonds,aes(cut,..prop..,group=1))+geom_bar()

3.在代码中强调统计变换 以stat_summary为例。
[AppleScript] 纯文本查看 复制代码
ggplot(diamonds)+stat_summary(aes(cut,depth),
                              fun.ymin = min,
                              fun.ymax=max,
                              fun.y=median)

练习题: 1.stat_summary()默认的几何对象是什么? stat_summary的默认几何图形是geom_pointrange,而geom_pointrange默认的统计变换却是identity
[AppleScript] 纯文本查看 复制代码
ggplot(diamonds) + geom_pointrange(aes(cut,depth),
                                   stat = 'summary',
                                   fun.ymin=min,
                                   fun.ymax=max,
                                   fun.y=median)

geom_col()与geom_bar()的区别 geom_col()的默认统计变换为identity(),geom_bar()默认为count()

stat_smooth()计算变量为预测值,最低和最高置信区间及SE

geom_bar(aes(y = ..prop..))中group=1的设置? 默认分组是等于x的,分组是在组内执行

[AppleScript] 纯文本查看 复制代码
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, y = ..prop..))

[AppleScript] 纯文本查看 复制代码
ggplot(data = diamonds) +
geom_bar(
mapping = aes(x = cut, fill = color, y = ..prop..)
)

3.8 Position Adjustments
geom_bar的颜色可以用color和fill调整

[AppleScript] 纯文本查看 复制代码
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, color = cut))

[AppleScript] 纯文本查看 复制代码
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, fill = cut))

[AppleScript] 纯文本查看 复制代码
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, fill = clarity))

bar的位置有三个参数可以调整“identity”, “dodge” or “fill” “identity”直接显示
position = “jitter” 添加点的随机扰动,使重复的点暴露出来。
[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg) +
geom_point(
mapping = aes(x = displ, y = hwy),
position = "jitter"
)


3.9 Coordinate Systems 坐标系统
ggplot2默认为笛卡尔坐标系,x和y轴是独立的 coord_flip() 调换x和y轴

[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot()

[AppleScript] 纯文本查看 复制代码
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot() +
coord_flip()

coord_quickmap 为地图设置长宽比 此处需要加载maps包,否则会报错。
[AppleScript] 纯文本查看 复制代码
# geom_polygon 是多边形图
ggplot(nz, aes(long, lat, group = group)) +
  geom_polygon(fill = "white", colour = "black") +
  coord_quickmap()

coord_polar()极坐标系统
[AppleScript] 纯文本查看 复制代码
bar <- ggplot(data = diamonds) +
geom_bar(
mapping = aes(x = cut, fill = cut),
show.legend = FALSE,
width = 1
) +
theme(aspect.ratio = 1) +
labs(x = NULL, y = NULL)
bar + coord_flip()










上一篇:R数据科学啃书团-readr
下一篇:GO.db
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-6-20 05:56 , Processed in 0.029546 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.