搜索
查看: 843|回复: 3

[R] <R for Data Science> 读书笔记1 | 前期准备工作

[复制链接]

12

主题

18

帖子

155

积分

注册会员

Rank: 2

积分
155
发表于 2018-9-9 19:58:15 | 显示全部楼层 |阅读模式
本帖最后由 冒刷 于 2018-9-9 20:03 编辑

1. 数据分析模型:典型的数据分析模型是建立“数据引入-数据清理-[ 数据转化->数据可视化->数据模型->数据转化...(循环) ]-交流”的过程

(如下图,引自R for Data Science一书)。


数据导入:可通过文件,数据库或网络API的形式将存储的数据导入R。
数据清理:整齐的数据格式,每一列是变量,每一行是观测值。
数据转化:对数据的转化包括聚集至特定观测值数据,根据已知变量计算新变量,进行概括统计等。
2. 分析前的准备:
  2.1 安装R和Rstudio
  2.2 安装数据包:
安装完成后,通过library()命令检查数据包是否安装成功,以及安装成功后的数据包信息。

发现ggplot和stringr版本低,需要更新,

敲入了tidyverse_update()命令...运行新的R project,敲入install.packages(c("ggplot2", "stringr"))命令试图更新ggplot和stringr...

成功。
同理安装其余数据包,如下图:

完成。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:跟着高手一起啃R语言(4)
下一篇:肿瘤微环境异质性的研究进展
回复

使用道具 举报

12

主题

18

帖子

155

积分

注册会员

Rank: 2

积分
155
 楼主| 发表于 2018-9-10 08:00:50 | 显示全部楼层
Tips to keep in mind:
1. In the book, output is commented out with #>;
2. Use a package name followed by two colons to make it clear what package an object comes from, e.g. dplyr::mutate(), or nycflights13::flights;
3. Ways to get help: Google, stackoverflow or prepare a minimal reproducible example or reprex.
4. The community: https://blog.rstudio.com/, https://www.r-bloggers.com/.
回复 支持 反对

使用道具 举报

12

主题

18

帖子

155

积分

注册会员

Rank: 2

积分
155
 楼主| 发表于 2018-9-10 08:18:35 | 显示全部楼层
本帖最后由 冒刷 于 2018-9-10 08:22 编辑

How to prepare a reproducible example:
1. loaded packages at the top of the script, it's possible to debug an issue after updating the package, e.g.
[AppleScript] 纯文本查看 复制代码
tidyverse_update()
2. include the data in the example, use
[AppleScript] 纯文本查看 复制代码
dput()
to recreate the dataset in R, e.g.
[AppleScript] 纯文本查看 复制代码
dput(example_dataset)
copy the output, then in the producible script, type
[AppleScript] 纯文本查看 复制代码
example_dataset <-
then paste
3. prepare a friendly read code, including use comments to indicate the issue
4. double check the producible script by starting a fresh R session and copying and pasting ur script in.

* Note: type the following command
[AppleScript] 纯文本查看 复制代码
session_info(c("tidyverse"))
to check the version of my packges, some of which are under the version built within the book 'R for Data Science', may need to be updated for some exercises later.
回复 支持 反对

使用道具 举报

12

主题

18

帖子

155

积分

注册会员

Rank: 2

积分
155
 楼主| 发表于 2018-11-4 07:34:08 | 显示全部楼层
保持R pproject的固定目录结构
  - input data
  - R scripts
  - analytical results
  - figures
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-22 02:12 , Processed in 0.032031 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.