搜索
查看: 722|回复: 0

[R] 慧美——R for data science前奏

[复制链接]

39

主题

40

帖子

292

积分

中级会员

Rank: 3Rank: 3

积分
292
发表于 2018-11-1 16:24:58 | 显示全部楼层 |阅读模式


R for data science前奏——by 慧美[size=0.9]
[url=]R for data science前奏[/url][url=]准备工作[/url][url=]数据科学项目中,需要的工具模型[/url][url=]准备工作[/url][url=]获取帮助[/url]

准备工作 数据科学项目中,需要的工具模型
  • 首先,你必须将数据导入 R。这实际上就是读取保存在文件、数据库或 Web API 中的数据,再加载到 R 的数据框中。
  • 导入数据后,对数据进行整理。即将数据保存为一致的形式,满足其在数据集在语义上的要求。
    • 每列都是一个变量,每行都是一个观测

  • 下一步是对数据进行转换,包括选取感兴趣的观测、使用现有变量创建新变量、计算一些摘要统计量(计数或均值)。数据整理和数据转换统称为数据处理
  • 生成知识的方式主要有两种:可视化与建模
  • 数据科学的最后一个步骤就是沟通。
  • 围绕在这些技能之外的是编程。

准备工作
  • 四个小工具
    • R
      • 应该定期更新,更新主版本会要求你重新安装所有的 R 包

    • RStudio
    • tidyverse的包的集合
      • 可以用一行代码完整地安装 tidyverse
        • install.packages("tidyverse")
      • 一旦 R 包安装完成,你就可以使用 library() 函数进行加载
        • library(tidyverse)

        - tidyverse的核心是ggplot2、tibble、readr、purrr、dplyr
      • 检测包是否有更新
        • tidyverse_update()

        - 如果想要明确指出对象来自于哪个 R 包,那么我们会在包的名称后面加两个冒号

          - ```dplyr::mutate()  
            dplyr::mutate()
        • nycflights13::flights

    • 另外几个R包
      • 包是可重用R代码的基本单位
      • R 包是函数、数据和文档的集合,是对 R 基础功能的扩展。
      • 组成
        • 包括可重用函数
        • 描述函数使用方法的文档
        • 示例数据




获取帮助
  • 求助谷歌 查询时加上个R
  • 试试Stack Overflow
  • 就准备一个最简单的可重现实例,即 reprex,使用 dput() 函数生成重建数据的 R 代码
  • 花一点时间确保别人可以轻松理解你的代码
    • 确保使用了空格,并且变量名简明扼要;
    • 用注释来说明你的问题所在;
    • 尽最大努力去除所有与问题不相关的内容。
    • 代码越短,越容易理解,问题也就越容易解决






上一篇:小洁详解《R数据科学》--第十章 使用stringr处理字符串(下)
下一篇:<R for Data Science> 读书笔记5 | 第七章: 探索性数据分析EDA
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-21 09:24 , Processed in 0.031559 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.