搜索
查看: 361|回复: 0

[R] 慧美——R for data science 第18章 模型构建

[复制链接]

26

主题

27

帖子

232

积分

中级会员

Rank: 3Rank: 3

积分
232
发表于 2018-11-29 16:40:52 | 显示全部楼层 |阅读模式
R for data science  第18章  模型构建
18.1 简介
  • 模型可以将数据分成模式与残差这两个部分。
    • 我们会先利用数据可视化找出模式,然后通过模型更加具体而精确地提取出模式。
    • 之后会重复这一过程,只是将原来的响应变量替换为模型的残差。
    • 我们的目标是将数据与头脑中的隐式知识转换为量化模型中的显式知识。

  • 范例
    • 模型寻找的是平均效应,但我们的数据中有大量数值很大的离群点,因此平均趋势与典型值之间的差别比较大。如果想要改善这个问题,可以使用对离群点健壮的模型: MASS::rlm()。这个函数可以大大减轻离群点对模型估计的影响
    • 如果正在试验多个模型和多种可视化方法,那么你可以将创建变量的所有代码打包放在一个函数中。
    • 改进模型的另一种方法是赋予数据更多的发言权。可以使用一种更灵活的模型来捕获我们所关注的模式。

  • 学习更多建模知识
    • Statistical Modeling: A Fresh Approach,Danny Kaplan 著。这本书既对建模进行了简单明 了的介绍,也可以帮助你建立直觉、掌握数学工具和 R 语言技能。这本书不是那种传 统的“统计学入门”教材,而是提供了与数据科学相关的最新内容。
    • An Introduction to Statistical Learning,Gareth James、Daniela Witten、Trevor Hastie 及 Robert Tibshirani 著(有免费的在线版)。这本书介绍了称为“统计学习”的一整套现代 建模技术。如果想要加深对模型的数学理解,可以阅读 Trevor Hastie、Robert Tibshirani 和 Jerome Friedman 的经典著作 Elements of Statistical Learning(有免费的在线版)。
    • Applied Predictive Modeling,Max Kuhn 及 Kjell Johnson 著。这本书是对 caret 包的重要 补充,提供了多种实用工具,可以帮助你解决实际工作的预测性建模难题。






上一篇:R for data science 第17章 使用modelr实现基础模型
下一篇:慧美——R for data science 第19章 使用purrr和broom处理多个模型
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-4-24 09:12 , Processed in 0.083543 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.