R语言机器学习实战

978-7-115-58393-2
作者: [美] 弗雷德·恩旺加(Fred Nwanganga)
译者: 李毅
编辑: 李瑾
分类: R语言

图书目录:

目录

第 一部分 入门

第 1 章 什么是机器学习 2

1.1 从数据中发现知识 2

1.1.1 算法介绍 3

1.1.2 人工智能、机器学习和深度学习 3

1.2 机器学习技术 4

1.2.1 监督学习 4

1.2.2 无监督学习 7

1.3 模型选择 9

1.3.1 分类技术 9

1.3.2 回归技术 9

1.3.3 相似性学习技术 10

1.4 评估模型 10

1.4.1 分类错误 11

1.4.2 回归错误 12

1.4.3 错误类型 13

1.4.4 分割数据集 14

1.5 练习 15

第 2 章 R 和 RStudio 简介 17

2.1 欢迎来到 R 17

2.2 R 和 RStudio 组件 18

2.2.1 R 语言 18

2.2.2 RStudio 19

2.2.3 R 包 26

2.3 编写和运行 R 脚本 29

2.4 R 中的数据类型 31

2.4.1 向量 32

2.4.2 测试数据类型 33

2.4.3 转换数据类型 36

2.4.4 缺失值 36

2.5 练习 37

第 3 章 数据管理 38

3.1 tidyverse 38

3.2 数据收集 39

3.2.1 主要考虑因素 39

3.2.2 导入数据 40

3.3 数据探索 43

3.3.1 数据描述 43

3.3.2 数据可视化 48

3.4 数据准备 52

3.4.1 数据清洗 53

3.4.2 数据转换 59

3.4.3 减少数据 64

3.5 练习 69

第二部分 回归

第 4 章 线性回归 72

4.1 自行车租赁与回归 72

4.2 变量之间的关系 73

4.2.1 相关性 74

4.2.2 回归 79

4.3 简单线性回归 80

4.3.1 普通最小二乘法 81

4.3.2 简单线性回归模型 82

4.3.3 评估模型 82

4.4 多元线性回归 85

4.4.1 多元线性回归模型 86

4.4.2 评估模型 86

4.4.3 改进模型 93

4.4.4 优缺点 100

4.5 案例研究:预测血压 101

4.5.1 导入数据 102

4.5.2 探索数据 102

4.5.3 简单线性回归模型的拟合 104

4.5.4 多元线性回归模型的拟合 105

4.6 练习 111

第 5 章 logistic 回归 113

5.1 寻找潜在捐赠者 113

5.2 分类 115

5.3 logistic 回归 116

5.3.1 优势比 117

5.3.2 二分类 logistic 回归模型 120

5.3.3 评估模型 129

5.3.4 改进模型 135

5.3.5 优缺点 140

5.4 案例研究:收入预测 140

5.4.1 导入数据 141

5.4.2 探索和准备数据 141

5.4.3 训练模型 144

5.4.4 评估模型 146

5.5 练习 147

第三部分 分类

第 6 章 k 近邻 152

6.1 检测心脏病 152

6.2 k 近邻 154

6.2.1 发现最近邻居 155

6.2.2 标记未标记数据 157

6.2.3 选择合适的 k 157

6.2.4 k 近邻模型 158

6.2.5 评估模型 162

6.2.6 改进模型 163

6.2.7 优缺点 164

6.3 案例研究:重新分析捐赠者数据集 165

6.3.1 导入数据 165

6.3.2 探索和准备数据 165

6.3.3 建立模型 169

6.3.4 评估模型 170

6.4 练习 170

第 7 章 朴素贝叶斯 171

7.1 垃圾邮件分类 171

7.2 朴素贝叶斯 172

7.2.1 概率 173

7.2.2 联合概率 173

7.2.3 条件概率 174

7.2.4 朴素贝叶斯分类 175

7.2.5 可加性平滑 177

7.2.6 朴素贝叶斯模型 178

7.2.7 评估模型 182

7.2.8 朴素贝叶斯分类器的优缺点 183

7.3 案例研究:重新审视心脏病检测问题 183

7.3.1 导入数据 183

7.3.2 探索和准备数据 184

7.3.3 建立模型 185

7.3.4 评估模型 186

7.4 练习 186

第 8 章 决策树 188

8.1 预测许可证决策 188

8.2 决策树 189

8.2.1 递归分区 190

8.2.2 熵 193

8.2.3 信息增益 194

8.2.4 基尼不纯度 196

8.2.5 剪枝 196

8.2.6 建立分类树模型 197

8.2.7 评估模型 200

8.2.8 决策树的优缺点 202

8.3 案例研究:重新审视收入预测问题 203

8.3.1 导入数据 203

8.3.2 探索和准备数据 204

8.3.3 建立模型 205

8.3.4 评估模型 205

8.4 练习 206

第四部分 模型的评估和改进

第 9 章 评估模型 208

9.1 评估未来表现 208

9.1.1 交叉验证 210

9.1.2 自助抽样 215

9.2 超越预测准确性 217

9.2.1 Kappa 218

9.2.2 查准率和查全率 220

9.2.3 灵敏度和特异性 222

9.3 可视化模型性能 225

9.3.1 接收者操作特性曲线 225

9.3.2 曲线下面积 228

9.4 练习 230

第 10 章 改进模型 232

10.1 调整参数 232

10.1.1 自动参数调整 232

10.1.2 自定义参数调整 236

10.2 集成方法 240

10.2.1 装袋 241

10.2.2 提升 243

10.2.3 堆叠 245

10.3 练习 249

第五部分 无监督学习

第 11 章 用关联规则发现模式 252

11.1 超市购物篮分析 252

11.2 关联规则 253

11.2.1 识别强规则 254

11.2.2 Apriori 算法 255

11.3 发现关联规则 256

11.3.1 生成规则 257

11.3.2 评估规则 260

11.3.3 优缺点 263

11.4 案例研究:识别杂货店购买模式 263

11.4.1 导入数据 264

11.4.2 探索和预处理数据 264

11.4.3 生成规则 265

11.4.4 评估规则 266

11.5 练习 268

11.6 参考文献 268

第 12 章 用聚类对数据分组 269

12.1 聚类 269

12.2 k 均值聚类 271

12.3 基于 k 均值聚类的大学细分 274

12.3.1 创建簇 275

12.3.2 分析簇 277

12.3.3 选择最佳簇数 278

12.3.4 k 均值聚类的优缺点 282

12.4 案例研究:对购物中心客户进行细分 282

12.4.1 探索和准备数据 283

12.4.2 聚类数据 283

12.4.3 评估簇 284

12.5 练习 285

12.6 参考文献 286

详情

本书探讨了如何使用 R 语言进行机器学习,涵盖基本的原理和方法,并通过大量的示例和练习,让读者掌握 R 语言的数据处理技巧。本书包括入门、回归、分类、模型的评估和改进、无监督学习五大部分,涉及线性回归、logistic 回归、k 近邻、朴素贝叶斯、决策树、聚类和关联规则等机器学习模型。本书配套提供相关的代码和数据,方便读者学习和使用。本书适合 R 语言和机器学习的爱好者、从业者以及相关院校的师生选用。

图书摘要

相关图书

科研论文配图绘制指南——基于R语言
科研论文配图绘制指南——基于R语言
R语言编程:基于tidyverse
R语言编程:基于tidyverse
R语言医学多元统计分析
R语言医学多元统计分析
Python与R语言数据科学实践
Python与R语言数据科学实践
R数据挖掘实战
R数据挖掘实战
R语言高效能实战:更多数据和更快速度
R语言高效能实战:更多数据和更快速度

相关文章

相关课程