目录
第 一部分 入门
第 1 章 什么是机器学习 2
1.1 从数据中发现知识 2
1.1.1 算法介绍 3
1.1.2 人工智能、机器学习和深度学习 3
1.2 机器学习技术 4
1.2.1 监督学习 4
1.2.2 无监督学习 7
1.3 模型选择 9
1.3.1 分类技术 9
1.3.2 回归技术 9
1.3.3 相似性学习技术 10
1.4 评估模型 10
1.4.1 分类错误 11
1.4.2 回归错误 12
1.4.3 错误类型 13
1.4.4 分割数据集 14
1.5 练习 15
第 2 章 R 和 RStudio 简介 17
2.1 欢迎来到 R 17
2.2 R 和 RStudio 组件 18
2.2.1 R 语言 18
2.2.2 RStudio 19
2.2.3 R 包 26
2.3 编写和运行 R 脚本 29
2.4 R 中的数据类型 31
2.4.1 向量 32
2.4.2 测试数据类型 33
2.4.3 转换数据类型 36
2.4.4 缺失值 36
2.5 练习 37
第 3 章 数据管理 38
3.1 tidyverse 38
3.2 数据收集 39
3.2.1 主要考虑因素 39
3.2.2 导入数据 40
3.3 数据探索 43
3.3.1 数据描述 43
3.3.2 数据可视化 48
3.4 数据准备 52
3.4.1 数据清洗 53
3.4.2 数据转换 59
3.4.3 减少数据 64
3.5 练习 69
第二部分 回归
第 4 章 线性回归 72
4.1 自行车租赁与回归 72
4.2 变量之间的关系 73
4.2.1 相关性 74
4.2.2 回归 79
4.3 简单线性回归 80
4.3.1 普通最小二乘法 81
4.3.2 简单线性回归模型 82
4.3.3 评估模型 82
4.4 多元线性回归 85
4.4.1 多元线性回归模型 86
4.4.2 评估模型 86
4.4.3 改进模型 93
4.4.4 优缺点 100
4.5 案例研究:预测血压 101
4.5.1 导入数据 102
4.5.2 探索数据 102
4.5.3 简单线性回归模型的拟合 104
4.5.4 多元线性回归模型的拟合 105
4.6 练习 111
第 5 章 logistic 回归 113
5.1 寻找潜在捐赠者 113
5.2 分类 115
5.3 logistic 回归 116
5.3.1 优势比 117
5.3.2 二分类 logistic 回归模型 120
5.3.3 评估模型 129
5.3.4 改进模型 135
5.3.5 优缺点 140
5.4 案例研究:收入预测 140
5.4.1 导入数据 141
5.4.2 探索和准备数据 141
5.4.3 训练模型 144
5.4.4 评估模型 146
5.5 练习 147
第三部分 分类
第 6 章 k 近邻 152
6.1 检测心脏病 152
6.2 k 近邻 154
6.2.1 发现最近邻居 155
6.2.2 标记未标记数据 157
6.2.3 选择合适的 k 157
6.2.4 k 近邻模型 158
6.2.5 评估模型 162
6.2.6 改进模型 163
6.2.7 优缺点 164
6.3 案例研究:重新分析捐赠者数据集 165
6.3.1 导入数据 165
6.3.2 探索和准备数据 165
6.3.3 建立模型 169
6.3.4 评估模型 170
6.4 练习 170
第 7 章 朴素贝叶斯 171
7.1 垃圾邮件分类 171
7.2 朴素贝叶斯 172
7.2.1 概率 173
7.2.2 联合概率 173
7.2.3 条件概率 174
7.2.4 朴素贝叶斯分类 175
7.2.5 可加性平滑 177
7.2.6 朴素贝叶斯模型 178
7.2.7 评估模型 182
7.2.8 朴素贝叶斯分类器的优缺点 183
7.3 案例研究:重新审视心脏病检测问题 183
7.3.1 导入数据 183
7.3.2 探索和准备数据 184
7.3.3 建立模型 185
7.3.4 评估模型 186
7.4 练习 186
第 8 章 决策树 188
8.1 预测许可证决策 188
8.2 决策树 189
8.2.1 递归分区 190
8.2.2 熵 193
8.2.3 信息增益 194
8.2.4 基尼不纯度 196
8.2.5 剪枝 196
8.2.6 建立分类树模型 197
8.2.7 评估模型 200
8.2.8 决策树的优缺点 202
8.3 案例研究:重新审视收入预测问题 203
8.3.1 导入数据 203
8.3.2 探索和准备数据 204
8.3.3 建立模型 205
8.3.4 评估模型 205
8.4 练习 206
第四部分 模型的评估和改进
第 9 章 评估模型 208
9.1 评估未来表现 208
9.1.1 交叉验证 210
9.1.2 自助抽样 215
9.2 超越预测准确性 217
9.2.1 Kappa 218
9.2.2 查准率和查全率 220
9.2.3 灵敏度和特异性 222
9.3 可视化模型性能 225
9.3.1 接收者操作特性曲线 225
9.3.2 曲线下面积 228
9.4 练习 230
第 10 章 改进模型 232
10.1 调整参数 232
10.1.1 自动参数调整 232
10.1.2 自定义参数调整 236
10.2 集成方法 240
10.2.1 装袋 241
10.2.2 提升 243
10.2.3 堆叠 245
10.3 练习 249
第五部分 无监督学习
第 11 章 用关联规则发现模式 252
11.1 超市购物篮分析 252
11.2 关联规则 253
11.2.1 识别强规则 254
11.2.2 Apriori 算法 255
11.3 发现关联规则 256
11.3.1 生成规则 257
11.3.2 评估规则 260
11.3.3 优缺点 263
11.4 案例研究:识别杂货店购买模式 263
11.4.1 导入数据 264
11.4.2 探索和预处理数据 264
11.4.3 生成规则 265
11.4.4 评估规则 266
11.5 练习 268
11.6 参考文献 268
第 12 章 用聚类对数据分组 269
12.1 聚类 269
12.2 k 均值聚类 271
12.3 基于 k 均值聚类的大学细分 274
12.3.1 创建簇 275
12.3.2 分析簇 277
12.3.3 选择最佳簇数 278
12.3.4 k 均值聚类的优缺点 282
12.4 案例研究:对购物中心客户进行细分 282
12.4.1 探索和准备数据 283
12.4.2 聚类数据 283
12.4.3 评估簇 284
12.5 练习 285
12.6 参考文献 286