第 1 章 深度学习革命 1
1 1 深度学习的影响 2
1 1 1 医疗诊断 2
1 1 2 蛋白质结构预测 3
1 1 3 图像合成 4
1 1 4 大语言模型 5
1 2 一个教学示例 6
1 2 1 合成数据 7
1 2 2 线性模型 7
1 2 3 误差函数 8
1 2 4 模型复杂度 8
1 2 5 正则化 11
1 2 6 模型选择 12
1 3 机器学习简史 14
1 3 1 单层网络 15
1 3 2 反向传播 16
1 3 3 深度网络 17
第 2 章 概 率 21
2 1 概率法则 23
2 1 1 医学筛查示例 23
2 1 2 加和法则和乘积法则 24
2 1 3 贝叶斯定理 26
2 1 4 再看医学筛查示例 27
2 1 5 先验概率和后验概率 28
2 1 6 独立变量 28
2 2 概率密度 28
2 2 1 分布的示例 30
2 2 2 期望和协方差 31
2 3 高斯分布 32
2 3 1 均值和方差 32
2 3 2 似然函数 33
2 3 3 最大似然的偏差 35
2 3 4 线性回归 36
2 4 密度变换 37
多元分布 39
2 5 信息论 40
2 5 1 熵 40
2 5 2 物理学视角 42
2 5 3 微分熵 43
2 5 4 最大熵 44
2 5 5 Kullback-Leibler 散度 45
2 5 6 条件熵 47
2 5 7 互信息 47
2 6 贝叶斯概率 47
2 6 1 模型参数 48
2 6 2 正则化 49
2 6 3 贝叶斯机器学习 50
习题 50
第 3 章 标准分布 55
3 1 离散变量 56
3 1 1 伯努利分布 56
3 1 2 二项分布 57
3 1 3 多项分布 58
3 2 多元高斯分布 59
3 2 1 高斯几何 60
3 2 2 矩 62
3 2 3 局限性 64
3 2 4 条件分布 64
3 2 5 边缘分布 67
3 2 6 贝叶斯定理 70
3 2 7 最大似然 72
3 2 8 序贯估计 73
3 2 9 高斯混合 74
3 3 周期变量 76
冯·米塞斯分布 76
3 4 指数族分布 80
充分统计量 84
3 5 非参数化方法 85
3 5 1 直方图 85
3 5 2 核密度 86
3 5 3 最近邻 88
习题 90
第 4 章 单层网络:回归 97
4 1 线性回归 97
4 1 1 基函数 98
4 1 2 似然函数 100
4 1 3 最大似然 101
4 1 4 最小二乘的几何表示 102
4 1 5 序贯学习 102
4 1 6 正则化最小二乘法 103
4 1 7 多重输出 104
4 2 决策理论 105
4 3 偏差 - 方差权衡 108
习题 112
第 5 章 单层网络:分类 115
5 1 判别函数 116
5 1 1 二分类 116
5 1 2 多分类 117
5 1 3 1-of-K 编码方案 119
5 1 4 最小二乘分类 119
5 2 决策理论 121
5 2 1 误分类率 122
5 2 2 预期损失 124
5 2 3 拒绝选项 125
5 2 4 推理和决策 125
5 2 5 分类器精度 128
5 2 6 ROC 曲线 129
5 3 生成分类器 131
5 3 1 连续输入 132
5 3 2 最大似然解 134
5 3 3 离散特征 136
5 3 4 指数族分布 136
5 4 判别分类器 137
5 4 1 激活函数 137
5 4 2 固定基函数 138
5 4 3 逻辑斯谛回归 139
5 4 4 多类逻辑斯谛回归 140
5 4 5 probit 回归 141
5 4 6 规范连接函数 143
习题 144
第 6 章 深度神经网络 149
6 1 固定基函数的局限性 150
6 1 1 维度诅咒 150
6 1 2 高维空间 152
6 1 3 数据流形 153
6 1 4 数据依赖的基函数 155
6 2 多层网络 156
6 2 1 参数矩阵 157
6 2 2 通用近似 158
6 2 3 隐藏单元激活函数 159
6 2 4 权重空间的对称性 161
6 3 深度网络 162
6 3 1 层次化表示 162
6 3 2 分布式表示 163
6 3 3 表示学习 163
6 3 4 迁移学习 164
6 3 5 对比学习 165
6 3 6 通用网络结构 168
6 3 7 张量 168
6 4 误差函数 169
6 4 1 回归 169
6 4 2 二分类 170
6 4 3 多分类 171
6 5 混合密度网络 172
6 5 1 机器人运动学示例 172
6 5 2 条件混合分布 173
6 5 3 梯度优化 175
6 5 4 预测分布 176
习题 177
第 7 章 梯度下降 181
7 1 错误平面 182
局部二次近似 183
7 2 梯度下降优化 184
7 2 1 梯度信息的使用 185
7 2 2 批量梯度下降 185
7 2 3 随机梯度下降 186
7 2 4 小批量方法 187
7 2 5 参数初始化 188
7 3 收敛 189
7 3 1 动量 190
7 3 2 学习率调度 192
7 3 3 AdaGrad、RMSProp 与 Adam 算法 193
7 4 正则化 195
7 4 1 数据归一化 195
7 4 2 批量归一化 196
7 4 3 层归一化 197
习题 198
第 8 章 反向传播 201
8 1 梯度计算 202
8 1 1 单层网络 202
8 1 2 一般前馈网络 202
8 1 3 简单示例 205
8 1 4 数值微分法 206
8 1 5 雅可比矩阵 207
8 1 6 黑塞矩阵 209
8 2 自动微分法 211
8 2 1 前向模式自动微分 213
8 2 2 逆模式自动微分 215
习题 217
第 9 章 正则化 219
9 1 归纳偏置 220
9 1 1 逆问题 220
9 1 2 无免费午餐定理 221
9 1 3 对称性和不变性 222
9 1 4 等变性 224
9 2 权重衰减 225
9 2 1 一致性正则化项 226
9 2 2 广义权重衰减 228
9 3 学习曲线 230
9 3 1 早停法 230
9 3 2 双重下降 231
9 4 参数共享 234
软权重共享 234
9 5 残差连接 236
9 6 模型平均 239
dropout 241
习题 243
第 10 章 卷积网络 247
10 1 计算机视觉 248
图像数据 248
10 2 卷积滤波器 249
10 2 1 特征检测器 250
10 2 2 平移等变性 251
10 2 3 填充 252
10 2 4 跨步卷积 253
10 2 5 多维卷积 253
10 2 6 池化 255
10 2 7 多层卷积 256
10 2 8 网络架构示例 257
10 3 可视化训练好的 CNN 259
10 3 1 视觉皮层 259
10 3 2 可视化训练好的滤波器 260
10 3 3 显著性图 262
10 3 4 对抗攻击 263
10 3 5 合成图像 264
10 4 目标检测 265
10 4 1 边界框 265
10 4 2 交并比 266
10 4 3 滑动窗口 267
10 4 4 跨尺度检测 268
10 4 5 非最大抑制 269
10 4 6 快速区域卷积神经网络 270
10 5 图像分割 270
10 5 1 卷积分割 270
10 5 2 上采样 271
10 5 3 全卷积网络 272
10 5 4 U-Net 架构 273
10 6 风格迁移 274
习题 275
第 11 章 结构化分布 279
11 1 概率图模型 280
11 1 1 有向图 280
11 1 2 分解 280
11 1 3 离散变量 282
11 1 4 高斯变量 284
11 1 5 二元分类器 286
11 1 6 参数和观测值 287
11 1 7 贝叶斯定理 288
11 2 条件独立性 289
11 2 1 3 个示例图 289
11 2 2 相消解释 292
11 2 3 d 分离 293
11 2 4 朴素贝叶斯 294
11 2 5 生成式模型 296
11 2 6 马尔可夫毯 297
11 2 7 作为过滤器的图 298
11 3 序列模型 299
潜变量 301
习题 302
第 12 章 Transformer 305
12 1 注意力 306
12 1 1 Transformer 处理 308
12 1 2 注意力系数 308
12 1 3 自注意力 309
12 1 4 网络参数 310
12 1 5 缩放自注意力 312
12 1 6 多头注意力 313
12 1 7 Transformer 层 315
12 1 8 计算复杂性 316
12 1 9 位置编码 317
12 2 自然语言 319
12 2 1 词嵌入 320
12 2 2 分词 321
12 2 3 词袋模型 322
12 2 4 自回归模型 323
12 2 5 递归神经网络 324
12 2 6 通过时间的反向传播 325
12 3 Transformer 语言模型 326
12 3 1 解码器型 Transformer 326
12 3 2 抽样策略 329
12 3 3 编码器型 Transformer 330
12 3 4 序列到序列 Transformer 332
12 3 5 大语言模型 333
12 4 多模态 Transformer 336
12 4 1 视觉 Transformer 336
12 4 2 图像生成 Transformer 337
12 4 3 音频数据 339
12 4 4 文本语音转换 340
12 4 5 视觉和语言 Transformer 342
习题 343
第 13 章 图神经网络 347
13 1 基于图的机器学习 348
13 1 1 图的属性 349
13 1 2 邻接矩阵 349
13 1 3 排列等变性 350
13 2 神经信息传递 351
13 2 1 卷积滤波器 352
13 2 2 图卷积网络 353
13 2 3 聚合算子 354
13 2 4 更新算子 356
13 2 5 节点分类 357
13 2 6 边分类 358
13 2 7 图分类 358
13 3 通用图网络 359
13 3 1 图注意力网络 359
13 3 2 边嵌入 360
13 3 3 图嵌入 360
13 3 4 过度平滑 361
13 3 5 正则化 362
13 3 6 几何深度学习 362
习题 363
第 14 章 采 样 365
14 1 基本采样 366
14 1 1 期望 366
14 1 2 标准分布 367
14 1 3 拒绝采样 369
14 1 4 适应性拒绝采样 370
14 1 5 重要性采样 371
14 1 6 采样 - 重要性 - 重采样 373
14 2 马尔可夫链蒙特卡洛采样 374
14 2 1 Metropolis 算法 375
14 2 2 马尔可夫链 376
14 2 3 Metropolis-Hastings 算法 378
14 2 4 吉布斯采样 380
14 2 5 祖先采样 382
14 3 郎之万采样 383
14 3 1 基于能量的模型 384
14 3 2 最大化似然 385
14 3 3 朗之万动力学 386
习题 388
第 15 章 离散潜变量 391
15 1 K 均值聚类 392
图像分割 395
15 2 高斯混合分布 397
15 2 1 似然函数 399
15 2 2 最大似然 400
15 3 EM 算法 404
15 3 1 高斯混合模型 406
15 3 2 EM 算法与K 均值算法的关系 408
15 3 3 混合伯努利分布 409
15 4 证据下界 412
15 4 1 EM 算法回顾 413
15 4 2 独立同分布数据 415
15 4 3 参数先验 415
15 4 4 广义 EM 算法 416
15 4 5 顺序 EM 算法 416
习题 417
第 16 章 连续潜变量 421
16 1 主成分分析 422
16 1 1 最大方差表述 423
16 1 2 最小误差表述 424
16 1 3 数据压缩 427
16 1 4 数据白化 428
16 1 5 高维数据 429
16 2 概率潜变量 430
16 2 1 生成式模型 431
16 2 2 似然函数 432
16 2 3 最大似然法 433
16 2 4 因子分析 436
16 2 5 独立成分分析 437
16 2 6 卡尔曼滤波器 439
16 3 证据下界 439
16 3 1 EM 算法 441
16 3 2 PCA 的 EM 算法 442
16 3 3 因子分析的 EM 算法 444
16 4 非线性潜变量模型 444
16 4 1 非线性流形 445
16 4 2 似然函数 447
16 4 3 离散数据 448
16 4 4 构建生成式模型的 4 种方法 448
习题 449
第 17 章 生成对抗网络 453
17 1 对抗训练 454
17 1 1 损失函数 455
17 1 2 实战中的 GAN 训练 456
17 2 图像的生成对抗网络 458
CycleGAN 459
习题 462
第 18 章 标准化流 465
18 1 耦合流 467
18 2 自回归流 470
18 3 连续流 472
18 3 1 神经 ODE 472
18 3 2 神经 ODE 的反向传播 473
18 3 3 神经 ODE 流 474
习题 476
第 19 章 自编码器 479
19 1 确定性的自编码器 480
19 1 1 线性自编码器 480
19 1 2 深度自编码器 481
19 1 3 稀疏自编码器 482
19 1 4 去噪自编码器 482
19 1 5 掩蔽自编码器 483
19 2 变分自编码器 484
19 2 1 摊销推理 487
19 2 2 重参数化技巧 488
习题 491
第 20 章 扩散模型 493
20 1 前向编码器 494
20 1 1 扩散核 495
20 1 2 条件分布 496
20 2 反向解码器 497
20 2 1 训练解码器 499
20 2 2 证据下界 499
20 2 3 重写 ELBO 501
20 2 4 预测噪声 502
20 2 5 生成新的样本 504
20 3 得分匹配 505
20 3 1 得分损失函数 506
20 3 2 修改得分损失 506
20 3 3 噪声方差 508
20 3 4 随机微分方程 508
20 4 有引导的扩散 509
20 4 1 有分类器的引导 510
20 4 2 无分类器的引导 510
习题 513
附 录 517
附录 A 线性代数 517
A 1 矩阵恒等式 517
A 2 迹和行列式 518
A 3 矩阵导数 519
A 4 特征向量 521
附录 B 变分法 524
附录 C 拉格朗日乘子 526
参考资料 529
索 引 549