第 1 章 起源:扩散模型简介 1
11 生成模型的发展史 1
12 扩散模型核心思想介绍 4
121 扩散过程及其逆过程 4
122 扩散模型的训练 7
123 扩散模型的推断 8
124 扩散模型的评价指标 9
125 扩散模型的类型 10
13 条件扩散模型 13
131 分类器引导采样和无分类器引导采样 13
132 ControlNet 15
14 扩散模型加速采样方法 17
141 training-free 加速采样方法 18
142 training-based 加速采样方法24
参考文献27
第 2 章 基石:扩散模型与轨迹优化问题 29
21 离线强化学习 29
22 第 一个基于扩散模型的决策智能体:Plan Diffuser 31
221 以轨迹片段为对象的扩散模型 31
222 Plan Diffuser 的建模与优化 32
223 Plan Diffuser 的特性 39
224 从实验中解析 Plan Diffuser 40
225 灵活的测试目标 42
226 离线强化学习 43
227 扩散模型热启动 44
23 条件生成决策模型的集大成者:Decision Diffuser 45
231 Decision Diffuser 的建模与优化 45
232 回报以外的条件变量 47
24 代码实战 54
241 导入第三方库 54
242 准备数据集 54
243 配置扩散模型 56
244 实例化扩散模型 57
245 训练条件扩散模型 57
246 条件采样 58
参考文献60
第 3 章 基石:扩散模型与价值函数的结合 61
31 强化学习中基于价值函数的策略优化 61
32 Diffusion-QL :高效建模离线数据集中的行为策略 62
33 CEP 和 QGPO :借助能量函数设计新的引导器 64
331 对比能量预测法 65
332 基于 Q 价值函数引导的策略优化 69
34 LDCQ :扩散模型约束下的 Q-learning 77
341 背景知识 78
342 隐空间扩散强化学习 80
343 以目标为条件的隐空间扩散模型 84
344 实验与分析 84
345 局限性与展望 88
参考文献89
第 4 章 基石:扩散模型训练技巧指南 90
41 如何设计去噪网络 90
411 U-Net 90
412 DiT 92
413 文本编码器 98
42 如何设计训练方案 99
421 连续时间扩散模型的训练 99
422 扩散过程的设计与选择 100
423 扩散模型建模目标与训练方式的选择 102
43 如何选择扩散模型的类型 104
44 代码实战 105
参考文献 106
第 5 章 扩展:多任务泛化 108
51 离线元强化学习 108
52 MetaDiffuser 108
521 面向任务的上下文编码器 109
522 条件扩散模型架构 110
523 双引导增强规划器 111
参考文献 112
第 6 章 扩展:世界模型建模 113
61 世界模型简介 113
62 基于 RNN 的世界模型 114
621 论文“World Models” 114
622 DreamerV3 115
63 基于 Transformer 的世界模型 122
631 IRIS 122
632 TWM 124
633 STORM 124
64 基于扩散模型的世界模型 126
641 扩散范式的最佳实践126
642 实验结果 129
参考文献 132
第 7 章 反转:用强化学习来优化扩散模型 133
71 引言 133
72 DDPO :将去噪过程建模为序列决策过程 133
721 将扩散模型建模为多步 MDP 135
722 策略梯度估计 136
723 各种奖励模型下的采样表现 136
73 Diffusion-DPO :运用于扩散模型的直接偏好优化 139
731 从 RLHF 到 DPO 140
732 将 RLHF 用于文本图像对齐 141
733 将 DPO 用于文本图像对齐 142
734 将 DPO 用于扩散模型优化 143
735 文本图像对齐实验 145
736 从强化学习角度推导 Diffusion-DPO 147
74 DRaFT :通过可微分奖励函数直接优化扩散模型 149
741 DRaFT 149
742 DRaFT-K 150
743 DRaFT-LV 151
744 实验结果 151
75 代码实战 152
参考文献 157
第 8 章 扩展:扩散模型在决策问题上的新进展 158
81 基于生成模型的强化学习策略 158
82 决策基模型中的扩散模型 161
821 ViNT 162
822 NoMaD 166
823 SuSIE 170
83 总结与展望 177
参考文献 177