扩散模型——核心原理与强化学习优化

978-7-115-67612-2
作者: 陈云牛雅哲张金欧文
译者:
编辑: 武少波

图书目录:

第 1 章 起源:扩散模型简介 1

11 生成模型的发展史 1

12 扩散模型核心思想介绍 4

121 扩散过程及其逆过程 4

122 扩散模型的训练 7

123 扩散模型的推断 8

124 扩散模型的评价指标 9

125 扩散模型的类型 10

13 条件扩散模型 13

131 分类器引导采样和无分类器引导采样 13

132 ControlNet 15

14 扩散模型加速采样方法 17

141 training-free 加速采样方法 18

142 training-based 加速采样方法24

参考文献27

第 2 章 基石:扩散模型与轨迹优化问题 29

21 离线强化学习 29

22 第 一个基于扩散模型的决策智能体:Plan Diffuser 31

221 以轨迹片段为对象的扩散模型 31

222 Plan Diffuser 的建模与优化 32

223 Plan Diffuser 的特性 39

224 从实验中解析 Plan Diffuser 40

225 灵活的测试目标 42

226 离线强化学习 43

227 扩散模型热启动 44

23 条件生成决策模型的集大成者:Decision Diffuser 45

231 Decision Diffuser 的建模与优化 45

232 回报以外的条件变量 47

24 代码实战 54

241 导入第三方库 54

242 准备数据集 54

243 配置扩散模型 56

244 实例化扩散模型 57

245 训练条件扩散模型 57

246 条件采样 58

参考文献60

第 3 章 基石:扩散模型与价值函数的结合 61

31 强化学习中基于价值函数的策略优化 61

32 Diffusion-QL :高效建模离线数据集中的行为策略 62

33 CEP 和 QGPO :借助能量函数设计新的引导器 64

331 对比能量预测法 65

332 基于 Q 价值函数引导的策略优化 69

34 LDCQ :扩散模型约束下的 Q-learning 77

341 背景知识 78

342 隐空间扩散强化学习 80

343 以目标为条件的隐空间扩散模型 84

344 实验与分析 84

345 局限性与展望 88

参考文献89

第 4 章 基石:扩散模型训练技巧指南 90

41 如何设计去噪网络 90

411 U-Net 90

412 DiT 92

413 文本编码器 98

42 如何设计训练方案 99

421 连续时间扩散模型的训练 99

422 扩散过程的设计与选择 100

423 扩散模型建模目标与训练方式的选择 102

43 如何选择扩散模型的类型 104

44 代码实战 105

参考文献 106

第 5 章 扩展:多任务泛化 108

51 离线元强化学习 108

52 MetaDiffuser 108

521 面向任务的上下文编码器 109

522 条件扩散模型架构 110

523 双引导增强规划器 111

参考文献 112

第 6 章 扩展:世界模型建模 113

61 世界模型简介 113

62 基于 RNN 的世界模型 114

621 论文“World Models” 114

622 DreamerV3 115

63 基于 Transformer 的世界模型 122

631 IRIS 122

632 TWM 124

633 STORM 124

64 基于扩散模型的世界模型 126

641 扩散范式的最佳实践126

642 实验结果 129

参考文献 132

第 7 章 反转:用强化学习来优化扩散模型 133

71 引言 133

72 DDPO :将去噪过程建模为序列决策过程 133

721 将扩散模型建模为多步 MDP 135

722 策略梯度估计 136

723 各种奖励模型下的采样表现 136

73 Diffusion-DPO :运用于扩散模型的直接偏好优化 139

731 从 RLHF 到 DPO 140

732 将 RLHF 用于文本图像对齐 141

733 将 DPO 用于文本图像对齐 142

734 将 DPO 用于扩散模型优化 143

735 文本图像对齐实验 145

736 从强化学习角度推导 Diffusion-DPO 147

74 DRaFT :通过可微分奖励函数直接优化扩散模型 149

741 DRaFT 149

742 DRaFT-K 150

743 DRaFT-LV 151

744 实验结果 151

75 代码实战 152

参考文献 157

第 8 章 扩展:扩散模型在决策问题上的新进展 158

81 基于生成模型的强化学习策略 158

82 决策基模型中的扩散模型 161

821 ViNT 162

822 NoMaD 166

823 SuSIE 170

83 总结与展望 177

参考文献 177

详情

本书通过系统化的理论讲解与实战导向的案例分析,帮助读者掌握扩散模型与强化学习的结合应用,探索其针对实际问题的解决方案。书中首先介绍了生成模型的发展史,特别是扩散模型的起源和核心思想,为读者学习后续章节奠定基础;然后深入探讨了扩散模型在构建决策智能体、结合价值函数等方面的应用,还详细讲解了如何利用扩散模型解决轨迹优化和策略优化等问题;接下来探索了扩散模型在多任务泛化和世界模型建模方面的扩展应用,展示了其在复杂环境中的适应性和灵活性;最后讨论了利用强化学习优化扩散模型的新进展,以及扩散模型在决策问题上的前沿研究方向。

图书摘要

相关图书

人人皆可Vibe编程:玩转氛围编程
人人皆可Vibe编程:玩转氛围编程
Cursor与Copilot开发实战让烦琐编程智能化
Cursor与Copilot开发实战让烦琐编程智能化
AI共生指南:技术探索与人文思考
AI共生指南:技术探索与人文思考
生成式人工智能(基于PyTorch实现)
生成式人工智能(基于PyTorch实现)
AI搜索:基础与前沿
AI搜索:基础与前沿
大模型应用开发 RAG实战课
大模型应用开发 RAG实战课

相关文章

相关课程