第 一部分 智能体基础篇
第 1章 初探大模型智能体 2
1.1 概述 2
1.2 智能体的基本概念 2
1.3 智能体的交互机制 4
1.3.1 智能体与人的交互 4
1.3.2 智能体与环境的交互 5
1.4 大模型与智能体的技术融合 6
1.5 实践:构建第 一个智能体 6
1.6 小结 10
第 2章 生成式大语言模型基础 11
2.1 概述 11
2.2 生成式大语言模型的技术架构 11
2.2.1 核心原理与发展历程 11
2.2.2 主流模型对比和分析 12
2.3 生成式大语言模型的文本生成机制与特性 12
2.3.1 词汇表与分词器 13
2.3.2 自回归生成原理 13
2.3.3 模型特性分析 14
2.4 生成式大语言模型的开源模型实践应用 15
2.5 生成式大语言模型的生成参数 18
2.5.1 温度参数 18
2.5.2 采样策略 18
2.6 生成式大语言模型的对话系统实践 20
2.7 小结 23
2.8 参考文献 23
第3章 提示工程 24
3.1 概述 24
3.2 提示工程的定义 24
3.3 提示词 25
3.3.1 提示词的标准组成 28
3.3.2 提示词的设计原则 29
3.4 角色扮演策略 32
3.5 提示工程技术 33
3.5.1 思维链 33
3.5.2 上下文学习 36
3.5.3 自我一致性 37
3.5.4 推理提示 37
3.5.5 反思提示 38
3.6 提示工程的实用方法 39
3.6.1 提示工程调优 39
3.6.2 常用的提示词 44
3.6.3 提示工程开发实践资源 45
3.7 小结 45
3.8 参考文献 46
第4章 智能体评估与调试 47
4.1 概述 47
4.2 环境准备与模型部署 47
4.3 智能体异常场景 48
4.3.1 幻觉现象 48
4.3.2 工具调用异常 49
4.3.3 推理链错误 50
4.4 智能体与聊天机器人的差异 50
4.5 智能体的评估方法 51
4.5.1 人工测试与用户反馈 52
4.5.2 自动化评估与基准数据集测试 53
4.5.3 大模型自动评测 58
4.6 智能体调试与问题定位 60
4.6.1 调试的基本流程和问题定位的常用方法 60
4.6.2 典型问题案例分析 60
4.7 小结 63
4.8 参考文献 65
第二部分 智能体架构篇
第5章 智能体架构设计 68
5.1 概述 68
5.2 智能体架构的核心组件 68
5.2.1 记忆模块 69
5.2.2 工具调用模块 71
5.2.3 复杂推理与规划模块 72
5.2.4 执行模块 73
5.3 智能体工作流 73
5.4 常见的智能体架构模式 74
5.4.1 基于提示词的混合决策架构 74
5.4.2 规划—执行—反馈架构 75
5.4.3 自主循环架构 76
5.5 常用的智能体框架 77
5.5.1 LangChain:模块化开发的标杆 77
5.5.2 LlamaIndex:非结构化数据处理专家 77
5.5.3 Haystack:企业级信息检索框架 78
5.5.4 常用智能体框架的对比 78
5.6 实践:最简智能体架构实现 79
5.7 小结 87
5.8 参考文献 88
第6章 记忆管理与检索增强 89
6.1 概述 89
6.2 智能体的记忆管理 89
6.2.1 记忆管理的必要性 89
6.2.2 上下文窗口限制机制 90
6.2.3 实验:智能体遗忘现象验证 91
6.2.4 记忆管理机制的核心功能 93
6.3 短期记忆与长期记忆 93
6.3.1 短期记忆机制 93
6.3.2 实验:滑动窗口短期记忆实现 94
6.3.3 长期记忆机制 96
6.3.4 实验:简易长期记忆实现 97
6.4 上下文管理 100
6.4.1 内容选择 101
6.4.2 实验:基于重要性的记忆选择 101
6.4.3 摘要提取 102
6.4.4 实验:对话摘要生成 103
6.5 检索增强生成 105
6.5.1 构建知识库 106
6.5.2 实验:文档向量化与索引构建 107
6.5.3 相似度检索 108
6.5.4 基于FAISS的相似度检索实践 109
6.5.5 上下文增强 110
6.5.6 上下文增强的知识回答实践 111
6.5.7 记忆更新机制 113
6.6 实用技巧与注意事项 114
6.6.1 嵌入模型与向量库选型 114
6.6.2 检索干扰与提示工程 115
6.6.3 数据隐私与知识库存储策略 115
6.7 实践:构建文档问答智能体 116
6.8 小结 123
6.9 参考文献 124
第7章 工具调用 125
7.1 概述 125
7.2 工具调用的核心流程 126
7.3 引入工具的必要性 126
7.3.1 大模型的局限性 127
7.3.2 能力补全的关键路径 127
7.3.3 实验验证 128
7.4 常见的工具类型及应用场景 130
7.4.1 信息检索类工具 130
7.4.2 计算与执行类工具 131
7.4.3 设备控制类工具 132
7.5 如何选择并使用工具 133
7.5.1 工具接口设计 133
7.5.2 工具的调用和决策机制 135
7.5.3 工具的解析与执行 136
7.6 多工具的整合与调度 137
7.6.1 多工具的选择策略 138
7.6.2 多工具的协作与顺序执行 138
7.6.3 工具优先级与回退机制 139
7.6.4 多工具调用的策略 140
7.7 实践:构建多功能智能体 140
7.8 小结 144
7.9 参考文献 145
第8章 推理、规划与树搜索增强 146
8.1 概述 146
8.2 智能体推理与规划面临的挑战 147
8.2.1 从失败案例看解决推理任务的难点 147
8.2.2 思维链 151
8.2.3 思维链的局限性 151
8.3 智能体任务规划的策略 152
8.3.1 规划—执行范式 153
8.3.2 子任务分解 154
8.3.3 动态调整与反思 155
8.4 基于搜索算法的推理增强 156
8.4.1 思维树 157
8.4.2 自我一致性 158
8.4.3 搜索算法结合 160
8.5 实践:复杂任务智能体 161
8.6 小结 175
8.7 参考文献 176
第三部分 智能体微调篇
第9章 指令微调 178
9.1 概述 178
9.2 指令微调的原理 178
9.3 数据集准备 179
9.3.1 数据的生成方式 179
9.3.2 数据的格式 181
9.3.3 数据的质量 181
9.4 实践:指令微调训练流程 182
9.4.1 模型选择和参数设置 182
9.4.2 训练流程 183
9.4.3 效果评估 185
9.5 拓展与实践建议 188
9.6 小结 188
9.7 参考文献 189
第 10章 低秩适应微调与模型量化 190
10.1 概述 190
10.2 智能体微调的难点 191
10.3 LoRA微调的原理 191
10.4 LoRA微调实践 194
10.4.1 加载模型和分词器 194
10.4.2 加载数据集并预处理 196
10.4.3 LoRA微调实践 198
10.4.4 全参数微调实践 201
10.4.5 评估与分析 203
10.5 模型量化方法 207
10.5.1 8比特量化 208
10.5.2 4比特量化 211
10.5.3 静态量化与动态量化 214
10.6 LoRA微调结合模型量化实践 215
10.7 小结 223
10.8 参考文献 225
第 11章 强化微调 226
11.1 概述 226
11.2 强化微调与传统强化学习的对比 227
11.3 将文本生成建模为马尔可夫决策过程 227
11.4 传统强化学习基础 228
11.4.1 价值优化与策略优化 228
11.4.2 Actor-Critic架构与PPO算法 229
11.5 强化微调经典方法与扩展 230
11.5.1 基于人类反馈的强化学习 230
11.5.2 群组相对策略优化 231
11.5.3 扩展技术:DAPO与VAPO 231
11.6 奖励函数设计 232
11.6.1 常见的奖励形式 232
11.6.2 过程奖励与结果奖励 232
11.6.3 奖励设计的原则 233
11.7 基于VeRL框架的强化微调实践 233
11.8 小结 239
11.9 参考文献 240
第四部分 智能体前沿篇
第 12章 多模态智能体 242
12.1 概述 242
12.2 多模态输入与理解 242
12.2.1 以文本为介质的多模态理解 243
12.2.2 原生多模态理解 244
12.3 多模态行为 246
12.4 实践:GUI智能体——手机个人助手 247
12.5 小结 251
12.6 参考文献 251
第 13章 多智能体系统 252
13.1 概述 252
13.2 多智能体的协作模式 253
13.3 典型架构与代表性工作 254
13.3.1 通信模式 255
13.3.2 系统架构 255
13.3.3 智能体的专业化策略 256
13.3.4 代表性项目 256
13.4 多智能体系统的应用 257
13.4.1 软件开发自动化 257
13.4.2 内容创作与营销 257
13.4.3 科研与学术论文写作 258
13.5 实践:构建基于大模型的多智能体系统 259
13.6 小结 262
13.7 参考文献 263
第 14章 智能体安全 264
14.1 概述 264
14.2 智能体攻击 265
14.2.1 直接提示词注入 266
14.2.2 间接提示词注入 268
14.2.3 认知黑客/任务劫持攻击 269
14.3 智能体防御 273
14.3.1 输入/输出过滤与净化 273
14.3.2 工具使用确认与规划限制 275
14.3.3 指令微调与加固 278
14.4 实践:智能体红蓝对抗实验 278
14.4.1 蓝队:构建智能体 279
14.4.2 红队:构造恶意文章 280
14.4.3 开始对抗过程 280
14.5 小结 281
14.6 参考文献 282
第 15章 智能体协议 283
15.1 概述 283
15.2 智能体协议的分类 284
15.2.1 模型上下文协议 284
15.2.2 A2A协议 286
15.3 智能体协议的评估维度 287
15.3.1 高效性 288
15.3.2 性能扩展性 289
15.3.3 功能扩展性 289
15.4 实践:基于MCP的智能体助手 290
15.5 小结 295
15.6 参考文献 296