AIGC与智能体开发实战:基于开源大模型+Serverless API

978-7-115-68525-4
作者: 韩泽耀孙国梁张寅
译者:
编辑: 陈灿然

图书目录:

第 1章

快速入门 AIGC 与 Serverless API 开发 / 1

1.1 AIGC 演进与开源大模型生态 / 2

1.1.1 AIGC:智能时代的内容生产革命 / 2

1.1.2 AIGC 的发展历程 / 3

1.1.3 AIGC/UGC/PGC 三类常见内容生成对比分析 / 3

1.1.4 主流 AIGC 技术类别与典型大模型简介 / 4

1.1.5 部署开源大模型及输出 API 对开发者的意义 / 7

1.2 Serverless API 和 OpenAI 兼容 API 的概念 / 10

1.2.1 Serverless 的定义与特征剖析 / 10

1.2.2 Serverless API 与传统架构的对比分析 / 11

1.2.3 OpenAI 兼容 API 的定义与核心要素 / 13

1.2.4 OpenAI 兼容 API 的典型落地路径 / 13

1.3 开源大模型与 Serverless API 架构融合的实际意义 / 14

1.3.1 Serverless API 架构解决开源大模型部署难题 / 15

1.3.2 开源生态与 Serverless API 的协同效应 / 15

1.3.3 国内外主流开源大模型 Token/API 服务平台 / 16

1.4 基于 API 调用开发在大模型编程开发中的层级 / 17

1.4.1 大模型应用开发的层次架构 / 17

1.4.2 API 层级调用架构在应用开发场景中的对比图示 / 19

1.4.3 API 调用开发的平台和入口 / 20

1.5 本章小结 / 22

第 2 章

快速理解 AIGC 与 API 开发的基础技术栈 / 23

2.1 快速入门 HTTP 协议中的 RESTful API / 24

2.1.1 RESTful API 和 CRUD(增删改查)的对应关系 / 24

2.1.2 HTTP requests 库和兼容 OpenAI SDK 调用方式对比 / 26

2.2 标准化的 API 调用流程以及简单错误快速处理 / 28

2.2.1 API 调用的基础规范与流程 / 28

2.2.2 API 调用简单代码示例 / 29

2.2.3 常见 API 错误与快速排错技巧 / 29

2.3 常见 AIGC API 的调用参数讲解 / 32

2.3.1 API 调用请求常用参数快速解析 / 32

2.3.2 常见 API 响应数据基础字段介绍 / 35

2.4 AI 辅助开发工具与平台快速认知 / 36

2.4.1 AI 辅助开发工具和平台的作用 / 36

2.4.2 AI 辅助编码类工具 / 37

2.4.3 AI 辅助平台类工具 / 38

2.5 本章小结 / 38

第 3 章

初步设置和使用 API 之实战入门 / 40

3.1 注册与登录以及如何获得 API Key / 41

3.1.1 Gitee AI 平台介绍 / 41

3.1.2 注册 Gitee AI 账号 / 42

3.1.3 创建 API 密钥 / 43

3.1.4 使用 API 密钥获取 Token / 44

3.2 开始使用 Serverless API / 45

3.2.1 选择模型和创建访问令牌 / 46

3.2.2 测试模型 API / 48

3.2.3 查看 API 文档和示例代码 / 50

3.2.4 cURL 命令行工具的常见用法举例 / 51

3.3 常见问题与解决方案 / 53

3.3.1 账号和访问问题 / 53

3.3.2 算力券和资源包问题 / 54

3.4 本章小结 / 54

第 4 章

基于 Serverless API 实现大模型编程初步 / 56

4.1 目标:调用模型接口,得到返回的交互结果 / 57

4.2 步骤:配置环境、安装库与获取 API Key / 57

4.2.1 创建项目并安装依赖 / 58

4.2.2 获取 Gitee Serverless API 的 API Key / 58

4.2.3 API Key 的 3 种管理方式 / 58

4.3 过程:核心代码(包括错误示例)详解 / 59

4.4 成功:正确示例及代码演示 / 60

4.5 改进:生成中文响应结果 / 65

4.6 精进:简练中文回馈内容 / 66

4.7 本章小结 / 66

第 5 章

多种模态 API 原子能力初级实战 / 68

5.1 开发环境配置与依赖库安装 / 69

5.1.1 Python 环境配置 / 70

5.1.2 安装必要的依赖库 / 71

5.1.3 配置 API 访问凭证 / 73

5.2 实现 Instruct 与 Chat 的文本生成 Hello World / 75

5.2.1 Instruct 模型与 Chat 模型的区别 / 75

5.2.2 使用 Instruct 模型生成 Hello World / 76

5.2.3 使用 Chat 模型生成 Hello World / 79

5.2.4 Instruct 与 Chat 模型的选择建议 / 81

5.3 实现 Stable Diffusion 的文生图 Hello World / 82

5.3.1 Gitee AI 平台的 Stable Diffusion 模型简介 / 82

5.3.2 配置 Stable Diffusion API / 83

5.3.3 使用 Stable Diffusion 生成第 一张图像 / 83

5.3.4 调整生成参数提升图像质量 / 86

5.4 实现 Whisper 的语音识别 Hello World / 87

5.4.1 Gitee AI 平台的 Whisper 模型简介 / 87

5.4.2 配置语音识别 API / 87

5.4.3 使用 Gitee AI 平台的 Whisper API 进行语音识别 / 87

5.4.4 使用本地音频文件进行语音识别 / 90

5.4.5 实时语音识别 / 92

5.5 本章小结 / 95

第 6 章

多种模态 API 调用及编排进阶实战 / 96

6.1 实现 DeepSeek+Stable Diffusion 的图像生成优化 / 97

6.1.1 DeepSeek 模型优化机制 / 97

6.1.2 API 编排实现协同 AIGC 图像生成 / 99

6.1.3 参数优化与问题排查 / 103

6.2 实现 Wan2.1-T2V 的文生视频 / 104

6.2.1 视频生成模型简介 / 104

6.2.2 使用 Wan2.1-T2V 生成视频 / 105

6.2.3 视频生成参数调优 / 111

6.3 实现 Hunyuan3D-2 的图生 3D / 111

6.3.1 Hunyuan 3D 生成模型简介 / 111

6.3.2 使用 Hunyuan3D-2 生成 3D 模型 / 111

6.3.3 使用 Open3D 查看和处理 3D 模型 / 116

6.4 API 调用常见错误与调试进阶 / 118

6.4.1 常见错误类型 / 119

6.4.2 API 调用调试技巧 / 119

6.4.3 实现请求重试和错误处理 / 120

6.4.4 API 调用性能优化 / 123

6.5 本章小结 / 124

第 7 章

辅助生成代码、打造多种形态及践行 Vibe Coding / 126

7.1 主流开源代码辅助生成大模型 / 127

7.1.1 回顾开源大语言模型的发展与意义 / 127

7.1.2 DeepSeek-V3/R1 模型回顾 / 128

7.1.3 CodeGeeX 模型详解 / 128

7.1.4 新一代开源 Coder 与数学 / 证明模型的发展 / 129

7.1.5 模型性能对比与选择建议 / 130

7.2 用文本 / 代码生成大模型 API 构建不同生成形态的工具 / 132

7.2.1 文本 / 代码生成工具的基本架构 / 132

7.2.2 智能对话工具的实现(命令行) / 132

7.2.3 文本摘要工具的实现(Web 网页端) / 134

7.2.4 文本续写工具的实现(API) / 136

7.3 AI 代码辅助工具实战 / 140

7.3.1 AI 代码辅助工具概述 / 140

7.3.2 GitHub Copilot 使用实战 / 141

7.3.3 Cline AI 代码助手使用实战 / 143

7.3.4 Trae AI 代码助手使用实战 / 144

7.3.5 Cursor 编译器使用实战 / 145

7.3.6 通义灵码代码助手使用实战 / 146

7.4 AI Coding 中 VSCode+Cline+Gitee.AI 的配置与实践 / 148

7.4.1 VSCode 中 AI 编程助手的选择 / 148

7.4.2 VSCode 中配置 Cline 第三方 API 的详细步骤 / 148

7.4.3 实用 VSCode 扩展组合推荐 / 150

7.4.4 常见问题与解决方案 / 150

7.5 如何提升 AI 代码生成的质量 / 151

7.5.1 面向代码生成的提示词工程技巧 / 151

7.5.2 行业案例分析 / 153

7.6 本章小结 / 154

第 8 章

图像生成与视觉识别 API 开发进阶实战 / 156

8.1 图像生成、图像识别、图像理解、图像处理技术简介 / 157

8.1.1 图像生成技术简介 / 157

8.1.2 图像识别技术简介 / 158

8.1.3 图像描述 / 理解和视觉问答技术简介 / 159

8.1.4 图像增强及图像超分技术简介 / 159

8.2 基于 Gitee 平台的 Serverless-API 实现图片生成及风格迁移 / 160

8.2.1 Serverless 架构在图像处理中的应用 / 161

8.2.2 基于 Gitee 平台 Stable Diffusion 的图像生成 API 实现 / 161

8.2.3 Kolors 中文图像生成 API 实现 / 166

8.2.4 基于 Kolors 的图像风格迁移 API 实现 / 169

8.3 通过图像识别和图像理解技术构建应用 / 173

8.3.1 InternVL 图像理解 / 173

8.3.2 3 个 AI 1.0 时代的图像识别开源项目 / 174

8.4 Real-ESRGAN 图像超分模型与传统 PIL 构建应用 / 177

8.4.1 两者在实现和解决问题上的差别和关系 / 177

8.4.2 用 Real-ESRGAN 大模型实现超分的应用 / 179

8.4.3 传统基于 PIL 实现的图像处理开源项目 / 180

8.5 本章小结 / 184

第 9 章

音频处理与视频生成 API 进阶开发实战 / 186

9.1 音频识别模型和语音合成模型解析 / 187

9.1.1 音频识别技术的发展与原理 / 187

9.1.2 Whisper 语音识别模型解析 / 187

9.1.3 Fish Speech 语音合成模型解析 / 188

9.1.4 ChatTTS 语音合成模型解析 / 188

9.1.5 语音识别、语音合成模型对比与选择建议 / 189

9.2 Serverless API 实现音频识别与语音合成 / 190

9.2.1 Serverless 架构在音频处理中的应用 / 190

9.2.2 基于 Whisper 的音频识别 API 实现 / 191

9.2.3 基于 ChatTTS、Fish Speech 的语音合成 API 实现 / 196

9.3 视频生成模型解析与 API 实现 / 200

9.3.1 视频生成技术的发展与原理 / 200

9.3.2 Wan2.1-T2V 模型解释 / 200

9.3.3 基于 Wan2.1-T2V 的视频生成 API 实现 / 200

9.4 音视频 API 的实际应用案例 / 204

9.4.1 基于录音 +Whisper+GUI 实现实时会议转录系统 / 204

9.4.2 基于 Whisper+ChatTTS/Fish Speech 实现多语言配音系统 / 209

9.4.3 基于 Wan2.1-T2V 实现节日祝福语视频生成器 / 213

9.5 本章小结 / 217

第 10 章

跨模态开发与应用集成实战 / 219

10.1 多模态大模型概述 / 220

10.1.1 多模态大模型定义和特点 / 220

10.1.2 多模态大模型的主要架构 / 220

10.1.3 主流多模态大模型对比 / 222

10.2 跨模态数据处理与融合技术 / 223

10.2.1 跨模态数据处理的关键技术 / 223

10.2.2 Python 实现跨模态数据处理与融合 / 225

10.3 基于跨模态大模型的应用开发 / 228

10.3.1 跨模态应用场景分析 / 228

10.3.2 多模态 RAG 系统 / 229

10.3.3 应用开发实战案例 / 230

10.4 多模态大模型应用的挑战与展望 / 235

10.4.1 当前面临的挑战 / 236

10.4.2 未来发展趋势 / 236

10.4.3 实践建议 / 237

10.5 本章小结 / 237

附录 A

“兴智杯”全国人工智能创新应用大赛参赛报名及算力获取 / 238

A1 获取和兑换“兴智杯”大赛算力券 / 239

A1.1 “兴智杯”大赛简介 / 239

A1.2 算力券的获取方式 / 239

A1.3 算力券的兑换流程 / 239

A2 “兴智杯”大赛使用算力券购买 Serverless API / 241

A2.1 沐曦模型资源包介绍 / 241

A2.2 购买沐曦模型资源包的详细步骤 / 242

A2.3 查看购买记录和资源使用情况 / 244

详情

本书聚焦 AIGC 与智能体编程开发实战,围绕开源大模型与API调用展开。本书分为10章,从基础理论到实际开发,全面讲解基于开源大模型与Serverless API的智能应用开发。第1~3章介绍Serverless API、大模型应用架构和开发环境搭建;第 4~6 章以流行的开源模型(如DeepSeek、Stable Diffusion、Whisper 等)为基础,逐步指导读者掌握文本生成、图像生成、语音处理的 API 开发技能;第 7、8 章深入多模态应用开发,如视频生成与跨模态交互;第9、10 章讲述 AI Agent、检索增强生成(RAG)与微调技术的高阶实践,以及企业案例与未来趋势。 本书以实战为核心,案例丰富、通俗易懂,适合对 AIGC 与智能体编程开发感兴趣,具备基础编程知识的开发者、创业者以及技术爱好者快速上手并应用于实际工作或教学中。

图书摘要

相关图书

DeepSeek原理与项目实战大模型部署、微调与应用开发
DeepSeek原理与项目实战大模型部署、微调与应用开发
软件工程3.0:大模型驱动的研发新范式
软件工程3.0:大模型驱动的研发新范式
图机器学习
图机器学习
Vibe Coding:AI 编程时代的认知重构
Vibe Coding:AI 编程时代的认知重构
大模型工程化:AI驱动下的数据体系
大模型工程化:AI驱动下的数据体系
Cursor与MCP快速入门:零基础开发智能体应用
Cursor与MCP快速入门:零基础开发智能体应用

相关文章

相关课程