第 1章
快速入门 AIGC 与 Serverless API 开发 / 1
1.1 AIGC 演进与开源大模型生态 / 2
1.1.1 AIGC:智能时代的内容生产革命 / 2
1.1.2 AIGC 的发展历程 / 3
1.1.3 AIGC/UGC/PGC 三类常见内容生成对比分析 / 3
1.1.4 主流 AIGC 技术类别与典型大模型简介 / 4
1.1.5 部署开源大模型及输出 API 对开发者的意义 / 7
1.2 Serverless API 和 OpenAI 兼容 API 的概念 / 10
1.2.1 Serverless 的定义与特征剖析 / 10
1.2.2 Serverless API 与传统架构的对比分析 / 11
1.2.3 OpenAI 兼容 API 的定义与核心要素 / 13
1.2.4 OpenAI 兼容 API 的典型落地路径 / 13
1.3 开源大模型与 Serverless API 架构融合的实际意义 / 14
1.3.1 Serverless API 架构解决开源大模型部署难题 / 15
1.3.2 开源生态与 Serverless API 的协同效应 / 15
1.3.3 国内外主流开源大模型 Token/API 服务平台 / 16
1.4 基于 API 调用开发在大模型编程开发中的层级 / 17
1.4.1 大模型应用开发的层次架构 / 17
1.4.2 API 层级调用架构在应用开发场景中的对比图示 / 19
1.4.3 API 调用开发的平台和入口 / 20
1.5 本章小结 / 22
第 2 章
快速理解 AIGC 与 API 开发的基础技术栈 / 23
2.1 快速入门 HTTP 协议中的 RESTful API / 24
2.1.1 RESTful API 和 CRUD(增删改查)的对应关系 / 24
2.1.2 HTTP requests 库和兼容 OpenAI SDK 调用方式对比 / 26
2.2 标准化的 API 调用流程以及简单错误快速处理 / 28
2.2.1 API 调用的基础规范与流程 / 28
2.2.2 API 调用简单代码示例 / 29
2.2.3 常见 API 错误与快速排错技巧 / 29
2.3 常见 AIGC API 的调用参数讲解 / 32
2.3.1 API 调用请求常用参数快速解析 / 32
2.3.2 常见 API 响应数据基础字段介绍 / 35
2.4 AI 辅助开发工具与平台快速认知 / 36
2.4.1 AI 辅助开发工具和平台的作用 / 36
2.4.2 AI 辅助编码类工具 / 37
2.4.3 AI 辅助平台类工具 / 38
2.5 本章小结 / 38
第 3 章
初步设置和使用 API 之实战入门 / 40
3.1 注册与登录以及如何获得 API Key / 41
3.1.1 Gitee AI 平台介绍 / 41
3.1.2 注册 Gitee AI 账号 / 42
3.1.3 创建 API 密钥 / 43
3.1.4 使用 API 密钥获取 Token / 44
3.2 开始使用 Serverless API / 45
3.2.1 选择模型和创建访问令牌 / 46
3.2.2 测试模型 API / 48
3.2.3 查看 API 文档和示例代码 / 50
3.2.4 cURL 命令行工具的常见用法举例 / 51
3.3 常见问题与解决方案 / 53
3.3.1 账号和访问问题 / 53
3.3.2 算力券和资源包问题 / 54
3.4 本章小结 / 54
第 4 章
基于 Serverless API 实现大模型编程初步 / 56
4.1 目标:调用模型接口,得到返回的交互结果 / 57
4.2 步骤:配置环境、安装库与获取 API Key / 57
4.2.1 创建项目并安装依赖 / 58
4.2.2 获取 Gitee Serverless API 的 API Key / 58
4.2.3 API Key 的 3 种管理方式 / 58
4.3 过程:核心代码(包括错误示例)详解 / 59
4.4 成功:正确示例及代码演示 / 60
4.5 改进:生成中文响应结果 / 65
4.6 精进:简练中文回馈内容 / 66
4.7 本章小结 / 66
第 5 章
多种模态 API 原子能力初级实战 / 68
5.1 开发环境配置与依赖库安装 / 69
5.1.1 Python 环境配置 / 70
5.1.2 安装必要的依赖库 / 71
5.1.3 配置 API 访问凭证 / 73
5.2 实现 Instruct 与 Chat 的文本生成 Hello World / 75
5.2.1 Instruct 模型与 Chat 模型的区别 / 75
5.2.2 使用 Instruct 模型生成 Hello World / 76
5.2.3 使用 Chat 模型生成 Hello World / 79
5.2.4 Instruct 与 Chat 模型的选择建议 / 81
5.3 实现 Stable Diffusion 的文生图 Hello World / 82
5.3.1 Gitee AI 平台的 Stable Diffusion 模型简介 / 82
5.3.2 配置 Stable Diffusion API / 83
5.3.3 使用 Stable Diffusion 生成第 一张图像 / 83
5.3.4 调整生成参数提升图像质量 / 86
5.4 实现 Whisper 的语音识别 Hello World / 87
5.4.1 Gitee AI 平台的 Whisper 模型简介 / 87
5.4.2 配置语音识别 API / 87
5.4.3 使用 Gitee AI 平台的 Whisper API 进行语音识别 / 87
5.4.4 使用本地音频文件进行语音识别 / 90
5.4.5 实时语音识别 / 92
5.5 本章小结 / 95
第 6 章
多种模态 API 调用及编排进阶实战 / 96
6.1 实现 DeepSeek+Stable Diffusion 的图像生成优化 / 97
6.1.1 DeepSeek 模型优化机制 / 97
6.1.2 API 编排实现协同 AIGC 图像生成 / 99
6.1.3 参数优化与问题排查 / 103
6.2 实现 Wan2.1-T2V 的文生视频 / 104
6.2.1 视频生成模型简介 / 104
6.2.2 使用 Wan2.1-T2V 生成视频 / 105
6.2.3 视频生成参数调优 / 111
6.3 实现 Hunyuan3D-2 的图生 3D / 111
6.3.1 Hunyuan 3D 生成模型简介 / 111
6.3.2 使用 Hunyuan3D-2 生成 3D 模型 / 111
6.3.3 使用 Open3D 查看和处理 3D 模型 / 116
6.4 API 调用常见错误与调试进阶 / 118
6.4.1 常见错误类型 / 119
6.4.2 API 调用调试技巧 / 119
6.4.3 实现请求重试和错误处理 / 120
6.4.4 API 调用性能优化 / 123
6.5 本章小结 / 124
第 7 章
辅助生成代码、打造多种形态及践行 Vibe Coding / 126
7.1 主流开源代码辅助生成大模型 / 127
7.1.1 回顾开源大语言模型的发展与意义 / 127
7.1.2 DeepSeek-V3/R1 模型回顾 / 128
7.1.3 CodeGeeX 模型详解 / 128
7.1.4 新一代开源 Coder 与数学 / 证明模型的发展 / 129
7.1.5 模型性能对比与选择建议 / 130
7.2 用文本 / 代码生成大模型 API 构建不同生成形态的工具 / 132
7.2.1 文本 / 代码生成工具的基本架构 / 132
7.2.2 智能对话工具的实现(命令行) / 132
7.2.3 文本摘要工具的实现(Web 网页端) / 134
7.2.4 文本续写工具的实现(API) / 136
7.3 AI 代码辅助工具实战 / 140
7.3.1 AI 代码辅助工具概述 / 140
7.3.2 GitHub Copilot 使用实战 / 141
7.3.3 Cline AI 代码助手使用实战 / 143
7.3.4 Trae AI 代码助手使用实战 / 144
7.3.5 Cursor 编译器使用实战 / 145
7.3.6 通义灵码代码助手使用实战 / 146
7.4 AI Coding 中 VSCode+Cline+Gitee.AI 的配置与实践 / 148
7.4.1 VSCode 中 AI 编程助手的选择 / 148
7.4.2 VSCode 中配置 Cline 第三方 API 的详细步骤 / 148
7.4.3 实用 VSCode 扩展组合推荐 / 150
7.4.4 常见问题与解决方案 / 150
7.5 如何提升 AI 代码生成的质量 / 151
7.5.1 面向代码生成的提示词工程技巧 / 151
7.5.2 行业案例分析 / 153
7.6 本章小结 / 154
第 8 章
图像生成与视觉识别 API 开发进阶实战 / 156
8.1 图像生成、图像识别、图像理解、图像处理技术简介 / 157
8.1.1 图像生成技术简介 / 157
8.1.2 图像识别技术简介 / 158
8.1.3 图像描述 / 理解和视觉问答技术简介 / 159
8.1.4 图像增强及图像超分技术简介 / 159
8.2 基于 Gitee 平台的 Serverless-API 实现图片生成及风格迁移 / 160
8.2.1 Serverless 架构在图像处理中的应用 / 161
8.2.2 基于 Gitee 平台 Stable Diffusion 的图像生成 API 实现 / 161
8.2.3 Kolors 中文图像生成 API 实现 / 166
8.2.4 基于 Kolors 的图像风格迁移 API 实现 / 169
8.3 通过图像识别和图像理解技术构建应用 / 173
8.3.1 InternVL 图像理解 / 173
8.3.2 3 个 AI 1.0 时代的图像识别开源项目 / 174
8.4 Real-ESRGAN 图像超分模型与传统 PIL 构建应用 / 177
8.4.1 两者在实现和解决问题上的差别和关系 / 177
8.4.2 用 Real-ESRGAN 大模型实现超分的应用 / 179
8.4.3 传统基于 PIL 实现的图像处理开源项目 / 180
8.5 本章小结 / 184
第 9 章
音频处理与视频生成 API 进阶开发实战 / 186
9.1 音频识别模型和语音合成模型解析 / 187
9.1.1 音频识别技术的发展与原理 / 187
9.1.2 Whisper 语音识别模型解析 / 187
9.1.3 Fish Speech 语音合成模型解析 / 188
9.1.4 ChatTTS 语音合成模型解析 / 188
9.1.5 语音识别、语音合成模型对比与选择建议 / 189
9.2 Serverless API 实现音频识别与语音合成 / 190
9.2.1 Serverless 架构在音频处理中的应用 / 190
9.2.2 基于 Whisper 的音频识别 API 实现 / 191
9.2.3 基于 ChatTTS、Fish Speech 的语音合成 API 实现 / 196
9.3 视频生成模型解析与 API 实现 / 200
9.3.1 视频生成技术的发展与原理 / 200
9.3.2 Wan2.1-T2V 模型解释 / 200
9.3.3 基于 Wan2.1-T2V 的视频生成 API 实现 / 200
9.4 音视频 API 的实际应用案例 / 204
9.4.1 基于录音 +Whisper+GUI 实现实时会议转录系统 / 204
9.4.2 基于 Whisper+ChatTTS/Fish Speech 实现多语言配音系统 / 209
9.4.3 基于 Wan2.1-T2V 实现节日祝福语视频生成器 / 213
9.5 本章小结 / 217
第 10 章
跨模态开发与应用集成实战 / 219
10.1 多模态大模型概述 / 220
10.1.1 多模态大模型定义和特点 / 220
10.1.2 多模态大模型的主要架构 / 220
10.1.3 主流多模态大模型对比 / 222
10.2 跨模态数据处理与融合技术 / 223
10.2.1 跨模态数据处理的关键技术 / 223
10.2.2 Python 实现跨模态数据处理与融合 / 225
10.3 基于跨模态大模型的应用开发 / 228
10.3.1 跨模态应用场景分析 / 228
10.3.2 多模态 RAG 系统 / 229
10.3.3 应用开发实战案例 / 230
10.4 多模态大模型应用的挑战与展望 / 235
10.4.1 当前面临的挑战 / 236
10.4.2 未来发展趋势 / 236
10.4.3 实践建议 / 237
10.5 本章小结 / 237
附录 A
“兴智杯”全国人工智能创新应用大赛参赛报名及算力获取 / 238
A1 获取和兑换“兴智杯”大赛算力券 / 239
A1.1 “兴智杯”大赛简介 / 239
A1.2 算力券的获取方式 / 239
A1.3 算力券的兑换流程 / 239
A2 “兴智杯”大赛使用算力券购买 Serverless API / 241
A2.1 沐曦模型资源包介绍 / 241
A2.2 购买沐曦模型资源包的详细步骤 / 242
A2.3 查看购买记录和资源使用情况 / 244