目 录
第 1章 人工智能和DeepSeek全景概览 1
1.1 人工智能介绍 1
1.1.1 人工智能的核心概念与应用领域 1
1.1.2 人工智能的四个阶段 2
1.1.3 从规则驱动到数据驱动的范式转变 3
1.2 大模型介绍 4
1.2.1 大模型的原理和作用 4
1.2.2 主流大模型介绍 4
1.3 DeepSeek的创新之光 6
1.3.1 DeepSeek公司简介 6
1.3.2 DeepSeek对人工智能市场的影响 7
1.3.3 DeepSeek的应用场景 7
1.3.4 DeepSeek的未来展望 9
1.3.5 DeepSeek的主要产品和开源信息 9
1.3.6 DeepSeek与其他模型的对比 11
第 2章 DeepSeek底层架构技术揭秘 14
2.1 Transformer架构技术 14
2.1.1 Transformer介绍 14
2.1.2 Transformer的核心组件 15
2.1.3 聚焦智慧:多头注意力机制揭秘 16
2.1.4 多头潜注意力概述 17
2.2 动态任务分配的核心法则 18
2.2.1 动态任务分配的特点和原理 18
2.2.2 动态任务分配的应用场景 19
2.3 稀疏激活机制探秘 22
2.3.1 稀疏激活机制介绍 22
2.3.2 稀疏激活机制的实现方式 23
2.3.3 稀疏激活机制的应用领域 26
2.4 混合专家架构技术解析 28
2.4.1 MoE架构介绍 28
2.4.2 MoE架构的特点 29
2.4.3 MoE架构的应用 30
2.4.4 DeepSeek中的MoE架构介绍 31
2.5 归一化技术 32
2.5.1 归一化技术的必要性 33
2.5.2 微调脉动:LayerNorm技术原理 33
2.5.3 轻量替代:RMSNorm技术探秘 34
2.6 模型训练与优化技术 35
2.6.1 多令牌预测技术 35
2.6.2 高效并行策略 36
2.6.3 混合精度训练与量化策略 37
2.6.4 EMA显存优化 38
2.6.5 结构创新:头尾参数共享策略 39
第3章 DeepSeek硬件协同架构分析 40
3.1 异构计算支持与适配 40
3.1.1 多加速器融合适配层设计 40
3.1.2 算子级优化与定制化指令集整合 41
3.2 内存管理与优化策略 43
3.2.1 显存碎片化解决策略与动态内存分配 43
3.2.2 梯度内存复用与跨设备一致性管理 45
3.3 分布式计算与通信优化框架 46
3.3.1 分布式架构设计原则与网络拓扑优化 46
3.3.2 主流分布式框架的适配与改进 47
3.3.3 异步通信、数据一致性与同步机制 48
3.4 高性能计算优化与资源调度 49
3.4.1 并行计算模型 49
3.4.2 动态负载均衡与资源智能调度 50
3.4.3 缓存优化与内存访问加速技术 51
3.5 DeepSeek的专属 GPU优化与异构加速实践 52
3.5.1 GPU计算架构优化与深度集成 52
3.5.2 GPU编程模型、FP8 精度与量化策略 53
3.5.3 异构计算平台搭建及实战案例 53
第4章 DeepSeekMoE模型全景剖析 55
4.1 DeepSeekMoE架构介绍 55
4.1.1 背景介绍 55
4.1.2 架构解码:DeepSeekMoE的策略蓝图 56
4.1.3 异同论剑:与传统MoE架构的关键差异 57
4.2 DeepSeekMoE原理透视 57
4.2.1 细粒度专家细分 57
4.2.2 共享专家隔离 58
4.2.3 负载平衡 59
4.3 DeepSeekMoE模型的微调 61
4.3.1 DeepSeekMoE模型微调技术介绍 61
4.3.2 ZeRO加持:大模型优化 62
4.4 DeepSeekMoE模型性能评估 66
4.4.1 训练数据和分词 66
4.4.2 硬件基础设施 67
4.4.3 超参数配置 68
4.4.4 评估基准 69
4.4.5 评估结果 70
4.4.6 与密集模型的对比 71
4.4.7 DeepSeekMoE 2B测试 73
4.5 消融研究 74
4.5.1 消融研究介绍 74
4.5.2 消融研究在大模型中的应用 74
4.5.3 DeepSeekMoE模型的消融研究 75
4.6 DeepSeekMoE 16B测试 76
4.6.1 训练数据和分词 76
4.6.2 设置超参数 77
4.6.3 评估基准 78
4.7 DeepSeekMoE 16B 的对齐 79
4.7.1 测试设置 79
4.7.2 评估结果 80
第5章 DeepSeek多模态大模型架构 83
5.1 DeepSeek多模态大模型的发展轨迹 83
5.2 Janus模型剖析 84
5.2.1 架构介绍 84
5.2.2 多模态理解路径 85
5.2.3 视觉生成路径 88
5.2.4 自回归Transformer 94
5.2.5 三阶段训练策略 96
5.2.6 Janus 模型的推理与扩展性 97
5.3 Janus-Pro模型的深入探索 98
5.3.1 解耦视觉编码 98
5.3.2 训练策略 99
5.3.3 优化训练策略 101
5.3.4 数据扩展策略 102
5.3.5 模型规模扩展 103
5.4 JanusFlow模型分析 104
5.4.1 自回归建模与 Rectified Flow生成 104
5.4.2 任务解耦的编码器 105
5.4.3 U-ViT进阶:通用视觉Transformer架构 106
5.4.4 三阶段训练策略 106
5.4.5 实验结果 107
第6章 DeepSeek推理模型解析 110
6.1 DeepSeek-R1模型介绍 110
6.1.1 DeepSeek-R1模型演进 110
6.1.2 DeepSeek-R1模型的基本架构 111
6.1.3 训练蓝图:从数据到参数的炼成方案 112
6.1.4 开源信息介绍 113
6.2 DeepSeek推理模型的核心引擎 114
6.2.1 混合专家架构 114
6.2.2 多头潜注意力 115
6.2.3 强化学习 117
6.3 DeepSeek-R1-Zero的自我进化 118
6.3.1 强化学习算法 118
6.3.2 奖励建模 120
6.3.3 训练模板 121
6.3.4 DeepSeek-R1-Zero的自我进化过程 122
6.3.5 DeepSeek-R1-Zero的“顿悟时刻” 123
6.3.6 DeepSeek-R1-Zero性能测试 124
6.4 DeepSeek-R1训练方案 125
6.4.1 冷启动 125
6.4.2 推理导向的强化学习 126
6.4.3 拒绝采样和监督微调 127
6.4.4 全场景强化学习 130
6.5 蒸馏处理与轻量化 132
6.5.1 AI大模型中的蒸馏处理 132
6.5.2 基础模型的选择与蒸馏过程 134
6.5.3 模型蒸馏的技术原理 134
第7章 稀疏矩阵技术 136
7.1 稀疏矩阵介绍 136
7.1.1 稀疏矩阵的基础知识 136
7.1.2 稀疏矩阵在大模型中的应用 137
7.2 DeepSeek的稀疏注意力再造 138
7.2.1 NSA技术背景介绍 138
7.2.2 稀疏注意力方法的重新思考 140
7.2.3 整体设计和实现策略 141
7.2.4 评估NSA的性能 144
7.2.5 NSA的效率分析 147
7.2.6 NSA应用结论 147
7.3 MoBA—块注意力混合 148
7.3.1 MoBA介绍 148
7.3.2 测试结果 150
7.3.3 NSA和MoBA的对比 151
第8章 DeepSeek模型的本地部署 152
8.1 Ollama本地部署 152
8.1.1 安装Ollama 152
8.1.2 DeepSeek模型的安装与配置 154
8.1.3 基于本地DeepSeek模型的对话程序 156
8.2 LM Studio本地可视化部署 159
8.2.1 LM Studio的特点与安装 159
8.2.2 安装并配置DeepSeek模型 161
8.2.3 LM Studio API 164
8.2.4 使用Dify 调用 LM Studio模型 165
8.3 Chatbox本地部署 167
8.3.1 Chatbox介绍 167
8.3.2 Chatbox+Ollama的本地部署 168
8.4 基于Ollama+Docker+Open WebUI的本地部署 171
8.4.1 Open WebUI介绍 171
8.4.2 Docker介绍 172
8.4.3 使用 Docker部署 Open WebUI 173
第9章 DeepSeek应用开发实战 177
9.1 DeepSeek API开发基础 177
9.1.1 DeepSeek API介绍 177
9.1.2 DeepSeek API基本教程 177
9.1.3 基于DeepSeek API的对话程序 180
9.2 DeepSeek的基本接入实战 182
9.2.1 DeepSeek接入Chatbox 182
9.2.2 DeepSeek接入NextChat 184
9.3 DeepSeek接入社交媒体工具 188
9.3.1 基于DeepSeek的微信聊天机器人 188
9.3.2 基于DeepSeek的QQ机器人 191
9.4 将DeepSeek接入Office 197
9.4.1 OfficeAI介绍 197
9.4.2 在Word中应用DeepSeek 198
9.4.3 在Excel中应用DeepSeek 202
9.5 将DeepSeek接入VS Code 206
9.5.1 Continue基础 206
9.5.2 DeepSeek中用VS Code 生成代码 208
9.5.3 调用DeepSeek生成代码 210
9.5.4 DeepSeek代码生成和补全 211
第 10章 推理技术解密:DeepSeek-Prover-V2全景分析 212
10.1 启示引擎:模型概述 212
10.1.1 动机探源:背景与驱动 212
10.1.2 初露锋芒:DeepSeek-Prover-V2 模型简介 213
10.2 架构深潜:核心设计 213
10.2.1 智能集结:DeepSeek-Prover-V2 中的MoE协同 214
10.2.2 时空拓展:超长上下文处理策略 215
10.3 设计范式 216
10.3.1 递归裂变:证明与子目标分解 216
10.3.2 语义蜕变:自然语言到形式化证明的转换 216
10.3.3 知识进阶:课程学习框架构建 217
10.3.4 智能飞跃:强化学习优化路径 218
10.4 训练全过程解析 219
10.4.1 双阶跃进:两阶段训练策略概览 219
10.4.2 数据熔炉:训练数据生成与准备 220
10.4.3 策略脉动:强化学习训练方案 220
10.5 性能剖析:评测与洞见 221
10.5.1 标尺铸造:评估指标与方法 221
10.5.2 性能表现与成果 222
10.6 应用场景展望 222
10.6.1 自动定理验证:逻辑推演实战 222
10.6.2 推理训练营:逻辑思维强化演练 223
10.7 开放共生:开源与部署 224
10.7.1 社群共创:开源现状与资源 224
10.7.2 一键落地:部署方式与实践指南 226