第 一部分 计算机视觉导论
第 1章 初探计算机视觉 2
1.1 什么是计算机视觉 2
1.2 为什么需要计算机视觉 3
1.3 计算机视觉的难点与挑战 3
1.4 计算机视觉的历史与发展 5
1.5 计算机视觉中变量的数学符号约定 6
1.6 小结 7
第二部分 图像处理
第 2章 卷积 10
2.1 简介 10
2.2 一维卷积 11
2.2.1 冲激信号 14
2.2.2 方波信号 15
2.3 二维卷积 16
2.3.1 冲激信号 18
2.3.2 方波信号 20
2.4 小结 21
第3章 图像滤波 22
3.1 简介 22
3.2 图像噪声 22
3.2.1 椒盐噪声 22
3.2.2 高斯噪声 24
3.3 均值滤波 24
3.4 高斯滤波 27
3.5 双边滤波 30
3.6 中值滤波 32
3.7 图像锐化 34
3.8 小结 35
第4章 模板匹配 37
4.1 简介 37
4.2 模板匹配的实现 37
4.2.1 匹配步骤 38
4.2.2 相似度度量 38
4.3 多目标模板匹配 42
4.4 小结 45
第5章 边缘检测 46
5.1 简介 46
5.2 边缘检测的数学模型 46
5.3 边缘检测算法 48
5.3.1 Sobel边缘检测算法 48
5.3.2 Canny边缘检测算法 51
5.4 小结 62
5.5 参考文献 62
第6章 角点检测 63
6.1 简介 63
6.2 Harris角点检测算法 64
6.2.1 计算像素值变化量 64
6.2.2 计算角点响应函数 66
6.3 代码实现 67
6.4 图像变换对角点检测的影响 70
6.5 小结 71
第7章 SIFT特征检测 72
7.1 块状区域检测与尺度空间 72
7.2 SIFT算法 76
7.2.1 局部极值点检测 76
7.2.2 特征点定位与筛选 77
7.2.3 特征点方向计算 79
7.2.4 特征点描述 80
7.3 代码实现 81
7.4 小结 94
7.5 参考文献 94
第8章 图像拼接 95
8.1 简介 95
8.2 图像变换 96
8.3 图像拼接算法 97
8.3.1 计算变换矩阵 98
8.3.2 利用RANSAC算法去除误匹配 99
8.3.3 图像变换与缝合 101
8.4 代码实现 101
8.5 小结 106
8.6 拓展阅读 107
第9章 图像分割 108
9.1 简介 108
9.2 图像分割算法 109
9.2.1 基于k均值聚类的图像分割算法 109
9.2.2 基于图切割的图像分割算法 113
9.3 小结 117
9.4 参考文献 118
第三部分 视觉识别
第 10章 图像分类 120
10.1 简介 120
10.2 数据集和度量 122
10.3 基于视觉词袋模型的图像分类算法 122
10.4 基于深度卷积网络的图像分类算法 128
10.5 小结 138
10.6 参考文献 138
第 11章 语义分割 140
11.1 简介 140
11.2 数据集和度量 141
11.3 全卷积网络 141
11.3.1 上采样 143
11.3.2 跳跃连接 145
11.4 FCN代码实现 149
11.5 小结 156
11.6 参考文献 156
第 12章 目标检测 157
12.1 简介 157
12.2 数据集和度量 158
12.3 目标检测模型 159
12.3.1 R-CNN 160
12.3.2 Fast R-CNN 162
12.3.3 Faster R-CNN 166
12.4 RPN代码整体框架 168
12.4.1 训练模块 173
12.4.2 head模块 179
12.4.3 anchor_generator模块 180
12.4.4 box_coder模块 184
12.4.5 filter_proposal模块 188
12.5 代码运行示例 191
12.6 小结 194
12.7 参考文献 194
第 13章 实例分割 195
13.1 简介 195
13.2 数据集和度量 196
13.3 Mask R-CNN 196
13.3.1 特征金字塔网络 197
13.3.2 感兴趣区域对齐 200
13.4 代码运行示例 205
13.5 小结 208
13.6 参考文献 209
第 14章 人体姿态估计 210
14.1 简介 210
14.2 数据集和度量 211
14.2.1 数据集 211
14.2.2 评测指标 211
14.3 人体姿态估计模型——DeepPose 212
14.3.1 基于深度神经网络的人体姿态估计 212
14.3.2 级联回归 213
14.4 DeepPose代码实现 215
14.5 小结 217
14.6 参考文献 218
第 15章 动作识别 219
15.1 简介 219
15.2 数据集和度量 220
15.2.1 数据集 220
15.2.2 评测指标 220
15.3 动作识别模型——C3D 220
15.3.1 三维卷积 221
15.3.2 C3D模型 223
15.4 C3D代码实现 224
15.5 小结 225
15.6 参考文献 226
第四部分 场景重建
第 16章 照相机标定 228
16.1 简介 228
16.2 照相机成像原理 228
16.2.1 照相机模型 229
16.2.2 坐标系的定义 229
16.2.3 照相机外参 229
16.2.4 照相机内参 230
16.2.5 投影矩阵 232
16.2.6 畸变 233
16.3 照相机标定的实现 235
16.3.1 标定板 235
16.3.2 标定流程 236
16.3.3 代码实现 238
16.4 小结 247
第 17章 运动场和光流 248
17.1 简介 248
17.2 运动场 249
17.3 光流 250
17.3.1 特征点法 250
17.3.2 直接法 250
17.3.3 Lucas-Kanade光流法 251
17.3.4 Lucas-Kanade光流法的改进 252
17.4 代码实现 253
17.5 小结 261
17.6 参考文献 261
第 18章 平行双目视觉 262
18.1 简介 262
18.2 平行双目照相机 262
18.2.1 概念定义 262
18.2.2 视差 263
18.2.3 双目特征匹配 264
18.2.4 全局优化 265
18.3 代码实现 266
18.4 小结 270
18.5 参考文献 271
第 19章 三维重建 272
19.1 简介 272
19.2 对极几何 273
19.2.1 数学定义 273
19.2.2 本质矩阵 275
19.2.3 利用八点法求解基础矩阵 277
19.2.4 通过本质矩阵求解照相机位姿 278
19.3 三角测量 278
19.4 代码实现 280
19.5 小结 290
总结与展望 291
中英文术语对照表 293