前沿技术第四章

4.卷积神经网络

4.卷积神经网络.pdf

总结

总结概括

1. 卷积神经网络（CNN）简介

卷积神经网络是一种特殊的神经网络，其核心在于使用卷积运算替代一般的矩阵乘法运算。它的主要目标是解决计算机视觉中的图像识别问题。与人类轻松识别图像不同，机器在处理视角变换、光照条件、背景干扰和物体变形等问题时面临巨大挑战。

2. 动机与传统方法的不足

• 在CNN流行之前，图像处理依赖于提取边缘、纹理、线条等特征的传统方法，这些方法效率低且准确率不高。

• 随着机器学习的发展，尤其是数据驱动算法的应用，CNN使得某些图像集上的机器识别准确率超过了人类。

3. 卷积层的核心概念

• 滤波器：由可学习的滤波器集合构成，滤波器尺寸通常较小（如5x5x3或3x3x3），深度与输入数据一致。

• 卷积操作：滤波器在输入数据上滑动，计算内积生成激活图，表示对特定视觉特征（如边界、颜色、轮廓）的反应。

• 输出结构：多个滤波器形成多张二维激活图，按深度方向堆叠构成卷积层输出。

• 局部连接与参数共享：

◦ 局部连接：利用图片特征的局部性，通过感受野提取特征。

◦ 参数共享：同一滤波器在不同位置共享参数，减少计算量。

• 空间排列：卷积层的输出深度由滤波器数量决定，滑动步长和边界填充为超参数。

4. 池化层的作用

池化层（如最大池化）通过降采样减少数据维度，保留重要特征并降低过拟合风险。

5. 经典CNN模型

• VGGNet：

◦ 2014年由牛津大学和Google DeepMind提出，取得ILSVRC2014比赛分类第二名和定位第一名。

◦ 探索了网络深度与性能的关系，成功构建16~19层深的网络，错误率显著下降，泛化性强。

• 其他模型：

◦ Inception module：通过多尺度卷积提升性能。

◦ ResNet architecture：引入残差学习解决深层网络训练问题。

◦ 应用场景包括图像分类、目标定位、语义分割和风格迁移等。

6. 总结

卷积神经网络通过卷积层和池化层等结构，有效解决了图像识别中的复杂问题。经典模型如VGGNet、Inception和ResNet进一步推动了深度学习在计算机视觉领域的应用和发展。

大纲

卷积神经网络概述

• 动机：图像识别任务的挑战

◦ 人类对图片识别的轻松性与机器面临的困难对比

◦ 视角变换、光照条件、背景干扰和物体变形等问题的影响

◦ 计算机在图像识别中准确率低的原因

• 数据驱动算法的核心

◦ 图像分类无法通过简单规则实现

◦ 需要通过学习算法让机器自动学习特征进行分类

◦ 算法依赖于数据集

传统方法与卷积神经网络的对比

• 传统图像处理方法

◦ 提取边缘、纹理、线条等特征

◦ 效率低且准确率不高

• 卷积神经网络的优势

◦ 在某些图像集上机器识别准确率超过人类

◦ 卷积神经网络的作用及其重要性

卷积（Convolution）

卷积层参数

• 滤波器集合构成卷积层参数

◦ 尺寸示例：5x5x3 或 3x3x3

◦ 宽度、高度可定义，深度需与输入一致

• 前向传播过程

◦ 滑动滤波器计算内积生成激活图

◦ 激活图表示原图片对滤波器的反应

• 特征学习

◦ 学习边界、颜色、轮廓等视觉特征

◦ 更高层可能学习复杂图案如蜂巢状或车轮状

卷积层特性

局部连接

• 利用图片特征的局部性提取特征

• 神经元感受野大小为滤波器宽高

空间排列

• 输出深度由滤波器数量决定

• 滑动滤波器时需指定步长

• 边界填充作为超参数

稀疏连接与参数共享

• 神经元仅与前一层部分神经元相关联

• 参数共享减少模型复杂度

池化（Pooling）

• 最大池化层示例 (2x2 池化核, 滑动 2, 无填充)

• 池化作用：降维、保留关键信息

CNN经典模型

VGGNet

• 开发背景与成就

◦ 2014年提出，ILSVRC2014比赛分类项目第二名、定位项目第一名

• 探索深度与性能关系

◦ 构建16~19层深的卷积神经网络

◦ 错误率下降，泛化性好

其他模型

• Inception module

• Residual learning ResNet architecture

• Semantic segmentation

• Image classification Object localization

• Transferring style for image repainting

实现案例

• Pytorch实现LeNet

前沿技术

#邹建

前沿技术第四章

https://martin666.site/2025/06/10/前沿技术第四章/

Author

梦之泪伤

Posted on

June 10, 2025

Updated on

June 13, 2025

Licensed under

前沿技术第五章 Previous

前沿技术第三章 Next