前沿技术第四章

4.卷积神经网络

4.卷积神经网络.pdf

总结

总结概括

1. 卷积神经网络(CNN)简介

卷积神经网络是一种特殊的神经网络,其核心在于使用卷积运算替代一般的矩阵乘法运算。它的主要目标是解决计算机视觉中的图像识别问题。与人类轻松识别图像不同,机器在处理视角变换、光照条件、背景干扰和物体变形等问题时面临巨大挑战。

2. 动机与传统方法的不足

• 在CNN流行之前,图像处理依赖于提取边缘、纹理、线条等特征的传统方法,这些方法效率低且准确率不高。

• 随着机器学习的发展,尤其是数据驱动算法的应用,CNN使得某些图像集上的机器识别准确率超过了人类。

3. 卷积层的核心概念

• 滤波器:由可学习的滤波器集合构成,滤波器尺寸通常较小(如5x5x3或3x3x3),深度与输入数据一致。

• 卷积操作:滤波器在输入数据上滑动,计算内积生成激活图,表示对特定视觉特征(如边界、颜色、轮廓)的反应。

• 输出结构:多个滤波器形成多张二维激活图,按深度方向堆叠构成卷积层输出。

• 局部连接与参数共享

◦ 局部连接:利用图片特征的局部性,通过感受野提取特征。

◦ 参数共享:同一滤波器在不同位置共享参数,减少计算量。

• 空间排列:卷积层的输出深度由滤波器数量决定,滑动步长和边界填充为超参数。

4. 池化层的作用

池化层(如最大池化)通过降采样减少数据维度,保留重要特征并降低过拟合风险。

5. 经典CNN模型

• VGGNet

◦ 2014年由牛津大学和Google DeepMind提出,取得ILSVRC2014比赛分类第二名和定位第一名。

◦ 探索了网络深度与性能的关系,成功构建16~19层深的网络,错误率显著下降,泛化性强。

• 其他模型

◦ Inception module:通过多尺度卷积提升性能。

◦ ResNet architecture:引入残差学习解决深层网络训练问题。

◦ 应用场景包括图像分类、目标定位、语义分割和风格迁移等。

6. 总结

卷积神经网络通过卷积层和池化层等结构,有效解决了图像识别中的复杂问题。经典模型如VGGNet、Inception和ResNet进一步推动了深度学习在计算机视觉领域的应用和发展。

大纲

卷积神经网络概述

• 动机:图像识别任务的挑战

◦ 人类对图片识别的轻松性与机器面临的困难对比

◦ 视角变换、光照条件、背景干扰和物体变形等问题的影响

◦ 计算机在图像识别中准确率低的原因

• 数据驱动算法的核心

◦ 图像分类无法通过简单规则实现

◦ 需要通过学习算法让机器自动学习特征进行分类

◦ 算法依赖于数据集

传统方法与卷积神经网络的对比

• 传统图像处理方法

◦ 提取边缘、纹理、线条等特征

◦ 效率低且准确率不高

• 卷积神经网络的优势

◦ 在某些图像集上机器识别准确率超过人类

◦ 卷积神经网络的作用及其重要性

卷积(Convolution)

卷积层参数

• 滤波器集合构成卷积层参数

◦ 尺寸示例:5x5x3 或 3x3x3

◦ 宽度、高度可定义,深度需与输入一致

• 前向传播过程

◦ 滑动滤波器计算内积生成激活图

◦ 激活图表示原图片对滤波器的反应

• 特征学习

◦ 学习边界、颜色、轮廓等视觉特征

◦ 更高层可能学习复杂图案如蜂巢状或车轮状

卷积层特性

局部连接

• 利用图片特征的局部性提取特征

• 神经元感受野大小为滤波器宽高

空间排列

• 输出深度由滤波器数量决定

• 滑动滤波器时需指定步长

• 边界填充作为超参数

稀疏连接与参数共享

• 神经元仅与前一层部分神经元相关联

• 参数共享减少模型复杂度

池化(Pooling)

• 最大池化层示例 (2x2 池化核, 滑动 2, 无填充)

• 池化作用:降维、保留关键信息

CNN经典模型

VGGNet

• 开发背景与成就

◦ 2014年提出,ILSVRC2014比赛分类项目第二名、定位项目第一名

• 探索深度与性能关系

◦ 构建16~19层深的卷积神经网络

◦ 错误率下降,泛化性好

其他模型

• Inception module

• Residual learning ResNet architecture

• Semantic segmentation

• Image classification Object localization

• Transferring style for image repainting

实现案例

• Pytorch实现LeNet


前沿技术第四章
https://martin666.site/2025/06/10/前沿技术第四章/
Author
梦之泪伤
Posted on
June 10, 2025
Updated on
June 13, 2025
Licensed under