前沿技术第四章
4.卷积神经网络
总结
总结概括
1. 卷积神经网络(CNN)简介
卷积神经网络是一种特殊的神经网络,其核心在于使用卷积运算替代一般的矩阵乘法运算。它的主要目标是解决计算机视觉中的图像识别问题。与人类轻松识别图像不同,机器在处理视角变换、光照条件、背景干扰和物体变形等问题时面临巨大挑战。
2. 动机与传统方法的不足
• 在CNN流行之前,图像处理依赖于提取边缘、纹理、线条等特征的传统方法,这些方法效率低且准确率不高。
• 随着机器学习的发展,尤其是数据驱动算法的应用,CNN使得某些图像集上的机器识别准确率超过了人类。
3. 卷积层的核心概念
• 滤波器:由可学习的滤波器集合构成,滤波器尺寸通常较小(如5x5x3或3x3x3),深度与输入数据一致。
• 卷积操作:滤波器在输入数据上滑动,计算内积生成激活图,表示对特定视觉特征(如边界、颜色、轮廓)的反应。
• 输出结构:多个滤波器形成多张二维激活图,按深度方向堆叠构成卷积层输出。
• 局部连接与参数共享:
◦ 局部连接:利用图片特征的局部性,通过感受野提取特征。
◦ 参数共享:同一滤波器在不同位置共享参数,减少计算量。
• 空间排列:卷积层的输出深度由滤波器数量决定,滑动步长和边界填充为超参数。
4. 池化层的作用
池化层(如最大池化)通过降采样减少数据维度,保留重要特征并降低过拟合风险。
5. 经典CNN模型
• VGGNet:
◦ 2014年由牛津大学和Google DeepMind提出,取得ILSVRC2014比赛分类第二名和定位第一名。
◦ 探索了网络深度与性能的关系,成功构建16~19层深的网络,错误率显著下降,泛化性强。
• 其他模型:
◦ Inception module:通过多尺度卷积提升性能。
◦ ResNet architecture:引入残差学习解决深层网络训练问题。
◦ 应用场景包括图像分类、目标定位、语义分割和风格迁移等。
6. 总结
卷积神经网络通过卷积层和池化层等结构,有效解决了图像识别中的复杂问题。经典模型如VGGNet、Inception和ResNet进一步推动了深度学习在计算机视觉领域的应用和发展。
大纲
卷积神经网络概述
• 动机:图像识别任务的挑战
◦ 人类对图片识别的轻松性与机器面临的困难对比
◦ 视角变换、光照条件、背景干扰和物体变形等问题的影响
◦ 计算机在图像识别中准确率低的原因
• 数据驱动算法的核心
◦ 图像分类无法通过简单规则实现
◦ 需要通过学习算法让机器自动学习特征进行分类
◦ 算法依赖于数据集
传统方法与卷积神经网络的对比
• 传统图像处理方法
◦ 提取边缘、纹理、线条等特征
◦ 效率低且准确率不高
• 卷积神经网络的优势
◦ 在某些图像集上机器识别准确率超过人类
◦ 卷积神经网络的作用及其重要性
卷积(Convolution)
卷积层参数
• 滤波器集合构成卷积层参数
◦ 尺寸示例:5x5x3 或 3x3x3
◦ 宽度、高度可定义,深度需与输入一致
• 前向传播过程
◦ 滑动滤波器计算内积生成激活图
◦ 激活图表示原图片对滤波器的反应
• 特征学习
◦ 学习边界、颜色、轮廓等视觉特征
◦ 更高层可能学习复杂图案如蜂巢状或车轮状
卷积层特性
局部连接
• 利用图片特征的局部性提取特征
• 神经元感受野大小为滤波器宽高
空间排列
• 输出深度由滤波器数量决定
• 滑动滤波器时需指定步长
• 边界填充作为超参数
稀疏连接与参数共享
• 神经元仅与前一层部分神经元相关联
• 参数共享减少模型复杂度
池化(Pooling)
• 最大池化层示例 (2x2 池化核, 滑动 2, 无填充)
• 池化作用:降维、保留关键信息
CNN经典模型
VGGNet
• 开发背景与成就
◦ 2014年提出,ILSVRC2014比赛分类项目第二名、定位项目第一名
• 探索深度与性能关系
◦ 构建16~19层深的卷积神经网络
◦ 错误率下降,泛化性好
其他模型
• Inception module
• Residual learning ResNet architecture
• Semantic segmentation
• Image classification Object localization
• Transferring style for image repainting
实现案例
• Pytorch实现LeNet