前沿技术第五章
5.循环神经网络
总结
循环神经网络(RNN)总结
1. 问题介绍
• 如果输入单一词(如”beijing”),且无记忆特性,网络输出相同结果。
• 若具备记忆功能,网络可根据前面的词调整输出,结果不同。
2. 基本结构
• 记忆单元:将网络输出保存在记忆单元中,与下一次输入联合进入网络。
• 输入顺序影响:输入序列的顺序会改变输出结果。
• 长序列处理:无论序列多长,均可逐次输入网络以得到最终结果。
3. 扩展结构
• 梯度问题:深度循环网络和双向RNN是其扩展形式。
• 长期依赖挑战:
◦ 梯度易消失(常见)或爆炸(少见但影响大)。
4. 门控RNN
• LSTM(长短期记忆网络):
◦ 包含遗忘门、输入门、细胞状态更新和输出门。
◦ 遗忘门决定丢弃哪些信息;输入门选择新信息存入细胞状态;细胞状态更新后生成输出。
◦ 可通过”窥视孔连接”让门层观察细胞状态。
• GRU(门控递归单元):
◦ 将遗忘门和输入门合并为更新门,简化模型结构。
◦ 参数减少约1/3,效果接近LSTM,不易过拟合。
5. 存在问题
• 遗忘性:RNN对近期信息预测表现较好,但难以处理长时依赖问题。
6. 应用
• 序列向量操作:
◦ 图像分类、图像描述生成、情感分析、机器翻译、视频分类等。
• 生成模型:
◦ 自编码器用于降维或特征学习,变分自编码器(VAE)和生成对抗网络(GAN)推动生成式建模发展。
7. 核心要点
• RNN通过记忆单元实现序列数据处理,但存在梯度消失或爆炸的问题。
• LSTM和GRU通过门机制解决长期依赖问题,提升性能。
• 广泛应用于自然语言处理、图像处理等领域。
大纲
循环神经网络(RNN)
• RNN的核心在于通过记忆单元实现对序列数据的处理。
• 解决了传统神经网络无法记忆的问题。
1. 问题介绍
• 如果没有记忆特性,输入相同部分时输出结果一致。
• 引入记忆后,前序信息会影响后续输出结果。
2. 基本结构
输入与记忆单元
• 网络将输出保存在记忆单元中。
• 下一次输入时,联合当前输入和记忆单元作为新输入。
输出机制
• 网络不仅输出结果,还会更新记忆单元。
• 输入序列顺序影响最终输出结果。
• 可以处理任意长度的序列数据。
3. 存在的问题
记忆的遗忘性
• 对近期信息预测效果较好,但对长时依赖问题表现不佳。
梯度消失或爆炸
• 深度循环网络中梯度经过多阶段传播后易消失或爆炸。
4. 改进模型:门控RNN
长短期记忆(LSTM)
• LSTM通过”门”控制信息的选择式通过。
Step-by-Step
1 遗忘门:决定从细胞状态中丢弃哪些信息。
2 输入门:确定新信息存入细胞状态的部分。
3 更新细胞状态:基于遗忘和输入操作更新细胞状态。
4 输出门:根据细胞状态确定输出部分。
• 添加”窥视孔连接”优化门层观察细胞状态的能力。
• 耦合遗忘门和输入门以简化决策过程。
门控循环单元(GRU)
• 将遗忘门和输入门合并为更新门。
• 混合细胞状态和隐藏状态,减少参数数量约1/3。
• 效果与LSTM相当,但更简单且不易过拟合。
5. 应用
向量序列操作
1 图像分类
2 图像描述生成
3 情感分析
4 机器翻译
5 视频分类
6. 扩展模型
自编码器相关
• 传统自编码器用于降维或特征学习。
• 变分自动编码器(VAE)结合潜变量模型理论用于生成式建模。
对抗模型
• 生成对抗网络(GAN)用于生成模型。
• 对抗模型通过竞争机制提升生成质量。