前沿技术第五章

5.循环神经网络

5.循环神经网络.pdf

总结

循环神经网络(RNN)总结

1. 问题介绍

• 如果输入单一词(如”beijing”),且无记忆特性,网络输出相同结果。

• 若具备记忆功能,网络可根据前面的词调整输出,结果不同。

2. 基本结构

• 记忆单元:将网络输出保存在记忆单元中,与下一次输入联合进入网络。

• 输入顺序影响:输入序列的顺序会改变输出结果。

• 长序列处理:无论序列多长,均可逐次输入网络以得到最终结果。

3. 扩展结构

• 梯度问题:深度循环网络和双向RNN是其扩展形式。

• 长期依赖挑战

◦ 梯度易消失(常见)或爆炸(少见但影响大)。

4. 门控RNN

• LSTM(长短期记忆网络)

◦ 包含遗忘门、输入门、细胞状态更新和输出门。

◦ 遗忘门决定丢弃哪些信息;输入门选择新信息存入细胞状态;细胞状态更新后生成输出。

◦ 可通过”窥视孔连接”让门层观察细胞状态。

• GRU(门控递归单元)

◦ 将遗忘门和输入门合并为更新门,简化模型结构。

◦ 参数减少约1/3,效果接近LSTM,不易过拟合。

5. 存在问题

• 遗忘性:RNN对近期信息预测表现较好,但难以处理长时依赖问题。

6. 应用

• 序列向量操作

◦ 图像分类、图像描述生成、情感分析、机器翻译、视频分类等。

• 生成模型

◦ 自编码器用于降维或特征学习,变分自编码器(VAE)和生成对抗网络(GAN)推动生成式建模发展。

7. 核心要点

• RNN通过记忆单元实现序列数据处理,但存在梯度消失或爆炸的问题。

• LSTM和GRU通过门机制解决长期依赖问题,提升性能。

• 广泛应用于自然语言处理、图像处理等领域。

大纲

循环神经网络(RNN)

• RNN的核心在于通过记忆单元实现对序列数据的处理。

• 解决了传统神经网络无法记忆的问题。

1. 问题介绍

• 如果没有记忆特性,输入相同部分时输出结果一致。

• 引入记忆后,前序信息会影响后续输出结果。

2. 基本结构

输入与记忆单元

• 网络将输出保存在记忆单元中。

• 下一次输入时,联合当前输入和记忆单元作为新输入。

输出机制

• 网络不仅输出结果,还会更新记忆单元。

• 输入序列顺序影响最终输出结果。

• 可以处理任意长度的序列数据。

3. 存在的问题

记忆的遗忘性

• 对近期信息预测效果较好,但对长时依赖问题表现不佳。

梯度消失或爆炸

• 深度循环网络中梯度经过多阶段传播后易消失或爆炸。

4. 改进模型:门控RNN

长短期记忆(LSTM)

• LSTM通过”门”控制信息的选择式通过。

Step-by-Step

1 遗忘门:决定从细胞状态中丢弃哪些信息。

2 输入门:确定新信息存入细胞状态的部分。

3 更新细胞状态:基于遗忘和输入操作更新细胞状态。

4 输出门:根据细胞状态确定输出部分。

• 添加”窥视孔连接”优化门层观察细胞状态的能力。

• 耦合遗忘门和输入门以简化决策过程。

门控循环单元(GRU)

• 将遗忘门和输入门合并为更新门。

• 混合细胞状态和隐藏状态,减少参数数量约1/3。

• 效果与LSTM相当,但更简单且不易过拟合。

5. 应用

向量序列操作

1 图像分类

2 图像描述生成

3 情感分析

4 机器翻译

5 视频分类

6. 扩展模型

自编码器相关

• 传统自编码器用于降维或特征学习。

• 变分自动编码器(VAE)结合潜变量模型理论用于生成式建模。

对抗模型

• 生成对抗网络(GAN)用于生成模型。

• 对抗模型通过竞争机制提升生成质量。


前沿技术第五章
https://martin666.site/2025/06/10/前沿技术第五章/
Author
梦之泪伤
Posted on
June 10, 2025
Updated on
June 13, 2025
Licensed under