前沿技术第六章
6.表示学习和生成式模型
总结
表示学习和生成式模型总结
1. 表示学习(Representation Learning)
- 定义与目标:表示学习是从未标记数据中提取特征的技术,旨在从未标注的数据中自动学习有用的特征表示。
- 背景:大多数数据是非结构化和未标记的,获取新标签缓慢且昂贵。因此,能够从未标记数据中提取特征以提高数据有限任务性能的算法非常有价值。
- 方法:通过在辅助监督学习任务上训练神经网络来实现特征提取。例如,词向量模型(Word2Vec)是表示学习的一个经典应用,用于自然语言处理(NLP)任务。
- 优势:相比于传统的无监督学习技术,表示学习提供了更灵活和强大的特征提取能力。
2. 生成模型(Generative Model)
- 定义与目标:生成模型通过学习训练数据的分布模型来生成新的、原创的数据。它不仅关注数据的分类或预测,还关注数据的生成过程。
频率学派与贝叶斯学派:
- 频率学派:基于大样本理论,将概率看作频率的极限,强调通过样本信息推断总体参数。
- 贝叶斯学派:认为未知量是随机的,用概率分布描述未知参数,强调先验信息与后验信息的结合。
生成模型 vs 判别模型:
- 判别模型:直接学习决策函数 Y=f(X) 或条件概率分布 P(Y|X)。
- 生成模型:学习联合概率密度分布 P(X,Y),然后求出条件概率分布 P(Y|X)。
生成模型类型:
- GAN(生成对抗网络):通过生成器和判别器的对抗训练来生成数据。
- VAE(变分自动编码器):结合了自编码器和隐变量模型的思想,通过变分推断学习数据分布。
- 扩散模型(Diffusion Model):包括前向扩散过程(逐渐添加高斯噪音直至变成随机噪音)和反向生成过程(从随机噪音开始逐渐去噪音直至生成图像)。
3. 关键技术与工具
- 降维:减少描述数据的特征数量的过程,可以通过选择或提取实现,用于数据可视化、数据存储和繁重计算等场景。
- 奇异值分解(SVD):一种矩阵因子分解方法,用于数据降维和特征提取。
- KL散度:用于度量两个分布之间的差距,帮助优化生成模型。
- Word2Vec:通过上下文学习词向量,捕捉词的语义信息。
4. 应用
- 生成式人工智能(GAI):通过学习训练数据的分布模型生成新的、原创的数据。
- 人工智能生成内容(AIGC):利用人工智能技术生成各种形式的内容,如文字、图像、音频和视频等。
以上是对表示学习和生成式模型的主要内容的概括,涵盖了基本概念、理论基础、关键技术和具体应用。
大纲
自编码器与生成式建模
• 传统自编码器用于降维或特征学习
• 自编码器与潜变量模型理论的联系使其成为生成式建模的重要工具
什么是降维?
• 定义:减少描述数据的特征数量的过程
• 方法:选择(保留部分现有特征)或提取(基于旧特征生成新特征)
• 应用场景:数据可视化、数据存储、繁重计算等
• 编码器与解码器的概念:编码器压缩数据,解码器解压缩数据,可能有信息损失
奇异值分解(SVD)
• 定义:将任意m×n矩阵分解为三个矩阵相乘的形式
• 结果:m阶正交矩阵、m×n矩形对角矩阵、n阶正交矩阵
• 数据降维应用:保留较大特征值及其对应的特征向量,解释绝大部分信息
表示学习(representation learning)
非结构化数据处理挑战
• 大量非结构化和未标记数据的存在
• 标记数据获取缓慢且昂贵
• 提取特征以提高数据有限任务性能的算法价值
无监督学习中的特征提取
• 算法试图发现描述数据集”结构”的潜在特征
• 示例:低秩奇异值分解(主成分分析)
深度学习在特征提取中的应用
• 表示学习通过训练神经网络从未标记数据中提取特征
• word2vec作为表示学习的经典应用
自然语言处理中的词向量模型
• 离散符号序列表示问题
• one-hot表示的问题:稀疏、正交、弱语义
• 解决方案:学习将相似性编码到向量本身
词的上下文表示
• 目标:包含语义信息并直接度量文本之间的语义相似度
• 分布式表示思想:相似上下文中的词具有相似意义
深度学习的优势
• 手工特征耗时耗力
• 自动特征学习快速便捷
• 提供通用学习框架,支持无监督和监督学习
神经嵌入模型(Neural Embedding Models)
• 上下文建模及目标词关系建模
• Word2Vec模型:Skip-Gram和CBOW两种模型
统计语言模型(Statistical Language Model)
• 计算句子概率模型
• n元模型简化条件概率估算
Word2Vec细节
• 输入词one-hot编码
• 隐藏层权重矩阵映射输入到稠密向量
• 输出层softmax回归分类器
训练过程
• 使用梯度下降最小化代价函数
生成模型(generative model)
频率学派与贝叶斯学派
频率学派
• 基于大样本理论,将概率看作频率的极限
• 强调数据重复抽样和统计量性质
贝叶斯学派
• 未知量视为随机,用概率分布描述
• 先验信息与后验信息结合
生成模型与判别模型对比
• 判别模型:直接学习决策函数或条件概率分布
• 生成模型:学习联合概率密度分布再求条件概率分布
生成式人工智能(Generative Artificial Intelligence, GAI)
• 通过学习训练数据分布模型生成新数据
• AIGC具体应用:生成文字、图像、音频、视频等内容
人造分布与真实分布
• 人脸、狗脸等服从特定概率分布
• 利用神经网络拟合人造分布逼近真实分布
关键问题
1 如何设计网络模型模拟客观分布
2 如何度量两个分布差距
KL散度
• 成为度量两个分布差距的工具
隐变量模型
• 构造桥梁间接减小真实分布与模型分布差异
具体生成模型
生成对抗网络(GAN)
• 包含生成器和判别器两部分
变分自动编码器(VAE)
• 结合自编码器与变分推断的思想
扩散模型(Diffusion Model)
• 包含前向扩散过程和反向生成过程
• 前向扩散过程:逐渐添加高斯噪音直至变为随机噪音
• 反向生成过程:从随机噪音开始逐渐去噪生成图像