前沿技术第八章

8.强化学习

8.强化学习.pdf

总结

以下是关于”行为主义（强化学习）和Deep Reinforcement Learning（深度强化学习）”内容的总结概括：

强化学习概述

• 核心概念：强化学习是一种机器学习方法，代理（Agent）通过与环境（Environment）交互，采取行动（Action），观察状态（State）并获得奖励（Reward），目标是最大化期望的奖励。

• 基本流程：代理从环境中接收观察结果，选择动作，执行后获得奖励和新的状态信息，从而不断优化策略。

强化学习的特点

• 奖励延迟：某些行为的长期影响可能在短期内无法显现，例如围棋中的早期牺牲可能带来后期优势。

• 行为序列学习：学习的是一系列行为，而非单一行为，目标是最大化整个过程的奖励。

• 动态互动：代理的行为会影响后续接收到的数据，需要持续与环境互动以更新算法。

强化学习的应用

• 游戏：如AlphaGo结合监督学习和强化学习，通过自我对弈提升能力。

• 机器人控制：如直升机、自动驾驶、机器人等领域的应用。

• 节能优化：谷歌使用DeepMind驱动的人工智能削减电费。

• 文本生成：通过强化学习生成自然语言文本。

深度强化学习的核心方法

• Policy-based Approach：直接学习策略函数（Actor），输出每个动作的概率分布。

• Value-based Approach：学习价值函数（Critic），评估策略的好坏，Q学习是典型代表。

• Actor-Critic 方法：结合Policy-based和Value-based的优点，同时学习策略和价值函数。

• A3C（Asynchronous Advantage Actor-Critic）：解决Actor-Critic难以收敛的问题，提供异步并发框架，显著提升训练效率。

示例

• 玩游戏：通过像素输入学习游戏操作，例如Space Invader中，代理通过观察屏幕像素选择移动或开火动作，并根据得分调整策略。

• AlphaGo：结合Policy-based、Value-based和Model-based方法，通过大量自我对弈优化策略。

参考资料

• 教材：《Reinforcement Learning: An Introduction》

• 视频课程：David Silver和John Schulman的讲义及视频资源

• 开源工具：OpenAI Gym和Universe，提供丰富的模拟环境供强化学习研究。

总结：强化学习通过代理与环境的交互，逐步优化策略以实现目标。深度强化学习结合神经网络，提升了复杂任务的学习能力，在游戏、机器人控制等领域展现出巨大潜力。

大纲

行为主义（强化学习）

主要参考资源

• Textbook: Reinforcement Learning: An Introduction

• Lectures of David Silver

• Lectures of John Schulman

强化学习的基本方案

• Agent与Environment交互

◦ Observation（观察）

◦ Action（动作）

◦ Reward（奖励）

◦ State（状态）

• 目标：最大化期望的奖励

核心概念

1 机器学习 ≈ 寻找一个函数

◦ Function input: Observation

◦ Function output: Action = π(Observation)

◦ Actor/Policy: 学习采取最佳行动

具体应用案例

学习下围棋

• 环境与奖励机制

◦ 如果赢了，reward = 1

◦ 如果输了，reward = -1

◦ 大多数情况下，reward = 0

• Alpha Go 的方法

◦ 监督学习 + 强化学习

◦ Learning from teacher 和 Learning from experience

更多应用领域

1 直升机控制

2 自动驾驶

3 机器人

4 谷歌DeepMind削减电费

5 文本生成

强化学习的实际例子

打游戏

• 机器学习像人类玩家一样打游戏

◦ 观察像素

◦ 自主采取适当行动

• 使用环境工具

◦ OpenAI Gym

◦ OpenAI Universe

游戏示例：Space Invader

• 游戏流程

◦ 初始状态 (s1) → 行动 (a1) → 回馈 (r1) → 新状态 (s2) → 行动 (a2) → 回馈 (r2)

◦ 最终目标：最大化累积奖励

强化学习的特性

• 奖励延迟

◦ 早期行为可能在后期产生重要影响

◦ 机器需要理解一系列行为的整体价值

• 数据动态性

◦ 机器通过与环境互动获取数据并更新算法

强化学习的核心方法

Policy-based Approach

• 学习一个Actor

◦ 神经网络作为Actor

▪ 输入：机器的观察表示为向量或矩阵

▪ 输出：每个行动相关的神经元概率分布

Value-based Approach

• 学习一个Critic

◦ Critic评估Actor的好坏

◦ Q-学习方法

Actor-Critic 方法

• 结合Policy-based和Value-based

◦ TD或MC方法

◦ A3C框架

▪ 每个worker从global network复制参数

▪ 不同worker与环境互动

▪ 计算各自梯度并传回global network进行更新

Alpha Go 的综合方法

• Policy-based + Value-based + Model-based

前沿技术

#邹建

前沿技术第八章

https://martin666.site/2025/06/10/前沿技术第八章/

Author

梦之泪伤

Posted on

June 10, 2025

Updated on

June 13, 2025

Licensed under

前沿技术第九章 Previous

前沿技术第七章 Next