前沿技术第八章

8.强化学习

8.强化学习.pdf

总结

以下是关于”行为主义(强化学习)和Deep Reinforcement Learning(深度强化学习)”内容的总结概括:

强化学习概述

• 核心概念:强化学习是一种机器学习方法,代理(Agent)通过与环境(Environment)交互,采取行动(Action),观察状态(State)并获得奖励(Reward),目标是最大化期望的奖励。

• 基本流程:代理从环境中接收观察结果,选择动作,执行后获得奖励和新的状态信息,从而不断优化策略。

强化学习的特点

• 奖励延迟:某些行为的长期影响可能在短期内无法显现,例如围棋中的早期牺牲可能带来后期优势。

• 行为序列学习:学习的是一系列行为,而非单一行为,目标是最大化整个过程的奖励。

• 动态互动:代理的行为会影响后续接收到的数据,需要持续与环境互动以更新算法。

强化学习的应用

• 游戏:如AlphaGo结合监督学习和强化学习,通过自我对弈提升能力。

• 机器人控制:如直升机、自动驾驶、机器人等领域的应用。

• 节能优化:谷歌使用DeepMind驱动的人工智能削减电费。

• 文本生成:通过强化学习生成自然语言文本。

深度强化学习的核心方法

• Policy-based Approach:直接学习策略函数(Actor),输出每个动作的概率分布。

• Value-based Approach:学习价值函数(Critic),评估策略的好坏,Q学习是典型代表。

• Actor-Critic 方法:结合Policy-based和Value-based的优点,同时学习策略和价值函数。

• A3C(Asynchronous Advantage Actor-Critic):解决Actor-Critic难以收敛的问题,提供异步并发框架,显著提升训练效率。

示例

• 玩游戏:通过像素输入学习游戏操作,例如Space Invader中,代理通过观察屏幕像素选择移动或开火动作,并根据得分调整策略。

• AlphaGo:结合Policy-based、Value-based和Model-based方法,通过大量自我对弈优化策略。

参考资料

• 教材:《Reinforcement Learning: An Introduction》

• 视频课程:David Silver和John Schulman的讲义及视频资源

• 开源工具:OpenAI Gym和Universe,提供丰富的模拟环境供强化学习研究。

总结:强化学习通过代理与环境的交互,逐步优化策略以实现目标。深度强化学习结合神经网络,提升了复杂任务的学习能力,在游戏、机器人控制等领域展现出巨大潜力。

大纲

行为主义(强化学习)

主要参考资源

• Textbook: Reinforcement Learning: An Introduction

• Lectures of David Silver

• Lectures of John Schulman

强化学习的基本方案

• Agent与Environment交互

◦ Observation(观察)

◦ Action(动作)

◦ Reward(奖励)

◦ State(状态)

• 目标:最大化期望的奖励

核心概念

1 机器学习 ≈ 寻找一个函数

◦ Function input: Observation

◦ Function output: Action = π(Observation)

◦ Actor/Policy: 学习采取最佳行动

具体应用案例

学习下围棋

• 环境与奖励机制

◦ 如果赢了,reward = 1

◦ 如果输了,reward = -1

◦ 大多数情况下,reward = 0

• Alpha Go 的方法

◦ 监督学习 + 强化学习

◦ Learning from teacher 和 Learning from experience

更多应用领域

1 直升机控制

2 自动驾驶

3 机器人

4 谷歌DeepMind削减电费

5 文本生成

强化学习的实际例子

打游戏

• 机器学习像人类玩家一样打游戏

◦ 观察像素

◦ 自主采取适当行动

• 使用环境工具

◦ OpenAI Gym

◦ OpenAI Universe

游戏示例:Space Invader

• 游戏流程

◦ 初始状态 (s1) → 行动 (a1) → 回馈 (r1) → 新状态 (s2) → 行动 (a2) → 回馈 (r2)

◦ 最终目标:最大化累积奖励

强化学习的特性

• 奖励延迟

◦ 早期行为可能在后期产生重要影响

◦ 机器需要理解一系列行为的整体价值

• 数据动态性

◦ 机器通过与环境互动获取数据并更新算法

强化学习的核心方法

Policy-based Approach

• 学习一个Actor

◦ 神经网络作为Actor

▪ 输入:机器的观察表示为向量或矩阵

▪ 输出:每个行动相关的神经元概率分布

Value-based Approach

• 学习一个Critic

◦ Critic评估Actor的好坏

◦ Q-学习方法

Actor-Critic 方法

• 结合Policy-based和Value-based

◦ TD或MC方法

◦ A3C框架

▪ 每个worker从global network复制参数

▪ 不同worker与环境互动

▪ 计算各自梯度并传回global network进行更新

Alpha Go 的综合方法

• Policy-based + Value-based + Model-based


前沿技术第八章
https://martin666.site/2025/06/10/前沿技术第八章/
Author
梦之泪伤
Posted on
June 10, 2025
Updated on
June 13, 2025
Licensed under