前沿技术第八章
8.强化学习
总结
以下是关于”行为主义(强化学习)和Deep Reinforcement Learning(深度强化学习)”内容的总结概括:
强化学习概述
• 核心概念:强化学习是一种机器学习方法,代理(Agent)通过与环境(Environment)交互,采取行动(Action),观察状态(State)并获得奖励(Reward),目标是最大化期望的奖励。
• 基本流程:代理从环境中接收观察结果,选择动作,执行后获得奖励和新的状态信息,从而不断优化策略。
强化学习的特点
• 奖励延迟:某些行为的长期影响可能在短期内无法显现,例如围棋中的早期牺牲可能带来后期优势。
• 行为序列学习:学习的是一系列行为,而非单一行为,目标是最大化整个过程的奖励。
• 动态互动:代理的行为会影响后续接收到的数据,需要持续与环境互动以更新算法。
强化学习的应用
• 游戏:如AlphaGo结合监督学习和强化学习,通过自我对弈提升能力。
• 机器人控制:如直升机、自动驾驶、机器人等领域的应用。
• 节能优化:谷歌使用DeepMind驱动的人工智能削减电费。
• 文本生成:通过强化学习生成自然语言文本。
深度强化学习的核心方法
• Policy-based Approach:直接学习策略函数(Actor),输出每个动作的概率分布。
• Value-based Approach:学习价值函数(Critic),评估策略的好坏,Q学习是典型代表。
• Actor-Critic 方法:结合Policy-based和Value-based的优点,同时学习策略和价值函数。
• A3C(Asynchronous Advantage Actor-Critic):解决Actor-Critic难以收敛的问题,提供异步并发框架,显著提升训练效率。
示例
• 玩游戏:通过像素输入学习游戏操作,例如Space Invader中,代理通过观察屏幕像素选择移动或开火动作,并根据得分调整策略。
• AlphaGo:结合Policy-based、Value-based和Model-based方法,通过大量自我对弈优化策略。
参考资料
• 教材:《Reinforcement Learning: An Introduction》
• 视频课程:David Silver和John Schulman的讲义及视频资源
• 开源工具:OpenAI Gym和Universe,提供丰富的模拟环境供强化学习研究。
总结:强化学习通过代理与环境的交互,逐步优化策略以实现目标。深度强化学习结合神经网络,提升了复杂任务的学习能力,在游戏、机器人控制等领域展现出巨大潜力。
大纲
行为主义(强化学习)
主要参考资源
• Textbook: Reinforcement Learning: An Introduction
• Lectures of David Silver
• Lectures of John Schulman
强化学习的基本方案
• Agent与Environment交互
◦ Observation(观察)
◦ Action(动作)
◦ Reward(奖励)
◦ State(状态)
• 目标:最大化期望的奖励
核心概念
1 机器学习 ≈ 寻找一个函数
◦ Function input: Observation
◦ Function output: Action = π(Observation)
◦ Actor/Policy: 学习采取最佳行动
具体应用案例
学习下围棋
• 环境与奖励机制
◦ 如果赢了,reward = 1
◦ 如果输了,reward = -1
◦ 大多数情况下,reward = 0
• Alpha Go 的方法
◦ 监督学习 + 强化学习
◦ Learning from teacher 和 Learning from experience
更多应用领域
1 直升机控制
2 自动驾驶
3 机器人
4 谷歌DeepMind削减电费
5 文本生成
强化学习的实际例子
打游戏
• 机器学习像人类玩家一样打游戏
◦ 观察像素
◦ 自主采取适当行动
• 使用环境工具
◦ OpenAI Gym
◦ OpenAI Universe
游戏示例:Space Invader
• 游戏流程
◦ 初始状态 (s1) → 行动 (a1) → 回馈 (r1) → 新状态 (s2) → 行动 (a2) → 回馈 (r2)
◦ 最终目标:最大化累积奖励
强化学习的特性
• 奖励延迟
◦ 早期行为可能在后期产生重要影响
◦ 机器需要理解一系列行为的整体价值
• 数据动态性
◦ 机器通过与环境互动获取数据并更新算法
强化学习的核心方法
Policy-based Approach
• 学习一个Actor
◦ 神经网络作为Actor
▪ 输入:机器的观察表示为向量或矩阵
▪ 输出:每个行动相关的神经元概率分布
Value-based Approach
• 学习一个Critic
◦ Critic评估Actor的好坏
◦ Q-学习方法
Actor-Critic 方法
• 结合Policy-based和Value-based
◦ TD或MC方法
◦ A3C框架
▪ 每个worker从global network复制参数
▪ 不同worker与环境互动
▪ 计算各自梯度并传回global network进行更新
Alpha Go 的综合方法
• Policy-based + Value-based + Model-based