Presentation is loading. Please wait.

Presentation is loading. Please wait.

Https://nndl.github.io/ 《神经网络与深度学习》 深度强化学习 https://nndl.github.io/

Similar presentations


Presentation on theme: "Https://nndl.github.io/ 《神经网络与深度学习》 深度强化学习 https://nndl.github.io/"— Presentation transcript:

1 https://nndl.github.io/
《神经网络与深度学习》 深度强化学习

2 一个例子

3 强化学习 智能体(Agent) 环境(Environment)
感知外界环境的状态(State)和奖励反馈(Reward),并进行 学习和决策。智能体的决策功能是指根据外界环境的状态 来做出不同的动作(Action),而学习功能是指根据外界环 境的奖励来调整策略。 环境(Environment) 智能体外部的所有事物,并受智能体动作的影响而改变其 状态,并反馈给智能体相应的奖励。

4 强化学习 强化学习问题可以描述为一个智能体从与环境的交 互中不断学习以完成特定目标(比如取得最大奖励 值)。
强化学习就是智能体不断与环境进行交互,并根据 经验调整其策略来最大化其长远的所有奖励的累积 值。

5 马尔可夫决策过程 马尔可夫过程

6 强化学习中的基本要素 环境的状态集合:S; 智能体的动作集合:A;
状态转移概率:p(s’|s,a),即智能体根据当前状 态s做出一个动作a之后,下一个时刻环境处 于不同状态s’的概率; 即时奖励:R : S × A × S’ → R,即智能体根据 当前状态做出一个动作之后,环境会反馈给 智能体一个奖励,这个奖励和动作之后下一 个时刻的状态有关。

7 策略π(a|s) 马尔可夫决策过程的一个轨迹(trajectory) τ的概率

8 总回报 给定策略π(a|s),智能体和环境一次交互过 程的轨迹τ 所收到的累积奖励为总回报( return)
γ ∈ [0,1]是折扣率。当γ接近于0时,智能体更在意短期 回报;而当γ接近于1时,长期回报变得更重要。 环境中有一个或多个特殊的终止状态(terminal state)

9 强化学习目标函数 强化学习的目标是学习到一个策略πθ(a|s) 来最大化期望回报(expected return) θ为策略函数的参数

10 状态值函数 一个策略π期望回报可以分解为 值函数:从状态s开始,执行策略π得到的期 望总回报

11 Bellman方程

12 状态-动作值函数( Q函数) 状态-动作值函数是指初始状态为s并进行动 作a,然后执行策略π得到的期望总回报。 Q函数的贝尔曼方程

13 最优策略 最优策略:存在一个最优的策略π∗ ,其在所 有状态上的期望回报最大

14 深度强化学习 深度强化学习是将强化学习和深度学习结合 在一起,用强化学习来定义问题和优化目标 ,用深度学习来解决状态表示、策略表示等 问题。
两种不同的结合强化学习和深度学习的方式,分别用深度 神经网络来建模强化学习中的值函数、策略,然后用误差 反向传播算法来优化目标函数。

15 基于值函数的策略学习

16 强化学习算法 基于模型的强化学习算法 模型无关的强化学习 基于MDP过程:状态转移概率p(s’|s,a)和奖励函数R(s,a,s ’ )
策略迭代 值迭代 模型无关的强化学习 无MDP过程 蒙特卡罗采样方法 时序差分学习

17 基于模型的强化学习

18 策略迭代

19 值迭代 值迭代方法将策略评估和策略改进两个过程 合并,来直接计算出最优策略。

20 模型无关的强化学习

21 蒙特卡罗采样方法 策略学习过程 通过采样的方式来计算值函数, 当N → ∞时, 𝑄 𝜋 (𝑠,𝑎) → 𝑄 𝜋 (𝑠,𝑎)。
在似估计出Q π (s,a)之后,就可以进行策略改进。 然后在新的策略下重新通过采样来估计Q函数,并不断重 复,直至收敛。

22 ϵ-贪心法 利用和探索 对于一个确定性策略π,其对应的ϵ−贪心法 策略为 对当前策略的利用(Exploitation),
对环境的探索(Exploration)以找到更好的策略 对于一个确定性策略π,其对应的ϵ−贪心法 策略为

23 时序差分学习方法 结合了动态规划和蒙特卡罗方法 蒙特卡罗误差
从s,a开始,采样下一步的状态和动作(s ′ ,a ′ ),并得到奖励r(s,a,s ′ ),然后利用贝尔曼方程来近似估计G(τ)

24 SARSA算法(State Action Reward State Action,SARSA)

25 Q学习算法 Q学习算法不通过π ϵ 来选下一步的动作a ′ ,而是直接 选最优的Q函数,

26 基于值函数的深度强化学习 为了在连续的状态和动作空间中计算值函数 Qπ (s,a),我们可以用一个函数Q ϕ (s,a)来表 示近似计算,称为值函数近似(Value Function Approximation)

27 目标函数 存在两个问题: 深度Q网络 目标不稳定,参数学习的目标依赖于参数本身; 样本之间有很强的相关性。
一是目标网络冻结(freezing target networks),即在一个时 间段内固定目标中的参数,来稳定学习目标; 二是经验回放(experience replay),构建一个经验池来去除 数据相关性。

28

29 DQN in Atari Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature  (2015): End-to-end learning of values Q(s, a) from pixels Input state s is stack of raw pixels from last 4 frames Output is Q(s, a) for 18 joystick/button positions Reward is the change in the score for that step

30 DQN in Atari

31 DQN in Atari : Human Level Control
Mnih, Volodymyr, et al

32 AlphaGO: Monte Carlo Tree Search
MCTS: Model look ahead to reduce searching space by predicting opponent’s moves Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature  (2016):

33 AlphaGO: Learning Pipeline
Combine SL and RL to learn the search direction in MCTS SL policy Network Prior search probability or potential Rollout: combine with MCTS for quick simulation on leaf node Value Network: Build the Global feeling on the leaf node situation

34 Learning to Prune: SL Policy Network
13-layer CNN Input board position 𝑠 Output: p 𝜎 (𝑎|𝑠), where 𝑎 is the next move

35 Learning to Prune: RL Policy Network
Self play 1 Million samples are used to train. RL-Policy network VS SL-Policy network. RL-Policy alone wins 80% games against SL-Policy. Combined with MCTS, SL-Policy network is better Used to derive the Value Network as the ground truth Making enough data for training

36 Learning to Prune: Value Network
Regression: Similar architecture SL Network: Sampling to generate a unique game. RL Network: Simulate to get the game’s final result. Train: 50 million mini-batches of 32 positions(30 million unique games)

37 AlphaGO:Evaluation The version solely using the policy network
does not perform any search Silver, David, et al

38 策略梯度

39 基于策略函数的深度强化学习 可以直接用深度神经网络来表示一个参数化 的从状态空间到动作空间的映射函数:a = πθ (s)。
最优的策略是使得在每个状态的总回报最大 的策略,因此策略搜索的目标函数为

40 策略梯度(Policy Gradient)
策略搜索是通过寻找参数θ使得目标函数 J(θ)最大。 梯度上升: 轨迹概率 总回报 τ:轨迹

41 REINFORCE算法

42 带基准线的REINFORCE算法

43 Actor-Critic算法

44 不同强化学习算法之间的关系

45 汇总

46 https://nndl.github.io/


Download ppt "Https://nndl.github.io/ 《神经网络与深度学习》 深度强化学习 https://nndl.github.io/"

Similar presentations


Ads by Google