Presentation is loading. Please wait.

Presentation is loading. Please wait.

Reinforcement Learning

Similar presentations


Presentation on theme: "Reinforcement Learning"— Presentation transcript:

1 Reinforcement Learning
Presented by 肖钦哲

2 Reinforcement learning
RL: 一个Agent根据当前状态st, 使用策略Π选择能使未来回报最大化的动作at; 从环境 中得到反馈/回报rt和下一个状态st+1, 然后进行策略的学习,使得Π近似最优策略,最 大化回报的期望。 Agent: 智能体,做决策,使得未来总回报最大 Environment:环境 policy策略π:状态s -> 动作a Reward回报r:环境对agent的反馈 st at Agent Π(at | st) Environment rt, st+1

3 术语 value function值函数Vπ(s)
从状态s出发,使用策略π所带来的累积奖赏R(s0)+γR(s1)+ γ2R(s2)+….; Action-value function动作值函数Qπ(s, a) 从状态s出发,执行动作a后使用策略π所带来的累积奖赏R(s0, a)+γR(s1)+ γ2R(s2)+…. ; > 函数:对于离散状态,动作,为向量/矩阵;连续/无穷,为函数,可以用一个模型来 表示如神经网络等。 环境模型: 对环境建模,对回报,状态的预测,称为model-based,与model free对应。 Exploration vs Exploitation ε-greedy: ε概率选择一个随机概率,1- ε贪心策略max Q(s, a) Episode: 一段情节,如一局游戏

4 MDP 一个马尔可夫决策过程是元组 (S,A,{Psa},γ,R) S: 状态集; A:动作集
Psa(s’): 在状态s执行a后到达s’的概率分布 γ: 折扣因子; R: 回报 值函数 Bellman方程

5 迭代算法 值迭代 策略迭代

6 迭代算法 值迭代和策略迭代算法需要先知道所有的状态,以及状态的转移概率和状态的回报, 需要每一次遍历所有状态进行迭代更新。
agent根据策略对s状态做了a动作后,它是不知道后面的状态转移概率分布和回报的, 只有等环境反馈之后才得到s’, r,然后更新调整策略。所以当预先不知道所有状态以 及概率,回报时,就有了其他RL方法: Monte-Carlo Temporal-Difference Dynamic-Programming

7 Monte-carlo

8 First-visit MC

9 Temporal Difference/TD(0)

10 Temporal Difference/TD(λ)
当λ=1时,TD(1)就是MC;当λ=0时,也就是TD(0).

11 MC vs TD vs DP

12 MC vs TD vs DP

13 MC vs TD vs DP

14 On-policy vs off-policy
在当前状态S选择A的策略与为下一个状态S’选择的策略是否相同,如果相同,为on- policy, 否则为off-policy。 Off-policy: Q-learning On-policy: Sarsa

15 Sarsa

16 Model-based vs Model free
对环境建模,用来估计下一个状态P(s’|s, a), 回报R(s, a). Model free 不需要对环境建模,如Q-learning,Q(s, a)对未来回报进行估计,从而得到最佳的动作 a*

17 参考 UCL Course on RL : PPT: Video: %A6%E4%B9%A0%E8%AF%BE%E7%A8%8BDavid%20Silver&from_source =banner_search Book: 《reinforcement learning :an introduction》 其他博客

18 example 如何从五个房间中走出去

19 example 回报矩阵 初始化Q

20 Steps Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Episode 1. (1) State=1,actions 3/5,select 5 Q(1, 5) = R(1, 5) * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = * 0 = 100 Episode 2. (1) State=3, actions 1/2/4, select 1 Q(3, 1) = R(3, 1) * Max[Q(1, 3), Q(1, 5)] = * Max(0, 100) = 80 (2) State=1, actions 3/5, select 5

21 Results …. 归一

22 Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning Abstract 本文使用了增强学习和深度学习模型来学习玩Atari 2600游戏的策略。模型是CNN,输 入为游戏画面,输出为评估未来收益的值函数,通过Q-learning变体来训练网络。 背景 在具有高维的输入如视觉,语音方面,传统的RL是利用手工的特征和线性或者其他模型。 DL具有很好的特征自动提取,以及非线性的模型表达。

23 Deep Reinforcement Learning
Challenge: Delay:动作与回报会有延迟 状态间高度关联 数据分布随着学习过程而改变 (解决方法在后面讲) Bellman formula:

24 Deep Reinforcement Learning
Q-network: 神经网络Q(s,a;θ)近似Q*(s,a) Loss: 上一次模型作为基准:因为参数更新是batch,更新一次参数就会变;使用上一个模型可 以提供固定标准的yi Gradient:

25 Experience Replay Experience Replay:
存储经验et=(st, at, rt, st+1)到集合D(replay memory)中,在更新权重时从经验 池中随机采样。 优点: 每一步的经验被用到多次权重更新之中; 从连续的samples(episode)学习不高效,因为samples的强关联;随机采样打破 这种关联,减少更新的方差。 让行为分布是先前很多状态的均匀,平稳学习和避免发散 缺点: Fixed N experience;uniformly sampling 通过区分样本重要性等,做更好的采样,替换等。

26 DQN

27 Preprocessing and Model Architecture
210*160 RGB -> gray-scale 110*84 Cropping: 84*84 3. Φ(s): 预处理函数,对过去的4帧做上述处理然后堆叠 Architecture 有两种方式: s, a作为输入,输出一个Q值 S作为输入, 输出所有action的Q值 第二种只需要计算一次,故使用2

28 Experiments Reward: 1, 0, -1 RMSProp batch 32
Ε-greedy 1 ~ 0.1 linearly, fixed 0.1 Train: 10 million frames Replay memory: 1 million most recent frames Frame-skipping technique: every kth frame select actions. k=4/3

29 Training Evaluation of progress of agent 很多次游戏的平均回报; 固定的状态集合,使用平均Q值评估;
1的方式会很抖动,small changes to the weights of a policy can lead to large changes in the distribution of states the policy visits.

30 值函数的可视化

31 结果

32 Trading 将RL应用在股票等交易中,学习从股票行情到决策的映射。
做法:可以仿造DQN的结构做;可以单个股票或者多个股票(投资组合)决策;可以融 合多源数据如新闻等来做;… 关于RL在trading的应用需要调查。 To be continued…


Download ppt "Reinforcement Learning"

Similar presentations


Ads by Google