Reinforcement Learning

Slides:



Advertisements
Similar presentations
跳出思维定势的盒子 南京外国语学校 朱善萍. 问题的提出 1. 中学英语教学的全方位目标 ( 含高三 ) 有效性 ( 含高三、高考 ) 科学性 ( 含高三和高考 ) ? 学生学习目标的多元性 ? 2.“ 懒教师 ” 与聪明学生 ? 为什么学了 年英语后, 中考或高考只有 60% 左右的得分率.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
智慧城市创意设计 大赛说明 中国智慧城市产业技术创新战略联盟 2014 年 3 月. 背景介绍 1. 创意启迪智慧 创新驱动发展.
台北市立南港高工 建築科 Architecture 建築科之精神:活力、責任、效率 建築科之展望:共築美麗人生 綜合高中 土木建築學程簡介  綜高土建升學進路  未來出路展望  專業證照考試  未來展望圖例  綜高土建學程課程架構  土建群統一入學測驗考科  升學人數統計.
博奥文明之旅团支部 ——师范学院小学教育专业063团支部.
思想道德修养与法律基础 ( 2013修订版) 第一章 追求远大理想 坚定崇高信念.
王同学的苦恼﹗ MC 4.1 诚可贵﹗.
從閱讀擺渡到寫作 高雄女中 楊子霈.
大道当然 ——我与万科 作者 : 王 石 出版:中信出版社.
100學年度第一學期公民與社會學科中心南區資源研發 專題製作分享 做中學,學中做
報告人 方萱玉 100上學期教學組業務報告.
国医门诊部 白癜风诊治规范及工作流程.
人工智能Vs人类智能 电脑的优点 人脑的优点 两者的关系 电脑与人脑的本质差别 电脑能否超越人脑 临五四大班 张昕.
建筑工程项目管理.
非常教師 非常EQ 班級經營與正向管教 教育部多元入學與生涯發展/基測寫作宣導種子教師 [法治教育向下扎根]種子教師 前臺北縣青少年輔導團員 資深 訓導/輔導主任 石碇高中 簡單老師 部落格:簡單老師的聯絡簿.
关于在宝钢全体党员中开展“学党章党规、 学系列讲话,做合格党员”学习教育的 实施方案
2013 澎湖自助旅行講座 澎湖,其實就是一片海洋 主辦:沿著菊島旅行 協辦: 台北澎湖同鄉會、台中澎湖同鄉會、高雄澎湖同鄉會
An Introduction to European Culture
新竹教育大學 數理教育研究所 蘇宏仁 中華民國 100 年 7 月 27 日 於竹市環境教育輔導小組
附件4.2.3 教育局 教育心理服務(新界)組 【提升中文讀寫能力計劃】 朋輩導師訓練工作坊.
幸福大讲堂 也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述 主讲:钱锡安
揭秘 庄家 股市中的 为什么你的股票一买就跌,一卖就涨? 为什么出了利好,股价反而下跌? 为什么有的股票一直涨停?
成為遊戲設計師 數位遊戲設計達人講座 授課講義.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
《数字图象处理与分析》 刘直芳等,清华大学出版社 苏丰
乳猪断奶后拉稀,掉膘与教槽料.
MovieBot: Booking Tickets Easily
Introduction To Mean Shift
Reinforcement Learning
高级人工智能 第十章 强化学习 史忠植 中国科学院计算技术研究所 2018/9/20 强化学习 史忠植.
NLP Group, Dept. of CS&T, Tsinghua University
行動研究就是一種行動性的研究,由行動者來進行研究,而不是由外於行動領域的學者與與科學家來進行,研究的問題也取自行動。
你不理財,財不理你 ─理財面面觀 陳富美 老師 豐東國中.
異質計算教學課程內容 「異質計算」種子教師研習營 洪士灝 國立台灣大學資訊工程學系
Source: IEEE Access, vol. 5, pp , October 2017
Bellman 查經 兩個有關婚宴的比喻 馬太福音 22:1~14, 25:1~13.
Deep learning 调研.
Online job scheduling in Distributed Machine Learning Clusters
数据挖掘工具性能比较.
动态规划(Dynamic Programming)
WSDM见闻 程龚.
VIDEO COMPRESSION & MPEG
从美国大选与中共十八大 看我国政治性新闻传播 刘 通.
生死自覺 念念無常 佛教的「生死教育」 陳家寶醫生 主講.
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
DeepPath 周天烁
第4章 Excel电子表格制作软件 4.4 函数(一).
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
铂安智防务科技有限公司 辅助驾驶设备 2017.
Introduction of this course
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
基于最大margin的决策树归纳 李 宁.
轉換 Quick Time 的視訊格式 雖然網頁上可支援播放AVI的視訊檔,但由於檔案容量相
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
Speaker : YI-CHENG HUNG
欧式复古花纹模板 ST模板 年4月14日.
百艳图.
基于列存储的RDF数据管理 朱敏
99學年度第1學期夥伴學習教師專業成長研習— 家政科「第五期家政教材資源研發推廣研習」
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
Bellman 查經 處理憂慮 馬太福音 6:25~34.
Speaker : YI-CHENG HUNG
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
Rlj
96 教育部專案補助計畫案明細 單位 系所 教育部補助款 學校配合款 工作໨目 計畫主 持人 備註 設備費 業務費 579,000
Presentation transcript:

Reinforcement Learning Presented by 肖钦哲

Reinforcement learning RL: 一个Agent根据当前状态st, 使用策略Π选择能使未来回报最大化的动作at; 从环境 中得到反馈/回报rt和下一个状态st+1, 然后进行策略的学习,使得Π近似最优策略,最 大化回报的期望。 Agent: 智能体,做决策,使得未来总回报最大 Environment:环境 policy策略π:状态s -> 动作a Reward回报r:环境对agent的反馈 st at Agent Π(at | st) Environment rt, st+1

术语 value function值函数Vπ(s) 从状态s出发,使用策略π所带来的累积奖赏R(s0)+γR(s1)+ γ2R(s2)+….; Action-value function动作值函数Qπ(s, a) 从状态s出发,执行动作a后使用策略π所带来的累积奖赏R(s0, a)+γR(s1)+ γ2R(s2)+…. ; > 函数:对于离散状态,动作,为向量/矩阵;连续/无穷,为函数,可以用一个模型来 表示如神经网络等。 环境模型: 对环境建模,对回报,状态的预测,称为model-based,与model free对应。 Exploration vs Exploitation ε-greedy: ε概率选择一个随机概率,1- ε贪心策略max Q(s, a) Episode: 一段情节,如一局游戏

MDP 一个马尔可夫决策过程是元组 (S,A,{Psa},γ,R) S: 状态集; A:动作集 Psa(s’): 在状态s执行a后到达s’的概率分布 γ: 折扣因子; R: 回报 值函数 Bellman方程

迭代算法 值迭代 策略迭代

迭代算法 值迭代和策略迭代算法需要先知道所有的状态,以及状态的转移概率和状态的回报, 需要每一次遍历所有状态进行迭代更新。 agent根据策略对s状态做了a动作后,它是不知道后面的状态转移概率分布和回报的, 只有等环境反馈之后才得到s’, r,然后更新调整策略。所以当预先不知道所有状态以 及概率,回报时,就有了其他RL方法: Monte-Carlo Temporal-Difference Dynamic-Programming

Monte-carlo

First-visit MC

Temporal Difference/TD(0)

Temporal Difference/TD(λ) 当λ=1时,TD(1)就是MC;当λ=0时,也就是TD(0).

MC vs TD vs DP

MC vs TD vs DP

MC vs TD vs DP

On-policy vs off-policy 在当前状态S选择A的策略与为下一个状态S’选择的策略是否相同,如果相同,为on- policy, 否则为off-policy。 Off-policy: Q-learning On-policy: Sarsa

Sarsa

Model-based vs Model free 对环境建模,用来估计下一个状态P(s’|s, a), 回报R(s, a). Model free 不需要对环境建模,如Q-learning,Q(s, a)对未来回报进行估计,从而得到最佳的动作 a*

参考 UCL Course on RL : PPT: http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html Video: http://search.bilibili.com/all?keyword=%E5%A2%9E%E5%BC%BA%E5%AD %A6%E4%B9%A0%E8%AF%BE%E7%A8%8BDavid%20Silver&from_source =banner_search Book: 《reinforcement learning :an introduction》 其他博客

example 如何从五个房间中走出去 http://mnemstudio.org/path-finding-q-learning-tutorial.htm

example 回报矩阵 初始化Q

Steps Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Episode 1. (1) State=1,actions 3/5,select 5 Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100 Episode 2. (1) State=3, actions 1/2/4, select 1 Q(3, 1) = R(3, 1) + 0.8 * Max[Q(1, 3), Q(1, 5)] = 0 + 0.8 * Max(0, 100) = 80 (2) State=1, actions 3/5, select 5

Results …. 归一

Deep Reinforcement Learning Playing Atari with Deep Reinforcement Learning Abstract 本文使用了增强学习和深度学习模型来学习玩Atari 2600游戏的策略。模型是CNN,输 入为游戏画面,输出为评估未来收益的值函数,通过Q-learning变体来训练网络。 背景 在具有高维的输入如视觉,语音方面,传统的RL是利用手工的特征和线性或者其他模型。 DL具有很好的特征自动提取,以及非线性的模型表达。

Deep Reinforcement Learning Challenge: Delay:动作与回报会有延迟 状态间高度关联 数据分布随着学习过程而改变 (解决方法在后面讲) Bellman formula:

Deep Reinforcement Learning Q-network: 神经网络Q(s,a;θ)近似Q*(s,a) Loss: 上一次模型作为基准:因为参数更新是batch,更新一次参数就会变;使用上一个模型可 以提供固定标准的yi Gradient:

Experience Replay Experience Replay: 存储经验et=(st, at, rt, st+1)到集合D(replay memory)中,在更新权重时从经验 池中随机采样。 优点: 每一步的经验被用到多次权重更新之中; 从连续的samples(episode)学习不高效,因为samples的强关联;随机采样打破 这种关联,减少更新的方差。 让行为分布是先前很多状态的均匀,平稳学习和避免发散 缺点: Fixed N experience;uniformly sampling 通过区分样本重要性等,做更好的采样,替换等。

DQN

Preprocessing and Model Architecture 210*160 RGB -> gray-scale 110*84 Cropping: 84*84 3. Φ(s): 预处理函数,对过去的4帧做上述处理然后堆叠 Architecture 有两种方式: s, a作为输入,输出一个Q值 S作为输入, 输出所有action的Q值 第二种只需要计算一次,故使用2

Experiments Reward: 1, 0, -1 RMSProp batch 32 Ε-greedy 1 ~ 0.1 linearly, fixed 0.1 Train: 10 million frames Replay memory: 1 million most recent frames Frame-skipping technique: every kth frame select actions. k=4/3

Training Evaluation of progress of agent 很多次游戏的平均回报; 固定的状态集合,使用平均Q值评估; 1的方式会很抖动,small changes to the weights of a policy can lead to large changes in the distribution of states the policy visits.

值函数的可视化

结果

Trading 将RL应用在股票等交易中,学习从股票行情到决策的映射。 做法:可以仿造DQN的结构做;可以单个股票或者多个股票(投资组合)决策;可以融 合多源数据如新闻等来做;… 关于RL在trading的应用需要调查。 To be continued…