Https://nndl.github.io/ 《神经网络与深度学习》 深度强化学习 https://nndl.github.io/

Slides:



Advertisements
Similar presentations
如何學好數學? 黃駿耀老師
Advertisements

辅助核算 3.5.
10 郑和远航.
三个偶像的故事和功绩 ——第12课 明清时期的反侵略斗争 董飞燕.
捣蛋鬼历险记 初一四班 孙嘉佑小组.
中國歷史 明代之患禍及民變.
10 郑和远航 郑和 郑和,1371年生于云南昆阳州(今昆明晋宁县)一个信奉伊斯兰教的回族家庭,原名马和,小字三宝,十一岁时在明太祖朱元璋发动的统一云南的战争中被俘进宫,后当朱元璋四子燕王朱棣的近侍。1403年朱棣登基,史称明成祖。次年正月初一,朱棣念他有勇有谋,屡立奇功,便赐姓“郑”,改称郑和,并提拔为内宫太监,于永乐三年(1405年7月11日)率领庞大船队首次出使西洋。自1405年到1433年,漫长的28年间,郑和船队历经亚非三十余国,涉十万余里,与各国建立了政治,经济,文化的联系,完成了七下西洋的伟
明清 抗击外国侵略的英勇斗争 雅克萨反击战(俄) 戚继光抗倭(日) 郑成功收复台湾(荷兰) 荷兰 俄 罗 斯 日 本 台湾 沙 俄 入 侵
戚继光抗倭.
刑事訴訟法 授課人:林俊益副教授 時間:95.9.~96.6..
妩媚人生 云 计 算 与 大规模数据并行处理技术 黄 宜 华 南 京 大 学 计算机科学与技术系 软件新技术国家重点实验室 妩媚人生 妩媚人生
第16 课 中外的交往与冲突 授课人:鲍婷.
历史上的中日关系.
云南外事外语职业学院 入党积极分子培训 赵田甜.
第四章 清代臺灣的社會文化變遷 第一節 移墾社會的形成
認識食品中毒 一、什麼是食品中毒? 二人或二人以上攝取相同的食品而發生相似的症狀,並且自可疑的食餘檢體及患者糞便、嘔吐物、血液等人體檢體,或者其它有關環境檢體(如空氣、水、土壤等)中分離出相同類型(如血清型、噬菌 體型)的致病原因,則稱為一件“食品中毒”。 但如因攝食肉毒桿菌毒素或急性化學性中毒而引起死亡,即使只有一人,也視為一件“食品中毒”。
題目:四大古文明 班級:六年八 班 組員:賴宣光.游家齊.陳羿文 吳佳芬.許淑婷.許芳瑜..
食 物 中 毒.
琦君 《髻》 S 康倩瑜.
眼乾乾唔使慌.
滑膜皱襞综合征.
“公平”是最热的关键词 1、胡锦涛首次进行“总动员”,提出“在促进发展的同时,把维护社会公平放到更加突出的位置” 。
贵州省公务员面试 备考指导 中公教育 面试讲师 刘运龙.
外 套 各式領型與變化 武 玫 莉 製 作.
第4节 人体对食物的消化吸收.
陈冤之魅,心鬼之泪 ——雾里探花 《东方快车谋杀案》 By第二小组.
高考作文等级评分标准/发展等级10分 深刻 丰富 有文采 有创意 ①透过现象 深入本质 ②揭示问题 产生的原因 ③观点具有 启发作用
文明礼仪在我心 文明礼仪在我心.
第10课 社会生活的变迁.
故事会 盘古开天劈地 在很久很久以前,天地可不象我们现在看到的这样————天高高的在上面,地在我们的脚下,中间隔着几千几万米远。那个时候的天地就象是一个包在大黑壳里的鸡蛋,混混沌沌的,什么也看不清。人们走路都得弯着腰,耕田打猎都很不方便,因为一不小心抬个头,就会碰到天,惹它生气,接着就会招来狂风暴雨。因此所有的植物也都长不高,所以结的粮食和果实都很少,根本就不够大家吃。还经常会发生饿死人的事情。
面向三农,拓宽信息渠道 辐射千村,服务百万农民
三招 让孩子爱上阅读 主讲人:芝莺妈妈 2012年10月19日.
FUZHUANGZHITUYANGBANZHIZUO
如何挑選吳郭魚 嗨~ 餐旅二乙 4a2m0105 白妤潔 4a2m0122 何姿瑩.
学校春季呼吸道传染病预防知识 连云港市疾病预防控制中心
服裝整理概論.
印染纺织类艺术.
创业计划书的编写.
创业计划书撰写.
第九章 进行充分调研 选择自主创业.
香溢饺子馆创业计划书.
第三章 中国的民族民俗 第一节 概论 第二节 汉族 第三节 满族 蒙古族 维吾尔族 回族 朝鲜族 第四节 壮族 土家族 苗族 黎族
第 4 章 投资银行: 基于资本市场的主业架构.
创业数字图书馆.
中国管理科学发展探索 成思危 2006年8月18日于上海复旦大学.
“四文”交融,虚实并举,打造具有鲜明职教特色的校园文化 ——江苏省扬州商务高等职业学校校园文化建设汇报
103年度高職優質化輔助方案計畫申辦及輔導訪視說明會
“十二五”科技发展思路 与科技计划管理 科技部发展计划司 刘敏 2012年9月.
社区妇幼保健工作 江东区妇幼保健院 胡波瑛.
人生不要太圓滿 ◎ 張忠謀.
导致羊水过少的五大因素.
胎教.
怎样进行一次宣讲 何惠玲.
第三课 中国共产党的历程.
[聚會時,請將傳呼機和手提電話關掉,多謝合作]
规范母婴保健服务 努力降低孕产妇死亡率 市卫生局基妇科 朱静.
中国地质科学院矿产资源研究所 财务报账培训
白天的月亮 想與日爭輝 人生不要太圓滿 文字取自於:張忠謀 攝於陽明山 阿道的攝影工作坊.
第十章(上) 实现中华民族的伟大复兴.
营养要均衡.
ㄩ.
高中新课程历史必修(Ⅰ) 教材比较研究 四川师范大学历史文化学院教授 陈 辉 教育部2009普通高中历史课改远程研修资料.
十年职业生涯规划 —— 年 姓名:刘娟 学号:.
主考官眼中的面试 ——面试主考官教你备战2016年国考面试 主讲老师:李海鹏.
国内知名高校 医学院(部、中心) 院系及附属医院设置情况 调研报告
財務報表分析 授課教師:陳依婷.
第六章 可供出售金融资产 一、可供出售金融资产的概念和特征 二、可供出售金融资产的核算.
主讲人:刘文波 (四会国税 政策法规股) 2014年4月
智慧宁波 智慧财税 . 宁波市地方税务局.
第六模块礼仪文书写作 第一节求职信、应聘信 QIUZHIXINYINGPINXIN.
Presentation transcript:

https://nndl.github.io/ 《神经网络与深度学习》 深度强化学习 https://nndl.github.io/

一个例子

强化学习 智能体(Agent) 环境(Environment) 感知外界环境的状态(State)和奖励反馈(Reward),并进行 学习和决策。智能体的决策功能是指根据外界环境的状态 来做出不同的动作(Action),而学习功能是指根据外界环 境的奖励来调整策略。 环境(Environment) 智能体外部的所有事物,并受智能体动作的影响而改变其 状态,并反馈给智能体相应的奖励。

强化学习 强化学习问题可以描述为一个智能体从与环境的交 互中不断学习以完成特定目标(比如取得最大奖励 值)。 强化学习就是智能体不断与环境进行交互,并根据 经验调整其策略来最大化其长远的所有奖励的累积 值。

马尔可夫决策过程 马尔可夫过程

强化学习中的基本要素 环境的状态集合:S; 智能体的动作集合:A; 状态转移概率:p(s’|s,a),即智能体根据当前状 态s做出一个动作a之后,下一个时刻环境处 于不同状态s’的概率; 即时奖励:R : S × A × S’ → R,即智能体根据 当前状态做出一个动作之后,环境会反馈给 智能体一个奖励,这个奖励和动作之后下一 个时刻的状态有关。

策略π(a|s) 马尔可夫决策过程的一个轨迹(trajectory) τ的概率

总回报 给定策略π(a|s),智能体和环境一次交互过 程的轨迹τ 所收到的累积奖励为总回报( return) γ ∈ [0,1]是折扣率。当γ接近于0时,智能体更在意短期 回报;而当γ接近于1时,长期回报变得更重要。 环境中有一个或多个特殊的终止状态(terminal state)

强化学习目标函数 强化学习的目标是学习到一个策略πθ(a|s) 来最大化期望回报(expected return) θ为策略函数的参数

状态值函数 一个策略π期望回报可以分解为 值函数:从状态s开始,执行策略π得到的期 望总回报

Bellman方程

状态-动作值函数( Q函数) 状态-动作值函数是指初始状态为s并进行动 作a,然后执行策略π得到的期望总回报。 Q函数的贝尔曼方程

最优策略 最优策略:存在一个最优的策略π∗ ,其在所 有状态上的期望回报最大

深度强化学习 深度强化学习是将强化学习和深度学习结合 在一起,用强化学习来定义问题和优化目标 ,用深度学习来解决状态表示、策略表示等 问题。 两种不同的结合强化学习和深度学习的方式,分别用深度 神经网络来建模强化学习中的值函数、策略,然后用误差 反向传播算法来优化目标函数。

基于值函数的策略学习

强化学习算法 基于模型的强化学习算法 模型无关的强化学习 基于MDP过程:状态转移概率p(s’|s,a)和奖励函数R(s,a,s ’ ) 策略迭代 值迭代 模型无关的强化学习 无MDP过程 蒙特卡罗采样方法 时序差分学习

基于模型的强化学习

策略迭代

值迭代 值迭代方法将策略评估和策略改进两个过程 合并,来直接计算出最优策略。

模型无关的强化学习

蒙特卡罗采样方法 策略学习过程 通过采样的方式来计算值函数, 当N → ∞时, 𝑄 𝜋 (𝑠,𝑎) → 𝑄 𝜋 (𝑠,𝑎)。 在似估计出Q π (s,a)之后,就可以进行策略改进。 然后在新的策略下重新通过采样来估计Q函数,并不断重 复,直至收敛。

ϵ-贪心法 利用和探索 对于一个确定性策略π,其对应的ϵ−贪心法 策略为 对当前策略的利用(Exploitation), 对环境的探索(Exploration)以找到更好的策略 对于一个确定性策略π,其对应的ϵ−贪心法 策略为

时序差分学习方法 结合了动态规划和蒙特卡罗方法 蒙特卡罗误差 从s,a开始,采样下一步的状态和动作(s ′ ,a ′ ),并得到奖励r(s,a,s ′ ),然后利用贝尔曼方程来近似估计G(τ)

SARSA算法(State Action Reward State Action,SARSA)

Q学习算法 Q学习算法不通过π ϵ 来选下一步的动作a ′ ,而是直接 选最优的Q函数,

基于值函数的深度强化学习 为了在连续的状态和动作空间中计算值函数 Qπ (s,a),我们可以用一个函数Q ϕ (s,a)来表 示近似计算,称为值函数近似(Value Function Approximation)

目标函数 存在两个问题: 深度Q网络 目标不稳定,参数学习的目标依赖于参数本身; 样本之间有很强的相关性。 一是目标网络冻结(freezing target networks),即在一个时 间段内固定目标中的参数,来稳定学习目标; 二是经验回放(experience replay),构建一个经验池来去除 数据相关性。

DQN in Atari Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533. End-to-end learning of values Q(s, a) from pixels Input state s is stack of raw pixels from last 4 frames Output is Q(s, a) for 18 joystick/button positions Reward is the change in the score for that step

DQN in Atari

DQN in Atari : Human Level Control Mnih, Volodymyr, et al. 2015.

AlphaGO: Monte Carlo Tree Search MCTS: Model look ahead to reduce searching space by predicting opponent’s moves Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489.

AlphaGO: Learning Pipeline Combine SL and RL to learn the search direction in MCTS SL policy Network Prior search probability or potential Rollout: combine with MCTS for quick simulation on leaf node Value Network: Build the Global feeling on the leaf node situation

Learning to Prune: SL Policy Network 13-layer CNN Input board position 𝑠 Output: p 𝜎 (𝑎|𝑠), where 𝑎 is the next move

Learning to Prune: RL Policy Network Self play 1 Million samples are used to train. RL-Policy network VS SL-Policy network. RL-Policy alone wins 80% games against SL-Policy. Combined with MCTS, SL-Policy network is better Used to derive the Value Network as the ground truth Making enough data for training

Learning to Prune: Value Network Regression: Similar architecture SL Network: Sampling to generate a unique game. RL Network: Simulate to get the game’s final result. Train: 50 million mini-batches of 32 positions(30 million unique games)

AlphaGO:Evaluation The version solely using the policy network does not perform any search Silver, David, et al. 2016.

策略梯度

基于策略函数的深度强化学习 可以直接用深度神经网络来表示一个参数化 的从状态空间到动作空间的映射函数:a = πθ (s)。 最优的策略是使得在每个状态的总回报最大 的策略,因此策略搜索的目标函数为

策略梯度(Policy Gradient) 策略搜索是通过寻找参数θ使得目标函数 J(θ)最大。 梯度上升: 轨迹概率 总回报 τ:轨迹

REINFORCE算法

带基准线的REINFORCE算法

Actor-Critic算法

不同强化学习算法之间的关系

汇总

https://nndl.github.io/