Backpropagation Algorithm

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
第九章 常微分方程数值解法 §1 、引言. 微分方程的数值解:设方程问题的解 y(x) 的存在区间是 [a,b] ,令 a= x 0 < x 1
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
数据挖掘导论 福建医科大学 郑伟成.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第九章 会计设置及机构.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
倒傳遞類神經網路 2006年3月14日星期二.
第九章 建设中国特色社会主义政治.
战争结束了 年11月,听到停战的消息,巴黎街头人们欣喜若狂。法国总理克里孟梭说:“吻我的姑娘有500多个了。”
第三組 偏差與正常 4A3I0006 周秀鎂 4A3I0009 閔佑婷 4A3I0035 蔡佩倫 4A3I0041 林宜臻
辦理建教合作注意事項 國立台灣師範大學 鄭慶民
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第九章  Elman网络与学习算法 北京科技大学 信息工程学院 付冬梅
第7章 典型神经网络 7.1 单神经元网络.
数据挖掘原理与SPSS Clementine应用宝典
学籍异动学生选课辅导 学年第1学期.
-Artificial Neural Network- Adaline & Madaline
第九届机器学习 及其应用研讨会 2011年11月,清华大学 机器学习的困惑 与历史的启示 王珏.
第三章 生物神經網路 與類神經網路 類神經網路 台大生工系水資源資訊系統研究室.
强连通分量 无向图 1、任意两顶点连通称该图为连通图 2、否则将其中的极大连通子图称为连通分量 A D C B E 有向图
Advanced Artificial Intelligence
走进编程 程序的顺序结构(二).
第五章 BP网络 北京科技大学 信息工程学院 付冬梅
第十章 智慧型決策支援系統.
组员:张一凡 薛菲 马玉洁 提运亨 孙悦 顿凯 张刚 商明样 陈默
Online job scheduling in Distributed Machine Learning Clusters
Ch 08.多层神经网络 1.
神经网络算法的研究与应用 数学建模小学期小组作业 理学院 信息与计算科学 2018年07月06日 学院: 专业: 组员: 日期:
人工智慧:學習.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
神经信息学 平行分布式理论框架 史忠植 中科院计算所 2019/4/11.
Partial Differential Equations §2 Separation of variables
前向人工神经网络敏感性研究 曾晓勤 河海大学计算机及信息工程学院 2003年10月.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
Neural Networks: Learning
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
1.非线性规划模型 2.非线性规划的Matlab形式
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§7.3 离散时间系统的数学 模型—差分方程 线性时不变离散系统 由微分方程导出差分方程 由系统框图写差分方程 差分方程的特点.
滤波减速器的体积优化 仵凡 Advanced Design Group.
神经网络 Statistical Learning 方匡南 厦门大学教授 博士生导师.
第4章 感知器(Perceptron).
《偏微分方程》第一章 绪论 第一章 绪论 1.1.
Presentation transcript:

Backpropagation Algorithm 郝红侠 2006.11.13 2019/5/2

Perceptron : Single Layer Feed-forward Rosenblatt’s Perceptron: a network of processing elements (PE): Input layer of source nodes Output layer of neurons 1957年美国学者罗森布拉特Rosenblatt提出了一类具有自学习能力的感知器模型,它是一个具有单层计算单元的前向神经网络,其神经元为线性阈值单元,称为单层感知器。它和M-P模型相似,当输入信息的加权和大于或等于阈值时,输出为1,否则输出为0或-1。与M-P模型不同之处是神经元之间的连接权值wi是可变的,这种可变性就保证了感知器具有学习能力。 2019/5/2

XOR问题 任何一个逻辑电路都可以只用XOR门来实现, XOR是通用门 (universal logic gate) 异或问题的二层感知器 2019/5/2

Perceptron : Multi Layer Feed- forward Input layer Output Hidden Layer •••• 输入层神经元的个数为输入信号的维数,输出层神经元的个数为输出信号的维数。隐含层个数以及隐节点个数视具体情况而定,保证足够高的网络性能和泛化能力,确定隐层节点数的最基本原则是:在满足精度要求的前提下取尽可能紧凑的结构,即取尽可能少的隐层节点数。 2019/5/2

MLP的特性 除了输入输出,MLP含有一层或多层隐单元,隐单元从输入模式中提取更多有用的信息,使网络完成更复杂的任务。 MLP神经元的激励函数一般采用Sigmoid函数,即 式中ni是第i个神经元的输入信号,ai是该神经元的输出信号。 2019/5/2

当隐层神经元足够多时,Sigmoid结构原则上可以以任意精度逼近的多元非线性函数 MLP的适用范围大大超过单程网络 为了提高神经网络的分类能力,必须采用MLP,但当要精确逼近复杂问题时,隐层神经元和连接突触可能会达到“爆炸”量。 2019/5/2

Backpropagation Algorithm 它之所以是一种学习方法,就是因为用它可以对组成前向多层网络的各人工神经元之间的连接权值进行不断修改,从而使该前向多层网络能够将输入它的信息变换成所期望的输出信息。如果将该多层网络看成一个变换,而网络中各人工神经元之间的连接权值看成变换中的参数,那么这种学习算法就是要求得这些参数。 Late 1980’s - NN re-emerge with Rumelhart and McClelland (Rumelhart, D., McClelland, J., Parallel and Distributed Processing, MIT Press, Cambridge, 1986.) Why BP is a learning method? Why a Backpropagation learning method? 之所以将其称作为反向学习算法,是因为在修改各人工神经元的连接权值时,所依据的是该网络的实际输出与期望的输出之差。将这一差值反向一层一层的向回传播,来决定连接权值的修改。 反向传播模型也称B-P(Back Propagation)模型,是一种用于前向多层神经网络的反向传播学习算法,由鲁梅尔哈特D.Rumelhat和麦卡洛克MeClelland于1986年提出。 2019/5/2

Learning Rule Measure error Reduce that error By appropriately adjusting each of the weights in the network 2019/5/2

BP Network Details Forward Pass: Backward Pass: Error is calculated from outputs Used to update output weights Backward Pass: Error at hidden nodes is calculated by back propagating the error at the outputs through the new weights Hidden weights updated 工作信号正向传播,误差信号反向传播 反向传播算法:从后向前(反向)逐层传播输出层的误差,以间接算出隐层误差。分两个阶段: 正向过程:从输入层经隐层逐层正向计算各单元的输出 反向过程:由输出误差逐层反向计算隐层各单元的误差,并用此误差修正前层的权值 2019/5/2

BP Algorithm 正向过程: 输出层所有神经元的误差能量总和 sum squared error, SSE 权值修正: delta学习规则 2019/5/2

Case 1: 输出层权值修正 局部 梯度 对于sigmoid函数: 2019/5/2

Case 2:隐层权值修正 i wji nj aj ni δj wji δi 2019/5/2

BP算法的步骤 初始值选择 前向计算,求出所有神经元的输出 对输出层计算δ 从后向前计算各隐层δ 计算并保存各权值修正量: 修正权值: 判断是否收敛,如果收敛则结束,不收敛则转至Step2 2019/5/2

收敛性和局部极小值 对于多层网络,误差曲面可能含有多个不同的局部极小值,梯度下降可能陷入这些局部极小值中的任何一个 对于多层网络,反向传播算法仅能保证收敛到误差E的某个局部极小值,不一定收敛到全局最小误差 尽管缺乏对收敛到全局最小误差的保证,BP算法在实践中仍是非常有效的函数逼近算法 2019/5/2

BP算法的改进 学习率影响系统学习过程的稳定性。大的学习率可能使网络权值每一次的修正量过大,甚至会导致权值在修正过程中超出某个误差的极小值呈不规则跳跃而不收敛;但过小的学习率导致学习时间过长,不过能保证收敛于某个极小值。所以,一般倾向选取较小的学习率以保证学习过程的收敛性(稳定性),通常在0.01~0.8之间。 增加冲量项的目的是为了避免网络训练陷于较浅的局部极小点。理论上其值大小应与权值修正量的大小有关,但实际应用中一般取正数。通常在0~1之间,而且一般比学习率要大。 2019/5/2

增加冲量项 Here we modify weights of neurons with: (1) (2) 当本次与前一次同符号时,其求和权值增大,使ΔWij较大,从而在稳定调节时加快了w的调节速度。当与前次符号相反时,指数加权求和的结果使得ΔWij减小了,起到了稳定的作用。 1°将(1)式写成以t为变量的时间序列,t由0到n。则(1)式就可以看成是∧wij(n)的一阶查分方程,即(2)式。 右侧第一项就是表4-2中的权值更新法则,第二项被称为冲量项 梯度下降的搜索轨迹就像一个球沿误差曲面滚下,冲量使球从一次迭代到下一次迭代时以同样的方向滚动 冲量有时会使这个球滚过误差曲面的局部极小值或平坦区域 冲量也具有在梯度不变的区域逐渐增大搜索步长的效果,从而加快收敛 2019/5/2

THANK YOU! 2019/5/2