人工神经网络 Artificial Neural Networks

人工神经网络 Artificial Neural Networks
2018/12/30

蒋宗礼软件学科部联系电话：67392508 Email：jiangzl@bjpu.edu.cn 办公地点：信息北楼214
2018/12/30

教材书名：《人工神经网络导论》出版社：高等教育出版社出版日期：2001年8月定价：12.4元作者：蒋宗礼 2018/12/30

主要参考书目 1、Philip D. Wasserman， Neural Computing: Theory and Practice，Van Nostrand Reinhold，1989 2、胡守仁、余少波、戴葵，神经网络导论，国防科技大学出版社，1993年10月 3、杨行峻、郑君里，人工神经网络，高等教育出版社，1992年9月 4、闻新、周露、王丹力、熊晓英，MATLAB神经网络应用设计，科学出版社， 2018/12/30

课程目的和基本要求作为人工神经网络的入门课程，用于将学生引入人工神经网络及其应用的研究领域。介绍人工神经网络及其基本网络模型，使学生
了解智能系统描述的基本模型掌握人工神经网络的基本概念、单层网、多层网、循环网等各种基本网络模型的结构、特点、典型训练算法、运行方式、典型问题掌握软件实现方法。 2018/12/30

课程目的和基本要求了解人工神经网络的有关研究思想，从中学习开拓者们的部分问题求解方法。
通过实验进一步体会有关模型的用法和性能，获取一些初步的经验。查阅适当的参考文献，将所学的知识与自己未来研究课题（包括研究生论文阶段的研究课题）相结合起来，达到既丰富学习内容，又有一定的研究和应用的目的。 2018/12/30

主要内容智能及其实现 ANN基础 Perceptron BP CPN 统计方法 Hopfield网与BAM ART 2018/12/30

主要内容第一章：引论智能的概念、智能系统的特点及其描述基本模型，物理符号系统与连接主义的观点及其比较；人工神经网络的特点、发展历史。
2018/12/30

主要内容第二章人工神经网络基础本章在介绍了基本神经元后，将概要介绍人工神经网络的一般特性。主要包括，生物神经网络模型，人工神经元模型与典型的激励函数；人工神经网络的基本拓扑特性，存储类型（CAM──LTM，AM──STM）及映象，Supervised训练与Unsupervised训练。 2018/12/30

主要内容第三章感知器感知器与人工神经网络的早期发展；单层网能解决线性可分问题，而无法解决线形不可分问题，要想解决这一问题，必须引入多层网；Hebb学习律，Delta规则，感知器的训练算法。实验：实现一个感知器。 2018/12/30

主要内容第四章向后传播 BP（Backpropagation）网络的构成及其训练过程；隐藏层权调整方法的直观分析，BP训练算法中使用的Delta规则（最速下降法）的理论推导；算法的收敛速度及其改进讨论；BP网络中的几个重要问题。实验：实现BP算法。 2018/12/30

主要内容第五章对传网生物神经系统与异构网的引入；对传网的网络结构，Kohonen层与Grossberg层的正常运行，对传网的输入向量的预处理，Kohonen层的训练算法及其权矩阵的初始化方法；Grossberg层的训练；完整的对传网。实验：实现基本的对传网。 2018/12/30

主要内容第六章统计方法统计方法是为了解决局部极小点问题而引入的，统计网络的基本训练算法，模拟退火算法与收敛分析，Cauchy训练，人工热处理与临界温度在训练中的使用，BP算法与Cauchy训练相结合。实验：实现模拟退火算法。 2018/12/30

主要内容第七章循环网络循环网络的组织，稳定性分析；相联存储；统计Hopfield网与Boltzmann机；Hopfield网用于解决TSP问题。 BAM(Bidirectional Associative Memory)用于实现双联存储；基本双联存储网络的结构及训练；其他的几种相联存储网络。实验：实现一个Hopfield网。 2018/12/30

主要内容第八章自适应共振理论人脑的稳定性与可塑性问题；ART模型的总体结构与分块描述；比较层与识别层之间的两个联接矩阵的初始化，识别过程与比较过程，查找的实现；训练讨论。 2018/12/30

第1章引言主要内容：重点：难点：对智能的刻画智能与人工智能； ANN的特点；历史回顾与展望智能的本质；
第1章引言主要内容：智能与人工智能； ANN的特点；历史回顾与展望重点：智能的本质； ANN是一个非线性大规模并行处理系统难点：对智能的刻画 2018/12/30

第1章引言 1.1 人工神经网络的提出 1.2 人工神经网络的特点 1.3 历史回顾 2018/12/30

第1章引言人类对人工智能的研究可以分成两种方式对应着两种不同的技术：传统的人工智能技术——心理的角度模拟
第1章引言人类对人工智能的研究可以分成两种方式对应着两种不同的技术：传统的人工智能技术——心理的角度模拟基于人工神经网络的技术——生理的角度模拟 2018/12/30

1.1 人工神经网络的提出人工神经网络（Artificial Neural Networks，简记作ANN），是对人类大脑系统的一阶特性的一种描述。简单地讲，它是一个数学模型，可以用电子线路来实现，也可以用计算机程序来模拟，是人工智能研究的一种方法。 2018/12/30

1.1 人工神经网络的提出 1.1.1 智能与人工智能一、智能的含义
智能是个体有目的的行为，合理的思维，以及有效的、适应环境的综合能力。智能是个体认识客观事物和运用知识解决问题的能力。人类个体的智能是一种综合能力。 2018/12/30

1.1 人工神经网络的提出智能可以包含8个方面感知与认识客观事物、客观世界和自我的能力通过学习取得经验与积累知识的能力
感知是智能的基础——最基本的能力通过学习取得经验与积累知识的能力这是人类在世界中能够不断发展的最基本能力。理解知识，运用知识和经验分析、解决问题的能力这一能力可以算作是智能的高级形式。是人类对世界进行适当的改造，推动社会不断发展的基本能力。 2018/12/30

1.1 人工神经网络的提出联想、推理、判断、决策语言的能力运用进行抽象、概括的能力上述这5种能力，被认为是人类智能最为基本的能力
这是智能的高级形式的又一方面。预测和认识 “主动”和“被动”之分。联想、推理、判断、决策的能力是“主动”的基础。运用进行抽象、概括的能力上述这5种能力，被认为是人类智能最为基本的能力 2018/12/30

1.1 人工神经网络的提出作为5种能力综合表现形式的3种能力发现、发明、创造、创新的能力实时、迅速、合理地应付复杂环境的能力
预测、洞察事物发展、变化的能力 2018/12/30

1.1 人工神经网络的提出二、人工智能人工智能：研究如何使类似计算机这样的设备去模拟人类的这些能力。研究人工智能的目的三大学术流派
增加人类探索世界，推动社会前进的能力进一步认识自己三大学术流派符号主义（或叫做符号/逻辑主义）学派联接主义（或者叫做PDP）学派进化主义（或者叫做行动/响应）学派 2018/12/30

1.1 人工神经网络的提出 1.1.2 物理符号系统人脑的反映形式化现实信息数据物理系统物理符号系统表现智能
物理符号系统人脑的反映形式化现实信息数据物理系统物理符号系统表现智能 2018/12/30

1.1 人工神经网络的提出 Newell和Simon假说：一个物理系统表现智能行为的充要条件是它有一个物理符号系统
概念：物理符号系统需要有一组称为符号的实体组成，它们都是物理模型，可以在另一类称为符号结构的实体中作为成分出现，以构成更高级别的系统 2018/12/30

1.1 人工神经网络的提出困难：局限：抽象——舍弃一些特性，同时保留一些特性
形式化处理——用物理符号及相应规则表达物理系统的存在和运行。局限：对全局性判断、模糊信息处理、多粒度的视觉信息处理等是非常困难的。 2018/12/30

1.1 人工神经网络的提出 1.1.3 联接主义观点核心：智能的本质是联接机制。
联接主义观点核心：智能的本质是联接机制。神经网络是一个由大量简单的处理单元组成的高度复杂的大规模非线性自适应系统 ANN力求从四个方面去模拟人脑的智能行为物理结构计算模拟存储与操作训练 2018/12/30

1.1 人工神经网络的提出 1.1.4 两种模型的比较物理符号系统联结主义观点心理过程逻辑思维高级形式（思维的表象）
两种模型的比较心理过程逻辑思维高级形式（思维的表象）生理过程形象思维低级形式（思维的根本）仿生人工神经网络物理符号系统联结主义观点 2018/12/30

1.1 人工神经网络的提出物理符号系统和人工神经网络系统的差别项目物理符号系统人工神经网络处理方式逻辑运算模拟运算执行方式
串行并行动作离散连续存储局部集中全局分布 2018/12/30

1.1 人工神经网络的提出两种人工智能技术的比较项目传统的AI技术 ANN技术基本实现方式串行处理；由程序实现控制
并行处理；对样本数据进行多目标学习；通过人工神经元之间的相互作用实现控制基本开发方法设计规则、框架、程序；用样本数据进行调试（由人根据已知的环境去构造一个模型）定义人工神经网络的结构原型，通过样本数据，依据基本的学习算法完成学习——自动从样本数据中抽取内涵（自动适应应用环境）适应领域精确计算：符号处理，数值计算非精确计算：模拟处理，感觉，大规模数据并行处理模拟对象左脑（逻辑思维）右脑（形象思维） 2018/12/30

1.2 人工神经网络的特点信息的分布表示运算的全局并行和局部操作处理的非线性 2018/12/30

1.2.1 人工神经网络的概念 1、定义 1）Hecht—Nielsen（1988年）人工神经网络是一个并行、分布处理结构，它由处理单元及其称为联接的无向讯号通道互连而成。这些处理单元（PE—Processing Element）具有局部内存，并可以完成局部操作。每个处理单元有一个单一的输出联接，这个输出可以根据需要被分枝成希望个数的许多并行联接，且这些并行联接都输出相同的信号，即相应处理单元的信号，信号的大小不因分支的多少而变化。 2018/12/30

1.2.1 人工神经网络的概念（1）Hecht—Nielsen（1988年）（续）处理单元的输出信号可以是任何需要的数学模型，每个处理单元中进行的操作必须是完全局部的。也就是说，它必须仅仅依赖于经过输入联接到达处理单元的所有输入信号的当前值和存储在处理单元局部内存中的值。 2018/12/30

1.2.1 人工神经网络的概念强调： ① 并行、分布处理结构； ② 一个处理单元的输出可以被任意分枝，且大小不变；
③ 输出信号可以是任意的数学模型； ④ 处理单元完全的局部操作 2018/12/30

1.2.1 人工神经网络的概念（2） Rumellhart，McClelland，Hinton的PDP 1）一组处理单元（PE或AN）；
2）处理单元的激活状态（ai）； 3）每个处理单元的输出函数（fi）； 4）处理单元之间的联接模式； 5）传递规则（∑wijoi）； 6）把处理单元的输入及当前状态结合起来产生激活值的激活规则（Fi）； 7）通过经验修改联接强度的学习规则； 8）系统运行的环境（样本集合）。 2018/12/30

1.2.1 人工神经网络的概念（3） Simpson（1987年）
人工神经网络是一个非线性的有向图，图中含有可以通过改变权大小来存放模式的加权边，并且可以从不完整的或未知的输入找到模式。 2018/12/30

1.2.1 人工神经网络的概念 2、关键点（1）信息的分布表示（2）运算的全局并行与局部操作（3）处理的非线性特征
（1）信息的分布表示（2）运算的全局并行与局部操作（3）处理的非线性特征 3、对大脑基本特征的模拟 1）形式上：神经元及其联接；BN对AN 2）表现特征：信息的存储与处理 2018/12/30

1.2.1 人工神经网络的概念 4、别名人工神经系统（ANS）神经网络（NN）
自适应系统（Adaptive Systems）、自适应网（Adaptive Networks）联接模型（Connectionism）神经计算机（Neurocomputer） 2018/12/30

1.2.2 学习（Learning）能力人工神经网络可以根据所在的环境去改变它的行为自相联的网络
异相联的网络：它在接受样本集合A时，可以抽取集合A中输入数据与输出数据之间的映射关系。——“抽象”功能。不同的人工神经网络模型，有不同的学习/训练算法 2018/12/30

1.2.3 基本特征的自动提取由于其运算的不精确性，表现成“去噪音、容残缺”的能力，利用这种不精确性，比较自然地实现模式的自动分类。
普化（Generalization）能力与抽象能力 2018/12/30

1.2.4 信息的分布存放信息的分布存提供容错功能系统在受到局部损伤时还可以正常工作。
由于信息被分布存放在几乎整个网络中，所以，当其中的某一个点或者某几个点被破坏时，信息仍然可以被存取。系统在受到局部损伤时还可以正常工作。并不是说可以任意地对完成学习的网络进行修改。也正是由于信息的分布存放，对一类网来说，当它完成学习后，如果再让它学习新的东西，这时就会破坏原来已学会的东西。 2018/12/30

1.2.5适应性(Applicability)问题
擅长两个方面：对大量的数据进行分类，并且只有较少的几种情况；必须学习一个复杂的非线性映射。目前应用：人们主要将其用于语音、视觉、知识处理、辅助决策等方面。在数据压缩、模式匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解（不是最佳近似解）等方面也有较好的应用。 2018/12/30

1.3 历史回顾 1.3.1 萌芽期（20世纪40年代）人工神经网络的研究最早可以追溯到人类开始研究自己的智能的时期，到1949年止。
1943年，心理学家McCulloch和数学家Pitts建立起了著名的阈值加权和模型，简称为M-P模型。发表于数学生物物理学会刊《Bulletin of Methematical Biophysics》 1949年，心理学家D. O. Hebb提出神经元之间突触联系是可变的假说——Hebb学习律。 2018/12/30

1.3.2 第一高潮期（1950~1968）以Marvin Minsky，Frank Rosenblatt，Bernard Widrow等为代表人物，代表作是单级感知器（Perceptron）。可用电子线路模拟。人们乐观地认为几乎已经找到了智能的关键。许多部门都开始大批地投入此项研究，希望尽快占领制高点。 2018/12/30

1.3.3 反思期（1969~1982） M. L. Minsky和S. Papert，《Perceptron》，MIT Press，1969年异或”运算不可表示二十世纪70年代和80年代早期的研究结果认识规律：认识——实践——再认识 2018/12/30

1.3.4 第二高潮期（1983~1990） 1982年，J. Hopfield提出循环网络
用Lyapunov函数作为网络性能判定的能量函数，建立ANN稳定性的判别依据阐明了ANN与动力学的关系用非线性动力学的方法来研究ANN的特性指出信息被存放在网络中神经元的联接上 2018/12/30

1.3.4 第二高潮期（1983~1990） 2）1984年， J. Hopfield设计研制了后来被人们称为Hopfield网的电路。较好地解决了著名的TSP问题，找到了最佳解的近似解，引起了较大的轰动。 3）1985年，UCSD的Hinton、Sejnowsky、Rumelhart等人所在的并行分布处理（PDP）小组的研究者在Hopfield网络中引入了随机机制，提出所谓的Boltzmann机。 2018/12/30

1.3.4 第二高潮期（1983~1990） 4）1986年，并行分布处理小组的Rumelhart等研究者重新独立地提出多层网络的学习算法——BP算法，较好地解决了多层网络的学习问题。（Paker1982和Werbos1974年）国内首届神经网络大会是1990年12月在北京举行的。 2018/12/30

1.3.5 再认识与应用研究期（1991~）问题： 1）应用面还不够宽 2）结果不够精确 3）存在可信度的问题 2018/12/30

1.3.5 再认识与应用研究期（1991~）研究： 1）开发现有模型的应用，并在应用中根据实际运行情况对模型、算法加以改造，以提高网络的训练速度和运行的准确度。 2）充分发挥两种技术各自的优势是一个有效方法 3）希望在理论上寻找新的突破，建立新的专用/通用模型和算法。 4）进一步对生物神经系统进行研究，不断地丰富对人脑的认识。 2018/12/30

第2章人工神经网络基础主要内容： BN与AN；拓扑结构；存储；训练重点：AN；拓扑结构；训练难点：训练 2018/12/30

第2章人工神经网络基础 2.1 生物神经网 2.2 人工神经元 2.3 人工神经网络的拓扑特性 2.4 存储与映射
2.5 人工神经网络的训练 2018/12/30

2.1 生物神经网 1、构成 2、工作过程枝蔓（Dendrite）胞体(Soma) 突触（Synapse） 2018/12/30
轴突（Axon）突触（Synapse） 2、工作过程 2018/12/30

2.1 生物神经网 3、六个基本特征： 1）神经元及其联接； 2）神经元之间的联接强度决定信号传递的强弱；
3）神经元之间的联接强度是可以随训练改变的； 4）信号可以是起刺激作用的，也可以是起抑制作用的； 5）一个神经元接受的信号的累积效果决定该神经元的状态； 6) 每个神经元可以有一个“阈值”。 2018/12/30

2.2 人工神经元神经元是构成神经网络的最基本单元（构件）。人工神经元模型应该具有生物神经元的六个基本特性。 2018/12/30

2.2.1 人工神经元的基本构成人工神经元模拟生物神经元的一阶特性。输入：X=（x1，x2，…，xn）
xn wn ∑ x1 w1 x2 w2 net=XW … 人工神经元模拟生物神经元的一阶特性。输入：X=（x1，x2，…，xn）联接权：W=（w1，w2，…，wn）T 网络输入： net=∑xiwi 向量形式： net=XW 2018/12/30

2.2.2 激活函数(Activation Function)
激活函数——执行对该神经元所获得的网络输入的变换，也可以称为激励函数、活化函数： o=f（net） 1、线性函数（Liner Function） f（net）=k*net+c net o c 2018/12/30

2、非线性斜面函数(Ramp Function)
γ if net≥θ f（net）= k*net if |net|<θ -γ if net≤-θ γ>0为一常数，被称为饱和值，为该神经元的最大输出。 2018/12/30

2、非线性斜面函数（Ramp Function）
γ -γ θ -θ net o 2018/12/30

3、阈值函数（Threshold Function）阶跃函数
β if net>θ f（net）= -γ if net≤ θ β、γ、θ均为非负实数，θ为阈值二值形式： 1 if net>θ 0 if net≤ θ 双极形式： -1 if net≤ θ 2018/12/30

3、阈值函数（Threshold Function）阶跃函数
β net θ -γ 2018/12/30

4、S形函数压缩函数（Squashing Function）和逻辑斯特函数（Logistic Function）。
f（net）=a+b/(1+exp(-d*net)) a，b，d为常数。它的饱和值为a和a+b。最简单形式为： f（net）= 1/(1+exp(-d*net)) 函数的饱和值为0和1。 S形函数有较好的增益控制 2018/12/30

4、S形函数 a+b o (0,c) net a c=a+b/2 2018/12/30

2.2.3 M-P模型 McCulloch—Pitts（M—P）模型，也称为处理单元（PE） x2 w2 ∑ f o=f（net）
∑ f o=f（net） xn wn … net=XW x1 w1 2018/12/30

上次课内容回顾擅长两个方面目前应用语音、视觉、知识处理
数据压缩、模式匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解（不是最佳近似解）辅助决策——预报与智能管理通信——自适应均衡、回波抵消、路由选择、ATM中的呼叫接纳、识别与控制空间科学——对接、导航、制导、飞行程序优化 2018/12/30

上次课内容回顾发展过程萌芽期（20世纪40年代）第一高潮期（1950~1968）反思期（1969~1982）
M-P模型 Hebb学习律第一高潮期（1950~1968） Perceptron的兴衰反思期（1969~1982）第二高潮期（1983~1990） 4个标志性成果再认识与应用研究期（1991~） 2018/12/30

上次课内容回顾生物神经网六个基本特征人工神经元的基本构成神经元及其联接、信号传递、训练、刺激与抑制、累积效果、 “阈值”。 x1 w1
xn wn ∑ x1 w1 x2 w2 net=XW … 2018/12/30

上次课内容回顾激活函数与M-P模型线性函数、非线性斜面函数、阈值函数 S形函数 M-P模型 x2 w2 ∑ f o=f（net）
∑ f o=f（net） xn wn … net=XW x1 w1 2018/12/30

2.3 人工神经网络的拓扑特性连接的拓扑表示 ANi wij ANj 2018/12/30

2.3.1 联接模式用正号（“+”，可省略）表示传送来的信号起刺激作用，它用于增加神经元的活跃度；
用负号（“-”）表示传送来的信号起抑制作用，它用于降低神经元的活跃度。层次（又称为“级”）的划分，导致了神经元之间的三种不同的互连模式： 2018/12/30

2.3.1 联接模式 1、层（级）内联接层内联接又叫做区域内（Intra-field）联接或侧联接（Lateral）。
用来加强和完成层内神经元之间的竞争 2、循环联接反馈信号。 2018/12/30

2.3.1 联接模式 3、层（级）间联接层间（Inter-field）联接指不同层中的神经元之间的联接。这种联接用来实现层间的信号传递
前馈信号反馈信号 2018/12/30

2.3.2 网络的分层结构单级网简单单级网 2018/12/30

简单单级网 o1 o2 om x1 x2 … xn wnm w11 w1m w2m wn1 … 输出层输入层 2018/12/30

简单单级网 W=（wij）输出层的第j个神经元的网络输入记为netj： netj=x1w1j+x2w2j+…+xnwnj
其中, 1≤ j ≤ m。取 NET=（net1，net2，…，netm） NET=XW O=F（NET） 2018/12/30

单级横向反馈网 V 输出层 x1 o1 w11 w1m x2 o2 w2m … xn om wn1 输入层 2018/12/30

单级横向反馈网 V=（vij） NET=XW+OV O=F（NET）时间参数——神经元的状态在主时钟的控制下同步变化
NET（t+1）=X（t）W+O（t）V O(t+1)=F(NET(t+1)) O（0）=0 考虑仅在t=0时加X的情况。稳定性判定 2018/12/30

多级网 x1 x2 xn … o1 o2 om … … 输出层隐藏层输入层 2018/12/30

层号确定层的高低：层号较小者，层次较低，层号较大者，层次较高。输入层：被记作第0层。该层负责接收来自网络外部的信息
层次划分信号只被允许从较低层流向较高层。层号确定层的高低：层号较小者，层次较低，层号较大者，层次较高。输入层：被记作第0层。该层负责接收来自网络外部的信息输出层隐藏层输入层 o1 o2 om … x1 x2 xn 2018/12/30

第j层：第j-1层的直接后继层（j>0），它直接接受第j-1层的输出。
输出层：它是网络的最后一层，具有该网络的最大层号，负责输出网络的计算结果。隐藏层：除输入层和输出层以外的其它各层叫隐藏层。隐藏层不直接接受外界的信号，也不直接向外界发送信号输出层隐藏层输入层 o1 o2 om … x1 x2 xn 2018/12/30

约定 : 输出层的层号为该网络的层数：n层网络，或n级网络。
第j-1层到第j层的联接矩阵为第j层联接矩阵，输出层对应的矩阵叫输出层联接矩阵。今后，在需要的时候，一般我们用W（j）表示第j层矩阵。 W(1) W(2) W(3) W(h) 输出层隐藏层输入层 o1 o2 om … x1 x2 xn 2018/12/30

多级网——h层网络输出层隐藏层输入层 o1 o2 om … x1 x2 xn W(1) W(2) W(3) W(h)
2018/12/30

多级网非线性激活函数 F(X)=kX+C F3(F2(F1(XW(1))W(2))W(3)) 2018/12/30

循环网 x1 o1 输出层隐藏层输入层 x2 o2 om xn … 2018/12/30

循环网如果将输出信号反馈到输入端,就可构成一个多层的循环网络。输入的原始信号被逐步地“加强”、被“修复”。
大脑的短期记忆特征——看到的东西不是一下子就从脑海里消失的。稳定：反馈信号会引起网络输出的不断变化。我们希望这种变化逐渐减小，并且最后能消失。当变化最后消失时，网络达到了平衡状态。如果这种变化不能消失，则称该网络是不稳定的。 2018/12/30

2.4 存储与映射空间模式（Spatial Model）时空模式（Spatialtemporal Model）空间模式三种存储类型
1、 RAM方式（Random Access Memory）随机访问方式是将地址映射到数据。 2、 CAM方式（Content Addressable Memory）内容寻址方式是将数据映射到地址。 3、 AM方式（Associative Memory）相联存储方式是将数据映射到数据。 2018/12/30

2.4 存储与映射后续的两种方式是人工神经网络的工作方式。
在学习/训练期间，人工神经网络以CAM方式工作；权矩阵又被称为网络的长期存储（Long Term Memory，简记为LTM）。网络在正常工作阶段是以AM方式工作的；神经元的状态表示的模式为短期存储（Short Term Memory，简记为STM）。 2018/12/30

2.4 存储与映射自相联（Auto-associative）映射：训练网络的样本集为向量集合为 {A1，A2，…，An}
在理想情况下，该网络在完成训练后，其权矩阵存放的将是上面所给的向量集合。 2018/12/30

2.4 存储与映射异相联（Hetero-associative）映射 {（A1，B1），（A2，B2），…，（An，Bn）}
该网络在完成训练后，其权矩阵存放的将是上面所给的向量集合所蕴含的对应关系。当输入向量A不是样本的第一的分量时，样本中不存在这样的元素（Ak，Bk），使得 Ai≤Ak≤A或者A≤Ak≤Aj 且此时有 Ai≤A≤Aj 则向量B是Bi与Bj的插值。 2018/12/30

2.5 人工神经网络的训练人工神经网络最具有吸引力的特点是它的学习能力。
1962年，Rosenblatt给出了人工神经网络著名的学习定理：人工神经网络可以学会它可以表达的任何东西。人工神经网络的表达能力大大地限制了它的学习能力。人工神经网络的学习过程就是对它的训练过程 2018/12/30

2.5.1无导师学习无导师学习(Unsupervised Learning)与无导师训练(Unsupervised Training)相对应抽取样本集合中蕴含的统计特性，并以神经元之间的联接权的形式存于网络中。 2018/12/30

2.5.1无导师学习 Hebb学习律、竞争与协同（Competitive and Cooperative）学习、随机联接系统（Randomly Connected Learning）等。 Hebb算法[D. O. Hebb在1961年]的核心：当两个神经元同时处于激发状态时被加强，否则被减弱。数学表达式表示： Wij（t+1）=Wij（t）+αoi（t）oj（t） 2018/12/30

2.5.2 有导师学习有导师学习(Supervised Learning)与有导师训练(Supervised Training)相对应。
输入向量与其对应的输出向量构成一个“训练对”。有导师学习的训练算法的主要步骤包括： 1）从样本集合中取一个样本（Ai，Bi）； 2）计算出网络的实际输出O； 3）求D=Bi-O； 4）根据D调整权矩阵W； 5）对每个样本重复上述过程，直到对整个样本集来说，误差不超过规定范围。 2018/12/30

Delta规则 Widrow和Hoff的写法： Wij(t+1)=Wij(t)+α(yj- aj(t))oi(t) 也可以写成：
Wij(t+1)=Wij(t)+∆ Wij(t) ∆ Wij(t)=αδjoi(t) δj=yj- aj(t) Grossberg的写法为： ∆ Wij(t)=αai(t)(oj(t)-Wij(t)) 更一般的Delta规则为： ∆ Wij(t)=g(ai(t)，yj，oj(t)，Wij(t)) 2018/12/30

其它再例学习学习规则外部环境对系统的输出结果给出评价，学习系统通过强化受奖的动作来改善自身性能。误差纠错学习 Hebb学习竞争学习
2018/12/30

练习题 P29 1、4、6、10、15 2018/12/30

上次课内容回顾:网络的分层结构简单单级网： NET=XW； O=F(NET)
联接模式刺激联接与抑制联接前馈信号与反馈信号层（级）内联接循环联接层（级）间联接简单单级网： NET=XW； O=F(NET) 单级横向反馈网: NET=XW+O(t)V;O (t) =F(NET) 2018/12/30

上次课内容回顾:网络的分层结构非循环多级网循环网层次划分非线性激活函数： F3(F2(F1(XW1)W2)W3)
短期记忆特征及其对输入信号的修复作用时间参数与主时钟稳定性 2018/12/30

上次课内容回顾：存储与映射模式空间模式时空模式模式三种存储类型 RAM 、CAM、AM 模式的存储与运行 CAM——LTM——训练
AM——STM——运行相联：自相联映射、异相联映射 2018/12/30

上次课内容回顾：训练 Rosenblatt的学习定理无导师学习 Hebb算法：Wij(t+1)=Wij(t)+αoi(t)oj(t)
抽取样本集合中蕴含的统计特性样本集：{A1，A2，…，An} Hebb算法：Wij(t+1)=Wij(t)+αoi(t)oj(t) 有导师学习抽取样本蕴含的映射关系样本集： {(A1,B1)，(A2,B2)，…，(An,Bn)} 训练算法 Delta规则 2018/12/30

第3章感知器主要内容：重点：感知器的结构、表达能力、学习算法难点：感知器的表达能力感知器与人工神经网络的早期发展；
线性可分问题与线性不可分问题； Hebb学习律； Delta规则; 感知器的训练算法。重点：感知器的结构、表达能力、学习算法难点：感知器的表达能力 2018/12/30

第3章感知器 3.1 感知器与人工神经网络的早期发展 3.2 感知器的学习算法 3.3 线性不可分问题实现！
3.2.1 离散单输出感知器训练算法 3.2.2 离散多输出感知器训练算法 3.2.3 连续多输出感知器训练算法 3.3 线性不可分问题 3.3.1 异或(Exclusive –OR)问题 3.3.2 线性不可分问题的克服实现！问题的发现与解决！ 2018/12/30

3.1 感知器与ANN的早期发展 McCulloch 和Pitts 1943年，发表第一个系统的ANN研究——阈值加权和(M-P)数学模型。
1947年，开发出感知器。 1949年，提出Hebb学习律。 x2 x1 o xn … 单输出的感知器(M-P模型) 2018/12/30

3.1 感知器与ANN的早期发展 1962年，Rosenblatt宣布：人工神经网络可以学会它能表示的任何东西 o1 多输出感知器 x1
om xn … … 输入层输出层 1962年，Rosenblatt宣布：人工神经网络可以学会它能表示的任何东西 2018/12/30

3.2 感知器的学习算法感知器的学习是有导师学习感知器的训练算法的基本原理来源于著名的Hebb学习律
3.2 感知器的学习算法感知器的学习是有导师学习感知器的训练算法的基本原理来源于著名的Hebb学习律基本思想：逐步地将样本集中的样本输入到网络中,根据输出结果和理想输出之间的差别来调整网络中的权矩阵 2018/12/30

3.2.1离散单输出感知器训练算法二值网络：自变量及其函数的值、向量分量的值只取0和1函数、向量。权向量：W=(w1，w2，…，wn)
输入向量：X=(x1，x2，…，xn) 训练样本集： {(X，Y)|Y为输入向量X对应的输出} 2018/12/30

算法3-1离散单输出感知器训练算法 1. 初始化权向量W； 2. 重复下列过程，直到训练完成： 2.1 对每个样本（X，Y），重复如下过程：
2.1.2 计算o=F（XW）； 2.1.3 如果输出不正确，则当o=0时，取 W=W+X，当o=1时，取 W=W-X 2018/12/30

3.2.2离散多输出感知器训练算法样本集：{(X,Y)|Y为输入向量X对应的输出} 输入向量：X=(x1,x2,…,xn)
理想输出向量：Y=(y1,y2,…,ym) 激活函数：F 权矩阵W=(wij) 实际输出向量：O=(o1,o2,…,om) o1 多输出感知器 x1 x2 o2 om xn … … 输入层输出层 2018/12/30

算法3-2离散多输出感知器训练算法 1.初始化权矩阵W； 2.重复下列过程，直到训练完成： 2.1 对每个样本（X，Y），重复如下过程：
2.1.2 计算O=F（XW）； 2.1.3 for j=1 to m do 执行如下操作： if oj ≠ yj then if oi = 0 then for i = 1 to n wij=wij+xi else for i= 1 to n do wij=wij-xi 2018/12/30

算法3-2离散多输出感知器训练算法算法思想：将单输出感知器的处理逐个地用于多输出感知器输出层的每一个神经元的处理。
第1步，权矩阵的初始化：一系列小伪随机数。 2018/12/30

算法3-2离散多输出感知器训练算法第2步，循环控制。方法1：循环次数控制法：对样本集执行规定次数的迭代
改进——分阶段迭代控制：设定一个基本的迭代次数N，每当训练完成N次迭代后，就给出一个中间结果 2018/12/30

算法3-2离散多输出感知器训练算法方法2：精度控制法：给定一个精度控制参数
精度度量：实际输出向量与理想输出向量的对应分量的差的绝对值之和；实际输出向量与理想输出向量的欧氏距离的和 “死循环”：网络无法表示样本所代表的问题 2018/12/30

算法3-2离散多输出感知器训练算法方法3：综合控制法：将这两种方法结合起来使用
注意：精度参数的设置。根据实际问题选定；初始测试阶段，精度要求低，测试完成后，再给出实际的精度要求。 2018/12/30

3.2.3 连续多输出感知器训练算法用公式wij=wij+α（yj-oj）xi取代了算法3-2 第2.1.3步中的多个判断
yj与oj之间的差别对wij的影响由α（yj-oj）xi表现出来好处：不仅使得算法的控制在结构上更容易理解，而且还使得它的适应面更宽 2018/12/30

算法3-3 连续多输出感知器训练算法 1．用适当的小伪随机数初始化权矩阵W； 2. 初置精度控制参数ε，学习率α，精度控制变量d=ε+1；
3．While d ≥ ε do 3.1 d=0； 3.2 for 每个样本（X，Y）do 3.2.1 输入X（=(x1，x2，…，xn)）； 3.2.2 求O=F（XW）； 3.2.3 修改权矩阵W： for i=1 to n，j=1 to m do wij=wij+α(yj-oj)xi； 3.2.4 累积误差 for j = 1 to m do d=d+(yj-oj)2 2018/12/30

算法3-3 连续多输出感知器训练算法 1、程序实现:ε、α、d、i、j、n、m为简单变量来表示，W为n行m列的二维数组。样本集二维数组
2、系统的调试 3、Minsky在1969年证明，有许多基本问题是感知器无法解决 4、问题线性可分性可能与时间有关 5、很难从样本数据集直接看出问题是否线性可分 6、未能证明，一个感知器究竟需要经过多少步才能完成训练。 2018/12/30

3.3 线性不可分问题 3.3.1 异或(Exclusive –OR)问题 g（x，y） y 1 x 2018/12/30

用于求解XOR的单神经元感知器 x y o 单神经元感知器的图像 ax+by=θ 1 y x (0,0) (1,1) 2018/12/30

线性不可分函数变量函数及其值 x y 1 f1 f2 f3 f4 f5 f6 f7 f8 f9 2018/12/30 f10 f11
1 2018/12/30

线性不可分函数 R. O. Windner 1960年自变量个数函数的个数线性可分函数的个数 1 4 2 16 14 3 256
104 65,536 1882 5 4.3*109 94,572 6 1.8*1019 5,028,134 2018/12/30

3.3.2 线性不可分问题的克服用多个单级网组合在一起，并用其中的一个去综合其它单级网的结果，我们就可以构成一个两级网络，该网络可以被用来在平面上划分出一个封闭或者开放的凸域来一个非凸域可以拆分成多个凸域。按照这一思路，三级网将会更一般一些，我们可以用它去识别出一些非凸域来。解决好隐藏层的联接权的调整问题是非常关键的 2018/12/30

两级单输出网在n维空间中划分出m边凸域 … x1 ANm AN1 ANo xn o 2018/12/30

第1次课堂测试（5分*4） Newell和Simon的物理符号系统所基于的假说是什么？它在什么层面上如何实现对人类智能的模拟？
联接主义观点所基于的假说是什么？它在什么层面上如何实现对人类智能的模拟？画出有导师算法的流程图。证明：一个激活函数为线性函数的3级非循环网等价于一个单级网。 2018/12/30

习题 P38 1、6 2018/12/30

第1次课堂测试解答要点 Newell和Simon的物理符号系统所基于的假说是什么？它在什么层面上如何实现对人类智能的模拟？
要点：物理符号系统；心理；符号对事务及变换的描述联接主义观点所基于的假说是什么？它在什么层面上如何实现对人类智能的模拟？要点：联接机制；生理；模式、联接权的调整与对变换的表示 2018/12/30

第1次课堂测试解答要点画出有导师学习算法的流程图。要点：如何处理精度与样本集两层循环
证明：一个激活函数为线性函数的3级非循环网等价于一个单级网。要点：一级网与多级网的的数学模型 2018/12/30

上次课内容回顾:学习算法离散单输出感知器训练算法连续多输出感知器训练算法 W=W+X;W=W-X W=W+(Y-O)X
离散多输出感知器训练算法 Wj=Wj+(yj-oj)X 连续多输出感知器训练算法 wij=wij+α(yj-oj)xi 2018/12/30

上次课内容回顾:线性不可分问题线性不可分问题的克服两级网络可以划分出封闭或开放的凸域多级网将可以识别出非凸域
ax+by=θ 1 y x (0,0) (1,1) 线性不可分问题的克服两级网络可以划分出封闭或开放的凸域多级网将可以识别出非凸域隐藏层的联接权的调整问题是非常关键 2018/12/30

第4章 BP网络主要内容：重点：BP算法难点：Delta规则的理论推导 BP网络的构成隐藏层权的调整分析 Delta规则理论推导
算法的收敛速度及其改进讨论 BP网络中的几个重要问题重点：BP算法难点：Delta规则的理论推导 2018/12/30

第4章 BP网络 4.1 概述 4.2 基本BP算法 4.3 算法的改进 4.4 算法的实现 4.5 算法的理论基础 4.6 几个问题的讨论
2018/12/30

4.1 概述 1、BP算法的出现 2、弱点：训练速度非常慢、局部极小点的逃离问题、算法不一定收敛。 3、优点：广泛的适应性和有效性。
非循环多级网络的训练算法 UCSD PDP小组的Rumelhart、Hinton和Williams1986年独立地给出了BP算法清楚而简单的描述 1982年，Paker就完成了相似的工作 1974年，Werbos已提出了该方法 2、弱点：训练速度非常慢、局部极小点的逃离问题、算法不一定收敛。 3、优点：广泛的适应性和有效性。 2018/12/30

4.2 基本BP算法神经元的网络输入： neti=x1w1i+x2w2i+…+xnwni 神经元的输出： 4.2.1 网络的构成
2018/12/30

输出函数分析应该将net的值尽量控制在收敛比较快的范围内可以用其它的函数作为激活函数，只要该函数是处处可导的 0.5 f ′(net)
0.5 f ′(net) 0.25 o 1 1 （0,0.5） net （0,0） o 应该将net的值尽量控制在收敛比较快的范围内可以用其它的函数作为激活函数，只要该函数是处处可导的 2018/12/30

网络的拓扑结构 x1 o1 输出层隐藏层输入层 x2 o2 om xn … W(1) W(2) W(3) W(L) 2018/12/30

网络的拓扑结构 BP网的结构输入向量、输出向量的维数、网络隐藏层的层数和各个隐藏层神经元的个数的决定
实验：增加隐藏层的层数和隐藏层神经元个数不一定总能够提高网络精度和表达能力。 BP网一般都选用二级网络。 2018/12/30

网络的拓扑结构 x1 o1 输出层隐藏层输入层 x2 o2 om xn … W V 2018/12/30

4.2.2 训练过程概述样本：(输入向量，理想输出向量) 权初始化：“小随机数”与饱和状态；“不同”保证网络可以学。 1、向前传播阶段：
（1）从样本集中取一个样本(Xp，Yp)，将Xp输入网络；（2）计算相应的实际输出Op： Op=Fl(…(F2(F1(XpW(1))W(2))…)W(L)) 2018/12/30

4.2.2 训练过程概述 2、向后传播阶段——误差传播阶段：（1）计算实际输出Op与相应的理想输出Yp的差；
（2）按极小化误差的方式调整权矩阵。（3）网络关于第p个样本的误差测度：（4）网络关于整个样本集的误差测度： 2018/12/30

4.2.3 误差传播分析 1、输出层权的调整 ∆wpq wpq= wpq+∆wpq ∆wpq=αδqop
ANp ANq 第L-1层第L层 ∆wpq wpq= wpq+∆wpq ∆wpq=αδqop =αfn′ (netq)(yq-oq)op =αoq(1-oq) (yq-oq)op 2018/12/30

2、隐藏层权的调整 ANp ANq ANh vhp δpk-1 δ1k wp1 wpq δqk wpm δmk 第k-2层第k层
… 2018/12/30

2、隐藏层权的调整 δpk-1的值和δ1k，δ2k，…，δmk 有关不妨认为δpk-1 通过权wp1对δ1k做出贡献，
…… 通过权wpm对δmk做出贡献。 δpk-1= fk-1′(netp) (wp1δ1k+ wp2δ2k+…+ wpmδm k) 2018/12/30

2、隐藏层权的调整 vhp=vhp+∆vhp ∆vhp=αδpk-1ohk-2
=αfk-1 ′(netp)( wp1δ1k+ wp2δ2k+…+ wpmδmk)ohk-2 =αopk-1(1-opk-1)( wp1δ1k+ wp2δ2k+…+ wpmδmk)ohk-2 ANp ANq ANh vhp δpk-1 δ1k wp1 wpm δqk wpq δmk 第k-2层第k层第k-1层 … 2018/12/30

上次课内容回顾基本BP算法 neti=x1w1i+x2w2i+…+xnwni 2018/12/30

上次课内容回顾 x1 o1 输出层隐藏层输入层 x2 o2 om xn … W V 2018/12/30

上次课内容回顾样本权初始化向前传播阶段 Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n)) 误差测度
2018/12/30

上次课内容回顾向后传播阶段——误差传播阶段
输出层权的调整 ∆wpq= αδqop =αfn′ (netq)(yq-oq)op =αoq(1-oq) (yq-oq)op 隐藏层权的调整 ANp ANq ANh vhp δpk-1 δ1k wp1 wpq δqk wpm δmk … ∆vhp =αopk-1(1-opk-1)( wp1δ1k+ wp2δ2k+…+ wpmδmk)ohk-2 2018/12/30

4.2.4 基本的BP算法样本集：S={(X1,Y1),(X2,Y2),…,(Xs,Ys)} 基本思想：
逐一地根据样本集中的样本(Xk,Yk)计算出实际输出Ok和误差测度E1，对W(1) ，W(2) ，…，W(L)各做一次调整，重复这个循环，直到∑Ep<ε。用输出层的误差调整输出层权矩阵，并用此误差估计输出层的直接前导层的误差，再用输出层前导层误差估计更前一层的误差。如此获得所有其它各层的误差估计，并用这些估计实现对权矩阵的修改。形成将输出端表现出的误差沿着与输入信号相反的方向逐级向输入端传递的过程 2018/12/30

算法4-1 基本BP算法 1 for k=1 to L do 1.1 初始化W(k)； 2 初始化精度控制参数ε； 3 E=ε+1;
2 初始化精度控制参数ε； 3 E=ε+1; 4 while E>ε do 4.1 E=0; 2018/12/30

算法4-1 基本BP算法 4.2 对S中的每一个样本（Xp,Yp）： 4.2.1 计算出Xp对应的实际输出Op； 4.2.2 计算出Ep；
E=E+Ep；根据相应式子调整W(L)； k=L-1； while k≠0 do 根据相应式子调整W(k)； k=k-1 4.3 E=E/2.0 2018/12/30

4.3 算法的改进 1、BP网络接受样本的顺序对训练结果有较大影响。它更“偏爱”较后出现的样本
2、给集中的样本安排一个适当的顺序，是非常困难的。 3、样本顺序影响结果的原因：“分别”、“依次” 4、用(X1,Y1)，（X2,Y2），…，（Xs,Ys）的“总效果”修改W(1) ，W(2) ，…，W(L)。 ∆w(k)ij=∑∆p w(k)ij 2018/12/30

算法4-2 消除样本顺序影响的BP算法 1 for k=1 to L do 1.1 初始化W(k)； 2 初始化精度控制参数ε；
2 初始化精度控制参数ε； 3 E=ε+1; 4 while E>ε do 4.1 E=0; 4.2 对所有的i，j，k：∆ w (k)ij=0； 2018/12/30

4.3.4 对所有i，j根据相应式子计算∆p w (L)ij；
4.3 对S中的每一个样本（Xp,Yp）：计算出Xp对应的实际输出Op；计算出Ep； E=E+Ep；对所有i，j根据相应式子计算∆p w (L)ij；对所有i，j：∆ w (L)ij=∆ w (L)ij+∆p w (L)ij； k=L-1； while k≠0 do 对所有i,j根据相应式子计算∆p w (k)ij；对所有i,j：∆ w (k)ij=∆ w (k)ij+∆p w (k)ij； k=k-1 4.4 对所有i，j，k：w (k)ij= w (k)ij+ ∆w (k)ij; 4.5 E=E/2.0 2018/12/30

算法4-2 分析较好地解决了因样本的顺序引起的精度问题和训练的抖动问题收敛速度：比较慢
偏移量：给每一个神经元增加一个偏移量来加快收敛速度冲量：联接权的本次修改要考虑上次修改的影响，以减少抖动问题 2018/12/30

算法4-2 分析——冲量设置 Rumelhart等人1986年 Sejnowski与Rosenberg ，1987年
∆wij=αδjoi+β∆wij′ ∆wij′为上一次的修改量，β为冲量系数，一般可取到0.9 Sejnowski与Rosenberg ，1987年 ∆wij=α((1-β)δjoi+β∆wij′) ∆wij′也是上一次的修改量，β在0和1之间取值 2018/12/30

4.4 算法的实现主要数据结构 W[H，m]——输出层的权矩阵； V[n，H]——输入（隐藏）层的权矩阵；
∆o[m]——输出层各联接权的修改量组成的向量； ∆h[H]——隐藏层各联接权的修改量组成的向量； O1——隐藏层的输出向量； O2——输出层的输出向量； (X，Y)——一个样本。 2018/12/30

算法的主要实现步骤用不同的小伪随机数初始化W，V；初始化精度控制参数ε；学习率α ；
循环控制参数E=ε+1；循环最大次数M；循环次数控制参数N=0； while E>ε & N<M do 4.1 N=N+1；E=0； 4.2 对每一个样本(X,Y)，执行如下操作 2018/12/30

4.2 对每一个样本(X,Y)，执行的操作 4.2.1 计算：O1=F1(XV)；O2=F2(O1W)；
计算输出层的权修改量 for i=1 to m ∆o[i]= O2 [i]*(1- O2 [i])*(Y[i]-O2 [i])；计算输出误差：for i=1 to m E=E+(Y[i]-O2 [i])2； 2018/12/30

4.2 对每一个样本(X，Y)，执行的操作 4.2.4 计算隐藏层的权修改量：for i=1 to H 4.2.4.1 Z=0；
for j=1 to m do Z=Z+W[i,j]* ∆o[j]； Δh[i]=Z* O1 [i](1- O1 [i]) ；修改输出层权矩阵：for k=1 to H & i=1 to m W[k,i]= W[k,i]+ α*O1[k]*∆o[i]；修改隐藏层权矩阵：for k=1 to n & i=1 to H V[k,i]= V[k,i]+ α*X[k]* ∆h[i]； 2018/12/30

建议隐藏层的神经元的个数H作为一个输入参数同时将ε、循环最大次数M等，作为算法的输入参数
在调试阶段，最外层循环内，加一层控制，以探测网络是否陷入了局部极小点 2018/12/30

4.5 算法的理论基础基本假设误差测度: 网络含有L层联接矩阵： W(1) ，W(2) ，…，W(L) 第k层的神经元：Hk个
自变量数： n*H1+H1*H2+H2*H3+…+HL*m 样本集： S={ (X1,Y1),(X2,Y2),…,(Xs,Ys)} 误差测度: 2018/12/30

误差测度用E代表EP，用（X，Y）代表（XP，YP） X=(x1，x2，…，xn) Y=(y1，y2，…，ym) 该样本对应的实际输出为
O=（o1，o2，…，om） 2018/12/30

误差测度用理想输出与实际输出的方差作为相应的误差测度 2018/12/30

最速下降法，要求E的极小点取 E <0, 此时Δwij>0 wij wij E >0，此时Δwij<0
2018/12/30

最速下降法，要求E的极小点而其中的所以， 2018/12/30

最速下降法，要求E的极小点令所以Δwij=αδjoi α为学习率 2018/12/30

ANj为输出层神经元从而 oj=f(netj) 容易得到 2018/12/30

ANj为输出层神经元 2018/12/30

ANj为输出层神经元所以，故，当ANj为输出层的神经元时，它对应的联接权wij应该按照下列公式进行调整： 2018/12/30

ANj为隐藏层神经元函数 2018/12/30

ANj为隐藏层神经元 netk是 oj下一级的神经元的网络输入 netk= oj … o2 o1 oHh 2018/12/30

ANj为隐藏层神经元 2018/12/30

4.6 几个问题的讨论收敛速度问题局部极小点问题逃离/避开局部极小点：修改W、V的初值——并不是总有效。
逃离——统计方法；[Wasserman，1986]将Cauchy训练与BP算法结合起来，可以在保证训练速度不被降低的情况下，找到全局极小点。 2018/12/30

4.6 几个问题的讨论网络瘫痪问题在训练中，权可能变得很大，这会使神经元的网络输入变得很大，从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子，此时的训练步长会变得非常小，进而将导致训练速度降得非常低，最终导致网络停止收敛稳定性问题用修改量的综合实施权的修改连续变化的环境，它将变成无效的 2018/12/30

4.6 几个问题的讨论步长问题 BP网络的收敛是基于无穷小的权修改量步长太小，收敛就非常慢步长太大，可能会导致网络的瘫痪和不稳定
自适应步长，使得权修改量能随着网络的训练而不断变化。[1988年，Wasserman] 2018/12/30

练习 P54 1、5、10 2018/12/30

上次课内容回顾基本BP算法算法的改进用(X1,Y1)，（X2,Y2），…，（Xs,Ys）的“总效果”修改W(1) ，W(2) ，…，W(L) ∆w(k)ij=∑∆p w(k)ij 2018/12/30

上次课内容回顾改进算法有关问题抖动、收敛速度、偏移量、冲量算法的实现循环控制、算法的调试算法的理论基础 2018/12/30

上次课内容回顾问题的讨论收敛速度局部极小点网络瘫痪稳定性步长 2018/12/30

第5章对传网主要内容：CPN的网络结构，正常运行，输入向量的预处理，Kohonen层的训练算法及其权矩阵的初始化方法；Grossberg层的训练；完整的对传网重点：Kohonen层与Grossberg层的正常运行与训练难点：Kohonen层的训练算法及其权矩阵的初始化方法 2018/12/30

第5章对传网 5.1 网络结构 5.2 网络的正常运行 5.3 Kohonen层的训练 5.4 Kohonen层联接权的初始化方法
5.5 Grossberg层的训练 5.6 补充说明 2018/12/30

第5章对传网 Robert Hecht-Nielson 在1987年提出了对传网（Counterpropagation Networks，CPN）。 CPN为异构网： Kohonen1981年提出的Self-organization map SOM——Kohonen层 Grossberg1969年提出的Outstar——Grossberg层训练时间短：BP的1%。应用面：比较窄让网络的隐藏层执行无导师学习，是解决多级网络训练的另一个思路 2018/12/30

5.1 网络结构单向CPN，完整CPN（双向网）除拓扑结构外，网络的运行机制也是确定网络结构（同构、异构）和性能的重要因素
网络的层数计算 2018/12/30

5.1 网络结构 V W x1 y1 自组织映射（无导师学习） Kohonen层散射星（有导师学习） Grossberg层输入层
… Kh Gm xn ym 2018/12/30

5.1 网络结构以Kohonen层的神经元为“中心”讨论问题 K1 K2 …… Kh W1=(w11，w21，…，wn1)T
V1=(v11，v12，…，v1m) K2 W2=(w12，w22，…，wn2)T V2=(v21，v22，…，v2m) …… Kh Wh=(w1h，w2h，…，wnh)T Vh=(vh1，vh2，…，vhm) 2018/12/30

5.2 网络的正常运行 5.2.1 Kohonen层 “强者占先、弱者退出” （the winner takes all ）
knetj=XWj = (x1，x2，…，xn)(w1j，w2j，…，wnj) T = w1j x1+w2j x2+…+wnj xn 向量形式 KNET=(knet1，knet2，…，kneth) 2018/12/30

5.2.1 Kohonen层 K1，K2，…，Kh的输出k1，k2，…，kh构成向量 K=(k1，k2，…，kh) 1≦j≦h
1 knetj=Max{ knet1，knet2，…，kneth } kj= 0 其它几何意义 2018/12/30

5.2.2 Grossberg层 Grossberg层的每个神经元Gj （1≦j≦m）
gnetj= K (v1j，v2j，…，vhj)T = (k1，k2，…，kh) (v1j，v2j，…，vhj)T =k1v1j+ k2v2j+…+ kh vhj 唯一输出1的神经元为Ko gnetj= k1v1j+ k2v2j+…+ kh vhj = voj 2018/12/30

5.2.2 Grossberg层 GNET=( gnet1 ，gnet2 ，…，gnetm) =(vo1，vo2，…，vom) =Vo
散射星：Vo的各个分量是从Ko到Grossberg层各神经元的联接权 2018/12/30

5.2.2 Grossberg层 CPN用于模式的完善，此时n=m：接受含有噪音的输入模式(x1，x2，…，xn)，而输出去掉噪音后的模式(vo1，vo2，…，vom) 对训练启示 W1，W2，…，Wh，各类X的共同特征 V1，V2，…，Vh，X对应的理想输出Y的共同特征 2018/12/30

5.3 Kohonen层的训练 5.3.1 输入向量的预处理单位化处理 X= (x1，x2，…，xn)
输入向量的预处理单位化处理 X= (x1，x2，…，xn) X′= (x1′，x2′，…，xn′) = (x1/‖X‖，x2/‖X‖，…，xn/‖X‖) 2018/12/30

5.3.2 训练算法 5-1 Kohonen层训练算法对所有的输入向量，进行单位化处理；对每个样本（X，Y）执行下列过程
2.1 for j=1 to h do 根据相应式子计算knetj； 2.2 求出最大的kneto: 2.2.1 max=knet1；o=1 2.2.2 for j=1 to h do if knetj>max then {max=knetj；o=j}； 2018/12/30

算法 5-1 Kohonen层训练算法 2.3 计算K 2.3.1 for j=1 to h do kj=0； 2.3.2 ko=1；
2.4 使Wo更接近X：Wo(new)=Wo(old)+α(X- Wo(old)); 2.5 对Wo(new)进行单位化处理 2018/12/30

Wo(new)=Wo(old)+α(X- Wo(old))
α∈（0，1） Wo(new)=Wo(old)+α(X- Wo(old)) = Wo(old)+αX-αWo(old) X-Wo(new)=X-[Wo(old)+α(X- Wo(old))] =X-Wo(old)-αX+αWo(old) = X(1-α) -Wo(old)(1-α) =(1-α)(X-Wo(old)) 由0<(1-α)<1，Wo(new)比Wo(old)更接近X 2018/12/30

Wo(new)=Wo(old)+α(X- Wo(old))
单位圆 (1-α) (X- Wo(old)) (X- Wo(old)) Wo(old) Wo(new) X - Wo(old) (X- Wo(old)) 2018/12/30

学习率α 训练初期，α一般取0.7左右，它将随着训练进展不断变小 α过大可能导致有的X被放入错误的类中；使训练陷入抖动
根据X的分布决定W的初值：防止类过小和过大 2018/12/30

启发一般来说，一个类含有许多向量。这个类对应的Wj应该是样本集中这一类向量（输入向量部分）的平均值。
事先给问题一个粗略分类，并从这个分类中提取一个较有代表性的向量构成样本集启发我们采用训练和直接设定权向量的方式来完成该层的训练。 2018/12/30

上次课内容回顾 CPN为异构网 Kohonen层—— SOM 训练时间短：BP的1%。应用面：比较窄
Grossberg层—— Outstar 训练时间短：BP的1%。应用面：比较窄除拓扑结构外，网络的运行机制也是确定网络结构（同构、异构）和性能的重要因素 2018/12/30

拓扑结构 V W x1 y1 自组织映射（无导师学习） Kohonen层散射星（有导师学习） Grossberg层输入层 K1 G1
… Kh Gm xn ym 2018/12/30

上次课内容回顾以Kohonen层的神经元为“中心”讨论问题 Kohonen层：“强者占先、弱者退出” Grossberg层：散射星
gnetj= k1v1j+ k2v2j+…+ kh vhj= voj GNET=( gnet1 ，gnet2 ，…，gnetm) =(vo1，vo2，…，vom) =Vo CPN用于模式的完善 2018/12/30

上次课内容回顾强调X和W的单位化处理对训练启示 Kohonen层的训练 W1，W2，…，Wh，各类X的共同特征
V1，V2，…，Vh，X对应的Y的共同特征 Kohonen层的训练 Wo(new)=Wo(old)+α(X- Wo(old)) 2018/12/30

5.4 Kohonen层联接权初始化理想情况下，W1，W2，…，Wh的初值应该依照样本集中的输入向量的分布来确定
样本集中的输入向量的分布并不是均匀的 2018/12/30

Xi的非均匀分布要求Wi非均匀分布 o 单位圆 X1 X2 X3 2018/12/30

凸状组合法取wij= 将输入向量 X= (x1，x2，…，xn) 变换为 X′= (x1′，x2′，…，xn′) 其中
2018/12/30

凸状组合法在训练的初期阶段，λ的值非常小，使得随着训练的进行，λ趋近于1，从而使X′趋近于X，进而Wj趋近于一组X的平均值。
2018/12/30

添加噪音法在输入向量中加进适当的随机噪音，使输入向量的分布均匀。训练中逐渐去掉噪音
Wj不断地调整自己的“运动方向”，去追踪其不断变化的目标。试验表明，这种方法的收敛速度比凸状组合法更慢。 W也需要追踪一个变化的目标 2018/12/30

X在加噪音后变成均匀分布的 o 单位圆 2018/12/30

初期全调法 Kohonen层训练的初期，对应一个输入向量，允许多个神经元同时处于激发状态。逐渐减少被激发的神经元的最大个数或者逐渐提高阈值，最后达到对一个输入向量，只有一个神经元激发要解决的问题问题调整的范围的度量。 2018/12/30

初期全调法另一种实现在训练的初期，算法不仅调整“获胜”的神经元对应的权向量，而且对其它的权向量也作适当的调整。随着训练的推进，被调整的范围逐渐缩小，直到最终只有“获胜”的神经元对应的权向量才被调整要解决的问题问题调整的范围的度量。其它的权向量的“适当调整” 2018/12/30

DeSieno法当某一个权向量所获得的匹配向量超过给定的数（1/h）后，它的阈值就被临时提高
问题：当最应该被某个神经元对应的权向量匹配的输入向量在较后的时候被输入时，它可能被拒绝，从而造成网络精度的损失 Kohonen [1988]：在一个被完全训练过的网中，随机选取的输入向量与任何给定权向量是最接近的概率是1/h 按均匀分布初始化的权向量具有相同被匹配概率 2018/12/30

5.5 Grossberg层的训练训练 voj= voj+α(yj- voj)
标量形式 voj= voj+α(yj- voj) 向量形式 Vo(new)= Vo(old)+α(Y- Vo(old)) 比较 Wo(new)=Wo(old)+α(X- Wo(old)) Kohonen层 2018/12/30

算法5-2 CPN训练算法一 0 对W、V进行初始化； 1 对所有的输入向量，进行单位化处理； 2 对每个样本（X，Y）执行下列过程
2.1 for j=1 to h do 根据knetj=XWj计算knetj； 2.2 求出最大的kneto： max=knet1；o=1; for j=1 to h do if knetj>max then {max=knetj；o=j}； 2018/12/30

算法5-2 CPN训练算法一 2.3 计算K： 2.3.1 for j=1 to h do kj=0； 2.3.2 ko=1；
2.4 使Wo更接近X： Wo(new)=Wo(old)+α(X- Wo(old))； 2.5 对Wo(new)进行单位化处理； 2.6 使Vo更接近Y： Vo(new)= Vo(old)+α(Y- Vo(old))。 2018/12/30

算法5-3 CPN训练算法二对应Kohonen的每一个Ki，它将代表一组输入向量，所以希望这个Ki对应的Vi能代表这组输入向量对应的输出向量的平均值。 0 对W、V进行初始化； 0′清空Kohonen层各神经元对应的纪录表： for j=1 to h do SKj=Φ； 1 对所有的输入向量，进行单位化处理； 2018/12/30

算法5-3 CPN训练算法二 2 对每个样本（Xs，Ys）执行下列过程 2.1 for j=1 to h do
根据相应式子计算knetj； 2.2 求出最大的kneto： max=knet1；o=1; for j=1 to h do if knetj>max then {max=knetj；o=j}； 2018/12/30

算法5-3 CPN训练算法二 2.3 计算K： 2.3.1 for j=1 to h do kj=0； 2.3.2 ko=1；
2.4 使Wo更接近Xs： Wo(new)=Wo(old)+α(Xs- Wo(old))； 2.5 对Wo(new)进行单位化处理； 2.6 将Ys放入SKo： SKo=SKo∪{Ys}； 3 for j=1 to h do Vj= SKj中各向量的平均值 2018/12/30

算法的进一步优化集合变量SK1， SK2 ，…，SKh改为其它存储量更小，而且更容易实现的变量在Xs激发Ko时，Ys被放入到SKo中
如何解决 2018/12/30

5.6 补充说明 1、全对传网 W V X Y′ … Y X′ 输入层 Kohonen层 Grossberg层 2018/12/30

2、非简单工作方式对给定的输入向量，Kohonen层各神经元可以给出不同的输出输出作为修改因子
对应神经元Kohonen层、Grossberg层的权向量输出值较大的，表明该输入向量与该神经元对应的类较接近，它对应的权向量的修改量就大输出值较小的，表明该输入向量与该神经元对应的类较远，它对应的权向量的修改量就小。 2018/12/30

练习 P69 1、5、8 2018/12/30

上次课内容回顾 Kohonen层联接权初始化 Kohonen层的训练 Grossberg层的训练凸状组合法添加噪音法初期全调法
DeSieno法 Kohonen层的训练 Wo(new)=Wo(old)+α(X- Wo(old)) Grossberg层的训练 Vo(new)= Vo(old)+α(Y- Vo(old)) 2018/12/30

上次课内容回顾 CPN训练算法讨论 CPN训练算法改造全对传网关于反复使用样本集进行训练的问题两层一起训练，分开训练 SK的处理问题
2018/12/30

第6章非确定方法主要内容：重点：统计网络的基本训练算法，BP算法与Cauchy训练的结合难点：模拟退火算法与收敛分析
人工热与临界温度在训练中的使用 BP算法与Cauchy训练的结合。重点：统计网络的基本训练算法，BP算法与Cauchy训练的结合难点：模拟退火算法与收敛分析 2018/12/30

第6章非确定方法 6.1 基本的非确定训练算法 6.2 模拟退火算法 6.3 Cauchy训练 6.4 相关的几个问题
2018/12/30

第6章非确定方法确定的方法非确定的方法别称既可以用于训练，又可以用于运行前几章所给方法的共同特征生物神经网络按照概率运行
统计方法（Statistical Method）。既可以用于训练，又可以用于运行 2018/12/30

6.1 基本的非确定训练算法基本思想从所给的网络中“随机地选取一个联接权”，对该联接权提出一个“伪随机调整量”，当用此调整量对所选的联接权进行修改后，如果“被认为”修改改进了网络的性能，则保留此调整；否则放弃本次调整。 2018/12/30

6.1 基本的非确定训练算法基本数据结构样本集：S={ (X1,Y1),(X2,Y2),…,(Xs,Ys)}
输入向量：X=(x1，x2，…，xn) 理想输出向量：Y=(y1，y2，…，ym) L层： W(1) ，W(2) ，…，W(L) 2018/12/30

6.1 基本的非确定训练算法拓扑结构 W(1) W(L) W(2) x1 o1 输出层隐藏层输入层 x2 o2 om xn …
2018/12/30

算法6-1 基本统计训练算法 1 从样本集S中取一样本（X,Y）； 2 将X输入到网络中，计算出实际输出O；
3 求出网络关于Y，O的误差测度E； 4 随机地从W(1) ，W(2) ，…，W(L)中选择一个联接权wij(p)； 5 生成一个小随机数Δwij(p)； 6 用Δwij(p)修改wij(p)； 2018/12/30

算法6-1 基本统计训练算法 7 用修改后的W(1) ，W(2) ，…，W(L)重新计算X对应的实际输出O′；
8 求出网络关于Y，O′的误差测度E′； 9 如果E′<E，则保留本次对W(1) ，W(2) ，…，W(L)的修改，否则，根据概率判断本次修改是否有用，如果认为有用，则保留本次对W(1) ，W(2) ，…，W(L)的修改，如果认为本次修改无用，则放弃它； 10 重复上述过程，直到网络满足要求。 2018/12/30

算法6-1 基本统计训练算法目标函数（Objective Function）计算量伪随机数误差测度函数：实际输出与理想输出方差和
从W(1) ，W(2) ，…，W(L)中随机地选择wij 共有n×H1+H1×H2+H2×H3+…+HM-1×m个“变量”可供选择伪随机数伪随机数发生器来产生Δwij(p)；按照所谓的“能量”函数的分布去计算它 2018/12/30

算法6-1 基本统计训练算法局部极小点循环控制当E′<E不成立时，考虑使网络从局部极小点中逃离出来，必须允许目标函数暂时变坏
判断标准用一个样本对网络的某一个联接权进行修改后，是随机地抽取另一个联接权进行重复，还是再选择下一个样本进行重复对一个选定的样本，每次是否可以选取若干个联接权进行修改？如果可以，还应做什么工作？ 2018/12/30

逃离局部极小点联接权修改量解决办法修改量的大小和网络的“能量”相关太小：落到A点后很难逃离太大：导致在A、B两点来回抖动
D 联接权修改量太小：落到A点后很难逃离太大：导致在A、B两点来回抖动解决办法控制联接权修改量的大小：权修改量由大变小允许暂时变坏修改量的大小和网络的“能量”相关模拟退火 2018/12/30

逃离局部极小点 D B A 2018/12/30

6.2 模拟退火算法金属中原子的能量与温度有关原子能量高的时候，有能力摆脱其原来的能量状态而最后达到一个更加稳定的状态——全局极小能量状态在金属的退火过程中，能量的状态分布 P(E)——系统处于具有能量E的状态的概率； k——Boltzmann常数； T——系统的绝对温度(Kelvin) P(E)∝ 2018/12/30

步长和能量、温度的关系降温过程高温低温原子运动平稳原子激烈随机运动能量与温度相关步长与能量和温度相关步长与能量相关大步长
小步长可逃离难逃离金属热加工大小高低高能量低能量目标函数的值网络的能量训练 2018/12/30

能量与温度高温情况下： T足够大，对系统所能处的任意能量状态E，有将趋近于1 2018/12/30

能量与温度中温情况下： T比较小，E的大小对P(E)有较大的影响，设E1>E2
P(E2)>P(E1)。即，系统处于高能量状态的可能性小于处于低能量状态的可能性 2018/12/30

能量与温度 2018/12/30

能量与温度低温情况下： T非常小，E的大小对P(E) 的影响非常大，设E1>E2
P(E2) >> P(E1)。即，当温度趋近于0时，系统几乎不可能处于高能量状态 2018/12/30

模拟退火组合优化法目标函数——能量函数人工温度T——一个初值较大的数依据网络的能量和温度来决定联接权的调整量（称为步长）。
与金属的退火过程（Annealing）非常相似 2018/12/30

模拟退火组合优化法基本思想随机地为系统选择一个初始状态{wij(p)}，在此初始状态下，给系统一个小的随机扰动Δwij(p)，计算系统的能量变化 ΔE=E({wij(p)+Δwij(p)})-E({wij(p)}) 若 ΔE<0 则接受若ΔE≥0 则依据概率判断是否被接受若接受，则系统从状态{wij(p)}变换到状态{wij(p)+Δwij(p)}；否则，系统保持不变 2018/12/30

模拟退火组合优化法在这个过程中，逐渐地降低温度T。所得的系统状态序列{wij(p) }将满足下列分布 2018/12/30

算法6-2 模拟退火算法 1初始化个层的联接权矩阵W；定义人工温度T的初值； 2 对每一个温度T重复如下过程：
2.1 取一样本，计算其输出与目标函数E({wij(p) })； 2.2 随机地从{wij(p) }中选取一个wij(p)； 2.3 按一定的算法产生wij(p) 的一个调整量Δwij(p) ； 2.4 按照{ wij(p) +Δwij(p) }重新计算相应输出和目标函数E({ wij(p) +Δwij(p) })； 2.5 ΔE= E({ wij(p) +Δwij(p) })- E({ wij(p) })； 2018/12/30

算法6-2 模拟退火算法 2.6 if ΔE>0 then 2.6.1 按均匀分布在[0,1]区间取一随机数r；
按Boltzmann分布计算接受本次调整的概率： P(E({ wij(p) +Δwij(p) })) = if P(E({ wij(p) +Δwij(p) }))<r then 转2.2； 2018/12/30

算法6-2 模拟退火算法 2.7 用{ wij(p) +Δwij(p) }代替{ wij(p) }；
2.8 if 样本集中还有未被选用的样本 then 转 2.1； 3 判断在此温度下，检验Metropolis抽样是否稳定。如不稳定，则直接转2； 4 降低温度T； 5 如果T足够小，则结束，否则，转2。 2018/12/30

算法6-2 模拟退火算法算法的第2步原则上应该对每一个样本调整每一个权，调整的顺序是随机的；温度T的降低 T=λT
λ叫做冷却率，一般情况下可以在[0.8，0.9]之间取值 Geman(1984年)：温度下降必须与时间的对数成反比，网络最终才能收敛到全局极小点 2018/12/30

算法6-2 模拟退火算法 T的初值T0 T0= E({w (h) })；即：取初始系统目标函数（能量）的值
T0=z E({w (h) })。即：取初始系统目标函数（能量）值的若干倍按照经验给出 2018/12/30

算法6-2 模拟退火算法调整量Δwij(p)的计算
可以根据Boltzmann分布或者Gaussian分布来计算。也可以用其它的方法。下面讨论按Gaussian分布进行计算的方法。我们取如下形式的Gaussian分布函数。简洁起见，用符号w代替符号wij(p)： p(Δw)= 2018/12/30

Monte Carlo法数值积分法根据网络的精度要求，设一个积分步长δ，然后通过数值积分构造出如下形式的表格 Δw δ 2δ 3δ 4δ
… Nδ C1 C2 C3 C4 CN 2018/12/30

Monte Carlo法首先按照均匀分布在[C1，CN]中随机地取一个值C，然后，从 { C1，C2，C3，…，CN} 中选取Ck满足：
|Ck-C|=min{|C-C1 |,|C-C2|,|C-C3|,…,|C-CN|} Ck对应的kδ就是所需要的联接权调整量Δw 2018/12/30

6.3 Cauchy训练 Boltzmann分布 Boltzmann训练
1987年，S. Szu和R. Hartley提出用Cauchy分布去取代Gaussian分布 Cauchy分布 p(x)= 2018/12/30

6.3 Cauchy训练——优点对于[C1，CN]中的任意一个C，它按照Cauchy分布所能取到的联接权的调整量要大于按照Boltzmann分布所能取到的联接权的调整量用Cauchy分布取代Boltzmann分布后，温度可以下降得更快。这时，温度的下降变得与时间成反比：T0/(1+t) Cauchy分布函数可以用常规的方法进行积分运算 2018/12/30

Cauchy分布函数积分运算 2018/12/30

Cauchy分布函数积分运算 Δw=αTtg(P(Δw))
Monte Carlo法：在(0,1)中按照均匀分布随机取一数为P(Δw)，再取当前的温度，就可以直接地计算出Δw Cauchy训练算法：将算法6-2中的Boltzmann分布换成Cauchy分布 2018/12/30

6.4 相关的几个问题 Boltzmann机神经元的状态概率发生变化。oj=1的概率为
每个神经元可以有一个特殊的阈值，用来限制神经元所获得的激活值神经元的状态概率发生变化。oj=1的概率为 2018/12/30

Boltzmann机 Boltzmann机的目标函数（能量函数） “一致性函数” 2018/12/30

人工热问题特殊热——温度关于能量的变化率人工特殊热/“伪特殊热” 临界温度临界温度点可以通过考察所定义的人工特殊热的变化情况得到
系统在能量跃变边界处的温度叫做临界温度人工特殊热/“伪特殊热” 系统的人工温度关于系统的能量函数（目标函数）的平均变化率临界温度临界温度时的小量下降，会引起能量函数值的较大变化系统正处于一个局部极小点附近临界温度点可以通过考察所定义的人工特殊热的变化情况得到 2018/12/30

BP算法与Cauchy训练的结合 Cauchy训练的速度比Boltzmann训练快 Cauchy训练的速度比BP算法慢
wij=wij+∆wij ∆wij=α((1-β)δjoi+β∆wij′)+(1-α )∆wij(c) α∈(0,1)为学习率,β∈(0,1)为冲量系数 2018/12/30

网络陷入瘫痪执行对网络联接权的压缩如，如果将联接权压缩在（-a，a）以内，P. D. Wasserman曾给出如下建议公式
2018/12/30

第2次课堂测试（5分*4）什么叫线性不可分问题？我们是如何克服它的? BP算法是如何解决隐藏层的联接权的调整的，试进行适当的分析。
叙述对传网中Kohonen层联接权的初始化方法。为什么需要花费如此大的力气进行Kohonen层联接权的初始化工作？ 2018/12/30

练习 P 1、5 2018/12/30

上次课内容回顾非确定算法的基本思想训练工作基本统计训练算法算法伪随机数：初值与调整量循环控制 2018/12/30

上次课内容回顾模拟退火算法基本思想能量和温度相关步长与能量相关 Monte Carlo方法高温中温低温自适应步长
根据能量计算步长 Monte Carlo方法 2018/12/30

上次课内容回顾 Cauchy训练人工热问题 BP算法与Cauchy训练的结合网络陷入瘫痪 2018/12/30

第7章循环网络主要内容 Hopfield网络实现的自相联存储稳定性分析统计Hopfield网与Boltzmann机
基本双联存储器(BAM)的结构与训练几种相联存储网络用Hopfield网解决TSP问题。 2018/12/30

第7章循环网络重点难点 Hopfield网络实现的自相联存储基本双联存储器的结构与训练。稳定性分析
用Hopfield网解决TSP问题 2018/12/30

第7章循环网络 7.1 循环网络的组织 7.2 稳定性分析 7.3 统计Hopfield网与Boltzmann机 7.4 双联存储器的结构
7.1 循环网络的组织 7.2 稳定性分析 7.3 统计Hopfield网与Boltzmann机 7.4 双联存储器的结构 7.5 异相联存储 7.6 其它的双联存储器 7.7 Hopfield网用于解决TSP问题 2018/12/30

第7章循环网络循环网络对输入信号的处理是一个逐渐“修复”、“加强”的过程。不变化循环网络称为Hopfield网强烈变化较弱的变化
2018/12/30

7.1 循环网络的组织网络结构 X1 Xn o1 om … 2018/12/30

7.1 循环网络的组织联接：神经元之间都是互联的wij，每个神经元都没有到自身的联接wii=0。
7.1 循环网络的组织联接：神经元之间都是互联的wij，每个神经元都没有到自身的联接wii=0。神经元个数h，输入向量维数n，输出向量维数m。h≥n，h≥m，n≥1，m≥1。神经元：输入、输出、隐藏状态变化：非同步、同步输入向量：X=(x1，x2，…，xn) 输出向量：O=(o1，o2，…，om) 2018/12/30

7.1 循环网络的组织神经元的网络输入： 1 if netj>θj 阈值函数：oj= 0 if netj<θj
7.1 循环网络的组织神经元的网络输入： 1 if netj>θj 阈值函数：oj= 0 if netj<θj oj if netj=θj 2018/12/30

最基本的Hopfield网 n=m=h o1 on o2 x2 x1 xn W … 2018/12/30

最基本的Hopfield网希望网络的联接矩阵存放的是一组这样的样本，在联想过程中实现对信息的“修复”和“加强”，要求：它的输入向量和输出向量是相同的向量，即，X=Y 样本集：S={ X1，X2，…，Xs} 2018/12/30

最基本的Hopfield网权矩阵：wij= i≠j wii=0 1≤i≤n W是一个对角线元素为0的对称矩阵：
W= X1T ╳X1+X2T╳X2+…+XsT╳Xs - W0 W是各个样本向量自身的外积的和——网络实现的是自相联映射。 2018/12/30

最基本的Hopfield网激活函数：改为S形函数后，系统就成为一个连续系统多级循环网络
除输出向量被反馈到输入层外，其它各层之间的信号传送均执行如下规定：第i-1层神经元的输出经过第i个连接矩阵被送入第i层。一般不考虑越层的信号传送、中间的信号反馈和同层的神经元之间进行信号的直接传送 2018/12/30

7.2 稳定性分析网络的稳定性是与收敛性不同的问题 Cohen和Grossberg[1983年]:Hopfield网络的稳定性定理
7.2 稳定性分析网络的稳定性是与收敛性不同的问题 Cohen和Grossberg[1983年]:Hopfield网络的稳定性定理如果Hopfield网络的联接权矩阵是对角线为0的对称矩阵，则它是稳定的用著名的Lyapunov函数作为Hopfield网络的能量函数 2018/12/30

Lyapunov函数——能量函数作为网络的稳定性度量 wijoioj：网络的一致性测度。 xjoj：神经元的输入和输出的一致性测度。
2018/12/30

当ANk的状态从ok变成ok′ 1、ANk是输入神经元 2018/12/30

当ANk的状态从ok变成ok′ wkk=0 2018/12/30

ΔΕ=-(netk-θk)Δok ANk状态的变化：Δok=(ok′-ok) Δok=0，ΔΕ =0 结论：网络的目标函数总是下降
netk>θk，netk-θk>0 所以，-(netk-θk)Δok<0故ΔΕ<0 Δok<0, ok′=0& ok=1，ok由1变到0 netk<θk，netk-θk<0 -(netk-θk)Δok<0故ΔΕ<0 结论：网络的目标函数总是下降 2018/12/30

当ANk的状态从ok变成ok′ 2、ANk不是输入神经元 2018/12/30

无论ANk的状态是如何变化的，总有ΔΕ≤ 0
当ANk的状态从ok变成ok′ 无论ANk的状态是如何变化的，总有ΔΕ≤ 0 2018/12/30

7.3 统计Hopfield网与Boltzmann机
在网络运行中，神经元状态与 “人工温度”确定的概率相关网络运行模拟金属退火过程 pi：ANi的状态取1的概率 neti：ANi所获网络输入； θi：ANi的阈值； T：系统的人工温度。 2018/12/30

算法 7-1 统计Hopfield网运行算法 1 取一个很大的值作为人工温度T的初值； 2 对网络中每一个神经元ANi，
2.1 按照相应式子计算相应的概率pi； 2.2 按照均匀分布，在[0，1]中取一个随机数r； 2.3 如果 pi>r 则使ANi的状态为1，否则使ANi的状态为0； 3 逐渐降低温度T，如果温度足够低，则算法结束。否则，重复2 2018/12/30

Boltzmann机的训练 Boltzmann机是多级循环网络，是Hopfield网的一种扩展。神经元ANi实际输出状态oi=1的概率为：
T趋近于0时，神经元的状态不再具有随机性，Boltzmann机退化成一般Hopfield网。 2018/12/30

Boltzmann机的训练 Boltzmann机的能量函数(一致性函数 ) 神经元ANi在运行中状态发生了变化 2018/12/30

Boltzmann机的训练如果ΔΕi>0，则应该选ANi输出为1，否则，应该选ANi输出为0。
ΔΕi的值越大，神经元ANi应该处于状态1的概率就应该越大。反之，ΔΕi的值越小，神经元ANi应该处于状态1的概率就应该越小。从而，oi=1的概率为： 2018/12/30

Boltzmann机的训练处于状态a，b的概率Pa和Pb，对应于oi=1和oi=0，其它的神经元在a，b状态下不变 Pa=γpi
Pb =γ（1-pi） 2018/12/30

Boltzmann机的训练网络进行足够多次迭代后，处于某状态的概率与此状态下的能量和此时系统的温度有关。
由于高温时网络的各个状态出现的概率基本相同，这就给它逃离局部极小点提供了机会。当系统的温度较低时，如果Ea<Eb，则Pa>Pb：网络处于较低能量状态的概率较大 2018/12/30

Boltzmann机的训练 1986年，Hinton和Sejnowski训练方法
自由概率Pij-：没有输入时ANi和ANj同时处于激发状态的概率。约束概率Pij+：加上输入后ANi和ANj同时处于激发状态的概率。联接权修改量：Δwij=α( Pij+ - Pij-) 2018/12/30

算法7-2 Boltzmann机训练算法 1 计算约束概率 1.1 对样本集中每个样本，执行如下操作：
1 计算约束概率 1.1 对样本集中每个样本，执行如下操作： 1.1.1 将样本加在网络上（输入向量及其对应的输出向量）；让网络寻找平衡；记录下所有神经元的状态； 1.2 计算对所有的样本，ANi和ANj的状态同时为1的概率Pij+； 2018/12/30

算法7-2 Boltzmann机训练算法 2 计算自由概率
2 计算自由概率 2.1 从一个随机状态开始，不加输入、输出，让网络自由运行，并且在运行过程中多次纪录网络的状态； 2.2 对所有的ANi和ANj，计算它们的状态同时为1的概率Pij-； 3 对权矩阵进行调整 Δwij=α(Pij+-Pij-) 2018/12/30

7.4 双联存储器的结构智力链自相联异相联双联存储器具有一定的推广能力从一件事想到另一件事，“唤回失去的记忆”。
双联存储器（Bidirectional Associative Memory—BAM）。双联存储器具有一定的推广能力它对含有一定缺陷的输入向量，通过对信号的不断变换、修补，最后给出一个正确的输出。 2018/12/30

基本的双联存储器结构 W 第1层输入向量第2层输出向量 WT x1 xn ym y1 … 2018/12/30

网络运行 Y=F(XW) X=F(YWT) X=(x1，x2，…，xn) Y=(y1，y2，…，ym)
F为神经元的激活函数，一般可采用S形函数 2018/12/30

激活函数——阈值函数随着λ的增加，该函数趋近于阈值为0的阈值函数。 1 if neti>0 yi= 0 if neti<0
λ2>λ1 λ1 λ2 1/2 2018/12/30

基本BAM的稳定 Kosko(1987)：基本的双联存储器无条件稳定——联接权矩阵是互为转置矩阵。当输入向量的维数与输出向量的维数相同时，W为方阵，此时如果联接矩阵W是对称的，则基本的双联存储器退化成一个Hopfield网 2018/12/30

7.5 异相联存储样本集：S={(X1,Y1)，(X2,Y2)…,(Xs,Ys)} 权矩阵网络需要对输入向量进行循环处理的情况
当输入向量中含有“噪音” 样本集所含的信息超出网络的容量 2018/12/30

容量 Kosko（1987），一般情况下，相联存储器的容量不会超过网络最小层神经元的个数min
Haines和Hecht-Nielson（1988），“非均匀”网络的容量最多可以达到2min R. J. McEliece、E. C. Posner、E. R. Rodemich 用户随机地选择L个状态每个向量中有4+log2min个分量为1，其它为-1 98%的向量成为稳定状态 2018/12/30

7.6 其它的双联存储器具有竞争的双联存储器可通过附加侧联接实现竞争。这些权构成另一个主对角线元素为正值，其它元素为负值的权矩阵。
Cohen-Grossberg定理指出，如果权矩阵是对称的，则网络是稳定。即使权矩阵不对称，网络通常也是稳定的。但是目前还不知道哪一类权矩阵会引起不稳定 2018/12/30

7.6 其它的双联存储器连续的双联存储器自适应双联存储器
Kosko（1987）证明，神经元的状态非同步变换，而且这些神经元使用其他激励函数，仍然是稳定的，且有更强的表达能力自适应双联存储器最简单的方法是使用Hebb学习律进行训练。 Δwij=αoioj 2018/12/30

7.7 Hopfield网解决TSP问题 1985年，J. J. Hopfield和D. W. Tank用循环网求解TSP。试验表明，当城市的个数不超过30时，多可以给出最优解的近似解。而当城市的个数超过30时，最终的结果就不太理想了 n个城市间存在n!/(2n)条可能路径设问题中含有n个城市,用n*n个神经元构成网络 2018/12/30

7.7 Hopfield网解决TSP问题 dxy——城市X与城市Y之间的距离； yxi——城市X的第i个神经元的状态：
wxi,yj——城市X的第i个神经元到城市Y的第j个神经元的连接权。 2018/12/30

7.7 Hopfield网用于解决TSP问题例如：四个城市X、Y、Z、W 城市名访问顺序标示 1 2 3 4 X Y Z W
Y Z W 2018/12/30

7.7 Hopfield网用于解决TSP问题联接矩阵 1 如果i=j δij= 0 如果i≠j
wxi,yj= -Aδxy(1-δij) –Bδij(1-δxy) –C –ζdxy(δji+1+δji-1) 1 如果i=j δij= 0 如果i≠j 2018/12/30

网络的能量函数 2018/12/30

网络的能量函数 A、B、C、D为惩罚因子第1项仅当所有的城市最多只被访问一次时取得极小值0。 2018/12/30

网络的能量函数第2项仅当每次最多只访问一个城市时取得极小值0。 2018/12/30

网络的能量函数第3项当且仅当所有的n个城市一共被访问n次时才取得最小值0。 2018/12/30

网络的能量函数第4项表示按照当前的访问路线的安排，所需要走的路径的总长度 2018/12/30

习题 P100 1、4、7 2018/12/30

第8章自适应共振理论主要内容 ART模型的总体结构各模块功能比较层与识别层联接矩阵的初始化识别过程与比较过程查找的实现
2018/12/30

第8章自适应共振理论重点 ART模型的总体结构各模块功能识别过程与比较过程查找的实现。难点比较层与识别层联接矩阵的初始化
2018/12/30

第8章自适应共振理论 8.1 ART的结构 8.2 ART的初始化 8.3 ART的实现 8.2.1 T的初始化 8.2.2 B的初始化
8.2.3 ρ的初始化 8.3 ART的实现识别、比较、查找、训练 2018/12/30

第8章自适应共振理论网络的可塑性分析环境变化样本集新添样本训练合并重新训练应用新环境下的应用 2018/12/30

第8章自适应共振理论 Carpenter和Grossberg在1986年：4个样本组成样本集。这4个样本被周期性地提交给网络。网络是难以收敛网络的可塑性需要的4项功能样本的分类功能分类的识别功能比较功能类的建立功能 Grossberg等：自适应共振理论（Adaptive Resonance Theory，简记为ART） ART1、ART2。 2018/12/30

8.1 ART的结构稳定性与可塑性是不同的保证可塑性的操作要求分析相似：修改相匹配的模式新输入向量不匹配的现存与现存模式
模式不被修改不相似：建立一个新模式 2018/12/30

ART总体结构图 X 识别层 C(B) P(T) R C 复位 G2 G1 识别控制比较控制比较层复位控制精度控制参数ρ
2018/12/30

8.1 ART的结构 X=(x1，x2，…，xn) R=(r1，r2，…，rm) C=(c1，c2，…，cn) P=(p1，p2，…，pn)
Ti=(ti1，ti 2，…，ti n) Bi=(b1i，b2i，…，bni) 2018/12/30

8.1 ART的结构 tij表示识别层的第i个神经元到比较层的第j个神经元的联接权
bij表示比较层的第i个神经元到识别层的第j个神经元的联接权 pi为比较层的第i个神经元的网络输入 2018/12/30

以比较层和识别层为中心讨论5个功能模块 rm r2 r1 T1 p1 c1 T B B1 x1G1 p2 c2 cn pn 复位 G2 T2
Tm Bm B2 XnG1 x2 G1 … 识别层比较层 2018/12/30

比较层输出信号控制识别层输出信号控制 G1= ┐(r1∨r2∨…∨rm) ∧ (x1∨x2∨…∨xn) G2= x1∨x2∨…∨xn
2018/12/30

比较层执行二-三规则 ci= 1 xi+pi+G1≥2 ci= 0 xi+pi+G1>2 待命期工作周期 P=Tk C=X
2018/12/30

识别层识别层实现竞争机制 Bk与C有最大的点积 X的“暂定”代表RNk所获得的网络输入为与RN1，RN2，…，RNm相对应
向量B1，B2，…，Bm代表不同分类 2018/12/30

系统复位控制 X与C的相似度 s≥ρ，当前处于激发态的RNk所对应的Bk、Tk为X的类表示；
2018/12/30

8.2 ART的初始化 T的初始化 B的初始化 bij<L/(L-1+n) ρ的初始化矩阵T的所有元素全为1
n为输入向量的维数；L为一个大于1的常数，其值应该与输入向量的位数相关 Tk、Bk是RNk对应类的两种不同表示 ρ的初始化 ρ∈[0,1] 2018/12/30

8.3 ART的实现四个阶段：识别、比较、查找、训练一、识别 X (非0向量)未被加在网上时 X(非0向量)被加在网络上时 G2=0
R=(r1，r2，…，rm)=(0，0，…，0) X(非0向量)被加在网络上时 G1=G2=1 R=0导致P=(p1，p2，…，pm)= (0，0，…，0) 2018/12/30

8.3 ART的实现在识别层，每个RNk完成的操作 RN之间的抑制连接与抑制信号
计算∑bikci 接收来自其它RN的抑制信号，并向其它的RN发出抑制信号确定自己的输出状态完成输出 RN之间的抑制连接与抑制信号如果RNk输出1，则表明，在本轮识别中，X暂时被认为是属于该RNk所对应的类 2018/12/30

二、比较 X归于RNk，RNk的输出值1被分别以权重tkj传送到比较层向量P就是向量Tk
T的初始化及训练保证了T的每个元素取值为0或者1 Bk与T k根据RNk进行对应，互为变换形式如果对于所有的j，1≤j≤n，pj=xj，则表示X获得良好的匹配。如果存在j，使得pj≠xj，则表明X与相应的“类”的代表向量并不完全一致 2018/12/30

二、比较当系统复位控制模块计算X和C的相似度s 如果s≥ρ，表明本轮所给出的类满足精度要求。查找成功，系统进入训练周期
复位模块要求识别层复位，使所有RN输出0 系统回到开始处理X的初态，重新进行搜索复位信号屏蔽本次被激发的RN，在下一轮匹配中，该RN被排除在外，以便系统能够找到其它更恰当的RN 2018/12/30

三、查找如果s≥ρ，认为网络查找成功，此时分类完成，无需再查找
查找过程 2018/12/30

三、查找 1 复位模块向识别层发出复位信号 2 所有RN被抑制：R=(r1,r2,…,rm) =(0，0,…,0)，上轮被激发的RN被屏蔽
3 G1的值恢复为1 4 X的值再次被从比较层送到识别层：C=X 5 不同的RN被激发，使得不同的P(Tk)被反馈到比较层 6 比较层进行相应的比较，并判定本次匹配是否满足要求 2018/12/30

三、查找如果本次匹配不成功，则重复1∽6直到如下情况之一发生
7.1 本轮匹配成功。表明已找到一个与X匹配较好的模式，此时，网络进入训练期，对这个匹配的模式进行适当的修改，使它能更好地表示X 7.2 网络中现存的模式均不匹配。因此，网络需要重新构造一个新模式表达此类 2018/12/30

三、查找网络用一个还未与任何类关联的RN来对应X所在的类根据X修改与此RN对应的Tk、Bk
被网络选中的RNk对应的Tk=（1，1，…，1） P=（1，1，…，1）被送入比较层。 C=X∧P=X，被送入系统复位控制模块，s=1。而ρ≤1，所以，s≥ρ。匹配获得成功网络进入训练期 2018/12/30

三、查找首先被选中的RN不一定对应X属于的类例如：设n=5，三个输入向量为： X1=（1，0，0，0，0）
受B取法的影响，有时候，获得最大激励值的RN对应的类不一定是X所属的类例如：设n=5，三个输入向量为： X1=（1，0，0，0，0） X2=（1，0，0，1，1） X3=（1，0，0，1，0） 2018/12/30

三、查找假定用初始化B，当X1、X2被输入时，RN1、RN2分别被激发 T1、T2、B1、B2分别取如下值
2018/12/30

三、查找 RN1被选中，则出现问题比较层输出向量C=（1，0，0，0，0），使得s=0.5，当ρ>0.5时，选择RN1就不能满足精度要求，此时网络就需要进入查找工作阶段 1、 RN1获胜 2、C取值（1，0，0，0，0） 3、 2018/12/30

三、查找 4、s<ρ 5、RN1被屏蔽 6、网络进入第二个查找周期，RN2获胜 7、C取值（1，0，0，1，0） 8、
2018/12/30

三、查找 9、满足精度要求，停止查找，进入训练期当L取其它的值时，将会有不同的结果
当RN被系统认为是不能满足精度要求后，在继续查找过程中，一直被屏蔽 “查找周期”：网络的五个功能模块之间互相影响，加上信号的反馈，使得网络中的信号较为复杂 2018/12/30

四、训练 Tk、Bk的修改 tki = ci 2018/12/30

四、训练 L是常数 T的元素只可能从1变成0，不可能从0变成1：用1初始化T的所有元素
如果RNk对应的模式代表类{X1，X2，…，Xd}，则有Tk= X1∧X2∧…∧Xd 网络将向量共有的东西作为它的类表示，这也符合一般意义下的“共同特征”的要求 2018/12/30

四、训练中含有重要因子 2018/12/30

四、训练设X1、X2分别使RN1、RN2激发设T1= X1、T2 =X2 如果相应式子中没有该因子，则此时B1=T1、B2 =T2
2018/12/30

四、训练 ∑Cj可以看成向量C的一个度量例如 X1=（1，0，0，0，0） X2=（1，0，0，1，1） X3=（1，0，0，1，0）
越大，产生的权值就越小；越小，产生的权值就越大。当一个向量是另一个向量的子集时，能够获得较好的操作例如 X1=（1，0，0，0，0） X2=（1，0，0，1，1） X3=（1，0，0，1，0） 2018/12/30

四、训练 ① X1被再次输入，导致RN2被选中； ② 识别层将T2送入比较层：P= T2； ③ 此时，C=P∧X1=X1；
④ 复位控制模块根据C与X1计算出s=1； ⑤ 因为s>ρ，所以对网络进行训练：T2=C。显然，其原值被破坏了。而当我们选择一个适当的L，同时在调整B时保留，这个问题就可以避免了。 2018/12/30

四、训练网络的分类并不是一成不变的继续使用上面例子中的输入向量，取L=6，初始化使B的所有元素均取值0.6
1、 X1的输入导致RN1被激发；B1被训练后取值为（1，0，0，0，0） 2、输入X2时，RN1 、RN2所获得的网络输入分别为1和1.8，这导致RN2被激发；B2被训练后取值为（0.6，0，0，0.6，0.6） 2018/12/30

四、训练 3、如果X1再次被输入，RN1 、RN2所获得的网络输入分别为1和0.6，从而正确的神经元被激发；如果X2再次被输入，RN1 、RN2所获得的网络输入分别为1和1.8，从而也仍然有正确的神经元被激发 4、当X3被输入时，RN1 、RN2所获网络输入分别为1和1.2，从而RN2被激发，此时，T2=（1，0，0，1，1）被送入比较层，使得C=T2∧X3=X3。从而导致s=1>ρ 2018/12/30

四、训练 5、网络进入训练：T2、B2被修改 T2=（1，0，0，1，0）
6、当再次输入X2时，RN1 、RN2所获得的网络输入分别为：1和12/7，这再次导致RN2被激发。但是，此时识别层送给比较层的T2=（1，0，0，1，0）。从而有s=2/3，如果系统的复位控制参数ρ>2/3，此时系统会重新为X3选择一个新的神经元 2018/12/30

四、训练可以让ART在训练完成后，再投入运行 2018/12/30

习题 P112 1、5 2018/12/30

人工神经网络 Artificial Neural Networks

Similar presentations

Presentation on theme: "人工神经网络 Artificial Neural Networks"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

人工神经网络 Artificial Neural Networks

Similar presentations

Presentation on theme: "人工神经网络 Artificial Neural Networks"— Presentation transcript:

Similar presentations

About project

反馈