第 5 章 径向基函数网络 中国科大 计算机学院 第 II 部分 人工神经网络
本章内容 Learning Vector Quantizer-II 径向基函数神经网络
LVQ-II LVQ-II 由 Kohonen 开发,使用从监督者得到的信息 来实现奖励或惩罚机制。 – 如果一个获胜单元正确地分类了输入模式,则修 改权值使其更好地匹配输入模式,即对该单元的 权值进行奖励。 – 如果一个获胜单元错误地分类了输入模式,则通 过使其权值远离输入向量,从而达到惩罚的效果。 对于 LVQ-II ,获胜输出单元 o k 的权值更新为:
本章内容 Learning Vector Quantizer-II 径向基函数神经网络
概述 1985 年, Powell 提出了多变量插值的径向基函数 (Radical Basis Function , RBF) 方法 1988 年, Moody 和 Darken 提出了一种神经网络结 构,即 RBF 神经网络 RBF 网络是一种三层前向网络,基本思想为: – 用 RBF 作为隐单元的 “ 基 ” 构成隐含层空间,将输入矢量直 接 ( 即不需要通过权连接 ) 映射到隐空间 – 当 RBF 的中心点确定后,映射关系也就确定 – 隐含层空间到输出空间的映射是线性的
概述 径向基神经网络的神经元结构 激活函数采用径向基函数 以输入和权值向量之间的 距离作为自变量
概述 正规化网络(隐层节点数与数据点数相同) 基函数线性函数
概述 广义的径向基函数 (RBF) 网络结构 ( 隐层节点数小于 与数据点数 ) 基函数 线性函数
模式可分性的 Cover 定理 当用径向基函数神经网络来解决个复杂的模式分类 任务时,问题的基本解决可以通过应 用非线性方式 将其变换到一个高维空间。 – 它的潜在合理性来自模式可分性的 Cover 定理。 Cover 定理可以定性地表述如下: – 将复杂的模式分类问题非线性地投射到高维空间 将比投射到低维空间更可能是线性可分的。
模式可分性的 Cover 定理 一维平面上的 5 个点的不同集合的 3 个例子
XOR 问题 在 XOR 问题中有四个二维输入空间卜的点 ( 模式 ) , (1, 1) , (0, 1) , (0, 0) 和 (1, 0) 。要求建一个模式分类 器产生二值输出响应,其中点 (1, 1) 或 (0, 0) 对应于输 出 0 ,点 (0, 1) 或 (1, 0) 对应于输出。 定义对 Gauss 函数如下.
XOR 问题
输入模式被映射到∅ - ∅平面上。
曲面的分离能力 Cover 定理的一个推论: – 一组随机指定的输入模式 ( 向量 ) 的集合在 m 1 维空 间中线性可分,它的元素数目的最大望等于 2m 1 。
径向基函数 一个径向基函数神经网络( Radial Basis Function Neural Networks , RBFNN )是一个 FFNN (前馈 神经网络),其隐层单元并不使用激活函数,而是 采用径向基函数。 – 径向基函数神经网络通过非正交、径向对称函数 的叠加来逼近期望函数。 径向基函数网络结构 径向基函数 训练算法 径向基函数网络的变体
径向基函数网络结构 径向基函数网络的结构
径向基函数网络结构 径向基函数网络与前馈神经网络的不同: ①隐层单元实现一个径向基函数 。每个隐层单元 的输出为: ②从输入单元到隐层单元的权值 ij ,表示隐层单 元 j 的径向基函数的中心。 ③一些径向基函数可由一个宽度 j 描述。对于这样 的基函数,从输入层的基单元到每一个隐层单 元的权值表示了基函数的宽度。注意输入单元 z I+1 具有 +1 的输入信号。
径向基函数网络结构 径向基函数网络的输出为: 径向基函数网络的输出是基函数的一个线性组合。 − 径向基函数的输出单元实现的是线性函数。 − 已经证明:径向基函数网络与前馈神经网络一样, 是一个通用逼近器。
径向基函数 每个隐层单元实现一个径向基函数。 – 这些函数又称为核函数,都是严格正、径向对称 的函数。 一个径向基函数( RBF : Radial Basis Functions ) 在其中心 j 有一个唯一的最大值,并且当远离中心时, 函数通常很快趋于 0 。 隐层单元的输出表明输入向量 z p 和基函数中心接近 的程度。
径向基函数 除了用函数中心表示外,一些 RBF 函数由一个宽度 j 描述。 – 宽度 j 指出了隐层单元 j 的输入空间中, RBF 接收 域的宽度。
常用的 RBF 函数 线性函数 立方体函数 薄板样条函数( Thin-plate-spline function ) 复二次函数
常用的 RBF 函数 逆复二次函数 高斯函数 Logistic 函数
RBF 对 RBFNN 性能的影响 径向基函数神经网络的正确率受下述因素影响: ①使用基函数的数目。使用的基函数越多,对目标 函数逼近的越好。然而,不必要的基函数会增加 计算复杂度。 ②对于每一个基函数,由中心向量 j 定义基函数的 位置。基函数应当均与分布并覆盖整个输入空间。 ③某些函数具有接收域宽度 j 。 j 越大,则由该基 函数所表述的输入空间越大。 因此, RBFNN 的训练应当考虑找出这些参数的最佳 值。
训练算法 分两类: – 固定中心算法,仅调整隐层单元和输出层之间的 权值。 – 自适应中心训练算法,对权值、中心和偏差均进 行调整。 1. 训练中心固定的 RBFNN 2. 使用梯度下降法训练 RBFNN 3. 两阶段 RBFNN 训练
训练中心固定的 RBFNN 从训练集中随机选择得到中心。 – 只要从训练集中均匀选取了足够数量的中心,就 可以得到输入空间的一个充分采样。 常用方法是首先选取足够多数量的中心,然后进行 训练,最后再对冗余的基函数进行裁剪。 – 仅删除那些不会造成正确率显著下降的 RFB 函数。
训练中心固定的 RBFNN // 训练一个固定中心的 RBFNN 1. 令 J 表示中心的个数; 2. 选择中心 j , j=1,…,J 为 j =z p, p~U(1, P T ) ; 3. 计算宽度 j , 4. 将所有 w kj, k=1,…,K, j=1,…,J 初始化为小的随机值; 5. 使用高斯径向基函数,计算每一个输出单元的值, 6. 对 k=1,…,K, ,求解网络权值。
训练中心固定的 RBFNN 求解网络权值:
使用梯度下降法训练 RBFNN 1. 选择中心的个数 J ; 2.for j=1, …, J do 3. p ~ U(1, P T ); 4. j =z p ; 5. 6.end 7.for k=1, …, K do 8. for j=1, …, J do 9. w kj ~ U(w min, W max ) 10. end 11.end
使用梯度下降法训练 RBFNN 12.while 终止条件不满足 do 13. 选择一个输入模式, d p =(z p, t p ) ; 14. for k=1, …, K do 15. 计算 o k,p ; 16. for j=1, …, J do 17. 计算调整步长: 18. 使用下式调整权值: 19. end 20.end
使用梯度下降法训练 RBFNN 21. for j=1, …, J do 22. for i=1, …, I do 23. 计算中心步长: 24. 使用下式调整中心: 25. end 26. 计算宽度步长,并调整宽度: 27. end 28.end
两阶段 RBFNN 训练 为了减少训练时间, RBFNN 的训练可以分两个阶段 进行: ①中心 j 的非监督学习; ②使用梯度下降对隐层和输出层之间权值 w k 的监 督训练。
两阶段 RBFNN 训练 // 两阶段 RBFNN 训练算法 1. 初始化 w kj , k=1, …, K , j=1, …, J ; 2. 初始化 ji , j=1, …, J , i=1, …, I ; 3. 初始化 j , j=1, …, J ; 4.while LVQ-I 没有收敛 do 5. 应用 LVQ-1 的一步调整 ji , j=1, …, J ; 6. 调整 j , j=1, …, J ; 7.end 8.t=0; ……
两阶段 RBFNN 训练 …… 9.while 梯度下降并没有收敛 do 10. 选择一个输入模式 (z p, t p ) ; 11. 计算权值步长, 12. 调整权值, 13.end
两阶段 RBFNN 训练 在 LVQ-1 训练阶段之前, RBFNN 按下述方式进行初 始化: ①通过将所有的权值 ji 设为训练集中所有输入的平 均值,完成对中心的初始化。 ②通过将所有的 j 设为训练集上所有输入值的标准 差,完成对权值的初始化。 ③将隐层到输出层的权值 w kj 初始化为小的随机值。 在 LVQ-I 迭代的末尾,重新计算基函数的宽度:对 于每一个隐层单元,计算 j 和将 j 作为获胜者的输 入模式之间的欧式距离的平均值,并将宽度 j 设置 为该平均值。
其中, C j 是与中心 j 距离最近的模式的集合。 ③将训练模式重新划分到其距离最近的中心。转第 步,直到中心不再显著变化。 K-means 聚类后,将宽度计算为: 两阶段 RBFNN 训练 在第一阶段中,也可以使用 K-means 来进行聚类。 采用 K-means 的初始化过程: ①将每一个 j 设置为一个随机的输入模式。 ②将训练模式划分到其最近的中心,重设中心为:
径向基函数网络的变体 两类变体,旨在改进 RBFNN 的性能 ①归一化隐层单元激励 ②软竞争
归一化隐层单元激励 Moody 和 Darken 提出,隐层单元激励应当使用下式 进行归一化: 这种归一化代表了隐层单元 j 生成 z p 的条件概率:
软竞争 用 K-means 聚类可以看做是胜者全得行为的硬竞争。 一个输入模式被划分到与其距离最近的 j 的模式聚类。 接下来, j 的调整仅基于这样的一些模式,这些模式 将 j 选为获胜者。 在软竞争中,所有输入向量对所有聚类的调整都有 影响。对于每一个隐层单元,有:
小结 LVQ-II – 了解 LVQ-I 和 LVQ-II 的不同 径向基函数神经网络 – 了解 RBFNN 的特点和训练方法
作业 1. 给出除 LVQ-1 以外的另一种计算输入层到隐层的权 值的方法。