Download presentation
Presentation is loading. Please wait.
1
第11章 神经网络
2
11.3 神经网络 神经网络的本质是两阶段非线性统计模型
3
11.3 神经网络 Z称为导出特征,在神经网络中也成为隐藏层。先由输入的线性组合创建Z,再以Y为目标用Z的线性组合建立模型
4
11.3 神经网络 激活函数σ(ע)的选取 神经网络源于人脑开发模型,神经元接收到的信号超过阀值时被激活。由于需要光滑的性质,阶梯函数被光滑阀函数取代。
5
11.3 神经网络 输出函数 是对于向量T的最终变换,早期的K分类使用的是恒等函数,后来被softmax函数所取代,因其可以产生和为1的正估计。
6
11.2 投影寻踪模型 投影寻踪模型是神经网络模型的特例 先将X投影于某一方向,再用得到的标量进行回归 M=1时在经济学中称为单指标模型
7
11.2 投影寻踪模型 如何拟合投影寻踪模型 目标:误差函数的近似极小值 为避免过分拟合,对于输出函数g需要限制
M的值通常作为前向分布策略的一部分来估计, 也可以由交叉验证来估计。
8
11.2 投影寻踪模型 M=1时,首先给定一个投影方向的初值,通过光滑样条估计g 给定g, 在误差函数上对投影方向做极小化
舍弃了二阶导数之后,再带入误差函数得 对于右端进行最小二乘方回归,得到投影方向的新估计值,重复以上步骤得到
9
11.4 神经网络的拟合 未知参数称为权,用θ表示权的全集
对于回归和分类问题,我们分别使用误差的平方和,平方误差或互熵(离散)作为拟合的度量
10
11.4 神经网络的拟合 通常R(θ)的全局最小化很可能是一个过分拟合,所以需要正则化,使用惩罚项或是提前停止优化
11
11.4 神经网络的拟合 平方误差损失的反向传播细节 具有导数
12
11.4 神经网络的拟合 使用梯度下降法迭代,在第(r+1)次时有如下公式
13
11.4 神经网络的拟合 如果将迭代前的公式写成如下形式 其中 和 分别是当前模型输出层,隐藏层的“误差”,并且满足
14
11.4 神经网络的拟合 上面的关系称作反向传播方程 向前传递时固定当前权值,计算预测值 向后传递是计算误差 ,进而又得到
向后传递是计算误差 ,进而又得到 最后使用更新的误差值计算更新的梯度 反向传播方法具有简单性和局部特性,每个隐藏单元只传递信息
15
11.4 神经网络的拟合 迭代公式中的γ称为学习率,此种迭代更新称为批学习
对于批学习,学习率通常去常数,也可以在每次更新的时候通过极小化误差函数的线搜索来优化 使用在线学习,学习率应随迭代次数递减到零
16
11.5 神经网络训练的一些问题 初始值 如果权值接近于0,则S型函数的运算大多是线性的,并且随着权值的增加变成非线性的
权值恰为0导致0导数和良好的对称性,且算法永远不会前进,而以大权值开始常常导致很差的解
17
11.5 神经网络训练的一些问题 过分拟合 权衰减是一种更加直接的正则化方法 将惩罚项加入误差函数得到
Λ是大于0的调整参数,较大的值使权值向0收缩。 Λ的值由交叉验证估计,其作用是在梯度下降的递推式中加入 和
18
11.5 神经网络训练的一些问题 输入的scale对于结果的影响
最好对于所有的输入都进行标准化,这个可以保证在正则化过程中平等的对数据进行处理,而且为随机初值的选择提供一个有意义的值域 一般在[ -0.7, 0.7]上面随机选取均匀的权值
19
11.5 神经网络训练的一些问题 隐藏单元和层的数目:隐藏单元过少则模型可能不具备足够的灵活性,如果隐藏单元过多,则多余的收缩到0. 一般来说隐藏单元的数量在5到100之间,可以取合理大的数量,在用正则化加以训练,使得多余的变作0.
20
11.6 模拟数据
21
11.6 模拟数据
22
11.6 模拟数据
23
11.6 模拟数据
24
11.6 模拟数据 ZIP编码数据
25
11.6 模拟数据
26
11.6 模拟数据
27
11.6 模拟数据
28
11.6 模拟数据
29
观众朋友们, 再见!
Similar presentations