Sparse Autoencoder 稀疏自动编码器 王鹏宇
目录 网络结构 参数修正 稀疏自动编码器 程序实现
网络结构--自动编码器 非监督模式识别 输出近似于原始输入 隐含层输出主要特征 使信息熵减小
网络结构--自动编码器 :第L层节点j激活量的输入 :第L层的节点数目 = :第L层节点j的输出 f(x):sigmoid函数或tanh函数
网络结构--自动编码器 sigmoid函数 tanh函数
参数修正 m个训练集 损失函数J(w,b): 第一项:平均平方和误差 第二项:修正项,使所有权重和更小、防止过度拟合 使用梯度下降法
参数修正 对于每一次迭代 其中
参数修正--求损失函数偏导 残差 :第L层的第i个节点对最终输出值的残差贡献值 计算方法: 1.计算前向过程中的节点激活量 2.计算最终层的残差, 此时 为输出 3.使 可归纳推导得到
参数修正--求损失函数偏导
参数修正--求损失函数偏导 4.利用以上结论,求得 其中:
参数修正--求损失函数偏导 返回
参数修正--修正步骤
稀疏自动编码器 隐层节点数过少,需要对输入进行压缩,当输入为随机高斯序列,提取特征变得困难 希望在隐层节点数量大(甚至比输入层节点数量更多)时仍能实现自动编码提取感兴趣的信息,需要对隐层进行稀疏约束 稀疏表达更有效,人脑神经也是稀疏连接
稀疏自动编码器--稀疏限制 平均输出值 :隐层上每个节点j对于所有输入集i=1:m的平均激活强度 接近于0时(0.05),大多数隐含节点为非 激活状态,隐含层变为稀疏(sigmoid函数 的输出大多数状态是0,tanh函数的输出大 多数状态是-1)
稀疏自动编码器--稀疏限制 稀疏限制:使 接近于0,引入 KL divergence(相对熵)惩罚 偏离 取 为0.2 稀疏限制:使 接近于0,引入 KL divergence(相对熵)惩罚 偏离 取 为0.2 当 为0.2时整个KL为0
稀疏自动编码器 此时 损失函数: 节点误差:
稀疏自动编码器
稀疏自动编码器
稀疏自动编码器
最终推论