核函数方法及其在过程控制中的应用研究 Studies on the kernel-based methods and its applications in process control 核函数方法及其在过程控制中的应用
主要内容 Kernel trick Kernel-based methods Applications Kernel chemometric Kernel PCA, Kernel PCR Kernel PLS Kernel Fisher Discriminant Support vector machines Support vector classification machines Support vector regression machines Applications 核函数方法及其在过程控制中的应用
研究背景 人类具有通过事例学习能力,并能举一反三。因此,希望在对机器智能的研究中,也希望它具有该能力。 传统方法及其局限性 统计学在解决机器学习的问题中取基础作用 传统统计学研究的主要是渐近理论,即当样本趋向无穷多时的统计性质 Vapnik等人系统地研究了有限样本情况下的机器学习问题,建立了统计学习理论(SLT)的基本体系。 SVM 在应用研究中展示了良好的性能 核函数方法及其在过程控制中的应用
由于工业过程的复杂性,(多变量、非线性、时变、分布参数、信息不完全、信息冗余等)。基于过程机理的方法在应用研究中遇到困难。 过程控制借鉴了机器学习中的理论与方法,如ANN。取得了较丰富的成果。 ANN的困境 缺乏坚实的理论基础 解决复杂问题表现出的局限性 过学习 局部最小点 模型结构何参数确定依赖于经验 对样本容量与分布特性要求 核函数方法及其在过程控制中的应用
SLT系统地研究了小样本情况下的机器学习问题。理论扎实 SLT与SVM SLT系统地研究了小样本情况下的机器学习问题。理论扎实 SVM是基于SLT的通用机器学习方法 SVM方法又促进了核函数方法的应用研究 SVM与BPNN的比较,有一系列优点 现有的研究表明,SVM在模式识别等领域的应用研究中,对于一些Benchmark问题,结果优于ANN方法。 SVM的特点,十分有利于处理过程控制中的复杂特性。 核函数方法及其在过程控制中的应用
过程控制中广泛存在多变量问题,数据量大,信息冗余。线性多元特征提取方法应用较多。如基于PCA的过程状态监测与故障诊断。但很难提取非线性特性。 回归方法,如PCR,PLS等在过程建模上应用较多。它们本质上仍然属于线性方法。 用核函数方法改造传统线性Chemometric方法受到广泛重视。 核函数方法及其在过程控制中的应用
Kernel trick 根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,而且在高维特征空间中再提取特征信息也会更容易。 如函数型连接网络。 图2 函数型连接网络 核函数方法及其在过程控制中的应用
实际上很难单纯采用这种方法,因为存在如下几个难点: 非线性函数 形式的确定。 特征空间维数的确定。 高维特征空间进行计算时的维数灾难。 核函数技术(kernel tricks)的基本思想是把非线性变换后的高维特征空间的内积运算转换为原始输入空间中的核函数的计算,即通过 来实现的 。 把采用kernel tricks的方法称为核函数方法。 核函数方法及其在过程控制中的应用
避免了直接在变换后的特征空间的运算,大大减小了计算 量,避免了“维数灾难”。 采用核函数后,没有必要知道非线性变换函数 的形式 核函数方法的特点: 避免了直接在变换后的特征空间的运算,大大减小了计算 量,避免了“维数灾难”。 采用核函数后,没有必要知道非线性变换函数 的形式 特征空间的维数甚至可以是无穷大。 核函数的选择也不困难,满足Mercer条件的任意对称函数 都可作核函数。 核函数方法及其在过程控制中的应用
图3 Kernel tricks示意图 核函数方法及其在过程控制中的应用
常用核函数 高斯核函数 指数型核函数 多项式核函数 感知器核函数 B样条核函数 核函数方法及其在过程控制中的应用
SLT与SVM的主要内容 SLT 主要内容 统计学习理论就是研究小样本统计估计和预测的理论,主要内容包括四个方面 经验风险最小化准则下统计学习一致性的条件 在这些条件下关于统计学习方法推广性的界的结论 在这些界的基础上建立的小样本归纳推理准则 实现新的准则的实际方法(算法) 核函数方法及其在过程控制中的应用
SLT与SVM的主要内容(续) VC维 为了研究学习过程一致收敛的速度和推广性,SLT定义了一系列有关函数集学习性能的指标 ,VC维是最重要的。 定义:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的 种形式分开,则称函数集能够把h个样本打散。函数集的VC维就是它能打散的最大样本数目h。 VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大) 目前尚没有通用的关于任意函数集VC维计算的理论 核函数方法及其在过程控制中的应用
SLT与SVM的主要内容(续) 推广性的界 这一结论从理论上说明了学习机器的实际风险由两部分组成:一是经验风险(训练误差),另一部分称作置信范围,它和学习机器的VC维及训练样本数有关 核函数方法及其在过程控制中的应用
在有限训练样本条件下,分类模型的VC维越高(复杂性越高)则置信范围越大,导致真实风险与经验风险之间可能的差别越大,这就是出现过学习的原因。 SLT与SVM的主要内容(续) 在有限训练样本条件下,分类模型的VC维越高(复杂性越高)则置信范围越大,导致真实风险与经验风险之间可能的差别越大,这就是出现过学习的原因。 机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性 。 核函数方法及其在过程控制中的应用
SLT与SVM的主要内容(续) 结构风险最小化 函数集子集 VC维: 图4 结构风险最小化示意图 核函数方法及其在过程控制中的应用
SLT与SVM的主要内容(续) 实现SRM原则可以有两种思路 在每个函数子集中求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集 。当子集数目很大甚至是无穷时不可行 设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为0),然后只需选择选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数 。SVM即采用这种思路 传统方法,如ANN,选择模型和算法的过程即为调整置信范围。当确定后,再最小化经验风险。可惜上述选择和调整无理论指导,依赖设计者经验。 核函数方法及其在过程控制中的应用
SLT与SVM的主要内容(续) SVM 主要内容 SVM方法是从线性可分情况下的最优分类面提出的 所谓最优分类面,就是这样的分类超平面,它不但能够将所有训练样本正确分类,而且使训练样本中离分类面最近的点到分类面的距离(定义为间隔)最大 在线性不可分的情况下,通过非线性变换将输入空间变换到一个高维特征空间。在新的特征空间中求取最优线性分类面,而这个非线性变换是通过核函数实现的 支持向量是训练数据集合的子集 核函数方法及其在过程控制中的应用
SLT与SVM的主要内容(续) 图5 最优分类面 核函数方法及其在过程控制中的应用
SLT与SVM的主要内容(续) 通过使间隔最大化来控制分类器的复杂度、进而实现较好的推广能力 正则化方法应用 kernel tricks应用 把优化问题转换为二次规划问题,因此避免了局部最小化问题。 用于模式识别的SVC推广到实函数估计的SVR 核函数方法及其在过程控制中的应用
SVC 简介 已知数据集: 最优超平面: 假设数据集可以被一个超平面没有错误地分开,则与两类样本点距离最大的分类超平面会获得最佳的推广能力。 支持向量到最优超平面的距离为 求最优超平面的问题转化为如下最优化问题: 按照最优化理论中二次规划的解法,可把该问题转化为Wolfe对偶问题来求解。构造Lagrange函数: 核函数方法及其在过程控制中的应用
其中 是Lagrange乘子 根据最优化原理有: 即: 核函数方法及其在过程控制中的应用
将两式代回Lagrange函数中,消去w和b,经运算得到原最优化问 题的Wolfe对偶问题: 其解是原最优化问题的整体最优解。可采用优化算法解出 ;参数b可根据Karush-Kuhn-Tucker条件求出: 最后求得得最优超平面为: 需要注意的是只有支持向量所对应的Lagrange乘子 才不是0。 核函数方法及其在过程控制中的应用
对于线性不可分的分类问题,可以将输入x通过非线性函数 映射到高维特征空间,在此空间再进行线性分类。最终结果为,以核函数 代替上式中的 。即 显然,在结构上它等效于三层前向神经网络。 核函数方法及其在过程控制中的应用
图6 SVM结构示意图 核函数方法及其在过程控制中的应用
SVMs 表1 前馈神经网络与SVMs比较 不同点 前馈神经网络 理论基础(优化原则) 经验风险最小化 结构风险最小化 对训练数据要求 大样本,数据质量要较高 小样本,可处理稀疏数据 模型结构和参数确定 先确定模型结构,再确定模型参数,反复训练、试凑。经验影响较大 结构和参数可以通过训练由训练算法自动同时确定 优化的全局性 可能陷入局部最小点 全局优化 模型参数数量 模型参数多 模型参数较少 模型推广能力 较差 较好 模型训练难易程度 通常较难 相对较容易 计算复杂度 取决于样本输入变量的维数和样本维数 与样本输入变量维数无关,取决于样本维数 核函数方法及其在过程控制中的应用
SVR 简介 设给定l个训练样本 ,其中 是n维输入; 是样本输出。非线性回归就是找到一个非线性函数f,能够逼近输入和输出之间的关系。采用与非线性分类支持向量机类似的方法,首先将输入通过非线性函数 映射到高维特征空间F,将非线性函数回归问题转化为高维空间的线性回归。 设所求逼近函数为: , 其中h为高维特征空间维数,b为偏置量。由于 是固定不变的,因此影响w的有经验风险的总和以及使函数f在高维空间平滑的 。因此有: 其中e(.)是损失函数, 是正则化常数 核函数方法及其在过程控制中的应用
对不同的损失函数e(.),式(19)的优化问题有不同的形式。 最小化 便得到用数据点表示的w 其中 和 是 最小化的解 ,综上所述有: 对不同的损失函数e(.),式(19)的优化问题有不同的形式。 常用的损失函数有 Vapnik -不灵敏度损失函数, 二次 -不灵敏度损失函数 Huber损失函数等。 参数b可根据Karush-Kuhn-Tucker条件求出。 核函数方法及其在过程控制中的应用
模型选择 正则化参数 损失函数 核的类型及核参数等 核函数方法及其在过程控制中的应用 SVMs模型性能很大程度上取决于模型参数,SVMs模型选择包括多个方面, 正则化参数 损失函数 核的类型及核参数等 核函数方法及其在过程控制中的应用
Kernel chemometric Kernel PCA, Kernel PCR Kernel PLS Kernel Fisher Discriminant(KFD) 核函数方法及其在过程控制中的应用
国内外研究现状 研究主要集中在 目前应用领域与成果 各种改进型SVM,如LS-SVM, v-SVM,Fuzzy SVM SVM算法 模式识别 回归估计 数据挖掘 工程应用研究 结果令人满意 核函数方法及其在过程控制中的应用
SVM算法 SVMlight为代表的分解算法 在线训练算法 序贯分类算法SMO,适用于回归和函数估计 对多类分类问题,标准算法是对于n类问题构造n个两类分类器,第i个SVM用第i类中的训练样本作为正的训练样本,而将其它的样本作为负的训练样本,这种算法称为“一对多”(one against all model)。这样需要构造的SVM分类器的数目等于数据样本的模式数目。这种方式的缺点是对每个分类器的要求较高。第二种是“一对一”(one against one model)策略,即为了对n个类的训练样本进行两两区分,分别构造n(n+1)/2个SVM分类器。在测试时,使用成对的SVM进行鉴别比较,每一次淘汰一个SVM分类器,而优胜者间继续进行竞争淘汰,直到最后仅剩一个优胜者。该优胜SVM分类器的输出决定测试数据的类别。 核函数方法及其在过程控制中的应用
核函数方法及其在过程控制中的应用
我国研究现状 80年代末,边肇祺等注意到该研究,但由于SVM还没提出,研究较少 90年代末,研究逐步增多,到2000以后,迅速增多,形成研究热点 2000年后,过程控制领域的应用开始见诸报道 软测量 系统辨识 但多数是仿真研究,工业应用研究报道较少。 核函数方法及其在过程控制中的应用
本人工作介绍 基于SVM和核函数方法的过程软测量建模研究 基于SVM的故障诊断方法研究 SVM软测量建模 PCA-SVM软测量建模, KPCA-SVM软测量建模 核函数PCA、核函数PLS、核函数PCR等软测量建模 基于SOM-SVM的多模型软测量建模 基于SVM的故障诊断方法研究 故障诊断是典型的小样本问题,因此用SVM方法研究故障诊断问题是十分合适的 SVM用于故障诊断: 直接建立故障诊断模型 用于残差分析 分别采用SVM分类中的“一对多”和“一对一”策略,将复杂故障诊断问题分解,研究其基于SVM的递阶故障诊断方法 核函数方法及其在过程控制中的应用
本人工作介绍(续) 基于SVM的动态建模方法研究 基于SVM的数据挖掘方法及其在过程控制中的应用研究 研究适合于动态建模的核函数及参数选择策略 提出SVM-PLS混合模型建模方法,并用于复杂工业过程动态建模 基于SVM的数据挖掘方法及其在过程控制中的应用研究 基于SVM的数据挖掘方法在过程优化中的应用 基于SVM的数据挖掘方法在状态监测中的应用 核函数PCA等方法在过程数据预处理中的应用 数据校正 去噪 核函数方法及其在过程控制中的应用
主要参考数目与资源 1 张学工.关于统计学习理论与支持向量机.自动化学报[J],2000,26(1):32-42. 2 Vapnik V N, The Nature of Statistical Learning Theory[M], NY: Springer-Verlag,1998. 3 Müller K-R., Mika S., Rätsch G., et al. An introduction to kernel-based learning algorithms, IEEE transactions on neural networks, 2001,12(2):181-202. 4 J.K.A.Suykens, T.V.Gestel and J.D.Brabanter et al. Least Squares Support Vector Machines. Worle Scientific Publishing Co. Pte. Ltd. Singapore, 2002 5 Cristianini N., Shawe-Taylor J., An Introduction to Support Vector Machines, Cambridge University Press. 2000. 6 Scholkopf,B, Smola,A.J. Learning with kernels. Cambridge,MA:MIT Press www.kernel-machine.com 核函数方法及其在过程控制中的应用
谢谢! 核函数方法及其在过程控制中的应用