中国科学院自动化研究所流形学习问题杨剑中国科学院自动化研究所 2004年12月29日.

Slides:

Advertisements

Similar presentations

模板的使用教育学江西教育学院教育系冯芳 2012 － 10. 第二章教育学的产生和发展第一节教育学的研究对象和任务第二节教育学的产生与发展第三节学习教育学的意义与方法.

Advertisements

教育部 1 教育部技職司南區： 2010 年 11 月 5 日北區： 2010 年 11 月 8 日中區： 2010 年 11 月 9 日產學攜手合作計畫政策宣導.

104 年度環保小學堂經費編列注意事項會計室 : 丁子芸中華民國 103 年 10 月 22 日會計室 : 丁子芸中華民國 103 年 10 月 22 日.

用藥安全用藥安全護理師張嘉芬. 前言前言正確用藥的方法藥袋上的秘辛為了減少重大疾病或是醫療處理、用藥不當的相關事件發生。

阿尔伯特亲王阿尔伯特亲王纪念碑维多利亚女王夫妇维多利亚女王一家建造水晶宫水晶宫初建时的照片.

2016年9月8日 2016年9月8日 2016年9月8日 1 Semi-supervised Learning by Sparse Representation Shuicheng Yan Huan Wang Lecturer: Yitao Zhai.

企业路演模板北交融创中小企业投融资平台融创天使（北京）科技服务有限公司

第八章土地行政管理.

「互联网金融2.0时代」与房地产的融合广州互联网金融协会会长、广州e贷总裁方颂.

企业会计学（三）人大版本吕昌.

梦想启航 ——大学生活与职业规划专题讲座.

河北保定外国语学校高三家长会.

《3-6岁儿童学习与发展指南》概述.

从生命伦理学角度对转基因食品市场准入标准及道德评价标准的研究

以信息化带动教育现代化，打造教育的“南山质量”

第一章　会计信息系统第一节　计算机会计概述.

企业涉税业务基本知识宣传郑州航空港区国家税务局机场税务分局王磊.

个体税收征管政策讲解浏阳市地方税务局.

腹有诗书气自华邓兵 2014年6月12日.

古代四大美女de风云沉鱼 . 西施落雁 . 王昭君闭月 . 貂禅羞花 . 杨玉环编者：周惠婷，李雪蓉

據點考核與評鑑報告人：臺南市政府照顧服務管理中心.

封面 2015易驾考最新分享：科目二考试方法秘诀文章来源：易驾考官网.

基于行业的企业技术创新信息保障体系研究刘华博士中国科学技术信息研究所.

第四讲 1949—1991年的中苏关系及其经验教训.

Unsupervised feature learning: autoencoders

“鼠标加水泥”的百货公司——武汉中百朱巧巧陆嘉怡田泽宇.

合理控制索道游客流量确保景区可持续发展云南丽江玉龙雪山索道陈加林二0一五年十一月.

特殊族群運動健康訓練(I).

依据教材全国高等教育自学考试指定教材《西方行政学说史》，竺乾威主编，高等教育出版社。

千里挑一的“征途” ——浅谈中国“国考”热.

股票市場技術面概念介紹斗六高中馬明宏.

正信讀書會主持群：姚永錩、鄭健、陳淑珍佛法的生活應用 2008/07/23.

非法集资典型案例评析南京师范大学法学院蔡道通 2016年1月.

专题（二）　交往沟通掌握技能命题解读背景材料新题演练考点链接 1.

一、银行保证金质押二、理财产品质押三、银行卡被盗刷的责任问题四、票据纠纷

活力射四简报种子发芽咯 de 国培（2015）小学数学四组 3/11/2017.

松竹梅岁寒三友步入建交桃李杏村暖一家迈进职教活出精彩.

第三章企业战略策划第一节企业整体战略策划（一）.

渤海商品交易所丹东玉米交易中心全国统一客服电话：

第八单元第二课第一课时严守法律温州四中蒋莉青.

高级财务会计.

默写基础知识： 1、家庭是由关系、关系或关系而结合成的亲属生活组织。家里有 ,家中有。

漫漫人生主办：平远县田家炳中学总第一期 2008年2月主编：初二(11)班肖遥.

什么是颈椎病？颈椎病是指颈椎间盘退行性变，及其继发性椎间关节退行性变所致脊髓、神经、血管损害而表现的相应症状和体征。

第一单元中国传统文化主流思想的演变.

《现代汉语语法研究》第三讲现代汉语语法的句法分析.

公務人員退休法、撫卹法法制與實務講習銓敘部退撫司中華民國99年8月.

《傅雷家书》学科：语文年级：九年级授课教师：王宁宁.

时代发展趋势：科学人文交融华中科技大学杨叔子 2010年2月修改.

中国未成年人法制安全课程酒精饮料我不喝小学段第三讲 NO.

第一節行政裁量與不確定法律概念第二節行政裁量

班主任专业素养漫谈普陀区教育局德研室陈镇虎

实践课题周围环境对当代大学生成长的影响指导老师：王永章小组成员：陈荣、刘若楠、张红艳、吕雪丹、樊金芳、李惠芬、黄婧

運輸與空間的交互作用運輸發展的階段一、分散的港口二、侵入路線三、發展支線四、初步相互連結五、完全相互連結六、高度優越的幹線

本课设置5个环节一、限时秒杀--5分钟二、摩拳擦掌--9分钟三、刀锋相见--20分钟四、现炒现卖--5分钟五、相约课后--1分钟.

从中国与联合国的关系演进看联合国的产生与发展

Manifold Learning Kai Yang

资产宣传推介手册 2017年10月.

(第七十五期) 理论与交叉研究部&磁共振基础研究部联合邀请报告第1期

建国以来，大陆对台政策金亚丽周莎黄运娜.

表情识别研究 Sources of facial expressions

Review and Analysis of the Usage of Degree Adverbs

LSVT Voice Rehabilitation

(二)盲信号分离.

加減法文字題國小低年級學生對加減法文字題的瞭解小組成員陳育娟羅珠綾侯宜孜

飛行器製作與飛行講師:劉修建.

因果性：一个形而上学的预设赵敦华 2008年5月.

海葵與小丑魚照片來源：

Presentation transcript:

中国科学院自动化研究所流形学习问题杨剑中国科学院自动化研究所 2004年12月29日

维数约简中国科学院自动化研究所增加特征数提高准确性增加信息量增加训练分类器的难度维数灾难解决办法：选取尽可能多的, 可能有用的特征, 然后根据需要进行特征约简.

特征约简中国科学院自动化研究所依据某一标准选择性质最突出的特征特征选择特征约简经已有特征的某种变换获取约简特征特征抽取试验数据分析，数据可视化（通常为2维或3维）等也需要维数约简

Outline 中国科学院自动化研究所线性维数约简方法流形和维数约简. 流形学习的一些数学基础. 几种流形学习算法简介：LLE, Isomap, Laplacian Eigenmap. 流形学习问题的简单探讨.

线性约简方法中国科学院自动化研究所通过特征的线性组合来降维. 本质上是把数据投影到低维线性子空间. 线性方法相对比较简单且容易计算. 两种经典且广泛使用的线性变换的方法: 主成分分析 (PCA); 多重判别分析 (MDA).

主成分分析 ( PCA ) 中国科学院自动化研究所 PCA的目的：寻找能够表示采样数据的最好的投影子空间. Principal component

主成分分析中国科学院自动化研究所 PCA对于椭球状分布的样本集有很好的效果, 学习所得的主方向就是椭球的主轴方向.

线性判别分析(LDA)1 中国科学院自动化研究所 LDA是一种监督的维数约简方法. LDA的思想: 寻找最能把两类样本分开的投影直线. Best projection direction for classification

线性判别分析(LDA)2 中国科学院自动化研究所 LDA的求解: 经过推导把原问题转化为关于样本集总类内散布矩阵和总类间散布矩阵的广义特征值问题.

多重判别分析 (MDA) 中国科学院自动化研究所 MDA把LDA推广到多类的情况. 对于c-类问题, MDA把样本投影到 c-1 维子空间. 更为复杂, 求解的广义特征值问题也更为复杂.

中国科学院自动化研究所线性方法的缺点线性方法对于很多数据不能进行有效的处理. 现实中数据的有用特性往往不是特征的线性组合. R

流形学习和维数约简中国科学院自动化研究所流形是线性子空间的一种非线性推广. 流形是一个局部可坐标化的拓扑空间. 流形学习是一种非线性的维数约简方法.

中国科学院自动化研究所流形学习的可行性 1 许多高维采样数据都是由少数几个隐含变量所决定的, 如人脸采样由光线亮度, 人离相机的距离, 人的头部姿势, 人的脸部肌肉等因素决定. 2 从认知心理学的角度, 心理学家认为人的认知过程是基于认知流形和拓扑连续性的. R

流形学习的一些数学基础中国科学院自动化研究所参考文献: 陈省身, 陈维桓, 微分几何讲义. 北京大学出版社, 1983 M Berger, B Gostiaux. Differential Geometry: Manifolds, Curves and Surfaces, GTM115. Springer-Verlag, 1974 陈维桓, 微分流形初步(第二版). 高等教育出版社, 2001

拓扑中国科学院自动化研究所集合上的拓扑是的满足以下性质的子集族: 对属于它的任意多元素的并集是封闭的; 集合上的拓扑是的满足以下性质的子集族: 对属于它的任意多元素的并集是封闭的; (ii) 对属于它的有限多元素的交集是封闭的; 且 , 称是一个拓扑空间.

中国科学院自动化研究所 Hausdorff 空间如果对空间中的任意两点存在和使得称是一个Hausdorff 拓扑空间.

流形的定义中国科学院自动化研究所设 M 是一个Hausdorff 拓扑空间, 若对每一点都有 P 的一个开领域 U 和的一个开子集同胚, 则称 M 为 n 维拓扑流形, 简称为 n 维流形.

坐标卡 M R2 中国科学院自动化研究所假定是同胚, 其中是中的开集, 则称为流形 M 的一个坐标卡, 并且把在假定是同胚, 其中是中的开集, 则称为流形 M 的一个坐标卡, 并且把在中的坐标称为点的坐标, M x1 x2 R2 z x x: coordinate for z 流形在本质上是局部可坐标化的拓扑空间.

中国科学院自动化研究所相关设是 n 维流形 M 的两个坐标卡. 若当时, 和它的逆映射都是次可微的, 则称是相关的.

微分结构中国科学院自动化研究所设 M 是 n 维流形, 假定是 M 上坐标卡的一个子集合, 且满足以下条件: (2) 属于的任意两个坐标卡都是相关的; 是极大的, 则称是 M 上的一个微分结构.

微分流形中国科学院自动化研究所设 M 是 n 维流形, 若在 M 上指定了一个微分结构 , 称为该微分流形的容许坐标卡. 当时, 称 M 为光滑流形.

光滑函数中国科学院自动化研究所设是定义在光滑流形 M 上的连续函数. 若在点 , 存在 M 的一个容许坐标卡使得 , 是在点处光滑的函数, 则称函数在点处是光滑的.

光滑映射中国科学院自动化研究所设 M, N 分别是 m 维, n 维光滑流形, 是连续映射. 设 , 若存在 M 在点 x 处的容许坐标卡及 N 在点处的容许坐标卡 , 使得是在点处光滑的映射, 则称映射在点处是光滑的. 处处光滑的映射称为光滑映射.

中国科学院自动化研究所切向量光滑流形M在点 x 的切向量是一个满足下列条件的映射有光滑流形的切向量是曲线的切向量的一种推广.

切空间中国科学院自动化研究所设 M 是 m 维光滑流形, 用表示 M 在点处的全体切向量的集合, 则在中有自然的线性结处的全体切向量的集合, 则在中有自然的线性结构, 使得成为 m 维向量空间, 称其为 M 在点的切空间.

中国科学院自动化研究所 Riemann 流形黎曼流形就是以光滑的方式在每一点的切空间上指定了欧氏内积的微分流形. R

与流形学习有关的参考文献中国科学院自动化研究所与机器学习, 统计学等相关的各种杂志和会议论文 http://www.cse.msu.edu/~lawhiu/manifold/

流形学习问题中国科学院自动化研究所设是一个低维流形, 是一个光滑嵌入, 设是一个低维流形, 是一个光滑嵌入, 其中 D>d . 数据集是随机生成的, 且经过 f 映射为观察空间的数据流形学习就是在给定观察样本集的条件下重构 f 和 . V. de Silva and J. B. Tenenbaum. Global versus local methods in nonlinear dimensionality reduction . Neural Information Processing Systems 15 (NIPS'2002), pp. 705-712, 2003.

几种流形学习算法中国科学院自动化研究所局部线性嵌入(LLE). 等距映射(Isomap). S. T. Roweis and L. K. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science, vol. 290, pp. 2323--2326, 2000. 等距映射(Isomap). J.B. Tenenbaum, V. de Silva, and J. C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, vol. 290, pp. 2319--2323, 2000. 拉普拉斯特征映射(Laplacian Eigenmap). M. Belkin, P. Niyogi, Laplacian Eigenmaps for Dimensionality Reduction and Data Representation. Neural Computation, Vol. 15, Issue 6, pp. 1373 –1396, 2003 .

局部线性嵌入(LLE) 中国科学院自动化研究所前提假设：采样数据所在的低维流形在局部是线性的,即每个采样点可以用它的近邻点线性表示. 学习目标：在低维空间中保持每个邻域中的权值不变, 即假设嵌入映射在局部是线性的条件下, 最小化重构误差. 求解方法：特征值分解.

LLE算法中国科学院自动化研究所 1 计算每一个点的近邻点, 一般采用K 近邻或者邻域. 的误差最小, 即通过最小化来求出 . 3 保持权值不变, 求在低维空间的象 , 使得低维重构误差最小.

中国科学院自动化研究所 LLE算法示意图

LLE算法的求解中国科学院自动化研究所 1 计算每一个点的近邻点. 2 对于点和它的近邻点的权值 , 3 令 , 低维嵌入 1 计算每一个点的近邻点. 2 对于点和它的近邻点的权值 , 3 令 , 低维嵌入是 M 的最小的第 2到第 d＋1 个特征向量.

中国科学院自动化研究所 LLE算法的例子(1)

中国科学院自动化研究所 LLE算法的例子(2)

LLE算法的优点中国科学院自动化研究所 LLE算法可以学习任意维的局部线性的低维流形. LLE算法中的待定参数很少, K 和 d.

LLE算法的缺点中国科学院自动化研究所 LLE算法要求所学习的流形只能是不闭合的且在局部是线性的. LLE算法中的参数 K, d 有过多的选择. LLE算法对样本中的噪音很敏感. R

多维尺度变换 (MDS) 中国科学院自动化研究所 MDS 是一种非监督的维数约简方法. MDS的基本思想: 约简后低维空间中任意两点间的距离应该与它们在原高维空间中的距离相同. MDS的求解: 通过适当定义准则函数来体现在低维空间中对高维距离的重建误差, 对准则函数用梯度下降法求解, 对于某些特殊的距离可以推导出解析解法.

中国科学院自动化研究所 MDS的准则函数

中国科学院自动化研究所 MDS的示意图

中国科学院自动化研究所 MDS的失效

等距映射(Isomap)的基本思想中国科学院自动化研究所建立在多维尺度变换(MDS)的基础上, 力求保持数据点的内在几何性质, 即保持两点间的测地距离.

Isomap的前提假设中国科学院自动化研究所 1 高维数据所在的低维流形与欧氏空间的一个子集是整体等距的. 2 与数据所在的流形等距的欧氏空间的子集是一个凸集.

Isomap算法的核心中国科学院自动化研究所估计两点间的测地距离: 1 离得很近的点间的测地距离用欧氏距离代替. 2 离得较远的点间的测地距离用最短路径来逼近.

中国科学院自动化研究所测地距离估计

Isomap算法中国科学院自动化研究所 1 计算每个点的近邻点 (用K近邻或邻域). 2 在样本集上定义一个赋权无向图如果和互为近邻点, 则边的权值为 3 计算图中两点间的最短距离, 记所得的距离矩阵为 . 4 用MDS求低维嵌入流形 , 令低维嵌入是的第2小到第 d＋1小的特征值所对应的特征向量.

图距离逼近测地距离中国科学院自动化研究所渐进收敛定理给定则只要样本集充分大且适当选择K , 不等式 M. Bernstein, V. Silva, J.C. Langford, J.B. Tenenbaum 证明了如下的渐进收敛定理. 假设采样点是随机均匀抽取的, 则渐进收敛定理给定则只要样本集充分大且适当选择K , 不等式至少以概率成立.

中国科学院自动化研究所 Isomap 算法的例子(1)

中国科学院自动化研究所 Isomap 算法的例子(2)

Isomap算法的特点中国科学院自动化研究所 Isomap是非线性的, 适用于学习内部平坦的低维流形, 不适于学习有较大内在曲率的流形 . Isomap算法中有两个待定参数K, d . Isomap算法计算图上两点间的最短距离, 执行起来比较慢 . R

拉普拉斯算子中国科学院自动化研究所设 M 是光滑的黎曼流形, f 是 M 上的光滑函数, 是 f 的梯度, 则称线性映射为 M 上的拉普拉斯算子, 其中div是散度算子.

图上的拉普拉斯算子中国科学院自动化研究所设 G 是一个图, v 是它的顶点, 是 v 的自由度, w(u,v) 其中 T 是对角矩阵,对角线的元素为 , 则称 L 为图 G 上的拉普拉斯算子.

拉普拉斯特征映射(Laplacian Eigenmap) 中国科学院自动化研究所拉普拉斯特征映射(Laplacian Eigenmap) 基本思想：在高维空间中离得很近的点投影到低维空间中的象也应该离得很近. 求解方法：求解图拉普拉斯算子的广义特征值问题.

Laplacian Eigenmap 算法中国科学院自动化研究所 1 从样本点构建一个近邻图, 图的顶点为样本点, 离得 1 从样本点构建一个近邻图, 图的顶点为样本点, 离得很近两点用边相连 (K近邻或邻域). 2 给每条边赋予权值如果第个点和第 j 个点不相连，权值为0，否则 ; 3 计算图拉普拉斯算子的广义特征向量, 求得低维嵌入. 令D为对角矩阵 L是近邻图上的拉普拉斯算子, 求解广义特征值问题 .

Laplacian Eigenmap算法的例子(1) 中国科学院自动化研究所 Laplacian Eigenmap算法的例子(1)

Laplacian Eigenmap算法例子(2) 中国科学院自动化研究所 Laplacian Eigenmap算法例子(2) 300 most frequent words of the Brown corpus represented in the spectral domain

Laplacian Eigenmap算法例子(2) 中国科学院自动化研究所 Laplacian Eigenmap算法例子(2) The first is exclusively infinitives of verbs, the second contains prepositions and the third mostly modal and auxiliary verbs. We see that syntactic structure is well-preserved.

Laplacian Eigenmap算法的特点中国科学院自动化研究所 Laplacian Eigenmap算法的特点算法是局部的非线性方法. 算法与谱图理论有很紧密的联系. 算法中有两个参数 k,d. 算法通过求解稀疏矩阵的特征值问题解析地求出整体最优解. 算法使原空间中离得很近的点在低维空间也离得很近, 可以用于聚类. R

LLE, Isomap, Laplacian Eigenmap 有效的原因中国科学院自动化研究所 LLE, Isomap, Laplacian Eigenmap 有效的原因它们都是非参数的方法, 不需要对流形的很多的参数假设. 它们是非线性的方法, 都基于流形的内在几何结构, 更能体现现实中数据的本质. 它们的求解简单, 都转化为求解特征值问题, 而不需要用迭代算法.

流形学习问题探讨1 中国科学院自动化研究所对嵌入映射或者低维流形作出某种特定的假设, 或者以保持高维数据的某种性质不变为目标. 将问题转化为求解优化问题. 提供有效的解法.

流形学习问题探讨2 中国科学院自动化研究所为流形学习提供更为坚实和易于接受的认知基础. 如何确定低维目标空间的维数. 当采样数据很稀疏时, 怎样进行有效的学习. 将统计学习理论引入流形学习对其泛化性能进行研究.

流形学习问题探讨3 中国科学院自动化研究所流形学习作为一种非线性降维或数据可视化的方法已经在图像处理如人脸图像,手写数字图像, 语言处理方面得了利用. 将其作为一种监督的学习方法用于模式识别, 虽然有研究者涉足, 但是目前在这方面的工作还很有限.

中国科学院自动化研究所 Thanks!