机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

Slides:

Advertisements

Similar presentations

简单迭代法的概念与结论简单迭代法又称逐次迭代法，基本思想是构造不动点方程，以求得近似根。即由方程 f(x)=0 变换为 x=  (x), 然后建立迭代格式，返回下一页则称迭代格式收敛, 否则称为发散上一页.

Advertisements

漫談投資致富張誠徽. 注意看 15 秒，告訴我您所看到的您面對的投資環境？誰是朋友？誰是敵人？十面埋伏！四面楚歌！很多人虎視眈眈您的資產！

第三节函数的微分及其应用一、微分的概念二、微分的几何意义三、微分的基本公式及其运算法则四、微分在近似计算中的应用五、小结、作业.

声母表 b p m f d t n l g k h j q x 一只公鸡 j j j.

步步为营面面俱到步步为营面面俱到 —— 高考语文首轮复习策略章惠西浙师大附中. [2014] 阅读下面文字，根据要求作文（ 60 分）门与路，永远相连。门是路的终点，也是路的起点。它可以挡住你的脚步，也可以让你走向世界。大学的门，一边连接已知，一边通向未知。学习、探索、创造，是它的通行证；大学的路，从过去到未来，无数脚印在此交.

菊花酒登高重阳糕九月九日忆山东兄弟唐 · 王维独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一人。

弟子规带读简说. 一、弟子规之名称由来原名【训蒙文】为清朝康熙年间秀才李毓秀所作。后经贾存仁修订改名为【弟子规】。

月子保姆理论知识试卷.

窦娥冤关汉卿感天动地元·关汉卿.

大漠孤烟直，长河落日圆。 ——唐王维.

专利技术交底书的撰写方法 ——公司知识产权讲座

五專醫護類科介紹樹人醫專職業教育組李天豪組長.

皇帝的新装.

考点汇总： 1B 路基施工技术 1、路基分类 2、原地基处理要求 3、挖方路基（土、石）施工 4、路基爆破技术

人教新课标四年级语文下册第四组一个中国孩子的呼声.

单元二走向高峰的中华文明 ——秦汉至宋元时期

如何写论文.

知其不可而为之.

第一讲：春江花月夜张若虚.

股票市場技術面概念介紹斗六高中馬明宏.

中国画家协会理事、安徽省美术家协会会员、工艺美术师、黄山市邮协常务理事余承平主讲

《考试大纲》对本考点提出的能力要求是：识记现代汉字的字形。据此，高考对汉字的笔画、笔顺、造字法等内容均不作考查，只考查现代使用的汉字字形的识记能力。命题的依据是《现代汉语常用字表》，包括2000个常用字和1000个次常用字。考查重点为词语(包括成语)中的同音字、音近字、形近字。本考点的能力层级为A。

色彩性格 -----发挥你的最佳本色我相信生命是最富有情趣的旅程。他可以成为你梦想不到、更美妙的旅程；

生命關懷與服務學習指導老師：胡翰平教授指導助教: 鍾雅婷助教組長：物二甲姚烜鈞組員：物一乙何乃翔物一乙李昭蓉物一乙劉晏君

碗花糕王充闾.

中国服装史.

福建省厦门市教育局任勇（邮编：厦门市同安路5号）

父亲的菜园王树槐引导者：江山市长台小学朱丽云.

江西 6、下列关于名著的表述，不正确的一项是

语文版九年级（下）多媒体课件.

汉字的构造.

诵读欣赏古代诗词三首.

我班最喜愛的零食黃行杰.

第四章概率密度函数的非参数估计 2学时.

Xiàn lù zuàn 陷入忙碌攥着.

“海鸥老人”——吴庆恒.

第八章股票价格指数王玉霞证券投资学东北财经大学第8章股票价格指数.

四种命题班级：C274 指导教师：钟志勤任课教师：颜小娟.

❀中考文言文复习探讨❀ 景德镇市第十七中学徐阳辉 2012年3月20日.

高二级粤教版语文主讲教师：李雪玲单位：番禺区石楼中学.

雷电颂郭沫若.

欢迎欢迎! 热烈欢迎!.

雷电颂郭沫若. 雷电颂郭沫若屈原的故事战国时代，称雄的秦、楚、齐、燕、赵、韩、魏七国，争城夺地，互相杀伐，连年混战。

静心去聆听，用心去感受. 静心去聆听，用心去感受 ? 从中感受到了什么《命运》交响乐是贝多芬的九部交响乐中的最具有代表性、最著名的一部，又称《第五交响乐》，这是一部内容集中、主题鲜明、形象生动、结构严谨的作品，又是一部深受多个层次的欣赏者欢迎的作品。作品各个乐章连贯统一，有密切的内在联系：通过四个乐章一脉相承，表达了“人，只有自觉的团结起来，通过斗争，才能获取胜利”的主题思想。

第四节统计初步和数据整理在这一节中我们将介绍统计学的基本知识。统计学是一门古老而又年轻的学科，例如为了征兵和收税的早期的人口统计，甚至在公元前就出现了。但是近代数理统计学，却主要是从20世纪初开始发展的。其主要特征是运用概率论的知识进行统计推断。即从所研究的全部对象中抽取部分个体，并通过对这部分个体的观察和分析，对全部对象的有关问题作出推断。数理统计学已经建立了一套系统的理论，有着广泛的应用。下面先介绍统计学中最基本的概念。

微积分基本公式在上一节我们已经看到，直接用定义计算定积分是十分繁难的，因此我们期望寻求一种计算定积分的简便而又一般的方法。我们将会发现定积分与不定积分之间有着十分密切的联系，从而可以利用不定积分来计算定积分。

做好高考试卷分析，让教学精准发力 --近5年新课标高考数学选择题分析及2017年高考备考建议

七年级上册语文《皇帝的新装》预习朗读赏析探究展示延伸.

导入新课：莲花，自古以来就被人们看作是美丽圣洁的象征。我们一起先来欣赏一下莲的形象，然后请同学说说你觉得莲花美在哪里。

第7章相关分析 7.1 相关分析 7.2 相关系数 7.3 线性相关分析.

贴近教学服务师生方便老师.

六年级语文下册第四单元指尖的世界.

（浙教版）四年级品德与社会下册共同生活的世界第四单元世界之窗第二课时.

数学九年级上、下册合订新课标（ZJ）.

第七章多目标函数的优化设计方法 7.1 多目标最优化数学模型

災害性天氣之探究─ 颱風文賢國小李同立老師.

第三章統計資料之分析解釋(一).

皇帝的新装知识窗口整体感知合作探究总结提高创新发展. 皇帝的新装知识窗口整体感知合作探究总结提高创新发展.

导数的应用 ——函数的单调性与极值.

机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

第六章影像幾何 6.1 數據內插法假設有4 個數值要放大成8 個數值，該怎麼做？解出線性係數a、b如下：

Xián 伯牙绝弦安徽淮南市八公山区第二小学　陈燕朵.

16、说勤奋.

3-3 随机误差的正态分布一、频率分布在相同条件下对某样品中镍的质量分数（%）进行重复测定，得到90个测定值如下：

学习任务五二重积分及其应用二元函数的积分内容很丰富, 只要求大家了解二重积分的定义, 掌握二重积分的计算方法.

小学语文三年级下册第22课月球之谜执教人：王兴艳贵阳市新建小学（人教版）.

社會學習領域課綱修正宣導簡報臺北市社會領域輔導小姐.

Presentation transcript:

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏第8章基于实例的学习 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏概述已知一系列的训练样例，许多学习方法为目标函数建立起明确的一般化描述，基于实例的学习方法只是简单地把训练样例存储起来，从这些实例中泛化的工作被推迟到必须分类新的实例时每当学习器遇到一个新的查询实例，它分析这个新实例与以前存储的实例的关系，并据此把一个目标函数值赋给新实例 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏概述（2）基于实例的学习方法包括：假定实例可以表示成欧氏空间中的点最近邻法局部加权回归法对实例采用更复杂的符号表示基于案例的推理基于实例的学习方法有时被称为消极学习法，它把处理工作延迟到必须分类新的实例时这种延迟的学习方法有一个优点：不是在整个实例空间上一次性地估计目标函数，而是针对每个待分类新实例作出局部的和相异的估计 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏简介基于实例的学习方法的学习过程只是简单地存储已知的训练数据，当遇到新的查询实例时，一系列相似的实例从存储器中取出，用来分类新的查询实例与其他方法相比，基于实例的学习方法的一个关键差异是：可以为不同的待分类查询实例建立不同的目标函数逼近许多技术不建立目标函数在整个实例空间上的逼近，只建立局部逼近，并将其用于与新实例邻近的实例这样做的好处是：有时目标函数很复杂，但具有不太复杂的局部逼近描述 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏简介（2）基于案例的学习（基于实例的学习的一种）使用复杂的符号表示法来描述实例，也按照这种方式确定邻近实例基于实例的方法的不足：分类新实例的开销可能很大。几乎所有的计算都发生在分类时，而不是在第一次遇到训练样例时。如何有效地索引训练样例是一个重要的问题当从存储器中检索相似的训练样例时，一般考虑实例的所有属性，如果目标概念仅依赖于很多属性中的几个，那么真正最“相似”的实例之间可能相距甚远 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏简介（3） k-近邻算法和它的几个变体局部加权回归法，这是一种建立目标函数的局部逼近的学习方法，被看作k-近邻算法的一般形式径向基函数网络，它为基于实例的学习算法和神经网络学习算法提供了一个有趣的桥梁基于案例的推理，这是一种使用符号表示和基于知识的推理的方法消极学习方法和积极学习方法之间的差异 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 k-近邻算法 k-近邻算法是最基本的基于实例的学习方法 k-近邻算法假定所有的实例对应于n维空间Rn中的点，任意的实例表示为一个特征向量<a1(x), ..., an(x)> 根据欧氏距离定义实例的距离。两个实例xi和xj的距离d(xi,xj)定义为在最近邻学习中，目标函数值可以是离散的也可以是连续的，本节先考虑离散的情况。 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 k-近邻算法（2）考虑离散目标函数f: RnV，V={v1,...,vs} 表8-1逼近离散值函数f: RnV的k-近邻算法训练算法将每个训练样例<x,f(x)>加入到列表training_examples 分类算法给定一个要分类的查询实例xq 在training_examples中选出最靠近xq的k个实例，并用x1...xk表示返回其中 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 k-近邻算法（3）表8-1的算法返回值是对f(xq)的估计，它是距离xq最近的k个训练样例中最普遍的f值，结果与k的取值相关。图8-1图解了一种简单情况下的k-近邻算法，实例是二维空间中的点，目标函数具有布尔值，1-近邻算法把xq分类为正例，5-近邻算法把xq分类为反例 k-近邻算法不形成关于目标函数f的明确的一般假设，仅在需要时计算每个新查询实例的分类，但依然可以问：k-近邻算法隐含的一般函数是什么？图8-1中右图画出了1-近邻算法在整个实例空间上导致的决策面形状。这种图称为训练样例集合的Voronoi图 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 k-近邻算法（4）离散的k-近邻算法作简单修改后可用于逼近连续值的目标函数。即计算k个最接近样例的平均值，而不是计算其中的最普遍的值，为逼近f: RnR，计算式如下： 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏距离加权最近邻算法对k-近邻算法的一个改进是对k个近邻的贡献加权，越近的距离赋予越大的权值，比如：为了处理查询点xq恰好匹配某个训练样例xi，从而导致d(xq,xi)2为0的情况，令这种情况下的等于f(xi)，如果有多个这样的训练样例，我们使用它们占多数的分类也可以用类似的方式对实值目标函数进行距离加权，用下式替代表8-1中的计算式，wi的定义与前相同 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏距离加权最近邻算法（2） k-近邻算法的所有变体都只考虑k个近邻用以分类查询点，如果使用按距离加权，那么可以允许所有的训练样例影响xq的分类，因为非常远的实例的影响很小考虑所有样例的唯一不足是会使分类运行得更慢如果分类一个新实例时，考虑所有的训练样例，我们称为全局法；如果仅考虑靠近的训练样例，称为局部法当式子8.4应用于全局法时，称为Shepard法 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏对k-近邻算法的说明距离加权的k-近邻算法对训练数据中的噪声有很好的健壮性，通过取k个近邻的加权平均，可以消除孤立的噪声样例的影响 k-近邻的归纳偏置是：一个实例的分类xq与在欧氏空间中它附近的实例的分类相似 k-近邻方法的一个实践问题：维度灾害许多学习方法，比如决策树方法，选择部分属性作出判断，而k-近邻方法中实例间的距离是根据实例的所有属性计算的实例间距离会被大量的不相关属性所支配，可能导致相关属性的值很接近的实例相距很远 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏对k-近邻算法的说明（2）维度灾害的解决方法：对属性加权，相当于按比例缩放欧氏空间中的坐标轴，缩短对应不太相关的属性的坐标轴，拉长对应更相关属性的坐标轴每个坐标轴应伸展的数量可以通过交叉验证的方法自动决定，具体做法如下：假定使用因子zj伸展第j个根坐标轴，选择各个zj的值，使得学习算法的真实分类错误率最小化这个真实错误率可以使用交叉验证来估计可以多次重复这个处理过程，使得加权因子的估计更加准确另一种更强有力的方法是从实例空间中完全消除最不相关的属性，等效于设置某个缩放因子为0 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏对k-近邻算法的说明（3） k-近邻算法的另外一个实践问题：如何建立高效的索引。 k-近邻算法推迟所有的处理，直到接收到一个新的查询，所以处理每个新查询可能需要大量的计算已经开发了很多对存储的训练样例进行索引的方法，以便能高效地确定最近邻 kd-tree把实例存储在树的叶结点内，邻近的实例存储在同一个或附近的节点内，通过测试新查询xq的选定属性，树的内部节点把查询xq排列到相关的叶结点 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏术语解释来自统计模式识别领域的术语回归：逼近一个实数值的目标函数残差：逼近目标函数时的误差核函数：一个距离函数，用来决定每个训练样例的权值，就是使wi=K(d(xi,xq))的函数K 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏局部加权回归前面描述的最近邻方法可以被看作在单一的查询点x=xq上逼近目标函数f(x) 局部加权回归是上面方法的推广，它在环绕xq的局部区域内为目标函数f建立明确的逼近局部加权回归使用附近的或距离加权的训练样例来形成对f的局部逼近例如，使用线性函数、二次函数、多层神经网络在环绕xq的邻域内逼近目标函数局部加权回归的名称解释局部：目标函数的逼近仅仅根据查询点附近的数据加权：每个训练样例的贡献由它与查询点间的距离加权得到回归：表示逼近实数值函数的问题 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏局部加权回归（2）给定一个新的查询实例xq，局部加权回归的一般方法是：建立一个逼近，使拟合环绕xq的邻域内的训练样例用计算的值删除的描述 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏局部加权线性回归使用如下形式的线性函数来逼近xq邻域的目标函数f 第4章我们讨论了梯度下降方法，在拟合以上形式的线性函数到给定的训练集合时，它被用来找到使误差最小化的系数w0...wn，当时我们感兴趣的是目标函数的全局逼近，即得到的梯度下降训练法则是 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏局部加权线性回归（2）三种重新定义误差准则E，以着重于拟合局部训练样例，记为E(xq) 只对在k个近邻上的误差平方最小化使整个训练样例集合D上的误差平方最小化，但对每个训练样例加权，权值为关于相距xq距离的某个递减函数K 综合1和2 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏局部加权线性回归（3）准则2或许最令人满意，但所需的计算量随着训练样例数量线性增长准则3很好地近似了准则2，并且具有如下优点：计算开销独立于训练样例总数，仅依赖于最近邻数k 对应准则3的梯度下降法则是 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏局部加权回归的说明大多数情况下，通过一个常量、线性函数或二次函数来局部逼近目标函数，更复杂的函数形式不太常见，原因是：对每个查询实例用更复杂的函数来拟合，其代价十分高昂在足够小的实例空间子域上，使用这些简单的近似已能很好地模拟目标函数 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏径向基函数径向基函数是另一种实现函数逼近的方法，它与距离加权回归和人工神经网络都有着紧密联系待学习的假设是一个以下形式的函数 xu是X中一个实例，核函数Ku(d(xu,x))被定义为随距离d(xu,x)的增加而减小，k是用户提供的常量，用来指定要包含的核函数的数量尽管是对f(x)的全局逼近，但来自每个Ku(d(xu,x))项的贡献被局部化到点xu附近的区域一种很常见的做法是选择每个核函数Ku(d(xu,x))为高斯函数（表示正态分布的函数） 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏径向基函数（2） Hartman et al.1990指出，式子8.8的函数形式能够以任意小的误差逼近任何函数，只要以上高斯核的数量足够大，并且可以分别指定每个核的宽度图8-2径向基函数网络（RBF），式子8.8给出的函数可以看作是描述了一个两层的网络，第一层计算不同的Ku(d(xu,x))，第二层计算第一层单元值的线性组合给定了目标函数的训练样例集合，一般分两个阶段来训练RBF网络决定隐藏单元的数量k，并通过定义核函数中心点和方差来定义每个隐藏单元使用式子8.5给出的全局误差准则来训练权值wu，使网络拟合训练数据程度最大化 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏径向基函数（3）已经提出了几种方法来选取适当的隐藏单元或核函数的数量为每一个训练样例<xi, f(xi)>分配一个高斯核函数，中心点设为xi，所有高斯函数的宽度可被赋予同样的值 RBF网络学习目标函数的全局逼近，其中每个训练样例<xi,f(xi)>都只在xi的邻域内影响的值这种核函数的一个优点是允许RBF网络精确地拟合训练数据对于任意m个训练样例集合，合并m个高斯核函数的权值w0...wm，可以被设置为使得对于每个训练样例<xi,f(xi)>都满足 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏径向基函数（4）选取一组数量少于训练样例数量的核函数，这种方法更有效，特别是训练样例数量巨大时核函数分布在整个实例空间X上，它们中心之间有均匀的间隔或者也可以非均匀地分布核函数中心，特别是在实例本身在X上非均匀分布的时候可以随机选取训练样例的一个子集作为核函数的重心，从而对实例的基准分布进行采样或者可以标识出实例的原始聚类，然后以每个聚类为中心加入一个核函数把训练实例拟合到混合高斯，6.12.1节讨论的EM算法提供了一种从k个高斯函数的混合中选择均值，以最佳拟合观察到实例的方法 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏径向基函数（5）总而言之，用多个局部核函数的线性组合表示的径向基函数网络提供了一种目标函数的全局逼近仅当输入落入某个核函数的中心和宽度所定义的区域时，这个核函数的值才是不可忽略的 RBF网络可以被看作目标函数的多个局部逼近的平滑线性组合 RBF网络的一个优点是，与反向传播算法训练的前馈网络相比，它的训练更加高效，这是因为RBF网络的输入层和输出层可以被分别训练 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏基于案例的推理 k-近邻算法和局部加权回归具有三个共同的关键特性：消极学习方法通过分析相似的实例来分类新的查询实例，而忽略与查询极其不同的实例实例表示为n维欧氏空间中的实数点基于案例的推理（CBR）满足前2个原则，但不满足第3个 CBR使用更丰富的符号描述来表示实例，用来检索实例的方法也更加复杂 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏基于案例的推理（2） CBR已被用于解决很多问题根据数据库中存储的以前的设计图纸，来进行机械设备的总体设计根据以前的裁决来对新的法律案件进行推理通过对以前的相似问题的解决方案的复用或合并，解决规划和调度问题 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏基于案例的推理（3）一个例子：CADET系统采用基于案例的推理来辅助简单机械设备的总体设计（图8-3）条件使用一个数据库，其中包含大约75个以前的设计或设计片断内存中每一个实例是通过它的结构和定性的功能来表示的，新的设计问题通过所要求的功能和结构来表示方法给定新设计问题的功能说明，CADET从它的案例库中搜索存储的案例，使它的功能描述和新设计问题相匹配如果发现了一个精确的匹配，表明某个存储案例精确地实现了所要求的功能，那么可以返回这个案例作为新设计问题的建议方案否则，CADET可能找到匹配所需功能的不同子图的案例在两个功能图间搜索同构子图，以发现一个案例的某部分，使它匹配更多的案例加工原始的功能说明图，产生等价的子图以匹配更多的案例 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏基于案例的推理（4）通过检索匹配不同子图的多个案例，有时可以拼接得到整个设计但是，从多个检索到的案例产生最终方案的过程可能很复杂为了合并存储案例中检索到的部分，可能需要从头设计系统的各个部分，也可能需要回溯以前的设计子目标，从而丢弃前面检索到的案例 CADET合并和自适应已检索到案例并形成最终设计的能力有限，它主要依赖用户来做自适应阶段的处理 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏基于案例的推理（5） CADET的问题框架在CADET中每个存储的训练样例描绘了一个功能图以及实现该功能的结构实例空间定义为所有功能图的空间，目标函数f映射到实现这些功能的结构每个存储训练样例<x,f(x)>是一个序偶，描述某个功能图x和实现x的结构f(x) 系统通过学习训练样例，以输出满足功能图查询输入xq的结构f(xq) 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏基于案例的推理（6） CADET系统区别于k-近邻方法的一般特征实例（或称案例）可以用丰富的符号描述表示，因此可能需要不同于欧氏距离的相似性度量检索到的多个案例可以合并形成新问题的解决方案，合并案例的过程与k-近邻方法不同，依赖于知识推理而不是统计方法案例检索、基于知识的推理、问题求解是紧密耦合在一起的概括而言，基于案例的推理是一种基于实例的学习方法，在这个方法中实例可以是丰富的关系的描述案例检索和合并过程可能依赖于知识推理和搜索密集的问题求解方法一个研究课题：改进索引案例的方法句法相似度量仅能近似地指出特定案例与特定问题的相关度，而不能捕捉其他难点，比如多个设计片断的不兼容性发现这些难点后，可以回溯，并且可用来改进相似性度量 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏对消极学习和积极学习的评价本章考虑了三种消极学习方法：k-近邻、局部加权回归、基于案例的推理本章考虑了一种积极学习方法：学习径向基函数网络的方法消极方法和积极方法的差异：计算时间的差异消极算法在训练时需要较少的计算，但在预测新查询的目标值时需要更多的计算时间对新查询的分类的差异（归纳偏置的差异）消极方法在决定如何从训练数据D中泛化时考虑查询实例xq 积极方法在见到xq之前，就完成了泛化核心观点：消极学习可以通过很多局部逼近的组合表示目标函数，积极学习必须在训练时提交单个的全局逼近 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏对消极学习和积极学习的评价（2）使用多个局部逼近的积极方法，可以产生与消极方法的局部逼近同样的效果吗？径向基函数网络是对这个目标的尝试 RBF学习方法是在训练时提交目标函数全局逼近的积极方法，然而，一个RBF网络把这个全局函数表示为多个目标局部核函数的线性组合 RBF学习方法创建的局部逼近不能达到像消极学习方法中那样特别针对查询点 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏小结基于实例的学习方法推迟处理训练样例，直到必须分类一个新查询实例时才进行。它们不必形成一个明确的假设来定义整个实例空间上的完整目标函数，而是对每个查询实例形成一个不同的目标函数局部逼近基于实例的方法的优点：通过一系列不太复杂的局部逼近来模拟复杂目标函数，而且不会损失训练样例中蕴含的任何信息基于实例的方法的主要的实践问题：分类新实例的效率难以选择用来检索相关实例的合适的距离度量无关特征对距离度量的负作用 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏小结（2） k-近邻假定实例对应于n维欧氏空间中的点，一个新查询的目标函数值是根据k个与其最近的训练样例的值估计得到局部加权回归法是k-近邻方法的推广，为每个查询实例建立一个明确的目标函数的局部逼近，逼近方法可以基于常数、线性函数、二次函数等这类简单的函数形式，也可以基于核函数径向基函数网络是一类由空间局部化核函数构成的人工神经网络，可被看作是基于实例的方法和神经网络方法的结合基于案例的推理使用复杂的逻辑描述而不是欧氏空间中的点来表示实例。给定实例的符号描述，已经提出了许多方法将训练样例映射成新实例的目标函数值 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏补充读物 k-近邻算法 Cover & Hart1967提出了早期的理论结果 Duda & Hart1973提供了一个很好的概述 Bishop1995讨论了k-近邻算法以及它与概率密度估计的关系 Atkeson et al.1997对局部加权回归方法给出了一个非常好的纵览 Atkeson et al.1997b给出了这些方法在机器人控制方面的应用径向基函数 Bishop1995提供了一个全面讨论 Powell1987和Poggio & Girosi1990给出了其他论述基于案例的推理 Kolodner1993提供了基于案例的推理的一般介绍 2003.12.18 机器学习-基于实例的学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏