第十四、十五讲 分类算法 15:45
内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题 15:45
分类的流程 根据现有的知识,我们得到了一些关于哺乳动物和鸟类的信息,我们能否对新发现的物种,比如动物A,动物B进行分类? 动物种类 体型 翅膀数量 脚的只数 是否产蛋 是否有毛 类别 狗 中 4 否 是 哺乳动物 猪 大 牛 麻雀 小 2 鸟类 天鹅 大雁 动物A 无 ? 动物B 根据现有的知识,我们得到了一些关于哺乳动物和鸟类的信息,我们能否对新发现的物种,比如动物A,动物B进行分类? 15:45
分类的流程 步骤一:将样本转化为等维的数据特征(特征提取)。 狗 中 4 否 是 哺乳动物 猪 大 牛 麻雀 小 2 鸟类 天鹅 大雁 动物种类 体型 翅膀数量 脚的只数 是否产蛋 是否有毛 类别 狗 中 4 否 是 哺乳动物 猪 大 牛 麻雀 小 2 鸟类 天鹅 大雁 步骤一:将样本转化为等维的数据特征(特征提取)。 所有样本必须具有相同数量的特征 兼顾特征的全面性和独立性 15:45
分类的流程 步骤二:选择与类别相关的特征(特征选择)。 狗 中 4 否 是 哺乳动物 猪 大 牛 麻雀 小 2 鸟类 天鹅 大雁 动物种类 体型 翅膀数量 脚的只数 是否产蛋 是否有毛 类别 狗 中 4 否 是 哺乳动物 猪 大 牛 麻雀 小 2 鸟类 天鹅 大雁 步骤二:选择与类别相关的特征(特征选择)。 比如,绿色代表与类别非常相关,黑色代表部分相关,灰色代表完全无关 15:45
分类的流程 步骤三:建立分类模型或分类器(分类)。 分类器通常可以看作一个函数,它把特征映射到类的空间上 15:45
如何避免过度训练 分类也称为有监督学习(supervised learning),与之相对于的是无监督学习(unsupervised learning),比如聚类。 分类与聚类的最大区别在于,分类数据中的一部分的类别是已知的,而聚类数据的类别未知。 建立分类模型需要学习一部分已知数据,如果训练时间过长,或者预测模型参数太多而样本较少,将导致过度训练(overfitting)。 15:45
如何避免过度训练 避免过度训练最重要一点是,模型的参数量应远小于样本的数量。 应建立训练集(training set)和测试集(test set)。 训练集应用于建立分类模型 测试集应用于评估分类模型 K折叠交叉验证(K-fold cross validation):将初始采样分割成K个子样本(S1,S2,...,Sk),取K-1个做训练集,另外一个做测试集。交叉验证重复K次,每个子样本都作为测试集一次,平均K次的结果,最终得到一个单一估测。 15:45
分类模型的评估 真阴性(True Negative):实际为阴性 预测为阴性 真阳性(True Positive): 实际为阳性 预测为阳性 真阴性(True Negative):实际为阴性 预测为阴性 假阳性(False Positive): 实际为阴性 预测为阳性 假阴性(False Negative):实际为阳性 预测为阴性 预测是否正确 预测结果 比如预测未知动物是鸟类还是哺乳动物,阳性代表哺乳动物,阴性代表非哺乳动物,请大家阐述 TP=10,TN=8,FN=3,FP=2是什么意义 15:45
分类模型的评估 准确率(Accuracy): (TP+TN)/(TP+TN+FN+FP) 灵敏度(Sensitivity): TP/(TP+FN) 也称为查全率(Recall) 数据集共有13只哺乳动物,其中10只被正确预测为哺乳动物,灵敏度为10/13 特异度(Specificity): TN/(TN+FP) 数据集有10只非哺乳动物,其中8只被预测为非哺乳动物,特异度为8/10 精度(Precision): TP/(TP+FP) 分类器预测了12只动物为哺乳动物,其中10只确实是哺乳动物,精度为10/12 准确率(Accuracy): (TP+TN)/(TP+TN+FN+FP) 数据集包含23只动物,其中18只预测为正确的分类,准确率为18/23 15:45
分类模型的评估 马修斯相关性系数定义为 对于非平衡(unblanced)的数据集,以上指标并不能很好的评估预测结果。 非平衡的数据集是指阳性数据在整个数据集中的比例很小。比如,数据集包含10只哺乳动物,990只非哺乳动物,此时,是否预测正确哺乳动物对准确率影响不大。 更平衡的评估标准包括马修斯相关性系数(Matthews correlation coefficient)和ROC曲线。 马修斯相关性系数定义为 15:45
分类模型的评估 ROC曲线通过描述真阳性率(TPR)和假阳性率(FPR)来实现,其中TPR=TP/(TP+FN), FPR=FP/(FP+TN)。 大部分分类器都输出一个实数值(可以看作概率),通过变换阈值可以得到多组TPR与FPR的值。 15:45
内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题 15:45
基于距离的分类算法的思路 定义4-2 给定一个数据库 D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti2,…,tik},每个类也包含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分类问题是要分配每个ti到满足如下条件的类Cj: sim(ti,Cj)>=sim(ti,Cl) ,Cl∈C,Cl≠Cj, 其中sim(ti,Cj)被称为相似性。 在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。 距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。 15:45
基于距离的分类算法的一般性描述 算法 4-1通过对每个样本和各个类的中心来比较,从而可以找出他的最近的类中心,得到确定的类别标记。 算法 4-1 基于距离的分类算法 输入:每个类的中心C1,…,Cm;待分类的元组t。 输出:输出类别c。 (1)dist=∞;//距离初始化 (2)FOR i:=1 to m DO (3) IF dis(ci,t)<dist THEN BEGIN (4) c← i; (5) dist←dist(ci,t); (6) END. 15:45
基于距离的分类方法的直观解释 (a)类定义 (b)待分类样例 (c)分类结果 15:45
距离分类例题 C1=(3,3,4,2), C2=(8,5,-1,-7), C3=(-5,-7,6,10); 请用基于距离的算法给以下样本分类: (5,5,0,0) (5,5,-5,-5) (-5,-5,5,5) 15:45
K-近邻分类算法 K-近邻分类算法(K Nearest Neighbors,简称KNN)通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。 算法 4-2 K-近邻分类算法 输入: 训练数据T;近邻数目K;待分类的元组t。 输出: 输出类别c。 (1)N=; (2)FOR each d ∈T DO BEGIN (3) IF |N|≤K THEN (4) N=N ∪{d}; (5) ELSE (6) IF u ∈N such that sim(t,u)〈sim(t,d) THEN BEGIN (7) N=N - {u}; (8) N=N ∪{d}; (9) END (10)END (11)c=class to which the most u ∈N. 15:45
KNN的例子 姓名 性别 身高(米) 类别 Kristina 女 1.6 矮 Jim 男 2 高 Maggie 女 1.83 高 姓名 性别 身高(米) 类别 Kristina 女 1.6 矮 Jim 男 2 高 Maggie 女 1.83 高 Martha 女 1.88 高 Stephanie 女 1.7 矮 Bob 男 1.85 中等 Kathy 女 1.6 矮 Dave 男 1.7 矮 Worth 男 2.2 高 Steven 男 2.1 高 Debbie 女 1.8 高 Todd 男 1.82 中等 Kim 女 1.7 中等 Amy 女 1.75 中等 Wynette 女 1.73 中等 只使用身高做特征,K=3,对于样本<kate,1.8,女>应属于哪个类别? 仅使用同性别样本做训练,K=3,对于样本<kate,1.8,女>应属于哪个类别? 15:45
习题 设在一个二维空间,A类有三个训练样本,图中用红点表示,B类四个样本,图中用蓝点表示。 试问: (1)按近邻法分类,这两类最多有多少个分界面 (2)画出实际用到的分界面 B3 B4 B1 B2 A3 A1 A2
解答 按近邻法,对任意两个由不同类别的训练样本构成的样本对,如果它们有可能成为测试样本的近邻,则它们构成一组最小距离分类器,它们之间的中垂面就是分界面,因此由三个A类与四个B类训练样本可能构成的分界面最大数量为3×4=12。实际分界面如下图所示,由9条线段构成。 B3 B4 B1 B2 A3 A1 A2
内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题 15:45
决策树表示与例子 年龄? 学生? 是 信用? 否 是 否 是 年龄 收入 是否学生 信用状况 是否买电脑 <=30 高 否 一般 30—40 是 >40 中 低 良好 年龄? <=30 >40 30—40 学生? 是 信用? 否 是 良好 一般 否 是 否 是 15:45
决策树表示与例子 决策树(Decision Tree)的每个内部结点表示一个属性(特征),每个分枝代表一个特征的一个(类)取值; 每个树叶结点代表类或类分布。 决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性的比较,从而判断从该结点向下的分枝,在决策树的叶结点得到结论。 从决策树的根到叶结点的一条路径就对应着一条规则,整棵决策树就对应着一组规则。 决策树分类模型的建立通常分为两个步骤: 决策树生成 决策树修剪 15:45
决策树生成算法描述 算法 4-3 Generate_decision_tree(samples, attribute_list) /*决策树生成算法*/ 输入:训练样本samples,由离散值属性表示;输出:一棵决策树。 (1) 创建结点N; (2) IF samples 都在同一个类C THEN 返回N 作为叶结点,以类 C标记; (3) IF attribute_list为空 THEN 返回N作为叶结点,标记为samples中最普通的类;//多数表决 (4) 选择attribute_list中具有最高信息增益的属性test_attribute; (5) 标记结点N为test_attribute; (6) FOR test_attribute的每个取值ai 由结点N长出一个条件为test_attribute=ai的分枝; (7)设si是samples 中test_attribute =ai的样本的集合;//一个划分 (8)IF si 为空 THEN 回退到test_attribute的其它取值; (9)ELSE 加上一个由Generate_decision_tree(si, attribute_list-test_attribute)返回的结点; 15:45
决策树修剪算法 基本的决策树构造算法没有考虑噪声,因此生成的决策树完全与训练集拟合。在有噪声情况下,将导致过分拟合(Overfitting),即对训练数据的完全拟合反而使对现实数据的分类预测性能下降。 比如每个样本都是一个叶子节点。 现实世界的数据一般不可能是完美的,可能缺值(Missing Values);数据不完整;含有噪声甚至是错误的。 剪枝是一种克服噪声的基本技术,同时它也能使树得到简化而变得更容易理解。有两种基本的剪枝策略。 15:45
决策树修剪算法 预先剪枝(Pre-Pruning):在生成树的同时决定是继续对不纯的训练子集进行划分还是停机。 后剪枝(Post-Pruning):是一种拟合+化简(fitting-and-simplifying)的两阶段方法。首先生成与训练数据完全拟合的一棵决策树,然后从树的叶子开始剪枝,逐步向根的方向剪。剪枝时要用到一个测试数据集合(Tuning Set或Adjusting Set),如果存在某个叶子剪去后能使得在测试集上的准确度或其他测度不降低(不变得更坏),则剪去该叶子;否则停机。理论上讲,后剪枝好于预先剪枝,但计算复杂度大。 15:45
决策树修剪算法 构造好的决策树的关键在于如何选择属性进行树的拓展。研究结果表明,一般情况下,树越小则树的预测能力越强。由于构造最小的树是NP-难问题,因此只能采取用启发式策略来进行。 属性选择依赖于各种对例子子集的不纯度(Impurity)度量方法,包括信息增益(Informatin Gain)、信息增益比(Gain Ratio)、Gini-index、距离度量(Distance Measure)、J-measure等。 15:45
ID3算法 ID3是一个著名决策树生成方法: 对ID3算法采用如下方式讲解: 决策树中每一个非叶结点对应着一个非类别属性(特征),树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。 每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。 采用信息增益来选择能够最好地将样本分类的属性。 对ID3算法采用如下方式讲解: 给出信息增益对应的计算公式; 通过一个例子来说明它的主要过程。 15:45
信息增益的计算 设S是s个数据样本的集合,定义m个不同类Ci(i=1,2,…,m),设si是Ci类中的样本的数量。对给定的样本S所期望的信息值由下式给出: 其中pi是任意样本属于Ci的概率: si / s 。 例题:数据集有4个类,分别有8个,4个,2个,2个样本,求该数据集的信息值。 问题:信息值的取值范围是什么? 15:45
信息增益的计算 例题:数据集有2个类,求该数据集的信息值。 年龄 收入 是否学生 信用状况 是否买电脑 <=30 高 否 良好 30—40 是 >40 中 低 15:45
信息增益的计算 设属性A具有个不同值{a1, a2, …, av} ,可以用属性A将样本S划分为 {S1, S2, …, Sv} ,设Sij 是Sj中Ci类的样本数,则由A划分成子集的熵由下式给出: 有A进行分枝将获得的信息增益可以由下面的公式得到: 使用属性 后的信息值 未使用属性 的信息值 15:45
信息增益的计算 例题:数据集有2个类。 使用是否学生作为属性,求该属性的信息增益。 使用信用状况作为属性,求该属性的信息增益。 年龄 收入 是否买电脑 <=30 高 否 良好 30—40 是 >40 中 低 15:45
ID3算法的例子 年龄? ? ? 是 选择信息增益最大的属性特征作为根节点。 年龄 收入 是否学生 信用状况 是否买电脑 <=30 高 良好 30—40 是 一般 >40 中 低 年龄? <=30 >40 30—40 ? ? 是 选择信息增益最大的属性特征作为根节点。 Gain(年龄)=0.342 Gain(收入)=0 Gain(是否学生)=0.333 Gain(信用状况)=0 15:45
ID3算法的例子 年龄? 信用状况? 收入? 是 否 是 是 否 对于<=30的分支 对于30 — 40的分支 年龄 收入 是否学生 是否买电脑 <=30 高 否 良好 中 低 是 一般 30—40 年龄? <=30 >40 30—40 信用状况? 收入? 是 良好 一般 高 低 否 是 是 否 对于<=30的分支 Gain(收入)=0.315 Gain(是否学生)=0.315 Gain(信用状况)=0.815 对于30 — 40的分支 Gain(收入)=1 Gain(是否学生)=0 Gain(信用状况)=1 15:45
ID3算法的性能分析 ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。 15:45
ID3算法的性能分析 ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。 信息增益度量存在一个内在偏置,它偏袒具有较多值的属性。例如,如果有一个属性为日期,那么将有大量取值,这个属性可能会有非常高的信息增益。假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树,这棵树可以理想地分类训练数据,但是对于测试数据的分类性能可能会相当差。 ID3算法增长树的每一个分支的深度,直到属性的使用无法导致信息增益。当数据中有噪声或训练样例的数量太少时,产生的树会过渡拟合训练样例。 问题:ID3树可以导致过度拟合,那是否它一定能对训练集完全正确的分类呢? 15:45
C4.5算法对ID3的主要改进 C4.5算法是从ID3算法演变而来,除了拥有ID3算法的功能外,C4.5算法引入了新的方法和增加了新的功能: 用信息增益比例的概念; 合并具有连续属性的值; 可以处理具有缺少属性值的训练样本; 通过使用不同的修剪技术以避免树的过度拟合; K交叉验证; 规则的产生方式等。 15:45
信息增益比例的概念 信息增益比例是在信息增益概念基础上发展起来的,一个属性的信息增益比例用下面的公式给出: 其中 假如我们以属性A的值为基准对样本进行分割的化,Splitl(A)就是前面熵的概念。 15:45
信息增益比例的计算 例题:数据集有2个类。 使用是否学生作为属性,求该属性的信息增益比例。 使用年龄作为属性,求该属性的信息增益比例。 讨论:信息增益和信息增益比例的差异在哪里? 年龄 收入 是否学生 信用状况 是否买电脑 <=20 高 否 良好 20—30 是 30—40 中 40—50 低 50—60 60—70 70—80 >80 15:45
C4.5处理连续值的属性 对于连续属性值,C4.5其处理过程如下: 根据属性的值,对数据集排序; 用不同的阈值将数据集动态的进行划分; 取两个实际值中的中点作为一个阈值; 取两个划分,所有样本都在这两个划分中; 得到所有可能的阈值、增益及增益比; 在每一个属性会变为取两个取值,即小于阈值或大于等于阈值。 简单地说,针对属性有连续数值的情况,则在训练集中可以按升序方式排列。如果属性A共有n种取值,则对每个取值vj(j=1,2,┄,n),将所有的记录进行划分:一部分小于vj;另一部分则大于或等于vj 。针对每个vj计算划分对应的增益比率,选择增益最大的划分来对属性A进行离散化 。 15:45
C4.5处理连续值的属性 例题:使用C4.5算法将连续的属性(收入)转化为离散的类。 根据属性的值,对数据集排序; 取两个实际值中的中点作为一个阈值; 取两个划分,所有样本都在这两个划分中; 得到所有可能的阈值、增益及增益比; 在每一个属性会变为取两个取值,即小于阈值或大于等于阈值。 收入 是否买电脑 2500 否 3000 3200 4050 4865 是 6770 9800 12000 15:45
C4.5处理连续值的属性 例题:使用C4.5算法将连续的属性(收入)转化为离散的类。 选择增益最大的划分来对属性A进行离散化 。 GainRatio(划分:2750)=0.2 GainRatio(划分:3100)=0.39 GainRatio(划分:3625)=0.53 GainRatio(划分:4458)=1 GainRatio(划分:?)=0.53 GainRatio(划分:8285)=0.39 GainRatio(划分:10900)=0.2 收入小于4458合并为收入低 收入大于等于4458合并为收入高 收入 是否买电脑 收入(离散化) 2500 否 3000 3200 4050 4865 是 6770 9800 12000 15:45
C4.5的其他处理 C4.5处理的样本中可以含有未知属性值,其处理方法是用最常用的值替代或者是将最常用的值分在同一类中。 具体采用概率的方法,依据属性已知的值,对属性和每一个值赋予一个概率,取得这些概率,取得这些概率依赖于该属性已知的值。 规则的产生:一旦树被建立,就可以把树转换成if-then规则。 规则存储于一个二维数组中,每一行代表树中的一个规则,即从根到叶之间的一个路径。表中的每列存放着树中的结点。 15:45
C4.5算法例子 (1)首先对湿度进行属性离散化,针对上面的训练集合,通过检测每个划分而确定最好的划分在75处,则这个属性的范围就变为{(<=75 ,>75)}。 (2)计算目标属性打网球分类的期望信息: (3)计算每个属性的GainRatio: 样本数据 天气 温度 湿度 风 网球Sunny Hot 85 false No Sunny Hot 90 true No Overcast Hot 78 false Yes Rain Mild 96 false Yes Rain Cool 80 false Yes Rain Cool 70 true No Overcast Cool 65 true Yes Sunny Mild 95 false No Sunny Cool 70 false Yes Rain Mild 80 false Yes Sunny Mild 70 true Yes Overcast Mild 90 true Yes Overcast Hot 75 false Yes Rain Mild 80 true No 15:45
C4.5算法例子 (4)选取最大的GainRatio,根据天气的取值,得到三个分枝。 (5)再扩展各分枝节点,得到最终的决策树(见课本图4-7 )。 问题:就天气=Sunny这一分支,请用C4.5算法构造决策树。 样本数据 天气 温度 湿度 风 网球Sunny Hot 85 false No Sunny Hot 90 true No Sunny Mild 95 false No Sunny Cool 70 false Yes Sunny Mild 70 true Yes 15:45
内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题 15:45
贝叶斯分类 定义4-3 设X是类标号未知的数据样本。设H为某种假定,如数据样本X属于某特定的类C。对于分类问题,我们希望确定P(H|X),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法: P(X |H)代表假设H成立的情况下,观察到X的概率。P(H| X )是后验概率,或称为X发生后观测到H的条件概率。 例如,假定数据样本由一些人组成,假定X表示头发颜色,H表示肤色,则P(H|X)反映当我们看到X是黑色时,我们对H为黄色的确信程度。 15:45
朴素贝叶斯分类的工作原理 观测到的样本具有属性 收入低 是学生 信用良好 现在的问题相当于比较两个条件概率的大小 收入低 是学生 信用良好 现在的问题相当于比较两个条件概率的大小 P(买电脑|收入低,是学生, 信用良好) P(不买电脑|收入低,是学生, 信用良好) 收入 是否学生 信用状况 是否买电脑 高 否 良好 是 中 低 ? 15:45
朴素贝叶斯分类 朴素贝叶斯分类的工作过程如下: (1) 每个数据样本用一个n维特征向量X= {x1,x2,……,xn}表示,分别描述对n个属性A1,A2,……,An样本的n个度量。 (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高条件概率(条件X下)的类。 也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1≤i≤m)当且仅当P(Ci|X)> P(Cj|X),对任意的j=1,2,…,m,j≠i。 收入 是否学生 信用状况 是否买电脑 高 否 良好 是 中 低 ? 15:45
朴素贝叶斯分类(续) 根据贝叶斯定理: 由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大即可。 由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大即可。 注意,类的先验概率可以用P(Ci)=Si/S计算,其中Si是类Ci中的训练样本数,而S是训练样本总数。 因此问题就转换为计算P(X|Ci)。 15:45
朴素贝叶斯分类(续) 给定具有许多属性的数据集,计算P(X|Ci)的计算量可能非常大且不易计算。为降低计算P(X|Ci)的难度,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样 P(收入低,是学生, 信用良好|买电脑)= P(收入低|买电脑)*P(是学生|买电脑)*P(信用良好|买电脑) 15:45
朴素贝叶斯分类(续) 其中概率P(x1|Ci),P(x2|Ci),……,P(xn|Ci)可以由训练样本估值。 如果Ak是离散属性,则P(xk|Ci)=sik|si,其中sik是在属性Ak上具有值xk的类Ci的训练样本数,而si是Ci中的训练样本数。 如果Ak是连续值属性,则通常假定该属性服从高斯分布。因而, 是高斯分布函数, 而分别为平均值和标准差。 15:45
朴素贝叶斯分类(续) 例题:计算 P(收入低|不买电脑) P(是学生|不买电脑) P(信用良好|不买电脑) 假设 收入,是否学生,信用状况互相独立,计算 P(收入低,是学生,信用良好|不买电脑) 收入 是否学生 信用状况 是否买电脑 高 否 良好 是 中 低 一般 ? 15:45
朴素贝叶斯分类(续) 对未知样本X分类,也就是对每个类Ci,计算P(X|Ci)*P(Ci)。样本X被指派到类Ci,当且仅当P(Ci|X)> P(Cj|X),1≤j≤m,j≠i,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类。 15:45
朴素贝叶斯分类举例 数据样本有属性年龄,收入,是否学生和信用状况。类标号属性”是否买电脑“有两个不同值{是,否}。设C1对应于类”买电脑”;则C2对应于类”不买电脑”。 我们希望分类的未知样本为: X=(”年龄<=30”,”收入=中”,”是学生”,”信用一般”) 年龄 收入 是否学生 信用状况 是否买电脑 <=30 高 否 一般 良好 31—40 是 >40 中 低 ??? 15:45
朴素贝叶斯分类举例 我们需要最大化P(X|Ci)*P(Ci),i=1,2。 每个类的先验概率P(Ci)可以根据训练样本计算: P(C1)=P(买电脑)= P(C2)=P(不买电脑)= 计算P(X|Ci) P("年龄<=30","收入=中","是学生","信用一般"|买电脑) P("年龄<=30","收入=中","是学生","信用一般"|不买电脑) 年龄 收入 是否学生 信用状况 是否买电脑 <=30 高 否 一般 良好 31—40 是 >40 中 低 ??? 15:45
朴素贝叶斯分类举例 P("年龄<=30","收入=中","是学生","信用一般"|买电脑)= P("年龄<=30"|买电脑)* 是否学生 信用状况 是否买电脑 <=30 高 否 一般 良好 31—40 是 >40 中 低 ??? 15:45
朴素贝叶斯分类举例 假设属性之间独立 P("年龄<=30","收入=中","是学生","信用一般"|买电脑)=0.222*0.444*0.667 *0.667=0.044; P("年龄<=30","收入=中","是学生","信用一般"|不买电脑)=0.600*0.400*0.200* 0.400=0.019; P(X|买电脑)>P(X|不买电脑),因此对于样本X,朴素贝叶斯分类预测为"是"。 年龄 收入 是否学生 信用状况 是否买电脑 <=30 高 否 一般 良好 31—40 是 >40 中 低 ??? 15:45
内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 基于规则的分类 与分类有关的问题 15:45
使用IF-THEN规则分类 使用规则的分类法是使用一组IF-THEN规则进行分类。 规则可以用它的覆盖率和准确率来评价 比如 IF (年龄<20 AND 学生=是) THEN买电脑=是 IF的部分称为前提,THEN的部分称为规则的结论 规则可以用它的覆盖率和准确率来评价 ncovers是条件(前提)覆盖的样本数,ncorrect是规则正确分类的样本数。 15:45
使用IF-THEN规则分类 规则(收入=低)^(信用状况良好)(是否买电脑=是)的覆盖率为3/8,而它测准确率为1/3。 规则(信用状况=良好)(是否买电脑=否)的覆盖率为7/8,而它测准确率为4/7。 收入 是否学生 信用状况 是否买电脑 高 否 良好 是 中 低 一般 15:45
使用IF-THEN规则分类 如果一个规则R被一个样本X满足,则称规则R被X触发。 R为 IF(年龄<20 AND 学生=是) THEN买电脑=是 则X的类别为 买电脑 如果一个样本X同时触发了多个规则,我们需要制定解决冲突的策略。 规模序 激活具有最多属性测试的触发规则 规则序 将规则按重要性进行排序,按顺序进行促发 如果一个样本X无法促发任何规则 建立一个缺省或者默认规则 15:45
使用决策树来提取规则 决策树的规则是互斥与穷举的 由于每个树叶对应一个一条规则,提取的规则并不比决策树简单。 互斥意味着规则不会存在冲突,因此每个样本只能促发一个规则 穷举意味着一个样本总能促发一个规则 由于每个树叶对应一个一条规则,提取的规则并不比决策树简单。 年龄? <=30 >40 30—40 信用状况? 收入? 是 良好 一般 高 低 否 是 是 否 15:45
使用顺序覆盖算法的规则归纳 在提取规则时,一个现实的问题是是否需要对现有规则进行拓展, 衡量规则好坏应同时考虑覆盖度与准确率 IF (年龄<20) THEN买电脑 是否需要拓展为 IF (年龄<20 AND 学生=是) THEN买电脑 衡量规则好坏应同时考虑覆盖度与准确率 准确率太低 覆盖度太低 15:45
使用顺序覆盖算法的规则归纳 有两种衡量规则好坏的度量 FOIL_Gain的定义如下 分别对应于两个规则R与R'。正在学习的类称为正样本(pos),而其他类称为负样本(neg), pos(neg)为规则R覆盖的正负样本,而pos'(neg')为规则R'覆盖的正负样本。 15:45
判断规则(收入=低)(是否买电脑=否) 是否需要拓展为 规则(收入=低)^(信用状况=良好)(是否买电脑=否) 是否学生 信用状况 是否买电脑 高 否 良好 是 中 低 一般 15:45
使用顺序覆盖算法的规则归纳 似然率统计量的的定义如下 其中m是分类的类别数。fi为满足规则的样本中属于类i的概率,ei为属于类i的期望(基准)概率。 似然率越高,说明规则越理想。 15:45
分别计算规则(收入=低)(是否买电脑=否) 与规则 (收入=低)^(信用状况=良好)(是否买电脑=否) 的似然率。 是否学生 信用状况 是否买电脑 高 否 良好 是 中 低 一般 15:45
顺序覆盖算法 终止条件包括,类c没有样本或者返回的规则质量低于用户指定的阈值等。 输入:D,类标记已知的样本的集合。 Att_vals,所有属性与它们可能值得集合。 输出:IF-THEN规则的集合。 (1)Rule_set={};//规则的初始集为空集 (2)FOR 每个类 c DO (3) repeat (4) Rule=Learn_One_Rule(D,Att_vals,c); (5) 从D中删除Rule覆盖的样本; (6) untile 终止条件满足; (7) Rule_set=Rule_set+Rule; //将新规则添加到规则集 (8)END FOR (9)返回Rule_Set 15:45
使用顺序覆盖算法的规则归纳 Rule_set={}; 选择一个类“买电脑”; 选择一个包含一个属性的规则 收入 是否学生 信用状况 是否买电脑 高 否 一般 是 良好 低 Rule_set={}; 选择一个类“买电脑”; 选择一个包含一个属性的规则 (收入=低)“买电脑” 分别计算其它包含一个属性的规则的相对于已选择规则的FOIL_Gain (收入=高)“买电脑” (学生=是)“买电脑” (学生=否)“买电脑” (信用=良好)“买电脑” (信用=一般)“买电脑” 15:45
使用顺序覆盖算法的规则归纳 选择Foil_gain最高的规则 分别计算规则的Foil_gain (收入=高)"买电脑"为1.74 (学生=是)"买电脑"为0 (学生=否)"买电脑"为0 (信用=良好)"买电脑"为0 (信用=一般)"买电脑"为0 选择Foil_gain最高的规则 (收入=高)"买电脑" 收入 是否学生 信用状况 是否买电脑 高 否 一般 是 良好 低 15:45
使用顺序覆盖算法的规则归纳 在规则R中添加一个属性,得到拓展以后的规则R' 分别计算这些规则的相对于R的Foil_gain (收入=高)"买电脑" 在规则R中添加一个属性,得到拓展以后的规则R' (收入=高)^(学生=是) (收入=高)^(学生=否) (收入=高)^(信用=良好) (收入=高)^(信用=一般) 分别计算这些规则的相对于R的Foil_gain 收入 是否学生 信用状况 是否买电脑 高 否 一般 是 良好 低 15:45
使用顺序覆盖算法的规则归纳 分别计算规则的Foil_gain 选择Foil_gain最高的规则 (收入=高)^(学生=是) 为0.84 (收入=高)^(学生=否) 为-1.16 (收入=高)^(信用=良好) 为0.84 (收入=高)^(信用=一般) 为-1.16 选择Foil_gain最高的规则 (收入=高)^(学生=是) (收入=高)^(信用=良好) 由于这两个规则准确率已经是100%,因此不用拓展 收入 是否学生 信用状况 是否买电脑 高 否 一般 是 良好 低 15:45
使用顺序覆盖算法的规则归纳 将规则覆盖的样本从数据集D中删除,对剩下的正样本生成规则 收入 是否学生 信用状况 是否买电脑 高 否 一般 低 良好 15:45
使用顺序覆盖算法的规则归纳 选择另外一个类“不买电脑” (生成其它类的规则); 选择一个包含一个属性的规则 收入 是否学生 信用状况 是否买电脑 高 否 一般 低 是 良好 选择另外一个类“不买电脑” (生成其它类的规则); 选择一个包含一个属性的规则 (收入=低)“不买电脑” 分别计算其它包含一个属性的规则的相对于已选择规则的FOIL_Gain (收入=高)“不买电脑” (学生=是)“不买电脑” (学生=否)“不买电脑” (信用=良好)“不买电脑” (信用=一般)“不买电脑” 15:45
内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 基于规则的分类 实值预测 15:45
实值预测 分类:把样本分配到若干类之一(离散的)。 预测:预测样本的某个属性值(连续的)。 比如预测是普通员工、中层管理还是高级管理人员 比如预测收入 工作年限 周工作时间 月薪 1 40 2500 4 48 3000 5 3500 7 4000 8 4500 6 ? 9 15:45
实值预测 实值预测方法有两种 线性回归和多元回归 非线性回归 15:45
实值预测 在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。 x={2,4,5,7,9}; y={6,10,12,16,20}; 如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 x={(2,4),(4,0),(5,6),(7,1),(9,-3)}; y={10,4,17,9,3}; 15:45
一元线性回归模型 给n个随机样本(Yi,Xi,),则Y与X的线性回归模型可以写为 其中 b0 ,b1是参数 是被称为误差项的随机变量,这是由于我们建立的线性回归模型可能是不完美的 工作年限 月薪 1 2500 4 3000 5 3500 7 4000 8 4500 6 ? 9 15:45
线性回归模型的求解 回归模型的求解相当于求解β 使得 一元线性回归分析的求解 15:45
一元线性回归模型 例题:请建立右表的线性回归模型。 工作年限 月薪 1 2500 4 3000 5 3500 7 4000 8 4500 6 ? 9 15:45
多元线性回归模型 给n个随机样本(Yi,Xi1,Xi2,...,Xip),则Y与X的线性回归模型可以写为 其中 b0 ,b1,b2 ,,bn是参数 是被称为误差项的随机变量,这是由于我们建立的线性回归模型可能是不完美的 工作年限 周工作时间 月薪 2 40 3500 4 48 3200 5 6500 10 5800 12 7200 18 4300 6 ? 9 15:45
线性回归模型的求解 回归模型的求解相当于求解β 使得 多元线性回归分析的求解 其中X为 15:45
AQ算法 多元回归模型的求解在许多软件中都可以得到,比如Matlab,SAS,SPSS,Weka等。 15:45
AQR算法有关定义 AQR为每一个分类推导出一条规则,每一条规则形式如下:if <cover> then predict <class>。 在一个属性上的基本测试被称为一个Selector。下面是一些Selector的例子:<Cloudy=yes>或<Temp>60>。 AQR允许测试做{=,≤,≥,≠}。Selectors的合取被称为复合(Complex),Complexes之间的析取被称为覆盖(Cover)。如果一个表达式对某个样本为真,则我们称其为对这个样本的一个覆盖。这样,一个空Complex覆盖所有的样本,而一个空Cover不覆盖任何样本。 在AQR中,一个新样本被区分是看其属于哪个推导出来的规则。如果该样本只满足一条规则,则这个样本就属于这条规则;如果该样本满足多条规则,则被这些规则所预测的最频繁的分类被赋予这条规则;如果该样本不属于任何规则,则其分类为样本集中最频繁的分类。 15:45
AQR算法描述 算法 4-5 AQR 输入:正例样本POS; 反例样本NEG。 输出:覆盖COVER。 (1) COVER= Φ;//初始化COVER为空集Φ (2) WHILE COVER does not cover all positive examples in POS DO BEGIN (3) Select a SEED;/选取一个种子SEED,例如没有被COVER覆盖的一个正样例 (4) Call procedure STAR(SEED,NEG); //产生一个能覆盖种子而同时排除所有反例的星 (5) Select the best Complex BEST from the STAR according to user-defined criteria; /*从星中选取一个最好的复合*/ (6) Add BEST as an extra disjuct to COVER /*把最好的复合与COVER合取,形成新的COVER*/ (7) END (8) RETURN COVER. 在算法AQR中调用了过程STAR,来排除所有的反例,产生覆盖种子的星。 15:45
AQR算法描述(续) (8)END 算法 4-6 STAR 输入:种子SEED;反例NEG。 输出:星STAR。 (1)初始化STAR为空Complex (2)WHILE one or more Complexes in STAR covers some negative examples in NEG BEGIN /*如果STAR中的一个或多个Complex覆盖NEG中的负样例*/ (3)Select a negative example Eneg covered by a Complex in STAR;/*选取一个被STAR中的Complex覆盖的负样例*/ (4)Let EXTENSION be all Selectors that cover SEED but not ENEG;/*令EXTENSION为那些覆盖SEED但不覆盖ENEG的Selectors;*/ (5)Let STAR be the set {x∧y|x∈STAR,y∈EXTENSION}; /*令STAR= {x∧y|x∈STAR,y∈EXTENSION};*/ (6) Remove all Complexes in STAR subsumed by other Complexes in STAR;/*从STAR中除去被其他Complexes所包含的Complexes;*/ (7)Remove the worst Complexes from STAR UNTIL size of STAR is less than or equal to user-defined maximum (maxstar)/*删除STAR中最坏的Complex直到STAR的大小等于或小于用户定义的最大数目maxstar*/ (8)END (9)RETURN STAR. /*返回一系列覆盖SEED但不覆盖NEG的规则*/ 15:45
AQR算法举例 反例样本 正例样本 size type class 假设现有一个训练集,其包含两种属性: size (属性值:micro,tiny,mid,big,huge,vast) type (属性值:bicycle,motorcycle,car,prop,jet,glider) 现有正例、反例样本分别如表4-6,表4-7所示: 反例样本 size type class Tiny motorcycle conventional transportation tiny car conventional transportation mid car conventional transportation micro jetfast plane Tiny jetfast plane Mid jetfast plane 正例样本 size type class Huge bicycle giant 2-wheeler Huge motorcycle giant 2-wheeler 下面给出用AQR算法对giant 2-wheeler类的规则进行获取过程,具体步骤如下: (1)COVER={}。 (2)空cover不覆盖任何样本,进入循环。 (3)一开始COVER并没有覆盖任何正例,假定从正例中选取的SEED 为{ size=huge,type =bicycle }。 (4)调用STAR(SEED,NEG)去产生一个覆盖SEED但不包含NEG的STAR集合; 初始化STAR为空,即STAR={}。 空的complex覆盖所有样例,STAR覆盖多个负样例,进入循环。 a ) 选取一个被STAR中的复合覆盖的负样例ENEG,假定被选取的是 Eneg={ size= tiny, type = motorcycle }。 b ) 使EXTENSION为所有覆盖SEED但不覆盖ENEG的选择,则EXTENSION包括size= huge和type =bicycle,则又根据STAR={x∧y|x∈STAR,y∈EXTENSION},因此,STAR={ size=hugetype =bicycle }。 c ) 在这里定义maxstar为2,可不对STAR进行精简。 d ) 接着选取另一个被STAR中的复合覆盖的负样例ENEG,显然已经没有这样的负样例,因此,STAR={ size=hugetype =bicycle }。 从STAR(SEED,NEG)返回。 15:45
AQR算法举例 反例样本 正例样本 size type class 假设现有一个训练集,其包含两种属性: size (属性值:micro,tiny,mid,big,huge,vast) type (属性值:bicycle,motorcycle,car,prop,jet,glider) 现有正例、反例样本分别如表4-6,表4-7所示: 反例样本 size type class Tiny motorcycle conventional transportation tiny car conventional transportation mid car conventional transportation micro jetfast plane Tiny jetfast plane Mid jetfast plane 正例样本 size type class Huge bicycle giant 2-wheeler Huge motorcycle giant 2-wheeler (5)BEST={ size=hugetype =bicycle },COVER ={ size=hugetype =bicycle }。 (6)显然COVER不能覆盖所有的正例,从正例中选取另一个SEED={ size=huge,type = motorcycle}。 (7)调用STAR(SEED,NEG)去产生一个覆盖SEED但不包含NEG的STAR集合。 初始化STAR为空,即STAR={}; 空的complex覆盖所有样例, 所以STAR覆盖负样例,进入循环; a ) 假定被选取的是Eneg={ size= tiny, type = motorcycle }; b ) 使EXTENSION为所有覆盖SEED但不覆盖Eneg的选择,则EXTENSION包括size= huge,则又根据STAR={x∧y|x∈STAR,y∈EXTENSION},因此,STAR={ size=huge}; c ) 接着选取另一个被STAR中的复合覆盖的负样例Eneg,显然已经没有这样的负样例,因此,STAR={ size=huge}; d ) 接着选取另一个被STAR中的复合覆盖的负样例ENEG,显然已经没有这样的负样例,因此,STAR={ size=hugetype =bicycle }。 从STAR(SEED,NEG)返回。 (8)BEST={size=huge},将BEST添加到COVER中,COVER ={ size=hugetype =bicycle size=huge}={ size=huge}。 (9)这时,COVER已经覆盖到全部的正例,则算法结束。输出规则为gaint 2-wheeler size=huge。 15:45
CN2算法描述 CN2使用一种基于噪音估计的启发式方法,使用这种方法可以不用对所有的训练样本进行正确的区分,但是规约出的规则在对新数据的处理上有很好的表现。 算法 4-7 CN2 输入:E /*E为训练样本*/ 输出:RULE_LIST /*返回一个覆盖若干样例的规则*/ (1) Let RULE_LIST be the empty list; /* 初始化RULES_LIST为空;*/ (2) REPEAT (3) Let BEST_CPX be Find_Best_Complex(E); /*寻找最佳的规则Find_Best_Complex(E)并将其结果放入BEST_CPX中;*/ (4) IF BEST_CPX is not nil THEN BEGIN (5) Let E’ be the examples covered by BEST_CPX;/*令E’为BEST_CPX覆盖的所有样例*/ (6) Remove from E the examples E′ covered by BEST_CPX; /*从训练样本E中除去E’,即E=E-E’;*/ (7) Let C be the most common class of examples in E’; /*令C为样本子集E’中最频繁的分类标号;*/ (8) Add the rule ‘if BEST_CPX then class=C’ to the end of RULE_LIST; /*将规则‘if BEST_CPX then class=C’添加到RULES_LIST中*/ (9) END (10)UNTIL BEST_CPX is nil or E is empty. /*直到BEST_CPX为空或者训练样本E为空*/ (11)RETURN RULE_LIST 算法CN2需要通过调用函数Find_Best_Complex,它的描述写成下面算法4-8。 15:45
CN2算法描述(续) 算法 4-8 Find_Best_Complex 输入:E /*E为训练样本*/ 输出:BEST_CPX /*返回最佳的规则BEST_CPX */ (1) Let the set STAR contain only the empty Complex; /*初始化集合STAR为空Complex;*/ (2) Let BEST_CPX be nil; /*初始化BEST_CPX为空*/ (3) Let SELECTORS be the set of all possible Selectors; /*集合SELECTOR为所有可能的选择*/ (4) WHILE STAR is not empty DO BEGIN (5) Let NEWSTAR be the set {x∧y|x∈STAR,y∈EXTENSION}; /*令NEWSTAR= {x∧y|x∈STAR,y∈EXTENSION};*/ (6) Remove all Complexes in NEWSTAR that are either in STAR or are null; /*从NEWSTAR中除去包括在STAR中的Complex或者为空的Complex*/ (7) FOR every complex Ci in NEWSTAR (8) IF Ci is statistically significant when tested on E and better than BEST_CPX according to user-defined criteria when tested on E /*如果Ci在统计上有意义, 并且对训练集E测试后符合用户定义的条件且优于BEST_CPX*/ (9) THEN replace the current value of BEST_CPX by Ci; /*将BEST_CPX替换为Ci*/ (10) REPEAT remove worst Complexes from NEWSTAR (11) UNTIL size of NEWSTAR is <= user-defined maximum maxstar; /*逐步移去在NEWSTAR中最坏的complex直到NEWSTAR的大小等于或小于用户 定义的最大数目maxstar*/ (12) Let STAR be NEWSTAR; /*令STAR=NEWSTAR*/ (13)END (14)RETURN BEST_CPX。/*返回BEST_CPX*/ 15:45
FOIL算法 FOIL学习系统已经被广泛地应用在逻辑规约领域。FOIL是用来对无约束的一阶Horn子句进行学习。一个概念的定义是由一系列的子句组成,而其中每一个子句描述了一种证明一个样本是这个概念的实例的唯一方法。每个子句由一些文字的析取组成。 FOIL由一系列的外部定义的断言开始,其中之一被确定为当前学习的概念,而其他作为背景文字。FOIL从这些外部定义的断言中获取一系列包括文字的子句。 FOIL算法由一个空子句开始查找,其不断的向当前的子句中追加文字直到没有负样例被子句所覆盖。之后,FOIL重新开始一个子句的查找,直到所有的正样例均被已经生成的子句所覆盖。FOIL计算每一个外部定义断言的信息熵(Information Gain)和合法的变量(Legal Variabilization)用来决定哪一个文字添加到子句中。 15:45
一阶Horn子句的主要术语 一阶Horn子句所涉及的主要术语有: 所有表达式由常量(如Mary、23或Joe)、变量(如x)、谓词(如在Female(Mary)中的Female和函数(如在age(Mary)中的age)组成; 项(Term)为任意常量、任意变量或任意应用到项集合上的函数。例如,Mary,x,age(Mary),age(x); 文字(Literal)是应用到项集合上的任意谓词或其否定。例如,Female(Mary),Greater_than(age(Mary),20); 基本文字(Ground Literal)是不包括任何变量的文字; 负文字(Negative Literal)是包括否定谓词的文字; 正文字(Positive Literal)是不包括否定谓词的文字; 子句(Clause)是多个文字的析取式,M1∨……∨Mn,其中所有变量是全程量化的; 15:45
一阶Horn子句的表达 Horn子句是一个如下形式的表达式: H(L1∧……∧Ln)。 其中,H,L1,L2,…,Ln为正文字。H被称为Horn子句的头(Head)或推论(Consequent)。文字合取式L1∧L2∧...∧Ln被称为Horn子句的体(Body)或者先行词(Antecedents)。 置换(Substitution)是一个将某些变量替换为某些项的函数。例如,置换{x/3,y/z}把变量x替换为项3并且把变量y替换为项z。给定一个置换θ和一个文字L,我们使用Lθ代表应用置换θ到L得到的结果。 15:45
FOIL算法描述 算法 4-9 FOIL (Target_predicate,Predicates,Examples) 输出:规则 (1) PosExamples中Target_predicate为Ture的成员; (2) NegExamples中Target_predicate为False的成员; (3) Learen_rules{}; (4) WHILE Pos不空DO BEGIN /*学习NewRule*/ (5) NewRules没有前件的谓词Target_predicate规则; (6) NewRuleNegNeg; (7) WHILE NewRuleNeg不空 BEGIN /*增加新文字以特化NewRule*/ (8) Candidate_literals对NewRule生成后选新文字,基于Predicates; (9) Best_literalargmax Foil_Gain (L,NewRule); /*获取最佳文字*/ (10) 把Best_literal加入到NewRule的前件; (11) NewRuleNegNewRuleNeg中满足NewRule前件的子集 (12) END; (13) Learned_rulesLearned_rules+NewRule; (14) PosPos-{被NewRule覆盖的Pos成员} (15) END; (16) 返回Learned_rules 15:45
FOIL算法介绍 FOIL中的候选特征化式的生成: 为生成当前规则的候选特征式,FOIL生成多个不同的新文字,每个可被单独地加到规则前件中。更精确地讲,假定当前规则为: P(x1,x2,…,xk) L1…L 其中,L1,…,Ln为当前规则前件中的文字,而P(x1,x2,…,xk)为规则头(或后件)。FOIL生成该规则的候选特征化式的方法是考虑符合下列形式的新文字Ln+1: Q(v1,…,vr),其中Q为在Predicates中出现的任意谓词名,并且vi既可 为新变量,也可为规则中已有的变量。vi中至少一个变量必须是当前规则中已有的。 Equal(xj,xk),其中xj和xk为规则中已有的变量。 上述两种文字的否定。 15:45
FOIL算法介绍(续) Foil_Gain函数 FOIL使用评估函数以估计增加新文字的效用,它基于加入新文字前后的正例和反例的约束数目。更精确地讲,考虑某规则R和一个可能被加到R的规则体的后选文字L。令R′为加入文字L到规则R后生成的规则。Foil_Gain(L,R)的值定义为: 其中,p0为规则R的正例约束数目,n0为R的反例约束数目,p1是规则R′的正例约束数,n1为规则R′的反例约束数目。最后,t是在加入文字L到R后仍旧能覆盖的规则R的正例约束数目。当加入L引入了一个新变量到R中时,只要在R′的约束中的某些约束扩展了原始的约束,它们仍然能被覆盖。 15:45
FOIL算法举例 假设学习目标文字fathe(A,B)的规则集例子。训练数据包括下列简单的断言集合: Predicates: //断言集合 male(christopher),male(arthur) female(victoria),female(penelope) parent(christopher,arthur),parent(christopher,victoria) parent(penelope,arthur), parent(penelope,victoria) Examples: /*样本数据*/ positive: father(christopher,arthur) father(christopher,victoria) negative: father(penelope,arthur) father(christopher,penelope) 则根据FOIL算法: Pos={father(christopher,arthur),father(christopher,victoria)}; Neg={father(penelope,arthur), father(christopher,penelope)}; Learned_rules={}; 当Pos不为空,则学习NewRule a) NewRule={father(A,B)}; b) NewRuleNeg={ father(penelope,arthur), father(christopher,penelope)}; c) 当NewRuleNeg不为空,则增加特征化文字: 由FOIL中的侯选特征化式的规则,根据father(A,B)可生成的侯选文字为:male(A), not(male(A)), male(B), not(male(B)),female(A), not(female(A)), female(B), not(female(B)),parent(A,A), not(parent(A,A)), parent(B,B), not(parent(B,B)),parent(A,B), not(parent(A,B)), parent(B,A), not(parent(B,A)),parent(A,C), not(parent(A,C)), parent(C,A), not(parent(C,A)),parent(B,C), not(parent(B,C)), parent(C,B), not(parent(C,B)); 因此,Candidate_literals={ male(A),male(B),female(A),female(B)……}, 之后计算最佳文字Best_literal,具体计算过程如下表所示(p0=2,n0=2 )。 15:45
FOIL算法举例(续) 文字的获益计算结果 15:45 Test p1 n1 t Gain male(A) 2 1 0.83 not(male(A)) 0.00 male(B) not(male(B)) female(A) not(female(A)) female(B) not(female(B)) parent(A,A) not(parent(A,A)) parent(A,B) not(parent(A,B)) parent(B,B) not(parent(B,B)) parent(B,A) not(parent(B,A)) parent(A,C) 4 not(parent(A,C)) parent(C,B) not(parent(C,B)) 15:45
FOIL算法举例(续) 选择文字male(A) 添加到Best_literal, NewRule={ father(A,B) male(A)},其覆盖两个正例和一个反例。 NewRuleNeg改写为NewRuleNeg={father(penelope,arthur)}, d) 当NewRuleNeg不为空,则增加特征化文字: 则下一个文字应添加parent(A,B)。 再将Best_literal加为NewRule的前件,则NewRule={ father (A,B) male(A)∧parent(A,B)}; 这时NewRuleNeg中的所有成员满足NewRule前件的子集,跳出内层循环。 e) Learn_rules=Learn_rules+{ father (A,B) male(A)∧parent(A,B)} ; f) 再从Pos中减去被NewRules覆盖的成员; 这时Pos为空,算法结束。 15:45
内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题 15:45
分类数据预处理 分类的效果一般和数据的特点有关,有的数据噪声大,有的有空缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。因此,在分类以前需要做一些数据的预处理。 数据清理 主要是消除或减少数据噪声和处理空缺值。 特征选择 从已知一组特征集中按照某一准则选择出有很好的区分特性的特征子集 或按照某一准则对特征的分类性能进行排序,用于分类器的优化设计。 数据变换 就是通过平滑、聚集、数据概化、规范化、特征构造等手段将数据转化为适合于挖掘的形式。 15:45
分类器性能的表示 分类器性能的表示方法类似信息检索系统的评价方法,可以采用OC曲线和ROC曲线、混淆矩阵等。 定义4-4 给定一个类Cj和一个数据库元组ti,ti可能被分类器判定为属于Cj或不属于Cj,其实ti本身可能属于Cj或不属于Cj,这样就会产生如下一些情况: 真正: 判定ti在Cj中,实际上的确在其中。 假正: 判定ti在Cj中,实际上不在其中。 真负: 判定ti不在Cj中,实际上不在其中。 假负: 判定ti不在Cj中,实际上的确在其中。 在上述定义的基础上,人们经常使用OC曲线和ROC曲线表示“假正”和“真正”的关系。OC曲线通常用于通信领域来测试误报率。OC曲线的水平轴一般表示“假正”的百分比,另外一个轴表示“真正”的百分比。 15:45
分类器性能的表示(续) 混淆矩阵是另外一种表示分类准确率的方法。假定有m个类,混淆矩阵是一个 m*m 的矩阵,Ci,j表明了D中被分到类Cj但实际类别是Ci的元组的数量。显然地,最好解决方案是对角线以外的值为全零。 混淆矩阵示例 实 际 分 类 矮 中等 高 4 5 3 1 2 15:45
分类器性能的评估 保持法和交叉验证是两种基于给定数据随机选样划分的、常用的评估分类方法准确率的技术。 (1)保持法 把给定的数据随机地划分成两个独立的集合:训练集和测试集。通常,三分之一的数据分配到训练集,其余三分之二分配到测试集。使用训练集得到分类器,其准确率用测试集评估。 (2)交叉验证 先把数据随机分成不相交的n份,每份大小基本相等,训练和测试都进行n次。比如,如果把数据分成10份,先把第一份拿出来放在一边用作模型测试,把其他9份合在一起来建立模型,然后把这个用90%的数据建立起来的模型用上面放在一边的第一份数据做测试。这个过程对每一份数据都重复进行一次,得到10个不同的错误率。最后把所有数据放在一起建立一个模型,模型的错误率为上面10个错误率的平均。 15:45
内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题 15:45
Thank you !!! 15:45