SLIQ:一种快速可伸缩分类器 Manish Mehta, Rakesh Agrawal, Jorma Rissanen IBM Almaden Research Center, 1996 报告人:郭新涛 2003.03.29.

Slides:



Advertisements
Similar presentations
index 目次 ( 請按一下滑鼠,解答就會出現喔 !) 接續下頁解答 3-1 極限的概念.
Advertisements

REGRESSION AND CLASSIFICATION TREES 迴歸與分類樹. 簡介 傳統的複迴歸分析,假設誤差項服從常態分配,所 以複迴歸分析是一種有母數 (parametric) 方法。 本章將介紹一種常用的無母數 (non-parametric) 的 迴歸方法,此法稱為決策樹 (decision.
企业文化与核心价值观 主讲:孟凡驰 教授 中交四航局. 2 目 录 一、企业文化的目的价值恒久性与工具价值实践性 二、企业文化管理学特征 三、企业文化与企业发展战略 四、企业文化整合、提炼、培育和建设的目的 五、集团文化与分公司文化 六、企业核心价值观.
電腦與問題解決 5-1 電腦解題概論 5-2 電腦解題程序 5-3 演算法概論.
举国上下抗击风雪灾害专刊 温暖行动 灾情告急年关近 万众一心齐抗灾 可歌可泣留千古 温暖行动遍人间 导读提示 阳关雨露出版社
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
作文选刊 作文之窗
大规模机器学习算法GBDT及应用 王志伟(冰逸)
Some Knowledge of Machine Learning(1)
便利商店人員工作注意事項 成功工商建教組.
思想品德 七年级(下册) 广东教育出版社.
经济成长和差距平等化 东京学艺大学 铃木亘.
快乐假期 2010年第6期 总第54期 贝尔芬 主编 暑期作文专刊 《快乐假期》杂志社 出版.
99年成語200題庫(21-40).
公关协调 能力目标 初步学会对内及对外公众关系协调的基本方法。 知识目标 掌握组织内外公众协调的原理和方法。
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
渤海商品交易所 丹东玉米交易中心 全国统一客服电话:
老师:如何撰写教研文章? 主讲:石修银 谨以此赠与孜孜追求的老师 谨以此赠与改变人生的老师.
依“标”据“本”,命制考题 发表于《数学教学》2006年第9期 (华东师大核心“CN”刊物)
第二节 工业地域的形成 工业联系 工业集聚 工业地域
12星座 对于星座,你又知道多少呢? 第一刊.
當代國際企業.
第四章 概率密度函数的非参数估计 2学时.
102學年度預算編製說明會 主辦單位:會計室 102/02/22.
数学通报简介 ——如何写稿及投稿 数学通报 郑亚利 2014年8月.
第二章 地理数据的采集及处理.
信任,帶來新幸福- 信義房屋的故事 第4期 第12組 心得分享 作者:李蓓潔.
讓想像起飛 黃 淑 貞  老 師.
推进《玻璃钢制品工》 国家职业资格证书制度的建设
本期导读: 1版 习 惯 2版 的 十个做人的好习惯 3版 力 4版 量 5版 6版 7版 8版
Minimum Spanning Trees
Tree(樹) 什麼是「樹」? 「樹」的範例 「樹」的定義 「樹」的表示法.
第9课 北美大陆上的新体制 导入新课 新课教学 课堂小结 知识结构 巩固练习
基于双数组Trie(Double-Array Trie)的词典查询算法
(Exec1) GIS 空间分析-使用ArcGIS (Exec1)
第4章(2) 空间数据库 —关系数据库 北京建筑工程学院 王文宇.
Graph 2 Michael Tsai 2012/5/1 連載: 學生上課睡覺姿勢大全
Simulated Annealing 報告者:李怡緯 OPLAB in NTUIM.
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
Spring & mongodb java实战mongodb 曹巍 2013年9月22日.
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
SPSS-概述與資料處理 輔大統計資訊系 黃孝雲.
基于类关联规则的分类 Classification Based on Class-Association Rules
第四章 分类方法 内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 2019年2月21日星期四
樹 2 Michael Tsai 2013/3/26.
Advisor : Prof. Frank Y.S. Lin Presented by Yen-Yi, Hsu
感謝同學們在加分題建議. 我會好好研讀+反省~
B+ Tree.
决策树算法及应用拓展 内容简介: 概述 预备知识 捕捉变化数据的挖掘方法 小结 决策树生成(Building Decision Tree)
Case 工具-UML with Rational Rose
資料整理與次數分配 Organizing Data 社會統計(上).
软件工程 第四章 软件设计 软件过程设计技术与工具.
Course 4 分類與預測 Classification and Prediction
從 ER 到 Logical Schema ──兼談Schema Integration
计算机问题求解 – 论题 算法方法 2016年11月28日.
想想看: 長方體體積.
Distance Vector vs Link State
Disjoint Sets Michael Tsai 2013/05/14.
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
知识产权在中小企业中的作用 讲座内容 一、知识产权在发达国家及知名企业中的地位 二、知识产权的基本概念及其特点
唐常杰 四川大学计算机学院 计算机科学技术系
 隐式欧拉法 /* implicit Euler method */
Distance Vector vs Link State Routing Protocols
所得稅法第14條、第126條修正條文 薪資所得計算方式二擇一 定額減除 特定費用減除 維持現行薪資所得特別扣除額20萬元減除方式
OrientX暑期工作总结及计划 XML Group
屏東縣107學年度精進國民中小學教學專業與課程品質整體推動計畫
JAVA 程式設計與資料結構 第十七章 Tree.
分類樹(Classification Tree)探討Baseball Data
Hybrid fractal zerotree wavelet image coding
Presentation transcript:

SLIQ:一种快速可伸缩分类器 Manish Mehta, Rakesh Agrawal, Jorma Rissanen IBM Almaden Research Center, 1996 报告人:郭新涛 2003.03.29

内容摘要 决策树算法 SLIQ算法 数据结构 预排序与广度优先增长策略 种类型字段的最佳子集生成方法 MDL剪枝 SLIQ性能评估

1. 决策树算法 决策树算法 SLIQ算法 数据结构 预排序与广度优先增长策略 种类型字段的最佳子集生成方法 MDL剪枝 SLIQ性能评估

1. 决策树算法 什么是分类(Classification)? 可伸缩性(Scalability) 训练集 待测试样本集 大多数分类算法面临的共同问题:训练集受内存容量的限制。 算法可伸缩性的优势:更高的准确性 设计目标:一个可伸缩的分类器

1. 决策树算法 什么是决策树(Decision Tree)? 决策树的优点 与其他分类方法相比相对较快 容易转化为分类规则,也容易转化为SQL查询 近似的或者更好的准确度

1. 决策树算法 算法 建树阶段 剪枝阶段 为什么剪枝:训练数据中的“噪声”影响最终模型的准确性。这些错误的枝条将导致利用模型时的分类错误。 MakeTree (Training Data T) Partition (T); Partition (Data S) if (all points in S are in the same class) then return; evaluate splits for each attribute A Use best split found to partition S into S1 and S2; Partition (S1); Partition (S2); 剪枝阶段 为什么剪枝:训练数据中的“噪声”影响最终模型的准确性。这些错误的枝条将导致利用模型时的分类错误。 剪枝的方法:去除那些导致错误的枝条,在可能的自述中挑选出错率最小的字树。 这一步是整个算法中时间消耗最大的部分

1. 决策树算法 可伸缩性问题研讨(1) 设计目标:一个可伸缩的、能够处理大数据集的决策树 以前的可伸缩性方案 面临的问题:降低了准确性 数据采样 连续属性的离散化 数据分成若干小块,分别构建决策树,然后综合成一棵最终的树 面临的问题:降低了准确性

决策树算法 可伸缩性问题研讨(2) 建树阶段 关键:提高“确定最佳分裂(Best Split )”的可伸缩性 分裂指标举例 ,计算开销不大 分裂指标举例 ,计算开销不大 数值型字段,最佳分裂型如 ,开销主要是排序 种类型字段,最佳分裂型如 ,开销主要是寻找最佳的子集(遍历所有子集,时间复杂度为指数级)。

1. 决策树算法 可伸缩性问题研讨(3) 剪枝阶段 剪枝:选择导致最低错误率的子树 方案一:使用原有的测试数据 方案二:使用独立的数据集 取样困难 降低生成的模型的准确率 理想的剪枝方法:快速得到简洁而且准确的决策树

2. SLIQ算法 决策树算法 SLIQ算法 数据结构 预排序与广度优先增长策略 种类型字段的最佳子集生成方法 MDL剪枝 SLIQ性能评估

2. SLIQ算法 SLIQ的优异性能 可伸缩性良好 新的剪枝方法 缩短学习时间 处理常驻磁盘的大数据集的能力:对训练数据的记录个数和训练样本的属性个数没有过多的限制 处理大数据集,带来结果的准确性 新的剪枝方法 更简洁、准确的结果

2. SLIQ算法 SLIQ的关键词 预排序 广度优先增长策略 常驻磁盘的数据集 快速寻找子集方法 MDL剪枝

2. SLIQ算法 数据结构 属性表(Attribute List) 类表(Class List) 每个属性有一个属性表 有必要的话,属性表可以写回磁盘 类表(Class List) 仅有一张类表,类表必须常驻内存 类表第n项,存放第n条记录的类标签。 属性值 指向类表表项的索引 类标签 指向该条记录所属树结点的索引

2. SLIQ算法 数据结构 树结点 内部节点记录必要的分类信息 叶子节点代表训练集的一块数据,也就是一个类别 每个节点都有一个类直方图,用来统计分类所需的必要的类别分布的信息。 C1 C2 … Cn L f R 数值型字段的类直方图 C1 C2 … Cn V1 f V2 Vm 种类型字段的类直方图

2. SLIQ算法 预排序与广度优先增长策略 预排序的例子

2. SLIQ算法 预排序与广度优先增长策略 计算最佳分割的算法 EvaluateSplits() for each attribute A do traverse attribute list of A for each value v in the attribute list do find the corresponding entry in the class list, and hence the corresponding class and the leaf node (say l) update the class histogram in the leaf l if A is a numeric attribute then compute splitting index for test (A <= v) for leaf l if A is a categorical attribute then for each leaf of the tree do find subset of A with best split 在这里,数值型字段使用类直方图里面的信息计算gini指标,寻找最佳分割 在这里,种类型字段使用类直方图里面的信息,寻找达到最佳gini指标的属性子集

进行节点分裂的例子: 正在扫描属性表Salary List 已经完成对该表第一个节点 的扫描 正在扫描该表第二个节点…

2. SLIQ算法 预排序与广度优先增长策略 计算出最佳分割以后,就可以产生子节点了 子节点声称以后,需要对类表进行更新,使它指向原来节点的子节点 更新类表的算法 UpdateLabels() for each attribute A used in a split do traverse attribute list of A for each value v in the attribute list do find the corresponding entry in the class list (say e) find the new class c to which v belongs by applying the splitting test at node referenced from e update the class label for e to c update node referenced in e to the child corresponding to the class c

2. SLIQ算法 预排序与广度优先增长策略 类表升级的例子

2. SLIQ算法 预排序与广度优先增长策略 一个优化策略 有些节点会提前停止分裂,例如纯节点,或者根据事先给定的策略停止分裂的节点 把已经停止分裂的节点包含的记录从属性表中删除 属性表得到压缩,从而后面的算法执行速度会加快。

2. SLIQ算法 种类型字段的最佳子集生成方法 种类型字段,最佳分裂型如 ,开销主要是寻找最佳的子集 折衷方案 种类型字段,最佳分裂型如 ,开销主要是寻找最佳的子集 折衷方案 属性可能的值的个数 小于MAXSETSIZE时,遍历所有子集,寻找最佳分割 属性可能的值的个数 大于MAXSETSIZE时,使用贪心算法(Greedy Algorithm),寻找最佳分割的近似解。 论文作者的MAXSETSIZE取10,2的10次方次被认为可以接受

2. SLIQ算法 MDL剪枝 MDL原理:对数据进行编码的最佳模型是使得用该模型描述数据和描述这个模型的带价的和最小的模型 算法中MDL剪枝的目的是:对于生成的初始树,发现最好的描述训练集S的子树T

2. SLIQ算法 MDL剪枝 数据编码 模型编码 代价定义为所有分类错误的总和 对树编码(Code1, Code2, Code3) 分裂方案编码 数值型 种类型

2. SLIQ算法 MDL剪枝 裁减算法:对不同字树进行比较 三种裁减策略 Cleaf(t)、Cboth(t)、Cleft(t)、Cright(t) 三种裁减策略 完全的(Full) 部分的(Partial) 混合的(Hybrid)

3. SLIQ性能评估 评价目标 MDL剪枝 混合方法的表现最出色 小数据集 可伸缩性 对训练样本的个数 对输入属性的个数

Any Questions?