Classification Rule - Decision Tree

Slides:



Advertisements
Similar presentations
index 目次 ( 請按一下滑鼠,解答就會出現喔 !) 接續下頁解答 3-1 極限的概念.
Advertisements

REGRESSION AND CLASSIFICATION TREES 迴歸與分類樹. 簡介 傳統的複迴歸分析,假設誤差項服從常態分配,所 以複迴歸分析是一種有母數 (parametric) 方法。 本章將介紹一種常用的無母數 (non-parametric) 的 迴歸方法,此法稱為決策樹 (decision.
電腦與問題解決 5-1 電腦解題概論 5-2 電腦解題程序 5-3 演算法概論.
單元九:單因子變異數分析.
使用說明 高年級 破解賽恩思 (Science)密碼 編輯群 明湖國小 吳立明 老師 李惠雯 老師 林宜璇 老師.
第一章 会计信息系统 第一节 计算机会计概述.
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
行銷研究 單元三 次級資料的蒐集.
老子的素朴 厦门大学计算机科学系 庄朝晖.
Some Knowledge of Machine Learning(1)
分類:基本概念、決策樹與模型評估.
经济成长和差距平等化 东京学艺大学 铃木亘.
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
METAEDGE Corporation Taiwan
TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design
第八章 信息系统开发概述.
第 八 章 資料庫安全 本投影片(下稱教用資源)僅授權給採用教用資源相關之旗標書籍為教科書之授課老師(下稱老師)專用,老師為教學使用之目的,得摘錄、編輯、重製教用資源(但使用量不得超過各該教用資源內容之80%)以製作為輔助教學之教學投影片,並於授課時搭配旗標書籍公開播放,但不得為網際網路公開傳輸之遠距教學、網路教學等之使用;除此之外,老師不得再授權予任何第三人使用,並不得將依此授權所製作之教學投影片之相關著作物移作他用。
第2章 数据定义功能 创建表 在关系型数据模型中,表(Table)是最基本的数据结构。
Views ,Stored Procedures, User-defined Function, Triggers
Project 2 JMVC code tracing
第四章 資金成本.
Excel資料庫分析 台灣微軟資深講師 王作桓.
計算機概論 蘇木春 中央大學資工系.
Java簡介.
本 章 重 點 18-1 Internet的由來與對生活的影響 18-2 Internet的服務與相關名詞簡介 18-3 IP位址表示法
归纳学习 Inductive Learning
JDK 安裝教學 (for Win7) Soochow University
3.2 Tally Table:將資料分成等距離的組別,再
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
類別(class) 類別class與物件object.
浅谈MySql索引及锁的应用 厦门大学数据库实验室 刘颖杰 2014年3月8日.
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
程式設計專題.
管理資訊系統導論 資訊系統的定義與概念.
Ch4.SQL Server 2005資料庫組成員元件介紹
VISP+MS 国际高校访问学生 及统计理学硕士项目
Java 程式設計 講師:FrankLin.
CH03 資訊管理的智慧觀點:技術篇.
金融行銷溝通技巧- 溝通的藝術 南山人壽洪全銘經理
Chap3 Linked List 鏈結串列.
第四章 分类方法 内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 2019年2月21日星期四
大數據與我 4A 陳駿榜.
網路安全技術 OSI七層 學生:A 郭瀝婷 指導教授:梁明章.
B+ Tree.
决策树算法及应用拓展 内容简介: 概述 预备知识 捕捉变化数据的挖掘方法 小结 决策树生成(Building Decision Tree)
赵才荣 同济大学,电子与信息工程学院,智信馆410室
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
資料整理與次數分配 Organizing Data 社會統計(上) ©蘇國賢2000.
授課老師:楊維邦教授 組長:劉秋良 成員:李政均、郭瀚文、鄒震耀
Random Forest (隨機森林) 學號:R 姓名:王順達
Course 4 分類與預測 Classification and Prediction
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
Disjoint Sets Michael Tsai 2013/05/14.
豪雅科技股份有限公司 iSeries Professional Consultant P. 1
唐常杰 四川大学计算机学院 计算机科学技术系
SLIQ:一种快速可伸缩分类器 Manish Mehta, Rakesh Agrawal, Jorma Rissanen IBM Almaden Research Center, 1996 报告人:郭新涛
分类 IRLAB.
動畫演示 Node規範了一些基本的方法,像是增加節點、刪除節點、讓節點做一些事、取得第n個節點等等
Cloud Operating System - Unit 03: 雲端平台建構實驗
資料表示方法 資料儲存單位.
MultiThread Introduction
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
非負矩陣分解法介紹 報告者:李建德.
連結資料庫 MYSQL.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
第8章 Spark MLlib (PPT版本号: 2019年春季学期)
11621 : Small Factors ★★☆☆☆ 題組:Problem Set Archive with Online Judge
Gaussian Process Ruohua Shi Meeting
第三十單元 極大與極小.
分類樹(Classification Tree)探討Baseball Data
Presentation transcript:

Classification Rule - Decision Tree 鄒明城

起源 樹狀結構以大量運用於computer science,例如資料結構、資料庫索引、complier中,但直到近10年來才開始運用於知識的發掘與表達 1984年Breiman等所發表的Classification and Regression Tree一書,使得decision tree開始於統計界獲得認同 1986年Quinlan於Machine Learning Journal所發表Induction of decision tree文章,並介紹了ID3演算法,開啟了日後在data mining 領域上的後續研究 後續有C4.5, CART, CHAID等演算法提出

近來,常被用來與類神經網路作比較,它最大的特點是;可以很明確的表達出rule,解釋推論的前因後果,是一種white box model 可以以自然語言表達出來,,更可以很方便的轉成SQL語言,有利於從關連式資料庫中建立Data mining的機制 屬於監督式分類的一種,它必須包含有一組訓練資料,並且事先為每一資料做分類,經過學習後產生正確的描述或模式,然後再通過一組測試資料來作驗證,可用於未來的分類與預測,

ID3 (Iterative Dichotomiser 3) 原理 以top-down 的方式,所有的training data由root node開始,以data structure中建tree的方式來建立 它藉由可供區別的屬性,以遞迴的方式不斷切割訓練樣本成為具有相同性質的群組,至於區別屬性的選擇則以資訊理論中的Entropy(火商)或是資訊增益(Information Gain)方式來衡量,具有越大區別性的屬性優先被選出,整個過程不斷重複直到每筆記錄均已歸屬為某一分類

How to split a node (attribute) 建立評量函數(Goodness Function),透過評量函數找出最適宜切割的屬性欄位 Goodness Fuction 種類 Information Gain Gini Index Inference Power

Information Gain 評估選擇具有最高information gain 的欄位做為tree node 切割的依據 P:所有資料樣本數 m 個類別在P中,P(P1,p2,p3,p4…pm),每個有 pi的object Expected Info 為

Information Gain (cont’d) The expected information required for the tree with A as root is obtained as the weighted average

Information Gain (cont’d) Information gain by braching on A is Gain(A) = I(p1, p2…pm) - E(A) example I(p,n) = -9/14 log2 *9/14 - 5/14 log2 5/14 = 0.94 p1=2 n1=3, I(p1,n1) = 0.97 p2=4, n2=0, I(p2,n2)= 0 p3=3, n3=2, I(p3,n3)= 0.97 E(外觀) = 5/14*I(p1,n1) + 4/14*I(p2,n2) + 5/14*I(p3,n3) = 0.694 Gain(外觀) = 0.94 - 0.694 = 0.246

Information Gain (cont’d) 同理可得 Gain(溫度) = 0.029 Gain(溼度) ﹦0.151 Gain(風力) = 0.048 故選擇外觀做為第一個切割的屬性 其餘再以外觀的各個值做為root,藉由SQL選出選出對應者,再以同樣的方式找出各node之最大information gain 欄位,如此不斷遞迴建構下去,直到leaf node即結束

Gini Index If a data set T contains examples from n classes, gini index, gini(T) is defined as where pj is the relative frequency of class j in T If a data set T is split into two subsets T1 and T2 with sizes N1 and N2 respectively, the gini index of the split data contains examples from n classes, the gini index ginisplit(T)is defined as

Gini Index 具有最低ginisplit(T)值的屬性欄位,優先被選來做為node 的切割

Node split Split node 的方法並沒有絕對的好與壞,有學者研究使用adaptive 方式,動態的來找尋最適當的分割法來分割各個node 不重要的field甚至不會出現在tree 中

如何使用Decision Tree 直接 間接 根據資料的屬性直接導入decision tree中作測試 由root至leaf追蹤最後所到達leaf的分類標籤,即完成分類的預測 間接 將decision轉換成分類法則 追蹤每一條由root至leaf的路徑即可構成一條rule 建立成易於人類觀察的IF THEN rule,並且可以建立成為專家系統的知識庫

優點 可產生易於了解的法則 可用於Rule-Oriented domain 分類計算簡潔,十分適合於大量分類的場合 易於轉換成自然語言以及SQL 可用於Rule-Oriented domain 分類計算簡潔,十分適合於大量分類的場合 具有處理continuous and categorical 變數的能力, 統計以及類神經對於categorical變數的處理處理能力較差 可找出較重要性的欄位 可與類神經連用,做為類神經訓練網路之用

弱點 較不適用於連續值或時序列資料的預估 當所欲分類的類別太多時容易出錯 訓練時的計算成本很高