Course 4 分類與預測 Classification and Prediction

Slides:

Advertisements

Similar presentations

许瑞云医师你已经很努力地注意饮食、作息、运动, 为什么身体还不能恢复健康 ? 细节答案就在「细节」裡，唯有掌握关键的一步, 养生才能达到真正的功效 ! 现在就让我们跟着曾是全球知名的哈佛医院主治医师的许瑞云, 学习最正确的养生方法, 轻松打下健康满分的基础 !

Advertisements

1. 一. 人口分布  全球約十分之九的人口集中在北半球。  三大人口稠密區：亞洲東南半壁、歐洲、北美洲東部  季風亞洲人口占全球一半。  人口稀少區太乾－北非撒哈拉沙漠太濕－亞馬孫、剛果雨林太冷－西伯利亞、南極崎嶇－東非、青藏高原 2 台灣人口分佈狀況 (04 ： 43) p.83.

REGRESSION AND CLASSIFICATION TREES 迴歸與分類樹. 簡介傳統的複迴歸分析，假設誤差項服從常態分配，所以複迴歸分析是一種有母數 (parametric) 方法。本章將介紹一種常用的無母數 (non-parametric) 的迴歸方法，此法稱為決策樹 (decision.

呼吸道传染病的预防郑州市骨科医院. 一、什么是呼吸道传染病二、常见的呼吸道传染病有哪些三、日常生活中如何预防.

手动换页域外风情系列儿子去美国留学，毕业后定居美国。还给我找了个洋媳妇苏珊。如今，小孙子托比已经 3 岁了。今年夏天，儿子为我申请了探亲签证。在美国待了三个月，洋媳妇苏珊教育孩子的方法，令我这个中国婆婆大开眼界。

99學年度第1學期導師輔導工作座談會全校性共同必修服務學習課程報告單位：學務處領導知能與服務學習中心.

台灣首府大學樂齡大學講座系列財務規劃與財產繼承主講人:李錦智.

海洋教育:教科書、教師與教學第七至十章導讀宏仁國中林珮瑜

4月2日是安徒生诞辰200周年纪念日，世界各国的读者以各种各样的方式怀念这位给儿童带来感动和快乐的童话巨人。

香港基督少年軍第188分隊安全章一／二級課程第八講傳染病! 2011年7月16日.

互联网金融之金融数据挖掘邹永杰江西财经大学金融学院.

Data Mining: Concepts and Techniques

语文选修课程的开发与实践之我见浙江省永嘉中学周康平.

第一章　会计信息系统第一节　计算机会计概述.

從能力指標談寫作教學 (第一階段) 梁財妹.

反思人类中心论弱人类中心主义非人类中心主义非人类中心主义的意义与困境

同样的权利同样的爱护.

新闻写作——通讯主讲人：张萱

老子的素朴厦门大学计算机科学系庄朝晖.

Some Knowledge of Machine Learning（1）

分類：基本概念、決策樹與模型評估.

民眾心目中的理想牙科服務報告人：鄭信忠中華民國家庭牙醫學會理事長／北醫大學附設醫院副院長.

校园信息管理系统河北科技大学网络中心 2000/4/10.

洗手感染科詹雅涵感管師.

第五讲国家公务员制度主要内容：一、当代中国公务员制度的建立、发展二、中国公务员制度建设的内涵与特色三、中西公务员制度改革比较

TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design

系統分析與設計系級：資管三B 姓名：朱秋儒學號：

总有一种力量让我们热泪盈眶.

徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之

校園植物探索之旅架構設計、資料蒐集、照片整理王雅芬老師.

高中信息技术（必修）信息价值的判断宣汉县第二中学彭长然上课了.

中国文学王馨.

讲义大家好！根据局领导的指示，在局会计科和各业务科室的安排下，我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽，便于我们为预算单位提供更优质的服务。下面我主要从三方面介绍集中支付业务，一是网上支付系统，二是集中支付业务流程及规定等，

一言之辩强于九鼎之宝三寸之舌胜于百万雄师

模糊控制在機台保養決策之應用 A Fuzzy Logic Model Using on the Maintenance Decision Making 盧坤勇國立聯合大學電子工程系.

中国人民公安大学经费管理办法（试行）第一章总则第四条：“一支笔” “一支笔”--仅指单位主要负责人。负责对本单位的经费进行审核审批。

经济法富国？富民？税法篇.

學習共同體實施心得分享新泰國中報告者張國振校長.

臺北市立松山家商 103學年度第1學期學校日教學說明簡報

第2节来自微生物的威胁

「以人為本，關懷生命」-弘光科技大學推動「友善校園」策略與成效

Source: IEEE Access, vol. 5, pp , October 2017

SQL Server 2008 資料採礦：資料採礦An Overview of Key Data Mining Capabilities

第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类规则归纳与分类有关的问题

Data Mining 工具介紹 (Weka+JDBC)

Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育

常用資料採礦技術介紹關聯分組(associations)、分類(classification)、時序相關(sequence)、預測(forecasting)、群集化(clustering)以及描述等分析作業，目前常用的資料採礦技術有決策樹、類神經網路、基因演算法以及即時線上分析（OLAP）

生物信息学 Bioinformatics 巩晶癌症研究中心山东大学医学院

第一章線性方程組.

CascaDB/TokuDB性能与适用场景分享

物联网数据处理第一讲数据处理基本概念刘进军 QQ：

决策树算法及应用拓展内容简介：概述预备知识捕捉变化数据的挖掘方法小结决策树生成(Building Decision Tree)

赵才荣同济大学，电子与信息工程学院，智信馆410室

常見的巨量資料分析與應用楊立偉教授台大工管系暨商研所 2018.

浙江大学医学院公共技术平台实验仪器预约管理系统系列培训医学院公共技术平台丁巧灵

選擇勞退新制，終身免煩惱勞工退休金新制說明會.

第十章線上行銷研究.

主講人：陳鴻文副教授銘傳大學資訊傳播工程系所日期：3/13/2010

微信商城系统操作说明色卡会智能门店.

机器学习-概念学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏

常見的巨量資料分析與應用楊立偉教授台大工管系暨商研所 2017.

設計者：台中市重慶國小張祐榕.楊晟汶.張儷齡

SLIQ：一种快速可伸缩分类器 Manish Mehta, Rakesh Agrawal, Jorma Rissanen IBM Almaden Research Center, 1996 报告人：郭新涛

第六章样本及抽样分布 §２抽样分布 4) 正态总体的样本均值与样本方差的分布：定理1.

大綱一.受試者之禮券/禮品所得稅規範二.範例介紹三.自主管理四.財務室提醒.

台灣與世界南台科技大學課程資訊課程名稱台灣與世界課程編碼 01D11503 系所代碼/名稱 00 / 共同科開課班級

績優教師分享美容保健科林品瑄教師.

分類樹(Classification Tree)探討Baseball Data

Presentation transcript:

Course 4 分類與預測 Classification and Prediction

 分類 VS. 預測分類︰預測︰典型應用預測分類標號（或離散值）根據訓練資料集和類標號屬性，構建模型來分類現有資料，並用來分類新資料預測︰建立連續函數值模型，比如預測空缺值典型應用信譽證實目標市場醫療診斷性能預測

分類(Classification) 分類的意義分類模型資料庫預測瞭解類別屬性與特徵

 資料分類: 一個兩步過程第一步，建立一個模型，描述預定資料類集和概念集假定每個元組屬於一個預定義的類，由一個類標號屬性確定基本概念訓練資料集︰由為建立模型而被分析的資料元組形成訓練樣本︰訓練資料集中的單個樣本（元組）學習模型可以用分類規則、決策樹或數學公式的形式提供

第二步，使用模型，對將來的或未知的對象進行分類首先評估模型的預測準確率對每個測試樣本，將已知的類標號和該樣本的學習模型類預測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立於訓練樣本集，否則會出現“過分適應資料”的情況

第一步: 建立模型分類演算法訓練資料集分類規則 IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’

第二步: 用模型進行分類分類規則測試集未知資料 (Jeff, Professor, 4) Tenured?

2.模型評估(Model Evaluation) 3.使用模型(Use Model) 1.模型建立(Model Building) 2.模型評估(Model Evaluation) 3.使用模型(Use Model) 性別年齡婚姻否是 Female Male <35 ≧35 未婚已婚分類規則 IF 性別=Female AND 年齡<35 THEN 購買RV房車=否 IF 性別=Female AND 年齡≧35 THEN 購買RV房車=是 IF 性別=Male AND 婚姻=未婚 THEN 購買RV房車=否 IF 性別=Male AND 婚姻=已婚 THEN 購買RV房車=是資料庫訓練樣本(training samples) 建立模型測試樣本(testing samples) 評估模型

X Example 2. 模型評估 1.建立模型婚姻年齡否是未婚已婚低高小康資料訓練樣本錯誤率為 66.67% 家庭所得否是未婚已婚 <35 ≧35 低高小康資料訓練樣本測試樣本 X 錯誤率為 66.67% 3.使用模型修改模型

分類的目的 1.尋找影響某一重要變項的因素。 2.了解某一族群的特徵。 3.建立分類規則。例如: 行銷策略(市場區隔) 銀行(核卡額度) 醫療診斷(肝癌,SARS)

 有指導的學習 VS. 無指導的學習有指導的學習（用於分類）無指導的學習（用於聚類）模型的學習在被告知每個訓練樣本屬於哪個類別的“指導”下進行新資料使用訓練資料集中得到的規則進行分類無指導的學習（用於聚類）每個訓練樣本的類別編號是未知的，要學習的類別集合或數量也可能是事先未知的透過一系列的度量、觀察來建立資料中的類別編號或進行聚類

1.監督式(supervised learning)的機器學習法------ 決策樹(Decision Tree) 資料庫分類標記性別 Female Male 年齡婚姻 <35 ≧35 未婚已婚否是

2.非監督式(unsupervised learning)的機器學習法----- 集群分析法(Cluster Analysis)

 準備分類和預測的資料透過對資料進行預處理，可以提升分類和預測過程的準確性、有效性和可伸縮性資料清理相關性分析資料變換消除或減少噪音，處理空缺值，從而減少學習時的混亂相關性分析資料中的有些屬性可能與當前任務不相關；也有些屬性可能是冗餘的；刪除這些屬性可以加快學習步驟，使學習結果更精確資料變換可以將資料概化到較高層概念，或將資料進行規範化

 比較分類方法使用下列標準比較分類和預測方法預測的準確率︰模型正確預測新資料的類編號的能力速度︰產生和使用模型的計算花銷訓練測試法(training-and-testing) 交互驗證法(cross-validation) 速度︰產生和使用模型的計算花銷健壯性︰給定噪音資料或有空缺值的資料，模型正確預測的能力可伸縮性︰對大量資料，有效的構建模型的能力可解釋性︰學習模型提供的理解和洞察的層次

 用決策樹歸納分類什麼是決策樹？決策樹的生成由兩個階段組成決策樹的使用︰對未知樣本進行分類類似於流程圖的樹架構每個內部節點表示在一個屬性測試每個分枝代表一個測試輸出每個樹葉節點代表類別或類別分佈決策樹的生成由兩個階段組成決策樹構建開始時，所有的訓練樣本都在根節點遞迴的透過選定的屬性，來劃分樣本（必須是離散值）樹剪枝許多分枝反映的是訓練資料中的噪音和孤立點，樹剪枝試圖檢測和剪去這種分枝決策樹的使用︰對未知樣本進行分類透過將樣本的屬性值與決策樹相比較

決策樹(Decision Tree)之介紹根部節點(root node) 中間節點(non-leaf node) (代表測試的屬性) 分支(branches) (代表測試的結果) 葉節點(leaf node) (代表分類後所獲得的分類標記)

age income student credit_rating buys_computer <=30 high no fair excellent 31…40 yes >40 medium low

概念“buys_computer”的決策樹 age? overcast student? credit rating? no yes fair excellent <=30 >40 30..40

基本的決策樹學習演算法基本的演算法概念: 採用自頂端向下的貪婪搜索遍歷可能的決策樹空間 ID3是這種演算法的代表將原始資料分成兩組，一部分為訓練資料，一部分為測試資料使用訓練資料來建立決策樹，而在每一個內部節點，則依據資訊理論(Information Theory)來評估選擇哪個屬性繼續做分支的依據，又稱節點分割 (Splitting Node) 使用測試資料來進行決策樹修剪將以上1~3步驟不斷遞迴進行，直到所有的新內部節點都是樹葉節點為止，且: 該群資料中，每一筆資料都已經歸類在同一類別下該群資料中，已經沒有辦法再找到新的屬性來進行節點分割該群資料中，已經沒有任何尚未處理的資料採用自頂端向下的貪婪搜索遍歷可能的決策樹空間 ID3是這種演算法的代表

決策樹歸納策略樹以代表訓練樣本的單個節點開始如果樣本都在同一個類別，則該節點成為樹葉，並用該類別標記否則，算法使用基於熵的度量: 資訊獲利作為指導訊息，選擇能夠最好的將樣本分類的屬性；該屬性成為節點的“測試”或“判定”屬性。（使用分類屬性）對測試屬性每個已知的值，創建一個分支，並以此劃分樣本

算法使用同樣的過程，遞迴的形成每個劃分上的樣本決策樹。一旦一個屬性出現下一個節點上，就不在該節點的任何子節點上出現遞迴劃分步驟停止的條件給定節點的所有樣本屬於同一類沒有剩餘屬性可以用來進一步劃分樣本: 使用多數表決沒有剩餘的樣本

ID3演算法的核心問題是選取樹中的每個節點所要測試的屬性。我們希望選擇的是最有助於分類Instance的屬性，那麼好的評定標準是什麼？最佳分類屬性 ID3演算法的核心問題是選取樹中的每個節點所要測試的屬性。我們希望選擇的是最有助於分類Instance的屬性，那麼好的評定標準是什麼？資訊獲利 (Information Gain) ID3在建構決策樹過程中，以資訊獲利為準則，並選擇最大的資訊獲利值作為分類屬性。

用熵 (Entropy)來衡量範例的一致性熵，可當作資訊量的凌亂程度 (不確定性) 指標，當熵值愈大，則代表資訊的凌亂程度愈高。(又可稱為期望資訊量) 【說明範例】丟銅板若銅板是公平的，則丟出正面與反面的機率是一樣的若銅板是動過手腳的，則丟出正面與反面的機率不會是樣的給定包含關於此範例的範例集S，那麼S相對這個布林分類的熵為 Entropy(S)=-p+log2p+ - p-log2p- 若丟了14次銅板，出現了9個正面與5個反面(記為[9+, 5-])，則對於這個範例的熵為: Entropy([9+, 5-])= -(9/14)log2 (9/14) – (5/14) log2 (5/14) = 0.94 若銅板丟出正面與反面的數量是一樣，則熵為1 若銅板是動過手腳的，不論怎麼丟都只會出現正面 (或反面)，則熵為0

更一般地，如果目標屬性具有c個不同的值，那麼S相對於c個狀態的分類的熵定義為 Entropy(S)= 其中pi 為每個狀態出現的機率

用資訊獲利 (Information Gain) 衡量期望的熵降低【說明範例】天氣評估假設有一套天氣評估系統S，它有一些評估屬性 (如: 風力、濕度、…)。以風力 (Wind)為例，它在所有的訓練資料中所會出現的值為: weak, strong 若目前有14個範例資料，其中有9個正例與5個反例(記為[9+, 5-]) 這14個範例資料中，關於風力的資料: Wind = weak在所有範例中有6個正例與2個反例 [6+, 2-] Wind = strong在所有範例中有3個正例與3個反例 [3+, 3-] 我們想要得知風力這個屬性的資訊獲利為多少。

因此，一個評估屬性A相對於範例集合S的資訊獲利Gain(S, A)被定義為:

ID3演算法舉例挑出具最大資訊獲利的屬性，因此以Outlook為根節點 (root) Sunny Overcast Rain Yes = 2 No = 3 Yes = 4 No = 0 Yes = 3 No = 2 Temp. Hot Mild Cool Yes = 2 No = 2 Yes = 4 Yes = 3 No = 1 Gain(S, Outlook) = 0.246 Gain(S, Temperature) = 0.029 Humidity High Normal Yes = 3 No = 4 Yes = 6 No = 1 Wind Weak Strong Yes = 6 No = 2 Yes = 3 No = 3 Gain(S, Humidity) = 0.151 Gain(S, Wind) = 0.048 挑出具最大資訊獲利的屬性，因此以Outlook為根節點 (root) 由於Outlook的三個評估值中，Overcast(多雲)的這個評估值得到4個正例 (Yes)，沒有任何反例，因此Outlook = Overcast可得到一個葉子節點 “Yes”。

Outlook Temp. Humidity Wind Sunny Overcast Rain Yes = 2 No = 3 Yes = 3 No = 2 Yes NO Yes Temp. Hot Mild Cool Yes = 0 No = 2 Yes = 1 No = 1 No = 0 Humidity High Normal Yes = 0 No = 3 Yes = 2 No = 0 Wind Weak Strong Yes = 1 No = 2 No = 1 Gain( SSunny , Temp.) = 0.57 Gain( SSunny , Humidity) = 0.97 Gain( SSunny , Wind) = 0.019

分類規則: If Outlook = Sunny and Humidity = High Then Play Tennis = No If Outlook = Sunny and Humidity = Normal Then Play Tennis = Yes If Outlook = Overcast Then Play Tennis = Yes If Outlook = Rain and Wind = Strong Then Play Tennis = No If Outlook = Rain and Wind = Weak Then Play Tennis = Yes

 防止分類中的過分適應產生的決策樹會出現過分適應資料的問題防止過分適應的兩種方法決策樹學習可能遭遇模型過度配適（overfitting）的問題過度配適是指模型過度訓練，導致模型記住的不是訓練集的一般性，反而是訓練集的局部特性。由於資料中的噪音和孤立點，許多分枝回應的是訓練資料中的異常對新樣本的判定很不精確 Data Mining的主要目的，是為了協助企業追求最高利潤而非追求最高準確度。防止過分適應的兩種方法先剪枝︰透過提前停止樹的構造──如果在一個節點劃分樣本將導致低於預定義臨界值的分裂（e.g. 使用資訊獲利度量）選擇一個合適的臨界值往往很困難後剪枝︰由“完全生長”的樹剪去分枝──對於樹中的每個非樹葉節點，計算該節點上的子樹被剪枝可能出現的期望錯誤率使用一個獨立的測試集來評估每顆樹的準確率，就能得到具有最小期望錯誤率的決策樹

其他分類方法 k-最臨近分類基於案例的推理貝氏分類神經網路學習遺傳算法結合生物進化思想的算法模糊集方法

什麼是預測？預測是構造和使用模型評估無樣本類，或評估給定樣本可能具有的屬性或值空間。預測和分類的異同相同點不同點兩者都需要構建模型都用模型來估計未知值預測當中主要的估計方法是回歸分析線性回歸和多元回歸非線性回歸不同點分類法主要是用來預測類標號（分類屬性值）預測法主要是用來估計連續值（量化屬性值）