Course 4 分類與預測 Classification and Prediction

Slides:



Advertisements
Similar presentations
许瑞云医师 你已经很努力地注意饮食、作息、运动, 为什么身体还不能恢复健康 ? 细节 答案就在「 细节 」裡, 唯有掌握关键的一步, 养生才能达到真 正的功效 ! 现在就让我们跟着曾是全球知名的哈 佛医院主治医师的许瑞云, 学习最正确 的养生方法, 轻松打下健康满分的基础 !
Advertisements

1. 一. 人口分布  全球約十分之九的人口集中在北半球。  三大人口稠密區:亞洲東南半壁、歐洲、北美洲東部  季風亞洲人口占全球一半。  人口稀少區 太乾-北非撒哈拉沙漠 太濕-亞馬孫、剛果雨林 太冷-西伯利亞、南極 崎嶇-東非、青藏高原 2 台灣人口分佈狀況 (04 : 43) p.83.
REGRESSION AND CLASSIFICATION TREES 迴歸與分類樹. 簡介 傳統的複迴歸分析,假設誤差項服從常態分配,所 以複迴歸分析是一種有母數 (parametric) 方法。 本章將介紹一種常用的無母數 (non-parametric) 的 迴歸方法,此法稱為決策樹 (decision.
呼吸道传染病的预防 郑州市骨科医院. 一、什么是呼吸道传染病 二、常见的呼吸道传染病有哪 些 三、日常生活中如何预防.
手动换页 域外风情系列 儿子去美国留学,毕业后定居美国。还给我找了 个洋媳妇苏珊。如今,小孙子托比已经 3 岁了。 今年夏天,儿子为我申请了探亲签证。在美国待 了三个月,洋媳妇苏珊教育孩子的方法,令我这 个中国婆婆大开眼界。
99學年度第1學期導師輔導工作座談會 全校性共同必修服務學習課程 報告單位:學務處領導知能與服務學習中心.
台灣首府大學 樂齡大學講座系列 財務規劃與財產繼承 主講人:李錦智.
海洋教育:教科書、教師與教學 第七至十章導讀 宏仁國中 林珮瑜
4月2日是安徒生诞辰200周年纪念日,世界各国的读者以各种各样的方式怀念这位给儿童带来感动和快乐的童话巨人。
香港基督少年軍第188分隊 安全章一/二級課程 第八講 傳染病! 2011年7月16日.
互联网金融之金融数据挖掘 邹永杰 江西财经大学金融学院.
Data Mining: Concepts and Techniques
语文选修课程的开发与实践 之我见 浙江省永嘉中学 周康平.
第一章 会计信息系统 第一节 计算机会计概述.
從能力指標談寫作教學 (第一階段) 梁 財 妹.
反思人类中心论 弱人类中心主义 非人类中心主义 非人类中心主义的意义与困境
同样的权利 同样的爱护.
新闻写作——通讯 主讲人:张萱
老子的素朴 厦门大学计算机科学系 庄朝晖.
Some Knowledge of Machine Learning(1)
分類:基本概念、決策樹與模型評估.
民眾心目中的理想牙科服務 報告人:鄭信忠 中華民國家庭牙醫學會理事長/北醫大學附設醫院副院長.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
洗手 感染科詹雅涵感管師.
传染病.
第五讲 国家公务员制度 主要内容: 一、当代中国公务员制度的建立、发展 二、中国公务员制度建设的内涵与特色 三、中西公务员制度改革比较
TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design
系統分析與設計 系級:資管三B 姓名:朱秋儒 學號:
总有一种力量让我们热泪盈眶.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
校園植物探索之旅 架構設計、資料蒐集、照片整理 王雅芬 老師.
高中信息技术(必修) 信 息 价 值 的 判 断 宣汉县第二中学 彭长然 上课了.
中国文学 王馨.
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
一言之辩强于九鼎之宝 三寸之舌胜于百万雄师
模糊控制在機台保養決策之應用 A Fuzzy Logic Model Using on the Maintenance Decision Making 盧 坤 勇 國立聯合大學電子工程系.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
经济法 富国?富民? 税法篇.
學習共同體實施心得分享 新泰國中 報告者 張國振校長.
臺北市立松山家商 103學年度第1學期 學校日 教學說明 簡報
第2节 来 自 微 生 物 的 威 胁
「以人為本,關懷生命」-弘光科技大學推動「友善校園」策略與成效
Source: IEEE Access, vol. 5, pp , October 2017
SQL Server 2008 資料採礦: 資料採礦An Overview of Key Data Mining Capabilities
第三章 分类方法 内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题
Data Mining 工具介紹 (Weka+JDBC)
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
常用資料採礦技術介紹 關聯分組(associations)、分類(classification)、時序相關(sequence)、預測(forecasting)、群集化(clustering)以及描述等分析作業,目前常用的資料採礦技術有決策樹、類神經網路、基因演算法以及即時線上分析(OLAP)
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
第一章 線性方程組.
CascaDB/TokuDB性能与适用场景分享
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
决策树算法及应用拓展 内容简介: 概述 预备知识 捕捉变化数据的挖掘方法 小结 决策树生成(Building Decision Tree)
赵才荣 同济大学,电子与信息工程学院,智信馆410室
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
贈與契約.
浙江大学医学院公共技术平台 实验仪器预约管理系统系列培训 医学院公共技术平台 丁巧灵
選擇勞退新制,終身免煩惱 勞工退休金新制 說明會.
第十章 線上行銷研究.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
微信商城系统操作说明 色卡会智能门店.
机器学习-概念学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
設計者:台中市重慶國小 張祐榕.楊晟汶.張儷齡
SLIQ:一种快速可伸缩分类器 Manish Mehta, Rakesh Agrawal, Jorma Rissanen IBM Almaden Research Center, 1996 报告人:郭新涛
第六章 样本及抽样分布 §2 抽样分布 4) 正态总体的样本均值与样本方差的分布: 定理1.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
台灣與世界 南台科技大學 課程資訊 課程名稱 台灣與世界 課程編碼 01D11503 系所代碼/名稱 00 / 共同科 開課班級
績優教師分享 美容保健科 林品瑄 教師.
分類樹(Classification Tree)探討Baseball Data
Presentation transcript:

Course 4 分類與預測 Classification and Prediction

 分類 VS. 預測 分類︰ 預測︰ 典型應用 預測分類標號(或離散值) 根據訓練資料集和類標號屬性,構建模型來分類現有資料,並用來分類新資料 預測︰ 建立連續函數值模型,比如預測空缺值 典型應用 信譽證實 目標市場 醫療診斷 性能預測

分類(Classification) 分類的意義 分類模型 資料庫 預測 瞭解類別屬性與 特徵

 資料分類: 一個兩步過程 第一步,建立一個模型,描述預定資料類集和概念集 假定每個元組屬於一個預定義的類,由一個類標號屬性確定 基本概念 訓練資料集︰由為建立模型而被分析的資料元組形成 訓練樣本︰訓練資料集中的單個樣本(元組) 學習模型可以用分類規則、決策樹或數學公式的形式提供

第二步,使用模型,對將來的或未知的對象進行分類 首先評估模型的預測準確率 對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較 模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比 測試集要獨立於訓練樣本集,否則會出現“過分適應資料”的情況

第一步: 建立模型 分類演算法 訓練資料集 分類規則 IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’

第二步: 用模型進行分類 分類規則 測試集 未知資料 (Jeff, Professor, 4) Tenured?

2.模型評估(Model Evaluation) 3.使用模型(Use Model) 1.模型建立(Model Building) 2.模型評估(Model Evaluation) 3.使用模型(Use Model) 性別 年齡 婚姻 否 是 Female Male <35 ≧35 未婚 已婚 分類規則 IF 性別=Female AND 年齡<35 THEN 購買RV房車=否 IF 性別=Female AND 年齡≧35 THEN 購買RV房車=是 IF 性別=Male AND 婚姻=未婚 THEN 購買RV房車=否 IF 性別=Male AND 婚姻=已婚 THEN 購買RV房車=是 資料庫 訓練樣本(training samples) 建立模型 測試樣本(testing samples) 評估模型

X Example 2. 模型評估 1.建立模型 婚姻 年齡 否 是 未婚 已婚 低 高 小康 資料 訓練樣本 錯誤率為 66.67% 家庭 所得 否 是 未婚 已婚 <35 ≧35 低 高 小康 資料 訓練樣本 測試樣本 X 錯誤率為 66.67% 3.使用模型 修改模型

分類的目的 1.尋找影響某一重要變項的因素。 2.了解某一族群的特徵。 3.建立分類規則。 例如: 行銷策略(市場區隔) 銀行(核卡額度) 醫療診斷(肝癌,SARS)

 有指導的學習 VS. 無指導的學習 有指導的學習(用於分類) 無指導的學習(用於聚類) 模型的學習在被告知每個訓練樣本屬於哪個類別的“指導”下進行 新資料使用訓練資料集中得到的規則進行分類 無指導的學習(用於聚類) 每個訓練樣本的類別編號是未知的,要學習的類別集合或數量也可能是事先未知的 透過一系列的度量、觀察來建立資料中的類別編號或進行聚類

1.監督式(supervised learning)的機器學習法------ 決策樹(Decision Tree) 資料庫 分類標記 性別 Female Male 年齡 婚姻 <35 ≧35 未婚 已婚 否 是

2.非監督式(unsupervised learning)的機器學習法----- 集群分析法(Cluster Analysis)

 準備分類和預測的資料 透過對資料進行預處理,可以提升分類和預測過程的準確性、有效性和可伸縮性 資料清理 相關性分析 資料變換 消除或減少噪音,處理空缺值,從而減少學習時的混亂 相關性分析 資料中的有些屬性可能與當前任務不相關;也有些屬性可能是冗餘的;刪除這些屬性可以加快學習步驟,使學習結果更精確 資料變換 可以將資料概化到較高層概念,或將資料進行規範化

 比較分類方法 使用下列標準比較分類和預測方法 預測的準確率︰模型正確預測新資料的類編號的能力 速度︰產生和使用模型的計算花銷 訓練測試法(training-and-testing) 交互驗證法(cross-validation) 速度︰產生和使用模型的計算花銷 健壯性︰給定噪音資料或有空缺值的資料,模型正確預測的能力 可伸縮性︰對大量資料,有效的構建模型的能力 可解釋性︰學習模型提供的理解和洞察的層次

 用決策樹歸納分類 什麼是決策樹? 決策樹的生成由兩個階段組成 決策樹的使用︰對未知樣本進行分類 類似於流程圖的樹架構 每個內部節點表示在一個屬性測試 每個分枝代表一個測試輸出 每個樹葉節點代表類別或類別分佈 決策樹的生成由兩個階段組成 決策樹構建 開始時,所有的訓練樣本都在根節點 遞迴的透過選定的屬性,來劃分樣本 (必須是離散值) 樹剪枝 許多分枝反映的是訓練資料中的噪音和孤立點,樹剪枝試圖檢測和剪去這種分枝 決策樹的使用︰對未知樣本進行分類 透過將樣本的屬性值與決策樹相比較

決策樹(Decision Tree)之介紹 根部節點(root node) 中間節點(non-leaf node) (代表測試的屬性) 分支(branches) (代表測試的結果) 葉節點(leaf node) (代表分類後所獲得的分類標記)

age income student credit_rating buys_computer <=30 high no fair excellent 31…40 yes >40 medium low

概念“buys_computer”的決策樹 age? overcast student? credit rating? no yes fair excellent <=30 >40 30..40

基本的決策樹學習演算法 基本的演算法概念: 採用自頂端向下的貪婪搜索遍歷可能的決策樹空間 ID3是這種演算法的代表 將原始資料分成兩組,一部分為訓練資料,一部分為測試資料 使用訓練資料來建立決策樹,而在每一個內部節點,則依據資訊理論(Information Theory)來評估選擇哪個屬性繼續做分支的依據,又稱節點分割 (Splitting Node) 使用測試資料來進行決策樹修剪 將以上1~3步驟不斷遞迴進行,直到所有的新內部節點都是樹葉節點為止,且: 該群資料中,每一筆資料都已經歸類在同一類別下 該群資料中,已經沒有辦法再找到新的屬性來進行節點分割 該群資料中,已經沒有任何尚未處理的資料 採用自頂端向下的貪婪搜索遍歷可能的決策樹空間 ID3是這種演算法的代表

決策樹歸納策略 樹以代表訓練樣本的單個節點開始 如果樣本都在同一個類別,則該節點成為樹葉,並用該類別標記 否則,算法使用基於熵的度量: 資訊獲利作為指導訊息,選擇能夠最好的將樣本分類的屬性;該屬性成為節點的“測試”或“判定”屬性。(使用分類屬性) 對測試屬性每個已知的值,創建一個分支,並以此劃分樣本

算法使用同樣的過程,遞迴的形成每個劃分上的樣本決策樹。一旦一個屬性出現下一個節點上,就不在該節點的任何子節點上出現 遞迴劃分步驟停止的條件 給定節點的所有樣本屬於同一類 沒有剩餘屬性可以用來進一步劃分樣本: 使用多數表決 沒有剩餘的樣本

ID3演算法的核心問題是選取樹中的每個節點所要測試的屬性。 我們希望選擇的是最有助於分類Instance的屬性,那麼好的評定標準是什麼? 最佳分類屬性 ID3演算法的核心問題是選取樹中的每個節點所要測試的屬性。 我們希望選擇的是最有助於分類Instance的屬性,那麼好的評定標準是什麼? 資訊獲利 (Information Gain) ID3在建構決策樹過程中,以資訊獲利為準則,並選擇最大的資訊獲利值作為分類屬性。

用熵 (Entropy)來衡量範例的一致性 熵,可當作資訊量的凌亂程度 (不確定性) 指標,當熵值愈大,則代表資訊的凌亂程度愈高。(又可稱為期望資訊量) 【說明範例】丟銅板 若銅板是公平的,則丟出正面與反面的機率是一樣的 若銅板是動過手腳的,則丟出正面與反面的機率不會是樣的 給定包含關於此範例的範例集S,那麼S相對這個布林分類的熵為 Entropy(S)=-p+log2p+ - p-log2p- 若丟了14次銅板,出現了9個正面與5個反面(記為[9+, 5-]),則對於這個範例的熵為: Entropy([9+, 5-])= -(9/14)log2 (9/14) – (5/14) log2 (5/14) = 0.94 若銅板丟出正面與反面的數量是一樣,則熵為1 若銅板是動過手腳的,不論怎麼丟都只會出現正面 (或反面),則熵為0

更一般地,如果目標屬性具有c個不同的值,那麼S相對於c個狀態的分類的熵定義為 Entropy(S)= 其中pi 為每個狀態出現的機率

用資訊獲利 (Information Gain) 衡量期望的熵降低 【說明範例】天氣評估 假設有一套天氣評估系統S,它有一些評估屬性 (如: 風力、濕度、…)。 以風力 (Wind)為例,它在所有的訓練資料中所會出現的值為: weak, strong 若目前有14個範例資料,其中有9個正例與5個反例(記為[9+, 5-]) 這14個範例資料中,關於風力的資料: Wind = weak在所有範例中有6個正例與2個反例 [6+, 2-] Wind = strong在所有範例中有3個正例與3個反例 [3+, 3-] 我們想要得知風力這個屬性的資訊獲利為多少。

因此,一個評估屬性A相對於範例集合S的資訊獲利Gain(S, A)被定義為:

ID3演算法舉例 挑出具最大資訊獲利的屬性,因此以Outlook為根節點 (root) Sunny Overcast Rain Yes = 2 No = 3 Yes = 4 No = 0 Yes = 3 No = 2 Temp. Hot Mild Cool Yes = 2 No = 2 Yes = 4 Yes = 3 No = 1 Gain(S, Outlook) = 0.246 Gain(S, Temperature) = 0.029 Humidity High Normal Yes = 3 No = 4 Yes = 6 No = 1 Wind Weak Strong Yes = 6 No = 2 Yes = 3 No = 3 Gain(S, Humidity) = 0.151 Gain(S, Wind) = 0.048 挑出具最大資訊獲利的屬性,因此以Outlook為根節點 (root) 由於Outlook的三個評估值中,Overcast(多雲)的這個評估值得到4個正例 (Yes),沒有任何反例,因此Outlook = Overcast可得到一個葉子節點 “Yes”。

Outlook Temp. Humidity Wind Sunny Overcast Rain Yes = 2 No = 3 Yes = 3 No = 2 Yes NO Yes Temp. Hot Mild Cool Yes = 0 No = 2 Yes = 1 No = 1 No = 0 Humidity High Normal Yes = 0 No = 3 Yes = 2 No = 0 Wind Weak Strong Yes = 1 No = 2 No = 1 Gain( SSunny , Temp.) = 0.57 Gain( SSunny , Humidity) = 0.97 Gain( SSunny , Wind) = 0.019

分類規則: If Outlook = Sunny and Humidity = High Then Play Tennis = No If Outlook = Sunny and Humidity = Normal Then Play Tennis = Yes If Outlook = Overcast Then Play Tennis = Yes If Outlook = Rain and Wind = Strong Then Play Tennis = No If Outlook = Rain and Wind = Weak Then Play Tennis = Yes

 防止分類中的過分適應 產生的決策樹會出現過分適應資料的問題 防止過分適應的兩種方法 決策樹學習可能遭遇模型過度配適(overfitting)的問題 過度配適是指模型過度訓練,導致模型記住的不是訓練集的一般性,反而是訓練集的局部特性。 由於資料中的噪音和孤立點,許多分枝回應的是訓練資料中的異常 對新樣本的判定很不精確 Data Mining的主要目的,是為了協助企業追求最高利潤而非追求最高準確度。 防止過分適應的兩種方法 先剪枝︰透過提前停止樹的構造──如果在一個節點劃分樣本將導致低於預定義臨界值的分裂(e.g. 使用資訊獲利度量) 選擇一個合適的臨界值往往很困難 後剪枝︰由“完全生長”的樹剪去分枝──對於樹中的每個非樹葉節點,計算該節點上的子樹被剪枝可能出現的期望錯誤率 使用一個獨立的測試集來評估每顆樹的準確率,就能得到具有最小期望錯誤率的決策樹

其他分類方法 k-最臨近分類 基於案例的推理 貝氏分類 神經網路學習 遺傳算法 結合生物進化思想的算法 模糊集方法

什麼是預測? 預測是構造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。 預測和分類的異同 相同點 不同點 兩者都需要構建模型 都用模型來估計未知值 預測當中主要的估計方法是回歸分析 線性回歸和多元回歸 非線性回歸 不同點 分類法主要是用來預測類標號(分類屬性值) 預測法主要是用來估計連續值(量化屬性值)