分類:基本概念、決策樹與模型評估.

Slides:



Advertisements
Similar presentations
第七章 思考與問題解決 黃 囇 ( ㄌㄧˊ ) 莉 通識教育中心 教授  思考 (thinking)  一種創造與組織訊息的心理功能。  批判性 ( 評論性 ) 思考 (critical thinking)  一種表徵訊息與處理訊息的心智歷程,通常是為了解答、 判斷、決策或推理。  問題解決.
Advertisements

本文摘自商周第 974 期〈正面思考的威力〉 商周數位學院 先進觀念 輕鬆掌握 第 974 期〈正面思考的威力〉 建議最佳閱讀版本: powerpoint 2000.
西安交通大学 1. 2 概述 筛检和诊断试验的评价 提高筛检效率方法 西安交通大学 3 筛查起源于 19 世纪的结核病预防。一直 以来广泛运用于慢性病的早期诊断。从疾病 防治的过程来看,它属于一级和二级预防; 从对象和目的来看,它具有突出的公共卫生 意义;从实施来看,它要求检测方法快速、 简便、经济、安全。
SCI 论文网 SCI论文写作 ——诊断试验类.
医学基础知识教育课程 泰山医学院 基础医学部.
基于大数据挖掘的电话销售策略 --- 以百姓网电话销售业务为例
普通話水平測試 考試課程與能力等級說明 查詢
國立嘉義大學 資訊工程研究所 指導教授:柯建全 博士 研究生:林俊志
第一章EXCEL高级应用 1.3 数据分析和决策.
Chapter Eleven 智力的本質.
第七讲 第3章 Office 2000_Excel 2000(二)
问卷调查的规范与技术 问卷调查的规范与技术.
大学英语四六级考试改革介绍.
授課主題:生涯規劃之自我概念與自我肯定 授課教授:郭武平教授 授課班級: 授課時間:
國小階段「性教育」議題之概念與教學 晏涵文
周围神经疾病.
罗兰说 “要撒播阳光到别人心中,总要自己心中有阳光。”
老子的素朴 厦门大学计算机科学系 庄朝晖.
迴圈 迴圈基本觀念 while迴圈 do 迴圈 for迴圈 巢狀迴圈 迴圈設計注意事項 其他控制指令 迴圈與選擇的組合.
99年成語200題庫(21-40).
台南市立醫院N3F.
第五讲 国家公务员制度 主要内容: 一、当代中国公务员制度的建立、发展 二、中国公务员制度建设的内涵与特色 三、中西公务员制度改革比较
第七章 筛检 Screening.
第十章《热力学定律 》 10.5《热力学第二定律 的微观解释》.
第四章 公务员的职务与级别.
電腦網路遊戲外掛偵測機制及處理流程之研究
Artificial Intelligence 人 工 智 能
生物科 陳鳳娟老師.
Chapter 6 家庭與家計單位對消費者行為的影響.
99年度學生健檢說明簡報.
計算機概論 使用Excel製作試算表.
編者按:嬰兒進食,吃奶,好像是最自然不過的生理情況。但是,其過程中,實在需要嬰兒口部和食道各組肌肉的精密協調,也需要媽媽及嬰兒的積極參與。
上課囉 職場甘苦談 小資男孩向錢衝 育碁數位科技 呂宗益/副理.
第 5 章 流程控制 (一): 條件分支.
主讲人:高亚兵 浙江外国语学院教育科学学院
報告人:古博文 彰師大運動健康研究所副教授 人權教育基金會執行長 100年8月
新北市政府消防局緊急救護科 老人急症與創傷的評估、處置與情境操作.
数制转换及运算 主要内容 二、八、十六进制的表示 二、八、十六进制与十进制间的转换 二进制运算(算术运算和逻辑运算)
型II誤差機率的計算 Calculating Type II Error Probabilities
Excel 自学教程.
三、機率(Probability) (Chapter 4)
一、實習目的 1、瞭解各種閂鎖器之特性。 2、瞭解各種正反器之特性。 3、瞭解各種正反器之邏輯功能。 4、瞭解正反器之應用。
Source: IEEE Access, vol. 5, pp , October 2017
SQL Server 2008 資料採礦: 資料採礦An Overview of Key Data Mining Capabilities
遠東科技大學資訊工程系 王善揚 可嵌入物件題庫系統 設計與開發 遠東科技大學資訊工程系 王善揚
模块一 汽车电气设备基础 1.1 汽车电气设备的作用
程式語言Visual Basic 重複結構 黃瀧輝 老師 Long Hwai,Huang.
常用資料採礦技術介紹 關聯分組(associations)、分類(classification)、時序相關(sequence)、預測(forecasting)、群集化(clustering)以及描述等分析作業,目前常用的資料採礦技術有決策樹、類神經網路、基因演算法以及即時線上分析(OLAP)
指導教授 張寶棣 助教 黃智穎 第十七組 B 物理三 李明哲 B 大氣三 吳宛真
第10章 Authorware 程序设计 新乡学院 教育技术学教研室.
第四章 分类方法 内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 2019年2月21日星期四
赵才荣 同济大学,电子与信息工程学院,智信馆410室
Course 4 分類與預測 Classification and Prediction
先進觀念 • 輕鬆掌握 商周數位學院 第974期〈正面思考的威力〉 建議最佳閱讀版本:powerpoint 2000.
愛的真諦Meaning of True Love
Training Project 05 培训项目 政策市场培训 汽车行业细分市场分析 汽车行业专项政策解读 市场决策流程管理
列王紀下.
前言 顏面畸形及咬合不正的分類 理想之咬合 另外也可粗略分成以下各型: 齒列疏鬆型 齒列擁擠型 第一類 (直臉) 深咬型 前牙開咬型 第二類
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
進階資料結構(2) Disjoint Sets
熱量總是由高溫的系統流向低溫的系統。 熱交互作用在時間上似乎是有方向性。 能否有辦法來判斷一個反應的方向? 力學碰撞是沒有時間的方向性的。
IPv6环境下个性化网络学习系统 设计及实现 作者:和珍珍、张晖、李波、王祎珺.
空間關係分類以及相似性量測之 範用結構 A General Framework For Classification and Similarity Measure of Spatial Relationship 研究生:洪宗賢 指導教授:蔣依吾 博士 國立中山大學資訊工程學系.
An Quick Introduction to R and its Application for Bioinformatics
河口生態系 紅樹林.
指導老師:陳永進老師 朝陽科技大學98學年度第一學期
空間關係分類以及相似性量測之 範用結構 A General Framework For Classification and Similarity Measure of Spatial Relationship 研究生:洪宗賢 指導教授:蔣依吾 博士 國立中山大學資訊工程學系.
利未五祭(三) 平安祭 與神和好感恩祭 利未記(三1-17).
精進優質 計畫方案 104-1良師甲工精進教學計畫 計畫目標 各教學單位辦理教師增能研習,期能對新課程的架構與 精神有更深一層的認知與準備。
App Inventor 2.
Presentation transcript:

分類:基本概念、決策樹與模型評估

在資料探勘的領域中,決策樹(decision trees)被認為是一種樹狀結構的規則(經常被稱為關聯性規則)。 決策樹資料探勘包含了蒐集分析者認為與決策有關的變數,以及分析這些變數對預測結果的能力。

首先,需要有一個训练集(training set),將許多已知的資料數據化後,建立分類模式 (歸納) 隨後,將检验集(test set)(測試資料集)經由分類模式對未知類別的資料做分類 (推論)

分類的準確度評估 「分類矩陣」(Classification matrix) 會透過判斷預測值是否符合實際值,將模型中的所有案例分類到不同的類別目錄。每個類別目錄中的所有案例都會計算在內,而且總數會顯示在矩陣中。 分類矩陣是統計模型評估的標準工具,有時稱為「混淆矩阵」(Confusion matrix)。

選擇分類矩陣時所建立的圖表,會比較實際值與每個預測狀態的預測值。 矩陣的資料列代表模型的預測值,而資料行則代表實際值。 用於分析的類別目錄包括「誤判」(False positive)、 「真肯定」(True positive)、 「誤否定」(False negative) 和 「真否定」(True negative)。

分類矩陣-舉例 要測試決策樹模型的預期效用,可以使用內含已知[自行車購買者]的結果屬性值資料集。 要測試決策樹模型的預期效用,可以使用內含已知[自行車購買者]的結果屬性值資料集。  只有兩種可能的結果: [是] (客戶可能購買自行車) 及 [否] (客戶可能不購買自行車)。 因此,產生的分類矩陣是比較簡單的。

分類矩陣-舉例 準確率 = 正確預測數 預測總數 = 362+373 362+144+121+373 預測的 否 (實際值) 是 (實際值) 否 362 144 是 121 373 準確率 = 正確預測數 預測總數 = 362+373 362+144+121+373 錯誤率 = 錯誤預測數 預測總數 = 121+144 362+144+121+373

決策樹的工作原理 以動物為例,怎麼判斷新物種是否為哺乳動物? 對物種的特徵提出一系列的問題 是否為恆溫動物?會不會下蛋產卵?(除了例外) 上述表明,透過提出關於哺乳類特徵的檢驗屬性之種種問題,對分類有極高的幫助 這一系列的問題集答案,可以組織成一顆決策樹

一個決策樹包含三種類型的節點: 決策節點:通常用矩形框來表式 機會節點:通常用圓圈來表式 終結點: 通常用三角形來表示

如何建立決策樹 Hunt算法 Entropy heuristic(熵啟發式方法) 用熵值(entropy)衡量每個變數的區別能力 二元屬性 標稱屬性 序數屬性 連續屬性 Entropy heuristic(熵啟發式方法) 用熵值(entropy)衡量每個變數的區別能力

熵的概念最早起源於物理學,用於度量一個熱力學系統的無序程度(無序=高S)。在資訊理論裡面,熵是對於不確定性的測量。 熱學 S=∑(δQi/Ti) Q=路徑,T=溫度 熱力學機率 S=k*lnΩ 其中,Ω為宏觀狀態中所包含之微觀狀態數量,k是波資漫常數(1.38*10^(-23))

Entropy 一枚公正的硬幣,丟硬幣的熵等於其能夠達到的最大值。每一次拋硬幣都是不可預測的。因此,使用一枚正常硬幣進行若干次拋擲,這個事件的熵是一位元,因為結果不外乎兩個——正面或者反面,可以表示為0, 1編碼,而且兩個結果彼此之間相互獨立。若進行n次獨立實驗,則熵為n,因為可以用長度為n的位元流表示。

參考資料 http://msdn.microsoft.com/zh-tw/library/ms174811.aspx http://spaces.isu.edu.tw/upload/19585/datamining/Lecture08.pdf http://zh.wikipedia.org/wiki/%E5%86%B3%E7%AD%96%E6%A0%91