分類:基本概念、決策樹與模型評估.

Slides:



Advertisements
Similar presentations
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
Advertisements

單元九:單因子變異數分析.
中二數學 第五章 : 二元一次方程 二元一次方程的圖像.
分類:基本概念、決策樹與模型評估.
99年成語200題庫(21-40).
08 CSS 基本語法 8-1 CSS 的演進 8-2 CSS 樣式規則與選擇器 8-3 連結HTML 文件與CSS 樣式表
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
主讲人:高亚兵 浙江外国语学院教育科学学院
新北市政府消防局緊急救護科 老人急症與創傷的評估、處置與情境操作.
Views ,Stored Procedures, User-defined Function, Triggers
放大器-頻率響應實驗 科系:通訊工程學系 執導老師:王志湖 學號:B 姓名:何信賢.
Project 2 JMVC code tracing
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2014 Fall 1.
Different Codec Technologies
遠東科技大學資訊工程系 王善揚 可嵌入物件題庫系統 設計與開發 遠東科技大學資訊工程系 王善揚
音樂之旅 第一冊 單元十 曲式──二段體、三段體.
邏輯迴歸 Logistic Regression
類別(class) 類別class與物件object.
Pull-down assay (His-Tag or GST-Tag)
視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生:顏羽君
CH03 資訊管理的智慧觀點:技術篇.
大調音階 李金桂 製作.
2.資料分類 Classification 分類範例一:鳶尾花各種分類模型 分類範例二:新生兒體重數值預測 分類範例三:交叉驗證與部署模型
網路安全技術 OSI七層 學生:A 郭瀝婷 指導教授:梁明章.
虎克定律與簡諧運動 教師:鄒春旺 日期:2007/10/8
動物世界.
第 19 章 XML記憶體執行模式.
MNIST 手寫數字影像辨識.
六9考題(物質循環) 自然界中的二氧化碳會經由哪兩種作用而循環不已? (10%)
桑河數位科技.
網頁資料知多少? 事 實 ? 謠言?.
哪些人是管理者? 管理者? 指和一群人工作,並藉由協調他人來完成工作,以便達成組織目標的人
Random Forest (隨機森林) 學號:R 姓名:王順達
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
數字定位棋 1-7
NSC D 蔣依吾 中山大學資訊工程系 紅外線點目標的檢知法則 Automatic detection of small targets in infrared image sequences containing evolving cloud clutter NSC D
CH05. 選擇敘述.
愛的真諦Meaning of True Love
共源極頻率響應 科系:通訊工程學系 執導老師:王志湖 學號:B 姓名:何信賢.
Cross-Selling Strategies in e-Marketing
Class & Object 靜宜大學資工系 蔡奇偉副教授 ©2011.
第十三單元 旋轉體的體積-剝殼法.
電子期刊使用統計 CONCERT 2002 meeting November 13-14, 2002 羅宙康 Springer-Verlag
DRC with Calibre 課程名稱:VLSI 報告人:黃家洋 日期: 改版(蔡秉均) 1.
MicroSim pspice.
流程控制:Switch-Case 94學年度第一學期‧資訊教育 東海大學物理系.
交流電路(R-L) R-L Series Circuits ATS電子部製作.
MiRanda Java Interface v1.0的使用方法
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
第八章 銷售預測(2).
座標系統與圖形介面 分子結構的建立.
12797: Letters ★★★☆☆ 題組:Problem Set Archive with Online Judge
動畫演示 Node規範了一些基本的方法,像是增加節點、刪除節點、讓節點做一些事、取得第n個節點等等
第五章 過帳及分類帳 5-1 過帳之意義及分類帳之功用 5-2 分類帳之種類 5-3 分類帳之格式 5-4 過帳之方法 5-5 帳戶之餘額.
OMIM教學投影片 網址: 點此下載.
使用VHDL設計-8x3編碼電路 通訊一甲 B 楊穎穆.
Parasitics Extraction (PEX) 與 postsimulation(posim)
歸納法(1):歸納法的類別.
期末報告第一題 通訊四甲 B 湯智瑋.
第一章 直角坐標系 1-3 函數及其圖形.
第十三章 彩色影像處理.
作業系統實習課(二) -Scheduler-Related System Calls-
Test for R Data Processing & Graphics
一 可靠度問題.
第四組 停車場搜尋系統 第四組 溫允中 陳欣暉 蕭積遠 李雅俐.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
String類別 在C語言中提供兩種支援字串的方式 可以使用傳統以null結尾的字元陣列 使用string類別
NFC (近場通訊, Near Field Communication) 靜宜大學資管系 楊子青
10303: How Many Trees? ★★☆☆☆ 題組:Contest Archive with Online Judge
Develop and Build Drives by Visual C++ IDE
Presentation transcript:

分類:基本概念、決策樹與模型評估

在資料探勘的領域中,決策樹(decision trees)被認為是一種樹狀結構的規則(經常被稱為關聯性規則)。 決策樹資料探勘包含了蒐集分析者認為與決策有關的變數,以及分析這些變數對預測結果的能力。

首先,需要有一個训练集(training set),將許多已知的資料數據化後,建立分類模式 (歸納) 隨後,將检验集(test set)(測試資料集)經由分類模式對未知類別的資料做分類 (推論)

分類的準確度評估 「分類矩陣」(Classification matrix) 會透過判斷預測值是否符合實際值,將模型中的所有案例分類到不同的類別目錄。每個類別目錄中的所有案例都會計算在內,而且總數會顯示在矩陣中。 分類矩陣是統計模型評估的標準工具,有時稱為「混淆矩阵」(Confusion matrix)。

選擇分類矩陣時所建立的圖表,會比較實際值與每個預測狀態的預測值。 矩陣的資料列代表模型的預測值,而資料行則代表實際值。 用於分析的類別目錄包括「誤判」(False positive)、 「真肯定」(True positive)、 「誤否定」(False negative) 和 「真否定」(True negative)。

分類矩陣-舉例 要測試決策樹模型的預期效用,可以使用內含已知[自行車購買者]的結果屬性值資料集。  只有兩種可能的結果: [是] (客戶可能購買自行車) 及 [否] (客戶可能不購買自行車)。因此,產生的分類矩陣是比較簡單的。

分類矩陣-舉例 準確率 = 正確預測數 預測總數 = 362+373 362+144+121+373 預測的 否 (實際值) 是 (實際值) 否 362 144 是 121 373 準確率 = 正確預測數 預測總數 = 362+373 362+144+121+373 錯誤率 = 錯誤預測數 預測總數 = 121+144 362+144+121+373

決策樹的工作原理 以動物為例,怎麼判斷新物種是否為哺乳動物? 對物種的特徵提出一系列的問題 是否為恆溫動物?會不會下蛋產卵?(除了例外) 上述表明,透過提出關於哺乳類特徵的檢驗屬性之種種問題,對分類有極高的幫助 這一系列的問題集答案,可以組織成一顆決策樹

一個決策樹包含三種類型的節點: 決策節點:通常用矩形框來表式 機會節點:通常用圓圈來表式 終結點: 通常用三角形來表示

如何建立決策樹 1.Hunt算法

表示屬性測試的方法 二元屬性 標稱屬性 序數屬性 連續屬性

參考資料 http://msdn.microsoft.com/zh-tw/library/ms174811.aspx http://spaces.isu.edu.tw/upload/19585/datamining/Lecture08.pdf http://zh.wikipedia.org/wiki/%E5%86%B3%E7%AD%96%E6%A0%91