Download presentation
Presentation is loading. Please wait.
1
分類:基本概念、決策樹與模型評估
2
在資料探勘的領域中,決策樹(decision trees)被認為是一種樹狀結構的規則(經常被稱為關聯性規則)。
決策樹資料探勘包含了蒐集分析者認為與決策有關的變數,以及分析這些變數對預測結果的能力。
3
首先,需要有一個训练集(training set),將許多已知的資料數據化後,建立分類模式 (歸納)
隨後,將检验集(test set)(測試資料集)經由分類模式對未知類別的資料做分類 (推論)
4
分類的準確度評估 「分類矩陣」(Classification matrix) 會透過判斷預測值是否符合實際值,將模型中的所有案例分類到不同的類別目錄。每個類別目錄中的所有案例都會計算在內,而且總數會顯示在矩陣中。 分類矩陣是統計模型評估的標準工具,有時稱為「混淆矩阵」(Confusion matrix)。
5
選擇分類矩陣時所建立的圖表,會比較實際值與每個預測狀態的預測值。
矩陣的資料列代表模型的預測值,而資料行則代表實際值。 用於分析的類別目錄包括「誤判」(False positive)、 「真肯定」(True positive)、 「誤否定」(False negative) 和 「真否定」(True negative)。
6
分類矩陣-舉例 要測試決策樹模型的預期效用,可以使用內含已知[自行車購買者]的結果屬性值資料集。 只有兩種可能的結果: [是] (客戶可能購買自行車) 及 [否] (客戶可能不購買自行車)。因此,產生的分類矩陣是比較簡單的。
7
分類矩陣-舉例 準確率 = 正確預測數 預測總數 = 362+373 362+144+121+373
預測的 否 (實際值) 是 (實際值) 否 362 144 是 121 373 準確率 = 正確預測數 預測總數 = 錯誤率 = 錯誤預測數 預測總數 =
8
決策樹的工作原理 以動物為例,怎麼判斷新物種是否為哺乳動物? 對物種的特徵提出一系列的問題 是否為恆溫動物?會不會下蛋產卵?(除了例外)
上述表明,透過提出關於哺乳類特徵的檢驗屬性之種種問題,對分類有極高的幫助 這一系列的問題集答案,可以組織成一顆決策樹
9
一個決策樹包含三種類型的節點: 決策節點:通常用矩形框來表式 機會節點:通常用圓圈來表式 終結點: 通常用三角形來表示
10
如何建立決策樹 1.Hunt算法
11
表示屬性測試的方法 二元屬性 標稱屬性 序數屬性 連續屬性
12
參考資料 http://msdn.microsoft.com/zh-tw/library/ms174811.aspx
Similar presentations