分類:基本概念、決策樹與模型評估
在資料探勘的領域中,決策樹(decision trees)被認為是一種樹狀結構的規則(經常被稱為關聯性規則)。 決策樹資料探勘包含了蒐集分析者認為與決策有關的變數,以及分析這些變數對預測結果的能力。
首先,需要有一個训练集(training set),將許多已知的資料數據化後,建立分類模式 (歸納) 隨後,將检验集(test set)(測試資料集)經由分類模式對未知類別的資料做分類 (推論)
分類的準確度評估 「分類矩陣」(Classification matrix) 會透過判斷預測值是否符合實際值,將模型中的所有案例分類到不同的類別目錄。每個類別目錄中的所有案例都會計算在內,而且總數會顯示在矩陣中。 分類矩陣是統計模型評估的標準工具,有時稱為「混淆矩阵」(Confusion matrix)。
選擇分類矩陣時所建立的圖表,會比較實際值與每個預測狀態的預測值。 矩陣的資料列代表模型的預測值,而資料行則代表實際值。 用於分析的類別目錄包括「誤判」(False positive)、 「真肯定」(True positive)、 「誤否定」(False negative) 和 「真否定」(True negative)。
分類矩陣-舉例 要測試決策樹模型的預期效用,可以使用內含已知[自行車購買者]的結果屬性值資料集。 要測試決策樹模型的預期效用,可以使用內含已知[自行車購買者]的結果屬性值資料集。 只有兩種可能的結果: [是] (客戶可能購買自行車) 及 [否] (客戶可能不購買自行車)。 因此,產生的分類矩陣是比較簡單的。
分類矩陣-舉例 準確率 = 正確預測數 預測總數 = 362+373 362+144+121+373 預測的 否 (實際值) 是 (實際值) 否 362 144 是 121 373 準確率 = 正確預測數 預測總數 = 362+373 362+144+121+373 錯誤率 = 錯誤預測數 預測總數 = 121+144 362+144+121+373
決策樹的工作原理 以動物為例,怎麼判斷新物種是否為哺乳動物? 對物種的特徵提出一系列的問題 是否為恆溫動物?會不會下蛋產卵?(除了例外) 上述表明,透過提出關於哺乳類特徵的檢驗屬性之種種問題,對分類有極高的幫助 這一系列的問題集答案,可以組織成一顆決策樹
一個決策樹包含三種類型的節點: 決策節點:通常用矩形框來表式 機會節點:通常用圓圈來表式 終結點: 通常用三角形來表示
如何建立決策樹 Hunt算法 Entropy heuristic(熵啟發式方法) 用熵值(entropy)衡量每個變數的區別能力 二元屬性 標稱屬性 序數屬性 連續屬性 Entropy heuristic(熵啟發式方法) 用熵值(entropy)衡量每個變數的區別能力
熵的概念最早起源於物理學,用於度量一個熱力學系統的無序程度(無序=高S)。在資訊理論裡面,熵是對於不確定性的測量。 熱學 S=∑(δQi/Ti) Q=路徑,T=溫度 熱力學機率 S=k*lnΩ 其中,Ω為宏觀狀態中所包含之微觀狀態數量,k是波資漫常數(1.38*10^(-23))
Entropy 一枚公正的硬幣,丟硬幣的熵等於其能夠達到的最大值。每一次拋硬幣都是不可預測的。因此,使用一枚正常硬幣進行若干次拋擲,這個事件的熵是一位元,因為結果不外乎兩個——正面或者反面,可以表示為0, 1編碼,而且兩個結果彼此之間相互獨立。若進行n次獨立實驗,則熵為n,因為可以用長度為n的位元流表示。
參考資料 http://msdn.microsoft.com/zh-tw/library/ms174811.aspx http://spaces.isu.edu.tw/upload/19585/datamining/Lecture08.pdf http://zh.wikipedia.org/wiki/%E5%86%B3%E7%AD%96%E6%A0%91