The iris Dataset (鳶尾花資料集) Sources (Perhaps the best known dataset in pattern recognition) Creator: R.A. Fisher Donor: Michael Marshall Date: July, 1988 Data Set Characteristics : Multivariate Associated Task : Classification Number of Instances: 150 (50 in each of 3 classes) Number of Input Attributes: 4, numeric Missing Attribute Values: None Attribute Information sepal length, sepal width, petal length, petal width (all in cm) class: iris Setosa, iris Versicolour, iris Virginica (3 classes) 2017/3/5 1
鳶尾花經典分類 Iris Versicolour (變色鳶尾) Iris Setosa (山鳶尾) Iris Virginica (青龍鳶尾) 2017/3/5 2
鳶尾花(iris, 愛麗絲) 科別:鳶尾科多年生草本 生長適溫約攝氏20~28度 iris源於希臘語,意思是彩虹 特性: 有根莖鳶尾和球莖鳶尾之分 高30~40公分 葉劍形帶狀 三片花瓣,多為藍或紫色 三片花蕚,多為藍或紫色 《鳶尾花》是梵谷的知名作品之一 2017/3/5 3
鳶尾花 三片花瓣為白色,三片花萼為藍紫褐色 花莖外形與葉片相似 叢生,葉為細劍形 2017/3/5 4
The Glass Identification Dataset (玻璃識別資料集) Data Location : UCI Archive Dataset name : glass Data Set Characteristics : Multivariate Associated Task : Classification Number of Instances: 214 (in 7 classes) Number of Input Attributes: 9, numeric Missing Attribute Values: None Attribute Information RI, Na, Mg, Al, Si, K, Ca, Ba, Fe 7 Classes (One of them has 0 records) 2017/3/5 5
玻璃識別資料集的屬性簡介 屬性簡稱 全名 中譯 RI 折射率 Na 鈉 Mg 鎂 Al 鋁 Si 矽 K 鉀 Ca 鈣 Ba 鋇 Fe 鐵 Refractive Index 折射率 Na Sodium 鈉 Mg Magnesium 鎂 Al Aluminum 鋁 Si Silicon 矽 K Potassium 鉀 Ca Calcium 鈣 Ba Barium 鋇 Fe Iron 鐵 2017/3/5 6
The Glass Identification Dataset (玻璃識別資料集) 源於犯罪的調查 若能將犯罪現場所殘留的玻璃碎片做正確的識別,則可以當作證據使用 Data Source Creator : B. German USA Forensic Science Service (美國法庭科學服務) Donor : Vina Spiehler, Ph.D. Vina比較她的rule-based系統(BEAGLE), kNN, 和區別式分析法(discriminant analysis)的差異 Date: 1987-09-01 2017/3/5 7
玻璃簡介 玻璃是一種透明具一定硬度的物質 常溫下穩定,呈現化學惰性,不易與其它生活常用物質起作用 生活常用的玻璃的主要成份是二氧化矽(SiO2,砂的主要成份) 玻璃會因混含的少量元素和生產方式的不同,而有不同的性質,因此會有不同的生活用途 2017/3/5 8
玻璃識別資料集的類別簡介 類別 全名 筆數 1 Building windows (float process) 浮式製程窗戶 70 2 Building windows (non float process) 非浮式製程窗戶 76 3 Vehicle windows (float process) 浮式製程車窗 17 4 Vehicle windows (non float process) 非浮式製程車窗 5 Containers 容器 13 6 Tableware 餐具 9 7 Headlamps 燈罩 29 2017/3/5 9
浮式製程玻璃的核心製程 讓玻璃濃凝液浮於1100oC的錫液上成均勻薄片,再以帶狀的型式連續抽出,逐漸冷卻凝固成亮面後(因此不須拋光),再切割成製品 2017/3/5 10
如何改善玻璃識別資料集的Visualization 2017/3/5 Black and white, not in colors 11
玻璃識別資料集的J48分析結果 windows very confused for the first 3 classes 目前的分類方式 準確度不高 windows very confused for the first 3 classes 2017/3/5 12
J48為玻璃識別資料集建立的決策樹 共有30 leaves 因此共有30條規則 2017/3/5 13
改善分類的技巧一 以類別合併的方式來改善分類識別的準確度 將子類別合併成大類別 以合併後的資料建立大類別的分類模型 以子類別的資料再建立子類別的分類模型 2017/3/5 14
玻璃識別資料集的類別合併方式 1 (為了改善分類識別) 全名 筆數 A Building windows (float process) 浮式製程窗戶 70 Building windows (non float process) 非浮式製程窗戶 76 3 Vehicle windows (float process) 浮式製程車窗 17 4 Vehicle windows (non float process) 非浮式製程車窗 5 Containers 容器 13 6 Tableware 餐具 9 7 Headlamps 燈罩 29 2017/3/5 15
玻璃識別資料集的類別合併方式 1 合併後剩5個類別 2017/3/5 16
類別合併方式 1中J48的10-fold分析結果 still confused for the first 2 classes 分類方式 1 中 準確度提高約16.4% still confused for the first 2 classes 2017/3/5 17
J48為類別合併方式 1 建立的決策樹 共有27 leaves 因此共有27條規則 2017/3/5 18
玻璃識別資料集的類別1與2 類別1與2共146筆資料 2017/3/5 19
類別1與2的J48 10-fold分析結果 less confused for classes 1 and 2 準確度提高約8.7% 2017/3/5 20
J48為類別1與2建立的決策樹 共有9 leaves 因此共有9條規則 2017/3/5 21
改善分類的技巧二 增加分類樹上葉節點的資料筆數 來減少分類識別的規則數目 2017/3/5 22
讓葉節點最少含8筆資料的J48 10-fold分析結果 1. 設定葉節點最少含8筆資料 2. 準確度未降低 3. Class b can’t be identified effectively. It mixes with class A. 2017/3/5 23
讓葉節點最少含8筆資料所建立的決策樹 (規則數目顯著減少) 共有5 leaves 因此共有5條規則 2017/3/5 24
玻璃識別資料集的類別合併方式 2 類別 全名 筆數 A 70 76 17 5 13 6 9 7 29 Building windows (float process) 浮式製程窗戶 70 Building windows (non float process) 非浮式製程窗戶 76 Vehicle windows (float process) 浮式製程車窗 17 Vehicle windows (non float process) 非浮式製程車窗 5 Containers 容器 13 6 Tableware 餐具 9 7 Headlamps 燈罩 29 2017/3/5 25
玻璃識別資料集的類別合併方式 2 合併後剩4個類別 2017/3/5 26
類別合併方式 2中J48的10-fold分析結果 less confused for the first 2 classes 分類方式 1 中 準確度提高約23.8% less confused for the first 2 classes 2017/3/5 27
J48為類別合併方式 2 建立的決策樹 共有9 leaves 因此共有9條規則 2017/3/5 28
讓葉節點最少含8筆資料的J48 10-fold分析結果 1. 設定葉節點最少含8筆資料 2. 準確度未降低 2017/3/5 29
讓葉節點最少含8筆資料所建立的決策樹 (規則數目減少 : 9 → 5) 共有5 leaves 因此共有5條規則 2017/3/5 30