Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2015 Fall 1
Data Mining 工具 The R Project for Statistical Computing http://www.r-project.org/ Weka : Data Mining Software in Java http://www.cs.waikato.ac.nz/ml/weka/ SAS Enterprise Miner (EM) Business Analytics and Business Intelligence Software IBM SPSS Predictive analytics software and solutions and others
Using Weka (1) 下載Weka (含Java 7) 安裝後執行 亦可獨立下載安裝Java 7 (支援ODBC) 後再下載Weka ZIP, 解壓縮後點weka.jar執行 http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html http://prdownloads.sourceforge.net/weka/weka-3-6-11.zip
Using Weka (2) 可參考手冊 WekaManual.pdf 下載Access資料庫tennis.accdb,在ODBC新增來源名稱為tennis,供待會連接使用 啟動Weka後,點選KnowledgeFlow
Using Weka (3) 選擇DataSources→DatabaseLoader 置放在工作區,選取後按右鍵選Configure…
輸入 jdbc:odbc:tennis SELECT outlook, temperature, humidity, windy, play FROM playtennis
Using Weka (4) 放置Evaluation→ClassAssigner,以及TrainingSetMaker 放置Classifiers→trees→J48 (即C4.5演算法之實作) 放置Visualization→TextViewer
Using Weka (5) 在DatabaseLoader按右鍵選dataSet到ClassAssigner 在ClassAssigner按右鍵選dataSet到TrainingSetMaker 在TrainingSetMaker按右鍵選trainingSet到J48 在J48按右鍵選text到TextViewer
Using Weka (6) 在ClassAssigner按右鍵選configure確認目標欄位是play 在DatabaseLoader按右鍵選Start loading 執行完畢,在TextViewer按右鍵選Show results看結果
Using Weka (7) Clustering 使用Simple Kmeans演算法,用TextViewer看結果 以k=3為例
Using Weka (8) Association 使用Apriori演算法,用TextViewer看結果 只能處理nominal value
Using Weka (9) Association 使用Apriori演算法結果如下 * 決策樹的每條path可能就是一條rule;可能會找到更多的rules
Using R with Database (1) 挑選CRAN(Comprehensive R Archive Network)中之站點,下載R安裝後執行 http://cran.csie.ntu.edu.tw/ 台大資工站點 選擇base版本下載,點擊安裝 之後執行R
Using R with Database (2) 安裝RODBC套件 選程式套件>安裝程式套件>挑選CRAN站點: 0-Cloud 選RODBC後即可 執行指令 library(RODBC) 載入該套件 c <- odbcConnect(“tennis”) 開啟連線, 取名為c sqlTables(c) 列出該ODBC來源的所有表格
Using R with Database (3) 執行指令 sqlFetch(c, “playtennis”) 從該來源取出某張表 sqlQuery(c, “SELECT outlook, temperature, humidity, windy, play FROM playtennis”) 從該來源執行某句SQL
執行結果