Data Mining 工具介紹 (Weka/R to MySQL)

Slides:



Advertisements
Similar presentations
庄文忠 副教授 世新大学行政管理学系 2012/7/6 SPSS 之应用 ( 庄文忠副教授 ) 1 SPSS 的环境与基本操作.
Advertisements

Big Data Ecosystem – Hadoop Distribution
数据库概述 简而言之,数据库(DataBase)就是一个存储数据的仓库。为了方便数据的存储和管理,它将数据按照特定的规律存储在磁盘上。通过数据库管理系统,可以有效的组织和管理存储在数据库中的数据。如今,已经存在了Oracle、SQL Server、MySQL等诸多优秀的数据库。在这一章中将讲解的内容包括。
MySQL資料庫安全管理.
手持裝置應用系統之設計 與未來發展 黃有評 大同大學 資訊工程系.
題目:十六對一多工器 姓名:李國豪 學號:B
第十五章 常見的資料庫管理系統 目的 Oracle 微軟SQL Server 微軟Access MySQL Oracle 應用伺服器
臺北市立大學 資訊科學系(含碩士班) 賴阿福
程式設計概論 1.1 程式設計概論 程式語言的演進 物件導向程式 程式開發流程 1.2 C++開發工具
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2014 Fall 1.
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2015 Fall 1.
How To Shrink a Partition on Your Hard Drive
MIT App Inventor簡介及 「Hello World」程式初體驗 靜宜大學資管系 楊子青
JAVA vs. SQL Server 建國科技大學 資管系 饒瑞佶 2013/4 V1.
連結資料庫 ACCESS MSSQL.
作業系統 補充: 雲端運算.
Q101 在701 SDX Linux上的標準安裝與使用程序v2
JDK 安裝教學 (for Win7) Soochow University
基礎linux指令說明 Part 1 資訊組 陳宜徽.
第1章 認識Arduino.
資料庫管理 Homework 期末專題 使用MySQL / Windows and Mac 楊立偉教授 台灣大學工管系 2017.
Data Mining 工具介紹 (Weka+JDBC)
NS2 – Installation.
第二章 Linux基本指令與工具操作 LINUX 按圖施工手冊.
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
Working with Databases (II) 靜宜大學資管系 楊子青
資料庫操作.
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
Data Mining 工具介紹 (Weka / R)
Data Mining 工具介紹 (Weka/R + ODBC)
R教學 安裝RStudio 羅琪老師.
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
安裝JDK 安裝Eclipse Eclipse 中文化
自由軟體介紹(一) 把flash通通帶回家 報告人:陳俊銘.
Windoop操作步驟 於作業系統Windows 10 專業版.
App Inventor2呼叫PHP存取MySQL
Android App簡介及 App Inventor 2體驗 靜宜大學資管系 楊子青
雲端計算.
Java程式設計 Eclipse.
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
網路科技在商店經營管理之應用 第三章 osCommerce開始安裝 Ting-Yi Chang (張庭毅)
App Inventor 2初體驗 靜宜大學資管系 楊子青
使用 Altera Quartus II 進行電路設計與模擬
本院使用建教合作之輔仁大學 圖書館資料庫 設定方式說明
Linux作業系統 電腦教室Linux使用說明.
AOT_供應商安裝手冊.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
第一個cordova project Cordova project建立與平台設定,均藉由cli(command line interface來完成 建立project請打開命令提示字元視窗應輸入下列命令 cordova create hello tw.edu.stust.mis.hello HelloWorld.
資料來源 2 網路過濾軟體之安裝說明 資料來源 2.
Install OpenCV C++ with Visual Studio 2017 on Windows PC
個人網路空間 資訊教育.
Ogive plot example 說明者:吳東陽 2003/10/10.
雲端計算.
DRC with Calibre 課程名稱:VLSI 報告人:黃家洋 日期: 改版(蔡秉均) 1.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
Text To Speech (TTS, 文字轉 語音)、讀簡訊 靜宜大學資管系 楊子青
基本指令.
数数据的基本操作 电子工业出版社.
如何從政大圖書館館藏目錄匯出書目至EndNote
班級:博碩子一甲 授課老師:鐘國家 助教:陳國政
安裝JDK 配置windows win7 環境變數
NS2 – Installation.
Cloud Training Material- 事件 Sherman Wang
連結資料庫 MYSQL.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
Term Project : Requirement
第10章 網路問卷調查.
Develop and Build Drives by Visual C++ IDE
Quantum-Wise軟體教學.
Presentation transcript:

Data Mining 工具介紹 (Weka/R to MySQL) Supplement Data Mining 工具介紹 (Weka/R to MySQL) 楊立偉教授 台灣大學工管系 2018 1

Data Mining 工具 The R Project for Statistical Computing http://www.r-project.org/ Weka : Data Mining Software in Java http://www.cs.waikato.ac.nz/ml/weka/ scikit-learn: machine learning in Python http://scikit-learn.org/stable/ SAS Enterprise Miner (EM) Business Analytics and Business Intelligence Software IBM SPSS Predictive analytics software and solutions and others

使用WEKA連接資料庫 3

Using Weka (1) 下載安裝Java 下載Weka 下載MySQL Connector/J https://www.java.com/zh_TW/download/ 下載Weka https://www.cs.waikato.ac.nz/ml/weka/downloading.html 選擇Other platforms版本,解壓縮後取得weka.jar 下載MySQL Connector/J https://dev.mysql.com/downloads/connector/j/8.0.html 選擇Platform Independent版本,解壓縮後取得mysql-connector-java-8.0.13.jar

unzip WEKA 下載跨平台版本並解壓縮至特定目錄,例如/weka https://www.cs.waikato.ac.nz/ml/weka/downloading.html V

unzip MySQL Connector/J 下載跨平台版本,並解壓縮至同一目錄,例如/weka V

Using Weka (2) 找到mysql-connector-java-8.0.13.jar 並複製到與weka.jar同一目錄下,如右圖

Windows請搜尋cmd後執行,開啟命令提示字元 開啟命令提示字元 (或終端機) Windows請搜尋cmd後執行,開啟命令提示字元 Mac請開啟工具程式下的終端機 輸入 java,若有出現版本訊息,代表java環境已備妥 利用cd指令切換至weka所在目錄 (範例是在Downloads下的weka-3-8-3) 輸入下列指令,如下圖 java -cp weka.jar;mysql-connector-java-8.0.13.jar weka.gui.GUIChooser (Mac用戶請將上述指令的分號 ; 換成冒號 :,其餘不變) 切換至該目錄

Using Weka (3) 啟動Weka後選KnowledgeFlow,在DataSources選DatabaseLoader,在右邊工作畫布上放置一個,選取後按右鍵選Configure…

Using Weka (4) Database URL輸入 輸入使用者名稱及密碼 輸入Query指令 選擇DB config file jdbc:mysql://sqldb.demo.tornado.com.tw:3306/sample?useUnicode=true&useJDBCCompliantTimezoneShift=true&useLegacyDatetimeCode=false&serverTimezone=UTC 輸入使用者名稱及密碼 輸入Query指令 SELECT outlook, temperature, humidity, windy, play FROM tennis 選擇DB config file 下載課程網頁上mysql.props檔 選擇該檔案

Using Weka (5) 在Visualization選TextViewer,在右邊工作畫布上放置一個,選取DatabaseLoader後按右鍵選dataSet,產生一條線連至TextViewer

Using Weka (6) 在左上角按下執行按鈕,下方訊息若出現Finished表示完成 (若有錯誤訊息請檢查設定) 選取TextViewer後按右鍵選Show results,若出現查詢結果表示成功

使用WEKA進行Data Mining 13

Using Weka – Tree (1) 放置Evaluation→ClassAssigner,以及TrainingSetMaker 放置Classifiers→trees→J48 (即C4.5演算法之實作) 放置Visualization→TextViewer

Using Weka – Tree (2) 在DatabaseLoader按右鍵選dataSet到ClassAssigner 在ClassAssigner按右鍵選dataSet到TrainingSetMaker 在TrainingSetMaker按右鍵選trainingSet到J48 在J48按右鍵選text到TextViewer

Using Weka – Tree (3) 在ClassAssigner按右鍵選configure確認目標欄位是play 在DatabaseLoader按右鍵選Start loading 執行完畢,在TextViewer按右鍵選Show results看結果

Using Weka – Clustering 使用Simple Kmeans演算法,用TextViewer看結果 以k=3為例

Using Weka – Association (1) 使用Apriori演算法,用TextViewer看結果 只能處理nominal value

Using Weka – Association (2) 使用Apriori演算法結果如下 * 決策樹的每條path可能就是一條rule;可能會找到更多的rules

可儲存畫布上的流程圖,重新再設計 其他可參考手冊 WekaManual.pdf http://software.ucv.ro/~eganea/AIR/KnowledgeFlowTutorial-3-5-8.pdf 推薦閱讀 tutorial 的p7~p9 如何做cross-validation,以及如何化ROC curve

使用R連接資料庫 (Windows / Mac通用) 21

Using R with Database (1) 挑選CRAN(Comprehensive R Archive Network)中之站點,下載R安裝後執行 http://cran.csie.ntu.edu.tw/ 台大資工站點 選擇base版本下載,點擊安裝 之後執行R

Using R with Database (2) 使用RODBC套件 透過ODBC介面及對應驅動程式driver 使用RJDBC套件 透過JDBC介面及對應驅動程式driver 使用RMySQL套件 透過網路協定直接連接

如果選擇RMySQL套件 選程式套件>設定CRAN鏡像>挑選站點: 0-Cloud 執行指令 install.packages("RMySQL") 安裝套件 library(RMySQL) 載入套件 library(DBI) 載入相關套件 c = dbConnect(MySQL(), host='主機名稱', user='帳戶', password='密碼', dbname='資料庫名稱') 開啟連線, 取名為c dbListTables(c) 列出有哪些表格 x = dbGetQuery(c, 'select outlook, temperature, humidity, windy, play from tennis') 執行SQL x 顯示結果

如果選擇RODBC套件 選程式套件>設定CRAN鏡像>挑選站點: 0-Cloud 執行指令 install.packages("RODBC") 安裝套件 library(RODBC) 載入套件 c <- odbcConnect('ODBC DSN名稱') 開啟連線, 取名為c x = sqlFetch(c, 'tennis') 從該來源取出某張表 x = sqlQuery(c, 'SELECT outlook, temperature, humidity, windy, play FROM tennis') 或執行SQL

執行結果

Using R with Database (3) 安裝C50套件 選程式套件>設定CRAN鏡像>挑選站點: 0-Cloud 執行指令 install.packages("C50") 安裝套件 library(C50) 載入套件 m=C5.0(x[,1:4], as.factor(x$play)) 以第1~4欄做訓練,目標欄位為play (轉換為factor型態) summary(m)

執行結果

Using R with Database (4) 安裝arules套件 選程式套件>設定CRAN鏡像>挑選站點: 0-Cloud 執行指令 install.packages("arules") 安裝套件 library(arules) 載入套件 r=apriori(x[,1:5]) 以第1~5欄分析 rs=sort(r,by='confidence') 將結果排序 inspect(rs) 顯示結果

執行結果

Good LUCK !