Data Mining 工具介紹 (Weka/R + ODBC)

Slides:



Advertisements
Similar presentations
1. 一. 人口分布  全球約十分之九的人口集中在北半球。  三大人口稠密區:亞洲東南半壁、歐洲、北美洲東部  季風亞洲人口占全球一半。  人口稀少區 太乾-北非撒哈拉沙漠 太濕-亞馬孫、剛果雨林 太冷-西伯利亞、南極 崎嶇-東非、青藏高原 2 台灣人口分佈狀況 (04 : 43) p.83.
Advertisements

庄文忠 副教授 世新大学行政管理学系 2012/7/6 SPSS 之应用 ( 庄文忠副教授 ) 1 SPSS 的环境与基本操作.
努力创建学习型党组织 莲都区委学校 刘宏华. 内容提纲 一、学习的含义。 二、学习型组织内涵。 三、建设学习型党组织的原则和要求。 主要参考书目: 《第五项修炼》,彼得 · 圣吉,中信出 版社, 2010 年 5 月第 6 次印刷。
绪论 珍惜大学生活 开拓新的境界.
Big Data Ecosystem – Hadoop Distribution
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
第五章 資訊科技基礎建設與新興科技.
C语言程序设计 李伟光.
教學經驗分享 吳毅成 國立交通大學資訊工程系 2012年4月.
SQL的简单查询.
数据分析及研究方法 ——以如何从事宏观经济课题研究为例
TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design
云计算业务应用-数据挖掘.
Oracle SQL Developer 中有哪些新增功能
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
手持裝置應用系統之設計 與未來發展 黃有評 大同大學 資訊工程系.
中国文学 王馨.
第八章 心理差异与因材施教 第一节 智力因素的个别差异与教育.
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
转正述职报告 乐恩公司 史航
商業智慧與資料倉儲 課程簡介 靜宜大學資管系 楊子青.
Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie
第二期实验室工作人员培训讲座(三) 加强规范化建设 提高仪器设备管理水平 设备处 黄久龙 2017年9月13日 徐州师范大学设备处 黄久龙.
資訊管理 第九章 資料採礦.
第十五章 常見的資料庫管理系統 目的 Oracle 微軟SQL Server 微軟Access MySQL Oracle 應用伺服器
传媒学院2013年度团委工作 总结分析报告
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2014 Fall 1.
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2015 Fall 1.
作業系統 補充: 雲端運算.
Data Mining 工具介紹 (Weka+JDBC)
高级人工智能 第十三章 知识发现 (二) 史忠植 中国科学院计算技术所 2018/11/24 史忠植 高级人工智能.
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
实验 2:MS Access QBE Query使用
Data Mining 工具介紹 (Weka / R)
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
常用資料採礦技術介紹 關聯分組(associations)、分類(classification)、時序相關(sequence)、預測(forecasting)、群集化(clustering)以及描述等分析作業,目前常用的資料採礦技術有決策樹、類神經網路、基因演算法以及即時線上分析(OLAP)
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
Data Mining 第八組 B 萬佳育 B 葉書蘋.
第十三章 網路行銷重要議題 網際網路行銷 Web 2.0.
永續運輸資訊系統 -交通事故資料分析研究 周家慶 高級分析師 交通部運輸研究所.
圖形溝通大師 Microsoft Visio 2003
帳號申請與使用流程介紹.
可能受益的商业活动 客户保留 目标营销 欺诈检测 购物篮分析 客户细分 客户忠诚度 信用打分 信用风险评估 营销组合管理和评估 盈利能力分析
Data Mining 工具介紹 (Weka/R to MySQL)
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
107學年度國民中學 學障鑑定個測工作說明 Loading…… 臺東縣特教資源中心.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
K/3 Cloud V6.0产品培训 -- 业务监控 K/3 Cloud 产品部
K/3 Cloud V6.1产品培训 -- 业务监控 K/3 Cloud 产品部
数据透视表与SQL典型应用 ——数据分析人士必杀技
R與資料探勘(data mining)簡介
主讲人:黄鹤 副教授 Office:9-416 劳动关系与劳动政策 主讲人:黄鹤 副教授 Office:9-416.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
第九組報告 指導教授 : 林振緯 組員 : 資工四甲 曹又升 黃晏林 黃冠惟
電子郵件安全:如何防範社交工程郵件 圖書資訊服務處 元智大學.
Microsoft Word 2003 透視合併列印 Microsoft MVP 王作桓.
An Quick Introduction to R and its Application for Bioinformatics
文字和網站探勘 學習目標 說明文字探勘與了解文字探勘需求 分辨文字探勘與資料探勘 了解文字探勘的不同應用 了解執行文字探勘專案的流程
数数据的基本操作 电子工业出版社.
树立开放理念 强化管理水平 全面提升来华留学生教育工作水平
方格紙上畫正方形.
商業智慧實務 Practices of Business Intelligence
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
資料庫應用與實作 一到六章重點、習題.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
Term Project : Requirement
第10章 網路問卷調查.
数据库应用技术 天津电大 翟迎建.
Presentation transcript:

Data Mining 工具介紹 (Weka/R + ODBC) Supplement 1 Data Mining 工具介紹 (Weka/R + ODBC) 楊立偉教授 台灣大學工管系 2017 1

Data Mining 工具 The R Project for Statistical Computing http://www.r-project.org/ Weka : Data Mining Software in Java http://www.cs.waikato.ac.nz/ml/weka/ scikit-learn: machine learning in Python http://scikit-learn.org/stable/ SAS Enterprise Miner (EM) Business Analytics and Business Intelligence Software IBM SPSS Predictive analytics software and solutions and others

使用WEKA及ODBC連接資料庫 3

Using Weka (1) 獨立下載安裝Java 7 (支援ODBC) 後再下載Weka,安裝或解壓縮後點weka.jar執行 http://www.oracle.com/technetwork/java/javase/downloads/jre7-downloads-1880261.html http://www.cs.waikato.ac.nz/ml/weka/downloading.html

Using Weka (2) 下載Access資料庫tennis.accdb,在ODBC新增來源名稱為tennis,供待會連接使用 啟動Weka後,點選Explorer

點選Open DB…URL輸入jdbc:odbc:tennis,點選連接符號;之後輸入SQL指令執行,若有資料表示成功 1 2 點選Open DB…URL輸入jdbc:odbc:tennis,點選連接符號;之後輸入SQL指令執行,若有資料表示成功 3 4 5

Using Weka (3) 可參考手冊 WekaManual.pdf 啟動Weka後,點選KnowledgeFlow

Using Weka (3) 選擇DataSources→DatabaseLoader 置放在工作區,選取後按右鍵選Configure…

輸入 jdbc:odbc:tennis SELECT outlook, temperature, humidity, windy, play FROM playtennis

Using Weka (4) 放置Evaluation→ClassAssigner,以及TrainingSetMaker 放置Classifiers→trees→J48 (即C4.5演算法之實作) 放置Visualization→TextViewer

Using Weka (5) 在DatabaseLoader按右鍵選dataSet到ClassAssigner 在ClassAssigner按右鍵選dataSet到TrainingSetMaker 在TrainingSetMaker按右鍵選trainingSet到J48 在J48按右鍵選text到TextViewer

Using Weka (6) 在ClassAssigner按右鍵選configure確認目標欄位是play 在DatabaseLoader按右鍵選Start loading 執行完畢,在TextViewer按右鍵選Show results看結果

Using Weka (7) Clustering 使用Simple Kmeans演算法,用TextViewer看結果 以k=3為例

Using Weka (8) Association 使用Apriori演算法,用TextViewer看結果 只能處理nominal value

Using Weka (9) Association 使用Apriori演算法結果如下 * 決策樹的每條path可能就是一條rule;可能會找到更多的rules

使用R及ODBC連接資料庫 16

Using R with Database (1) 挑選CRAN(Comprehensive R Archive Network)中之站點,下載R安裝後執行 http://cran.csie.ntu.edu.tw/ 台大資工站點 選擇base版本下載,點擊安裝 之後執行R

Using R with Database (2) 安裝RODBC套件 選程式套件>安裝程式套件>挑選CRAN站點: 0-Cloud 選RODBC後即可 執行指令 library(RODBC) 載入該套件 c=odbcConnect("tennis") 開啟連線, 取名為c x=sqlFetch(c, "playtennis") 從該來源取出某張表 或sqlQuery(c, "SELECT outlook, temperature, humidity, windy, play FROM playtennis")

執行結果

Using R with Database (3) 安裝C50套件 選程式套件>安裝程式套件>挑選CRAN站點: 0-Cloud 選C50後即可 執行指令 library(C50) 載入該套件 m=C5.0(x[,2:5],x$play) 以第2~5欄做訓練,目標欄位為play summary(m)

執行結果

Using R with Database (4) 安裝arules套件 選程式套件>安裝程式套件>挑選CRAN站點: 0-Cloud 選arules後即可 執行指令 library(arules) 載入該套件 r=apriori(x[,2:6]) 以第2~6欄分析 rs=sort(r,by="confidence") 將結果排序 inspect(rs) 顯示結果

執行結果

執行結果