SQL Server 2008 資料採礦: 資料採礦An Overview of Key Data Mining Capabilities

Slides:



Advertisements
Similar presentations
平衡飲食保健強身 整理至簡體版,作者不可考。內容為 參加國際健康會議所發表的心得。. 人應該活多久 有人告訴我五六十歲就差不多了。 我在醫院工作四十年了,絕大部分病死的人是 很痛苦的。 我在美國遇見張學良,一進門見到他就大吃ㄧ驚, 他眼不花,耳不聾,很多人問他:少帥,您怎 麼能活這麼久? 他回答:不是我活的久,是他們活的太短了。
Advertisements

实用农业科技写作 王鹏文. 第一章 导论 第一节 农业科技写作概述 一 、 农业科技写作概念和分类: 科技文献类、科技应用类、 科技普及类、科技新闻类 二、 农业科技写作的意义和重要性: 科技工作的重要组成部分、科学研究的手段、 科技成果的反映和标志、科技交流的工具 三、 农业科技写作的特点 : 功利性与及时性、科学性与先进性、读者的专门性与狭隘性、
新课程引领 实践中前行 —— 蓟县初中信息技术三年课改总结. 自从 2005 年秋季我市进入基础教育新一 轮课程改革实验以来,在市教研室的正 确领导下,我县初中信息技术课改工作 稳步推进。三年来,取得了一些成果, 也有不少体会。现将三年来的信息技术 课改工作总结如下。
河南省基础教育资源网 邓伟鹏 二〇一二年七月 内容大纲 1. 培训平台的目的 2. 培训平台介绍 3. 培训平台功能 4. 培训工作建立流程 5. 培训门户 6. 在线学习 6.1 课程学习 6.2 在线考试 7. 培训考试管理 7.1. 课程管理 7.2 必修学习班建立 7.3 在线考试管理 7.4.
桐乡市地方税务局 2013 年度社会保险费汇算清缴有 关政策及事项说明. 一、政策规定 根据《中华人民共和国社会保险法》、《桐乡市社会保险费征缴管 理办法》(市政府令第 42 号)、《 关于完善社会保险费征缴管理有关问 题的通知》(桐政办发 [2012]152 号)及《关于完善社会保险费征缴管理.
行政事业单位资产管理信息系统培训 讲师:姚珂 行政事业单位资产管理信息系统培训. 2 系统总体功能介绍 1 软件安装与数据初始 软件安装与数据初始 2 软件日常操作介绍 软件日常操作介绍 4 用户管理及账套维护 用户管理及账套维护 5 目 录目 录目 录目 录 参数配置与数据上报.
联合国提出个口号:“千万不要死于无知” 保健的三个里程碑 平衡饮食 有氧运动 心理状态.
武汉库得克 软件有限公司 公司简介 发展机遇 特点 一家专注于质量管理平台和整体 解决方案的提供商
NO.005 職涯 報 實習 徵才 攻讀 國立嘉義大學 學生事務處學生職涯發展中心.
國中教育會考 十二年國教—免試入學 及 意見整理.
平衡飲食保健強身.
電子試算表(TQC_E2007) 教師:王大瑾 Ch01 基本環境介紹.
严格标准 规范程序 认真做好党员发展工作.
薪資申報系統操作說明.
商学院 旅游管理专业介绍.
 历史以人类的活动为特定的对象,它思接万载,视通万里,千恣百态,令人销魂,因此它比其他学科更能激发人们的想像力。    
《数学》(华师大.八年级 下册) 第二十一章数据的整理与初步处理 扇形统计图的制作.
中国平安校园招聘.
怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 (学院、部门适用)
第十六章 股票交易資訊分析與試算 課前指引 目前最熱門的理財方式莫過於投資股票市場,因此本章首先講解如何從美國股市匯入重要資料,之後教授使用WEB查訊功能,匯入台灣股市即時或盤後交易資訊到Excel工作表中,再利用資料分析工具來協助瞭解個股。最後再利用Excel圖表功能來繪製成股票K線圖,這是不是很有趣及實用呢?
Excel高级班 学员 焦攀飞 汪晴讲师 Office套餐 学习心得 自主学习最关键 焦攀飞 赖球 49 D 2056
『臺北市營建剩餘資源管理系統』 教育訓練說明 臺北市政府 報告人 王宏正
1.1 Project 2007简介及新增功能介绍 Project 2007 视频教学课程.
“三项制度+一个平台”构建 省级高校教学质量监控体系
尿液篩檢 流程實務.
瓯海职专财经专业组简介.
国有资产清查 数据填报操作规范 2016年3月25日.
如何做好財金人職涯規劃 演講者:張志豐
软件工程 实验三 周志钊
如何使用 Excel 與SPSS繪製 統計圖型
一年級品德教育「感恩」德目教學 我家寶貝要出生 興南國小 一學年課程發展小組.
上海文会会计师事务所有限公司 中国注册会计师 童幸义
关于成绩的数理统计的探讨 望您多多指教!多谢!!.
仓储企业岗位人员招聘 第一组 组员 :陈娇娇 祝婷婷 丁元莉 袁珮 王慧.
转正述职报告 乐恩公司 史航
人口与计划生育 统计分析 昌吉市计划生育委员会 二○○六年三月.
國內發展PACS之回顧與展望 黃興進 彭振興 連俊瑋 國立中正大學資訊管理學系 國立中正大學醫療資訊管理研究中心
2014年深圳市学生人身意外伤害保险投保工作介绍 中国人民财产保险股份有限公司深圳市分公司
  勞工老年生活保障之探討    勞保局 桃園辦事處      主講人:郭博文 Company Logo.
線上分析處理、 資料採礦與 Analysis Services
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
TechNet 技術講座 Entry Slide 0
第7章 项目的格式设置 本章内容提要: 学习如何修饰甘特表; 学习使用甘特表向导快速格式化项目文件;
圖形溝通大師 Microsoft Visio 2003
CLICK HERE TO ADD YOUR TITLE
办学条件核查 评估秘书组 电力职业技术学院 山西机电职业技术学院 2014年7月9日.
第1章 SQL Server 2005概述 教学提示:SQL Server 2005是微软的下一代数据管理和分析解决方案,它给企业级应用数据和分析程序带来更好的安全性、稳定性和可靠性,使得它们更易于创建、部署和管理,从而可以在很大程度上帮助企业根据数据做出更快、更好的决策,提高开发团队的生产力和灵活度,以及在减少总体IT预算的同时,能够扩展IT基础架构以更好地满足多种需求。
CLICK HERE TO ADD YOUR TITLE
72% 29% 33% ADD YOUR TITLE HERE 点击此处添加文本信息。
Course 4 分類與預測 Classification and Prediction
科 展 說 明.
光輪2000升級 升級SQL Server Analysis Services 2005
電腦應用 製作單位: 高雄市立高雄中學.
怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 (项目经费适用)
成本会计学.
舊生升級編班與新生管理操作說明 全誼資訊股份有限公司 中華民國106年06月05日.
30% 30% CLICK HERE TO ADD YOUR TITLE CLICK HERE TO ADD YOUR TITLE
Microsoft Word 2003 透視合併列印 Microsoft MVP 王作桓.
B A C D ADD YOUR TEXT ADD YOUR TEXT ADD YOUR TEXT ADD YOUR TEXT
貝建德 AsiaMiner Senior Consultant
中国建筑的特征 执教:浮 石 单位:吴川一中 时间:2005/10/ 梁思成
Excel 2010电子 表格制作案例教程.
计 算 机 应 用 基 础 潍坊学院 计算机工程学院 主讲人:李凤慧.
新课程理念下如何进行课堂教学 刘志超 2014年2月25日.
第四教学项目 话剧排练及影视鉴赏.
中式烹调技艺 第五章.
中国建筑的特征 执教:浮 石 单位:吴川一中 时间:2005/10/ 梁思成
就學貸款 相關注意事項 學生事務處 /生活輔導組.
6 分析資料-以統計測量數呈現.
Presentation transcript:

SQL Server 2008 資料採礦: 資料採礦An Overview of Key Data Mining Capabilities 貝建德 max@asiaminer.com.tw AsiaMiner Senior Consultant

Agenda SSAS Data Mining 2008新功能介紹 建置『決策樹』及『貝氏機率分類』資料採礦模型 檢視採礦精確度圖表 <Your Title> 2018/11/21

SSAS Data Mining 2008新功能介紹

SSAS Data Mining 2008全新功能 演算法 採礦結構 模型驗證 Office 2007資料採礦增益集 新增ARIMA時間序列演算法 採礦結構 定義訓練組與測試組 設定區隔模型 模型驗證 交叉驗證(Cross-validation) Office 2007資料採礦增益集

完整與強大的演算法 決策樹 群集 時間序列 關聯規則 貝氏機率分類 類神經網路 羅吉斯迴歸 線性迴歸 時序群集

完整與強大的演算法 分類 區隔 推估 關聯 預測 關聯規則 群集 決策樹 線性迴歸 羅吉斯迴歸 貝氏機率分類 類神經網路 時序群集 時間序列

時間序列演算法 SQL Server 2005:ARTXP SQL Server 2008:ARIMA 擅長短期數值變動預測 擅長長期趨勢預測 提供ARTXP+ARIMA混合模式(PREDICTION_SMOOTHING)

模型穩定性挑戰

模型預測的結果

Over-fitting 過度複雜的模型反而會記憶住訓練資料的特定結構 建模成效很好,但是預測時反而效果較差 使用訓練與測試資料集 降低模型之複雜程度 減少使用變數 同樣的預測力下,越簡單的規則就是越好的模型

使用測試資料集 Training 使用訓練資料集建立預測模型 Testing 使用測試資料集來避免模型對於訓練資料集產生記憶效應

如何產生測試集 SSAS 2005:利用SSIS的「百分比取樣」以及「資料列取樣」節點自行抽樣

區隔模型建模策略 使用單一模型不一定可以獲取最大之建模成效 區隔模型可以專注於特定樣本,以找出更精細的規則內容

如何設定區隔模型 SSAS 2008:採礦結構中利用設定模型篩選器建立出區隔模型的資料集

模型驗證 驗證模式 效度 信度 增益圖 與 收益圖 散佈圖 分類矩陣 交叉驗證(Cross-validation) (SQL 2008 Enterprise Edition)

交叉驗證 設定樣本折疊數(fold) 各樣本折疊產生相近評估數字,表示模型信度高 5-fold cross-validation 1,2,3,4建模,5驗證 2,3,4,5建模,1驗證 1,3,4,5建模,2驗證 1,2,4,5建模,3驗證 1,2,3,5建模,4驗證

Office 2007 Data Mining Add-ins Office Excel 2007資料表分析工具 Office Excel 2007資料採礦用戶端 Visio 2007 資料採礦流程範本

Office Excel 2007資料表分析工具 分析關鍵影響因數(Analyze Key Influencers) 偵測類別目錄(Detect Category) 根據範例填滿(Fill from Example) 預測(Forecast) 反白顯示例外狀況(Highlight Exceptions) 狀況分析(Scenario Analysis)

Office Excel 2007資料表分析工具 SQL Server 2008中新增 購物籃分析(Basket Analysis ) 預測計算器(Predict Calculator)

建置『決策樹』及『貝氏機率分類』資料採礦模型

分類 輸出變數為類別變數 可產出分類結果及可能機率 流失客戶預測、購買回應預測、信用評等都是典型的分類問題 SQL 2005畫面

決策樹(Decision Tree) 透過樹狀規則呈現分類準則 找出最佳分岔點,使得資料的亂度最低 根據每個分岔的分布來決定預測機率

貝氏機率分類(Naïve Bayes) 計算最容易的演算法(條件機率) 只能輸入類別變數 假設變數間為獨立互不影響,因此使用時須謹慎分析變數間的相依性

離散化動作 將連續變數切割為類別變數 可指定DiscretizationBucketCount以選擇切割數量 Automatic EqualAreas Clusters 可指定DiscretizationBucketCount以選擇切割數量

微軟決策樹演算法參數 COMPLEXITY_PENALTY MINIMUM_SUPPORT SCORE_METHOD SPLIT_METHOD 二元分岔 (1), 多元分岔 (2), or 演算法自行判斷 (3).

微軟貝氏機率分類演算法參數 MAXIMUM_STATES MINIMUM_DEPANDENCY_PROBABILITY:介於0~1,數值越大,模型使用變數會越減少

示範步驟 建立資料來源 建立資料來源檢視 新增採礦結構 選擇演算法 選擇案例, 巢狀資料表 選擇輸入輸出變數 修改資料型別 分割訓練組與測試組資料集 命名 部署與處理 檢視模型

檢視採礦精確度圖表

如何評估資料採礦模型 增益圖 分類矩陣 交叉驗證

增益圖(Lift Chart) 根據機率將名單由高購買可能至低排序 橫軸為名單百分比 縱軸為累積購買人數占全體購買人數之百分比 45度斜直線代表隨機狀態 根據前40%名單進行銷售就有總體80%之銷售效果

Lift Chart 能夠透過比較多個模型的Lift Chart來找出最佳模型 在預算有限時,Lift Chart能夠告訴我們名單執行的效果

Classification Matrix 3R (Response Rate, Recall, Range Reduce) 回應率(Response Rate) ↑ --稀有事件出現的比率 反查(Recall) ↑ --預測稀有事件時,遺漏稀有事件的狀況 名單縮減(Range Reduce) ↓ --將稀有事件範圍縮小的程度

從分類矩陣看起… 橫軸為預測結果,縱軸為實際結果 原始購買回應率為(6961+2171)/(6961+2497+2171+6855)=49.4% 經過資料採礦模型: 回應率=6961/(6961+2497)=73.6% 反查= 6961/(6961+2171)=76.22% 名單縮減= (6961+2497)/ (6961+2497+2171+6855)=51.2%

交叉驗證 (Cross-validation) 設定樣本折疊數(fold) 各樣本折疊產生相近評估數字,表示模型信度高

Q&A