SPSS Modeler資料探勘實務基礎 資料探勘與Modeler使用介紹 資料分類-C5.0和CR&T 模型

Slides:



Advertisements
Similar presentations
许瑞云医师 你已经很努力地注意饮食、作息、运动, 为什么身体还不能恢复健康 ? 细节 答案就在「 细节 」裡, 唯有掌握关键的一步, 养生才能达到真 正的功效 ! 现在就让我们跟着曾是全球知名的哈 佛医院主治医师的许瑞云, 学习最正确 的养生方法, 轻松打下健康满分的基础 !
Advertisements

职业生涯规划 陈 艳 天津民族中等职业技术学校. 以花为伴 —— 小于的花样年华 问题: 1 、小于的案例对你有什么启发? 2 、小于的职业发展过程中,有哪些转岗和晋升 的经历? 横向发展 纵向发展.
庄文忠 副教授 世新大学行政管理学系 2012/7/6 SPSS 之应用 ( 庄文忠副教授 ) 1 SPSS 的环境与基本操作.
1 第 10 章 品牌定位分析 授課教師:. 學習目標 2 瞭解並挑選定位基礎 學習建立評分表 學習使用因素分析建立知覺圖 瞭解知覺定位分析的內容 學習使用多元尺度法建立知覺圖.
簡報製作:葉 女 嬰 慧 葉純佑 漫話漫畫 仔細看看這張圖... 回答下列問題 站在正中央的人有沒有打領帶? 2. 在紙上畫線的是鉛筆還是鋼筆? 3. 看書的人有沒有戴眼鏡?
中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报 华中师范大学 中国旅游研究院武汉分院 二〇一一年十二月.
当代大学生的性别烦恼 沈奕斐.
女儿赡养的新风俗与农村 继承制度中的性别不平等 Daughters as Old-Age Support Providers and Gender Inequality in Rural Inheritance System 唐灿 中国社会科学院社会学研究所.
饮食与健康 高一(4)班 组长;马智慧 组员:席朱一 高语馨 孟天池 孙啸 刘晓峰 虞泽权 林超超 徐昊 朱浩楠 尹文泰 王丹宇.
103年統計精進與推展研討會 創新與突破的交通統計 報告人 交通部統計處 崔培均 103 年 3 月 5 日 1.
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
陳惠馨 政治大學法律科際整合研究所所長 2006年4月21日下午2:30-4:30
视觉文化与社会性别   沈奕斐 社会学系 讲师 2010年3月.
合肥学院外国语言系 学年第二学期学生工作表彰大会
我們可以選擇食物? 可以選擇人生嗎? 美味的代價 Food Inc. 李昂,鴛鴦春膳
如果你知道甚麼時候吃和怎樣吃,你將獲益良多
订单合并拆分功能详解 荷叶.
Some Knowledge of Machine Learning(1)
校园信息管理系统 河北科技大学网络中心 2000/4/10.
第九讲 医院信息系统应用——住院子系统一.
食物 搭配 Food matching.
性心理異常(性別認同障礙與變性症) 組員: 莊晴媚 林佳諆 吳盈瑩 朱欣怡 王妤紘.
盘中顶底早知道 金牌讲师:高俊 ID:
如果你知道什么时候吃和怎样,你将获益良多
兒童疾病預防及照護 -血友病- 學號:497g0106 班級:資工四乙 姓名:李旻蕙.
EF少儿英语学习研究报告(北京).
我們通常都會稱自己為香港人?還是中國人? 為甚麼回歸了,人們口頭上不說是中國人,而是香港人呢?
讀書心得分享: 善待細胞, 可以活的更好.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
廢棄物處理特論 專題報告 再生環保綠色材料之 環保玻璃瀝青混凝土 研究生:阮國光 萬正忠
厝厝有玄機架構圖.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
p 公告 p 何明洋先生 p 林嘉祈醫師 p 洪霈濃醫師
关联.
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
----银行间的比较 论资本构成与充足率 淡 彩 的 黑 板 淡 彩 的 黑 板 金融73班 王艺霏 王 英
赵德成 北京师范大学教育管理学院 让教师成为研究者 赵德成 北京师范大学教育管理学院
金州新区青年发展、培养和管理事业 重大课题研究工作座谈会
深圳市阿德旺斯科技有限公司 advanced industry 4.0.
Life with Food 生命与食品安全.
勤學的榜樣 編寫: 張文麗老師.
性別平等 製作人;何興柔.
如果你知道甚麼時候吃和怎樣吃,你將獲益良多
向微波、電磁波 說 不.
指導教授:楊賀雯 指導研究生:許芷菱、邱以欣 學生:曾婉瑜、林立婷、黃馨慧、顏慈萱、李欣怡、黃禹嘉
資訊管理 第九章 資料採礦.
传媒学院2013年度团委工作 总结分析报告
序列模式挖掘算法简介 报告人:邓爱林
3.資料關聯 Association 關聯範例一:關聯規則基本概念 關聯範例二:購物產品關聯分析 關聯範例三:鐵達尼號關聯分析
組員: 葉子青 何妍慧 陳錫明周藹盈 布信南 許迪生
第8章 關聯分析 王海.
基于类关联规则的分类 Classification Based on Class-Association Rules
可能受益的商业活动 客户保留 目标营销 欺诈检测 购物篮分析 客户细分 客户忠诚度 信用打分 信用风险评估 营销组合管理和评估 盈利能力分析
MyLibrary ——数字图书馆的个性化服务
以多項式羅吉斯迴歸推估 土壤有效深度 Classification of Effective Soil Depth by Using Multinomial Logistic Regression Analysis 指導教授 詹勳全 研究生 張建輝.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
物流作業簡介.
「性別平等」在校園 -- 簡介性別平等教育法的運作
Modeler分類補充.
第十章 線上行銷研究.
微信商城系统操作说明 色卡会智能门店.
研究所生物統計課程整合說明 課程規劃及修課建議 楊奕馨 高雄醫學大學 藥學系 研究所生統課程授課教師
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
分享人:电子商务那些事儿 杜蕾斯精品广告赏析.
第7章 基本统计分析 2019/5/14.
教育部特殊教育通報網 學生異動、接收操作說明.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
手机淘宝“变形”产品—微淘 操作流程指南 (内测版).
大學學群學類卡 林宏茂 中壢高中 李欣樺 振聲高中.
Presentation transcript:

SPSS Modeler資料探勘實務基礎 資料探勘與Modeler使用介紹 資料分類-C5.0和CR&T 模型 資料集群-K-means和模型評估 4 2 3 1 資料關聯-Apriori和Sequence

3.資料關聯-Apriori和Sequence 關聯範例一:購物產品關聯分析 關聯範例二:訓練課程需求預測 關聯範例四:網頁瀏覽行為分析 4 2 3 1 關聯範例三:維修案例的次序分析

節點【Apriori】檔案 shopping.txt 786 records 15 fields 資料關聯範例 一 節點【Apriori】檔案 shopping.txt 786 records 15 fields

關聯法則基本概念 在資料探勘的領域之中,關聯性法則(association rule)是最常被使用的方法。關聯性法則在於找出資料庫中的資料間彼此的相關聯性。 在關聯性法則之使用中,Apriori是最為著名且廣泛運用的演算法。最早是由Agrawal & Srikant 等兩位學者於1994年首先提出。 if前項antecedent(s) then後項consequent(s)

購物產品關聯分析 shopping.txt的欄位計有15項,產品分為10個類別分別是Ready made、Frozen Food、Alcohol 、 Fresh Vegetables、 Milk、 Bakery goods 、 Fresh meat、 Toiletries、 Snacks、Tinned Goods,有買資料值為1,沒買則資料值為0 基本資料包括GENDER 、 AGE、 MARITAL、 CHILDREN、WORKING ( Currently employed?)

【變數檔案】節點

【類型】節點

欄位的角色設定 【輸入】表示允許資料進入Apriori模型節點作分析,此項資料僅會在關聯規則的前項中出現。

【Apriori】節點

關聯模型注意事項 建模時可以設定支援度、信心度等建模的細節,當門檻值過高而無法生成模型時,使用者須適度調整門檻值 執行後產生關聯規則的模型,可以查看詳細的規則內容。排序的規則有支援度(Support)、信賴度(Confidence) 、規則支援% (Rule Support)、後項(Consequent)、提昇(Lift)以及可部署性(Deployability)等方式, 使用者可依需求選擇

執行後的關聯規則4個

顯示更多的準則

名詞解釋 以第一個關聯規則為例說明如下: 後項– Bakery goods 前項– Milk和Frozen Food 全部總共786筆資料 買Milk和Frozen Food的人是85筆 買Bakery goods的人是337筆 買Milk和Frozen Food而且買Bakery goods的人是71筆 買Milk和Frozen Food但不買Bakery goods的人是14筆 後項– Bakery goods 前項– Milk和Frozen Food 實例– 85,即符合前項的筆數

名詞解釋 支援度–10.814 = 85/786,是指購買前項產品的客戶佔全部客戶的比例 信賴度 - 83.529 = 71/85,是指購買前項產品的客戶中也買後項產品的比例 規則支援%(即支援度x信賴度)–9.033 = 10.814% x 83.529% 或= 71 / 786,指購買前項產品也買後項產品的客戶佔全部客戶的比例 提昇–1.948 = (71/85)/ (337/786)或 = 83.529% / 42.875%,指購買後項產品佔購買前項產品的比例除以購買後項產品佔全部客戶的比例 可部署性–1.781 = 14/786,指購買前項產品但不買後項產品的人佔全部客戶的比例

降低最小規則信賴度80%75%

產生目標Alcohol的規則組節點

規則組節點Alcohol產生的欄位 可分析符合某規則的客戶基本資料,3個規則條件不適用時,信心值為0.5,3個規則條件全符合時,信心值為(0.776+0.752+0.76)/3

節點【Apriori】檔案 UKtraining.txt 2136 records 26 fields 資料關聯範例 二 節點【Apriori】檔案 UKtraining.txt 2136 records 26 fields

【變數檔案】節點

設定欄位角色(三種基礎課程)

設最小支援度1% 最小信賴度50%

節點【Sequence】檔案 Telrepair.txt 750 cases 5915 records 3 fields 資料關聯範例 三 節點【Sequence】檔案 Telrepair.txt 750 cases 5915 records 3 fields

次序分析 次序(Sequence)分析的重點在於資料中必須存在先後順序的關係(例如時間) 目前次序分析有兩種方式的,一種是只考量時間的先後順序,僅著重時間的順序作資料關聯的分析,另一種則是考量時間的區段,也就是週期性發生的類型,重點在於時間區段內的變化 次序分析可以提共我們針對客戶客製化行銷的預測

次序分析的名詞解釋 前項 後項 實例 支援度 信賴度 規則支援% 48 15.0 64.0 9.6 Base & Regression Models Advanced Models PASW Modeler 48 15.0 64.0 9.6 實例–48,和Apriori不同,是指符合前項且符合後項的筆數 支援度–15.0=75/500,是指符合前項的客戶佔全部客戶的比例 信賴度 – 64.0= 48/75,是指符合前項且符合後項的客戶佔符合前項客戶的比例 規則支援%– 9.6= 48/500,指符合前項且符合後項的客戶佔全部客戶的比例

維修案例檔案說明 檔案Telrepair.txt包括750個維修案例,共有 5915紀錄,3個欄位分別是ID、index1和stage 診斷開始以代碼90表示(但不完全是),成功完成修理以代碼210表示,若問題無法成功解決,則以代碼299表示 FailTelrepair.txt則包括以代碼299結束的失敗案例

【變數檔案】節點

【類型】節點

【表格】節點

【序列】節點

【序列】節點的default值

執行後的關聯規則

不同的排序準則 (成功率92%=690/750)

重複修理( 22.133% = 166/750個id)

練習:失敗案例 FailTelrepair.txt

節點【Sequence】檔案 weblog.txt 912 ID 3000 records 3 fields 資料關聯範例四 節點【Sequence】檔案 weblog.txt 912 ID 3000 records 3 fields

【變數檔案】節點

【類型】節點

【表格】節點

【序列】節點

執行後的關聯規則1個

降低最小規則支援度20%1%

信賴度100%時支援度等於規則支援度

序列節點產生的3個預測欄位

產生某選定規則的超級節點

序列規則超級節點的選項

超級節點增加的欄位