資料精簡 (Data Reduction).

Slides:



Advertisements
Similar presentations
手工加工全框眼镜技术 前调整确定加工基准制作模板割边 磨边磨安全角 (抛光) 装配 后调整检测.
Advertisements

融资融券业务的保证金与保证金比例 光大证券 · 信用业务管理总部 2015 年 12 月 ★融资融券业务投资者教育活动材料★
道家養生保健長壽藥膳 藥膳應用原則: 天人相應,道法自然 藥膳有兩個職能: 一是保健增壽,一是治療疾病。 ◎ 黃蕙棻.
動動腦時間 — 腦筋急轉彎 —. 1. 有三個小朋友在猜 拳,一個出石頭,一 個出布,一個出剪刀, 請問三個人共有幾根 指頭? 答案: 60 根.
第二节 脉搏的评估及异 常时的护理. 教学目标  1 、解释有关名词  2 、说出脉搏、呼吸的正常值  3 、叙述脉搏、呼吸的测量方法;识别脉搏、 呼吸的异常变化  4 、叙述测量脉搏、呼吸的注意事项  5 、正确记录脉搏、呼吸,做到认真负责,实 事求是。
项目四、腻子的施工  一、准备工作  二、安全与卫生  三、板件表面的处理  四、准备腻子  五、刮腻子  六、腻子的干燥  七、腻子的打磨  结束.
冷 热 疗 法.
個人理財規劃 第八章 投資規劃.
保育员工作职责.
行政法 之 行政救济篇.
第一章 会计信息系统 第一节 计算机会计概述.
开天门 梅州市中医医院 郑雪辉.
小儿斜颈的诊断与治疗.
数据库原理及应用 《数据库原理及应用》课程组 荆楚理工学院.
中式面点技艺 长春市商业职业技术学校 王成贵 中式面点技艺 长春市商业职业技术学校 授课教师: 王 成 贵.
第 3 章 資料分類與蒐集 1.進行研究過程中最重要的步驟 2.資料收集與實驗設計具有關連性.
小寶寶家庭保健護理小常識 講師:郭洽利老師
國立中正大學勞工研究所 黃良志 副教授 中 華 民 國 九 十 四 年 九 月
消防安全知识讲座 ---校园防火与逃生 保卫科.
2017/3/9 实验误差及其控制 魏敏杰 陈 杰 阮 强 王振宁 单凤平 孟繁浩 富伟能 陈 磊 中国医科大学.
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
第三章 儿童少年、女子及 中老年的体育卫生 第一节 儿童少年的体育卫生
第二章 研究设计与评价.
統計調查管理研習班 統計調查抽樣設計 鄭宇庭 國立政治大學統計學系.
第八課 蓼莪.
学生学业水平诊断与提升策略探究 平阳中学 周秀丽.
初中语文总复习 说明文 阅读专题 西安市第六十七中学 潘敏.
征服火灾是全社会的事业,它需要科技的进步,需要消防监督,也需要消防科学知识的普及和提高。通过各类的消防安全培训,从而使人们更好的掌握消防常识和了解消防法规,提高消防安全意识,提高自防自救能力,使我们的生产和生活远离火灾的侵袭。
第五章 病因病机.
解放軍論壇 中共信息戰發展 對我國軍事戰略之影響.
第十一章 真理与价值 主讲人:阎华荣.
資料倉儲與資料前置處理 報告者:謝仁瑋.
足球運動情報蒐集與分析 趙榮瑞 教授.
講師:賴玉珊 心理師 證照:諮商心理師(諮心字第001495號) 學歷:國立台南大學諮商與輔導研究所 畢 現任:長榮大學諮商中心專任心理師
专题五 高瞻远瞩 把握未来 ——信息化战争 主讲教师:.
二、汽化和液化.
复习: 一、细胞膜的成分 1、脂质 2、蛋白质 3、糖类 二、生物膜的功能: 1、界膜 2、控制物质的进出 3、进行细胞间信息交流.
第七章 固 定 资 产.
第十章 现代秘书协调工作.
預告統計資料發布 & 機關辦理統計調查管理作業
第1节人体内物质的运输 人体的组织细胞每时每刻都需要营养物质和氧,并不断产生二氧化碳、尿素等废物。这些物质在人体内运输主要依靠 系统。人体的血液循环系统由 、 和 组成。 血液循环 血管 心脏 血液.
国际关系的决定因素:国家利益 江苏省震泽中学 丛海啸.
走自立自强之路 自己的事情自己做.
人類的循環系統.
設計師與消費者在食品包裝理解力傳達設計之認知差異
第3节 以水为主要传热介质 的烹调方法.
第一章 汽车的解体与清洗 第一节 汽车解体工艺 一、零件的拆卸原则 1、拆卸前应熟悉被拆总成的结构
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
数据仓库与数据挖掘 复习.
資訊管理 第九章 資料採礦.
檔案立案編目 檔案管理局 檔案徵集組 陳穆怡 103年6月19日
大眾媒體研究導論 Chapter 4 抽樣 第一部分 研究程序
第 7 章 抽樣與抽樣分配 Part B ( ).
Digital Terrain Modeling
第11章 抽樣設計 本章的學習主題 1.抽樣的基本概念 2.抽樣的程序 3.機率抽樣 4.非機率抽樣 5.電話抽樣
Data Pre-Processing … What about your data?.
護理研究概論─ 樣本與取樣策略 許翠華 長庚科技大學 護理系 T.H. Hsu.
Workshop on Statistical Analysis
社会研究方法 第四讲:问卷调查.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
Introduction to Basic Statistics
第七章 抽樣與抽樣分配.
Introduction to Basic Statistics
浙江大学医学院公共技术平台 实验仪器预约管理系统系列培训 医学院公共技术平台 丁巧灵
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
評分標準.
朝陽科技大學 環境工程與管理學系 課程名稱:空氣污染實驗 課程內容:採樣及分析方法概論 上課班級 : 二A & 二B   授課教師:楊錫賢教授.
國立台北教育大學 數學技資訊教育學系 陳幸玫
Presentation transcript:

資料精簡 (Data Reduction)

內容概要 簡介 資料精簡所包含之觀點 資料維度精簡(Dimension Reduction) 資料維度的評估 資料維度之組合策略 資料維度組合產生順序 資料記錄精簡(Record Reduction) 資料數值精簡(Value Reduction) 資料數值分離技術(Discretization Technique) 概念階層(Concept Hierarchy)

簡介(1) 資料精簡在資料探勘過程中所扮演的角色 狹義而言:主要應用在資料的前置處理階段 (pre-processing phase) 廣義而言:整個資料探勘過程都可以應用資料精簡的技術 前置處理階段(pre-processing phase) 探勘階段(mining phase) 後置處理階段(post-processing phase)

簡介(2) 前置處理階段之資料精簡 探勘階段之資料精簡 後置處理階段之資料精簡 從資料庫或資料倉儲中選取並建立使用者感興趣的資料集合 從資料集合中濾掉一些無關、偏差、重複的資料 探勘階段之資料精簡 探勘處理過程中去除不具代表性的中介資訊或法則,進而縮小探勘過程中所需花費的時間,減少產生重複、不重要的知識 後置處理階段之資料精簡 根據使用者的需求,由探勘結果中選取其感興趣和相關的知識,以及透過視覺化技術將知識作適當的歸納、整合,讓使用者更方便快速了解發展趨勢、市場偏向、消費者群集等等,以幫助其作決策

資料精簡之優點 提高知識的應用性與準確性,降低無效、錯誤資料之影響 挑選少量且具代表性的資料將大幅縮減資料探勘所需的時間 使資料探勘方法的可用性提高 助於高價值知識的取得與提升知識可讀性 降低儲存的成本

資料精簡之考量 如何選取代表性的資料 如何進行資料精簡

資料精簡所包含之觀點 資料精簡:資料維度精簡、資料記錄精簡與資料數值精簡 會員資料集合 資料維度 資料記錄 資料數值 會員編號 平均月收入 (千) 教育程度 年齡 會員等級 1 21 高中 30 低 2 24 大學 29 高 3 33 國中 28 4 20 32 5 42 31 6 38 35 7 37 36 資料記錄 資料數值

資料維度精簡(Dimension Reduction) 主要用來描述一件事物或事件 可利用年齡、教育程度、平均月收入和會員等級等資料維度來描述一個會員 資料維度精簡在企業決策上的應用 企業在決策支援與線上分析處理 (OLAP) 上,通常根據決策制定目標與應用目地的不同,會由日常線上交易處理(OLTP)資料集合中,挑選、轉換、乃至新增跟決策相關的資料維度來描述資料集合,並進行分析探勘

資料維度的評估(1) 利用一測量方法來挑選較好的資料維度 以會員資料表為例,“平均月收入” 應該比 “教育程度” 和 “年齡” 這兩個資料維度更適合做為 “會員等級” 評比的依據。(因為大部分收入低的會員,同常會員等級也會低) 讓電腦透過所設計的測量方法,自動地從資料集合中挑選較好的資料維度,幫助我們客觀解決資料維度精簡的問題

資料維度的評估(2) 測量方法 一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

資料維度的評估(3) 闡述測量方法的整合範例 其他待評估之資料維度 目標資料維度 會員編號 平均月收入 (千) 教育程度 年齡 會員等級 1 高中 2 低 大學 高 3 國中 4 5 6 7

測量方法 一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

一致性測量法(1) 概念 在使用者給定之標的資料維度下,一致性測量法的概念是利用最少的其他的資料維度,來描述資料表中每一筆記錄時,不會造成矛盾與衝突 任兩筆資料記錄可以透過所選擇的資料維度來描述,但不會產生不一致(inconsistency)的情況 範例 以”會員等級”是標的資料維度,則單以 “平均月收入” 此資料維度來描述原來的會員資料表,將使得資料記錄一與資料記錄二會產生不一致 同樣“平均月收入”等級一 但是會員一與會員二之會員等級卻不同

一致性測量法(2) “平均月收入” 對 “會員等級” 所產生的不一致數量 “教育程度” 對 “會員等級” 所產生的不一致數量 I (平均月收入, 會員等級) = I (平均月收入(1), 會員等級) + I (平均月收入(2), 會員等級) + I (平均月收入(3), 會員等級) = 1 + 0 + 0 = 1 “教育程度” 對 “會員等級” 所產生的不一致數量 I (教育程度, 會員等級) = I (教育程度(大學), 會員等級) + I (教育程度(高中), 會員等級) + I (教育程度(國中), 會員等級) = 0 + 1 + 1 = 2 “年齡” 對 “會員等級” 所產生的不一致數量 I (年齡, 會員等級) = I (年齡(1), 會員等級) + I (年齡(2), 會員等級) = 0 + 2 = 2 “平均月收入”比其他資料維度重要

測量方法 一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

關連性測量法(1) 概念 測量資料維度之間的關連度(association degree),當兩個資料維度A、B關連度愈高,由A中的資料數值可以判斷B中的資料數值的可能性愈高 透過關連性測量法,可以得知標的資料維度與資料表中其餘資料維度之關連度 範例 以”會員等級”是標的資料維度,則“平均月收入” 與其關連度可以概略計算為2/3 * 1 * 1 = 2/3 平均月收入等級一時,有2/3的機會可以由此判斷為會員等級低 平均月收入等級二時,有百分之百的機會判斷為會員等級高 平均月收入等級三時,有百分之百的機會判斷為會員等級低

關連性測量法(2) “平均月收入” 與 “會員等級” 的關連度 “教育程度” 與 “會員等級”的關連度 “年齡” 與 “會員等級”的關連度 R (平均月收入, 會員等級) = R (平均月收入(1), 會員等級) * R (平均月收入(2), 會員等級) * R (平均月收入(3), 會員等級) = 2/3 * 1 * 1 = 2/3 “教育程度” 與 “會員等級”的關連度 R (教育程度, 會員等級) = R (教育程度(大學), 會員等級) * R (教育程度(高中), 會員等級) * R (教育程度(國中), 會員等級) = 1 * 2/3 * 1/2 = 1/3 “年齡” 與 “會員等級”的關連度 R (年齡, 會員等級) = R (年齡(1), 會員等級) * R (年齡(2), 會員等級) = 1 * 3/5 = 3/5 “平均月收入”比其他資料維度重要

測量方法 一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

鑑別能力測量法(1) 概念 測量資料表中的其它資料維度,對於標的資料維度中的資料數值之鑑別能力(discriminating power) 鑑別能力愈高的資料維度對於標的資料維度愈具有重要性和影響力 範例 以”會員等級”是標的資料維度,則“平均月收入” 對其鑑別能力可以概略計算Min (2/3, 3/4) = 2/3 (Min此函數為取最小值) 會員等級低的資料記錄而言,其中有2/3的部分是可以由平均月收入等級一來決定 會員等級高的資料記錄而言,其中有3/4的部分是可以由平均月收入等級二來決定

鑑別能力測量法(2) “平均月收入” 對 “會員等級” 的鑑別能力 “教育程度” 對 “會員等級”的鑑別能力 D (會員等級, 平均月收入) = Min (D (會員等級(低), 平均月收入), D (會員等級(高), 平均月收入)) = Min(2/3, 3/4) = 2/3 “教育程度” 對 “會員等級”的鑑別能力 R (教育程度, 會員等級) = R (教育程度(大學), 會員等級) * R D (會員等級, 教育程度) = Min (D (會員等級(低), 教育程度), D (會員等級(高), 教育程度)) = Min (2/3, 2/4) = 1/2 “年齡” 對 “會員等級”的鑑別能力 D (會員等級, 年齡) = Min (D (會員等級(低), 年齡), D (會員等級(高), 年齡)) = Min (3/3, 2/4) = Min (3/3, 2/4) = 1/2 “平均月收入”比其他資料維度重要

測量方法 一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

資訊量測量法(1) 概念 測量資料集合中的其他資料維度對於標的資料維度的資訊獲利(information gain),而所提供的資訊主要是用來幫助決定資料記錄中標的資料維度之資料數值 資料維度所提供的資訊量愈多者,其重要性愈高 範例 資料表中的資料記錄有3/7的機會是屬於會員等級低,有4/7的機會是屬於會員等級高 在考慮 “平均月收入” 此資料維度後,得到的資訊量為: 在平均月收入等級一的資訊提供下,有2/3的機會可以判斷為會員等級低 在平均月收入等級二和三的資訊提供下,更可以百分之百分別判斷為會員等級高和低

資訊量測量法(2) 未考慮其它資料維度下,標的資料維度的亂度值 在考慮資料維度組合X下,標的資料維度的亂度值 PD(ci) 表示標的資料維度中資料數值ci的機率,而d表示標的資料維度的值域 (domain) 大小 在考慮資料維度組合X下,標的資料維度的亂度值 PDj(ci) 表示當資料維度X為資料數值j時,標的資料維度中資料數值ci的機率,而d表示標的資料維度的值域大小 計算資料維度組合X對標的資料維度的資訊獲利 p表示資料維度組合X的值域大小 

資訊量測量法(3) 標的資料維度”會員等級”的亂度值 考慮 “平均月收入” 後 “會員等級” 的亂度值 = = 0.9852 = = 0.9852 PD (會員等級一) = 3/7和PD (會員等級二) = 4/7 考慮 “平均月收入” 後 “會員等級” 的亂度值 P (會員等級低|平均月收入等級一) = 2/3和P (會員等級高|平均月收入等級一) = 1/3 =  0.92 P (會員等級低|平均月收入等級二) = 0和P (會員等級高|平均月收入等級二) = 1 = = 0 P (會員等級低|平均月收入等級三) = 1和P (會員等級高|平均月收入等級三) = 0 ( )

資訊量測量法(4) 計算“平均月收入” 對 ”會員等級”的資訊獲利 = 0.9852 = 0.98520.394 = 0.591 當被考量的資料維度中的資料數值愈能將標的資料維度中的資料數值區分開來,則所求得之亂度值愈小;反之則愈大 考慮其它資料維度後,標的資料維度所表現出來的亂度值愈小者,所得到的資訊獲利愈大

測量方法 一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

準確性測量法 概念 準確性測量法則根據所產生的知識的優劣來挑選適合的資料維度 準確性測量法將與探勘結果作緊密的結合,如果所挑選之資料維度其探勘後的結果對使用者愈有幫助,則其準確度愈高 資料維度挑選與產生 探勘過程 結果評估

資料維度之組合策略 資料維度組合策略的考量 利用上述的測量公式對所有可能的資料維度組合進行評估,並選擇其中最好之組合,計算時間與空間的需求將以指數的成長 因此,進行資料維度精簡時,使用者通常會設定一終止條件,例如:不一致的資料記錄數量小於2、資料維度組合之長度至多為五等等 完全列舉策略 (exhaustive strategy) 經驗法則列舉策略 (heuristic strategy) 隨機列舉策略 (random strategy)

資料維度之組合策略 完全列舉策略 (exhaustive strategy) 經驗法則列舉策略 (heuristic strategy) 隨機列舉策略 (random strategy)

完全列舉策略(1) 概念 根據選擇之測量法計算任一個維度、任兩個維度、…、依此類推至所有可能之資料維度組合,最後挑選測量值最高的資料組合 優缺點 優點:可以保證能在所有可能之挑選組合中,找到最佳 (測量值最高) 的組合 缺點:當資料維度數量多時,完全列舉策略將不切實際

完全列舉策略(2) 所有可能資料維度組合都需考慮

資料維度之組合策略 完全列舉策略 (exhaustive strategy) 經驗法則列舉策略 (heuristic strategy) 隨機列舉策略 (random strategy)

經驗法則列舉策略(1) 概念 優缺點 經驗法則列舉策略是一種貪婪式方法 (greedy approach),只關注於眼前最好的選擇 在運作上,根據選擇之測量法,從單一資料維度中挑選出最好的維度出來;依此維度為基礎,從其餘未挑選之任一資料維度,產生可能之兩個資料維度之組合;以此類推,直到滿足使用者設定之終止條件為止 優缺點 優點:執行上較有效率 缺點:最後所挑選之資料維度組合並不保證是最佳的

經驗法則列舉策略(2) 以 “平均月收入” 為基礎之資料維度組合

資料維度之組合策略 完全列舉策略 (exhaustive strategy) 經驗法則列舉策略 (heuristic strategy) 隨機列舉策略 (random strategy)

隨機列舉策略 概念 優缺點 隨機列舉策略則以單一資料維度為種子 (seed),隨機產生可能之資料維度組合 或以目前所產生之資料維度為基礎,隨機進行加入其他資料維度或去除舊有的資料維度,而加入或去除之維度數量也可以是隨機決定的 優缺點 優點:執行上有效率,可能可以跳脫區域最佳解(local optimal) 缺點:無法保證挑選結果的品質

資料維度組合產生順序(1) 資料維度組合產生的考量 漸進式挑選法(sequential forward generation) 在尋找符合終止條件或最佳之資料維度組合時,應由較短的資料維度組合進行評核,還是由較長的資料維度組合進行評核 漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

資料維度組合產生順序(2) 假設{“平均月收入”, “年齡”}為測量值最高、最佳之資料維度組合,配合完全列舉策略,以下將探討四種資料維度組合產生順序

資料維度組合產生順序 漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

漸進式挑選法 概念 由晶格下方 { } 往晶格上方,每次多考慮一個資料維度 根據選擇之測量法計算晶格第一層之單一資料維度 {“平均月收入”}、{“教育程度”} 與 {“年齡”},並挑選其中最好的資料維度,假設為 {“平均月收入”} 針對晶格第二層之成對的資料維度 {“平均月收入”, “教育程度”}、{“平均月收入”, “年齡”} 與 {“教育程度”, “年齡”} 分別計算其測量值,並挑選其中最好的 {“平均月收入”, “年齡”} 測量值 假設 {“平均月收入”, “年齡”} 的測量值優於 {“平均月收入”},因此{“平均月收入”, “年齡”} 取代 {“平均月收入”} 成為最佳之資料維度組合 以此類推,進行晶格第三層的處理

資料維度組合產生順序 漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

漸進式刪減法 概念 由晶格上方 {“平均月收入”, “教育程度”, “年齡”} 往晶格下方,每次少考慮一個資料維度 計算精簡任一資料維度後的可能組合 {“平均月收入”, “教育程度”}、{“平均月收入”, “年齡”} 和 {“教育程度”, “年齡”},並挑選其中最好的資料維度 {“平均月收入”, “年齡”} 針對晶格單一資料維度 {“平均月收入”}、{“教育程度”} 與 {“年齡”} 分別計算其測量值,並挑選其中最好的資料維度 {“平均月收入”} 因為 {“平均月收入”} 的測量值低於 {“平均月收入”, “年齡”} ,因此{“平均月收入”, “年齡”} 仍為最佳之資料維度組合

資料維度組合產生順序 漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

混合法 概念 混合法結合漸進式挑選法與漸進式刪減法,同時由晶格下方的{ }往晶格上方和由晶格上方的 {“平均月收入”, “教育程度”, “年齡”} 往晶格下方出發

資料維度組合產生順序 漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

隨機選取法 概念 隨機選取法主要為配合隨機列舉策略所衍生出來。首先,隨機決定由晶格下方或晶格上方出發,配合隨機列舉策略產生任一可能的資料維度組合,並進行評核

列舉策略 v.s 組合產生順序 資料維度組合產生策略與資料維度組合產生順序的搭配可行性 完全列舉策略 經驗法則列舉策略 隨機列舉策略 漸進式挑選法 適合 不適合 漸進式刪減法 混合法 隨機選取法

資料記錄精簡(Record Reduction) 資料記錄精簡的需求 隨著資料表中的資料記錄愈來愈多,整個資料探勘所需的時間將跟著拉長 在資料維度精簡上也扮演著重要的角色,可以利用少量具代表性的資料記錄,將可以加速資料維度精簡上的處理 資料記錄精簡對所獲得的知識影響 求得之知識可能多少有些誤差 然而當資料集合中存在無關、偏差的資料記錄時,將資料記錄作適當的精簡,將能獲得更準確有效的知識

資料記錄精簡的方法 統計方法中抽樣(sampling)的作法 資料集合中抽取部分的資料記錄樣本來代表整個資料集合母體 隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

資料記錄精簡的方法 隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

隨機抽樣(random sampling) 假設資料集合中的資料記錄數量為N,則每一筆被選擇的機率為1/N 取回式隨機抽樣 每一筆被挑選的資料記錄,仍可以重覆再被挑選 不取回式隨機抽樣 每一資料記錄僅能被挑選一次,不可重覆被挑選 資料集合(N=6) 取回式隨機抽樣(n=4) 不取回式隨機抽樣(n=4)

資料記錄精簡的方法 隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

分層抽樣(stratified sampling) 概念 步驟一:針對資料集合中同質性高且互不重疊的分層,各自進行隨機抽樣 步驟二:將各分層的抽樣結果結合成一個樣本 資料集合(N=6) 分層抽樣 樣本(n=3) 分層一 分層二 分層三

資料記錄精簡的方法 隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

群集抽樣(cluster sampling) 概念 步驟一:利用群集分析技術,將整個資料集合區分成數個群集,使得每個群集中的資料記錄相似度很高,不同群集間的資料記錄相似度很低 步驟二:隨機由這些群集中選取數個群集形成一個樣本 群集抽樣 資料集合(N=6) 樣本(n=3) 群集一 群集二 群集一 群集二 群集三

資料記錄精簡的方法 隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

系統抽樣(systematic sampling) 概念 步驟一:假設資料集合中的資料記錄筆數為N,而所需之樣本資料記錄筆數為n,則系統抽樣的方式首先隨機由1~N/n之間選取一個數字;假設所選取的數字為k 步驟二:以k開始,每N/n個間隔 (interval),將相對應的資料記錄選取進樣本之中 系統抽樣 k=2 資料集合(N=6) 樣本(n=3) 1 2 3 4 5 6

資料記錄精簡的方法 隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

兩階段式抽樣(two-phase sampling) 概念 進行兩個階段的抽樣選取過程以決定樣本 第一階段首先由資料集合中隨機抽樣出一個較大的樣本,接著將第一階段中所得到的樣本當成資料集合 兩階段式抽樣可以延伸成多階段式抽樣(multi-phase sampling)

抽樣方法設計考量 一般抽樣或特定領域抽樣 機率抽樣或非機率抽樣 一次處理抽樣或多次處理抽樣 取回式抽樣或不取回式抽樣 動態抽樣或非動態抽樣

資料數值精簡(Value Reduction) 資料記錄精簡的需求 原始資料中存在太細、過於底層的資料數值,對於許多資料探勘方法而言,將無法從中找出層次較高、趨勢導向的知識 連續性資料數值精簡 資料數值分離技術(discretization technique) 類別性資料數值精簡 概念階層(concept hierarchy)

資料數值分離技術(1) 利用分離技術(discretization),切割出數個區間來取代值域上眾多的資料數值 人工分離法 依據特定連續性資料維度的認知、專家的建議、普遍存在的現象,將資料數值的值域分離出數個區間 “年齡”此資料維度可以分離出下列三個區間,(0, 30]、(30,60]、(60,120],並分別對應到 ‘青年’、‘中年’ 和 ‘老年’ 等三個資料數值

資料數值分離技術(2) 裝箱法(binning method) 相等寬度 (equal-width-interval)裝箱法 相等深度 (equal-frequency-interval)裝箱法

等寬裝箱法 在使用者所給定之箱子個數n下,依據排序過後資料數值之最大值與最小值切割成n個等寬箱子 以 “年齡” 此資料維度而言,在使用者所給定之箱子個數為3下,每一個箱子的寬度為 (36-28) /3 = 2.67,經四捨五入後為3 箱子一:28, 29, 30 箱子二:31, 32 箱子三:35, 36

等深裝箱法 此做法為在使用者所給定之箱子個數n下,依據資料數值的數量切割成n個數量相等箱子 會員資料表中總共有7筆資料記錄,在使用者所給定之箱子個數為3下,每一個箱子可裝載之資料筆數為為7/3 = 2.33,經四捨五入後為2 箱子一:28, 29 箱子二:30, 31 箱子三:32, 35, 36

概念階層(1) 概念階層的概念 對於某一領域中各個概念(concept) 給定適當之階層關係,透過這些階層關係,了解此領域的範圍和組成元素,幫助釐清與了解領域 愈往上層的概念所涵蓋的範圍愈廣泛,愈往底層之概念所涵蓋範圍愈特定而狹隘

概念階層(2) 會員編號 平均月收入 (千) 教育程度 年齡 會員等級 1 21 高中 30 低 2 24 大學 29 高 3 33 國中 28 4 20 32 5 42 31 6 38 35 7 37 36 會員編號 平均月收入 (千) 教育程度 年齡 會員等級 1 21 高等教育 30 低 2 24 29 高 3 33 基礎教育 28 4 20 32 5 42 31 6 38 35 7 37 36

總結(1) 前置處理階段適當的資料精簡 資料維度的精簡 資料記錄的精簡 減少整個探勘過程中所花費的時間和成本 提高所獲取知識的準確性、利用性和可讀性 資料維度的精簡 給定標的資料維度,利用測量法、組合產生策略與組合產生順序,選出具有代表性的資料維度,縮短每一資料記錄的長度 資料記錄的精簡 利用統計抽樣的方法,挑選出部分具代表性的資料記錄,減少資料記錄的數量

總結(2) 資料數值的精簡 資料維度、資料記錄與資料數值在進行精簡上,彼此互相關連和影響 利用資料數值分離技術與概念階層,將分別縮小連續性資料數值與類別性資料數值的值域範圍 資料維度、資料記錄與資料數值在進行精簡上,彼此互相關連和影響