資料精簡 (Data Reduction).

Slides:

Advertisements

Similar presentations

手工加工全框眼镜技术前调整确定加工基准制作模板割边磨边磨安全角（抛光）装配后调整检测.

Advertisements

融资融券业务的保证金与保证金比例光大证券 · 信用业务管理总部 2015 年 12 月 ★融资融券业务投资者教育活动材料★

道家養生保健長壽藥膳藥膳應用原則：天人相應，道法自然藥膳有兩個職能：一是保健增壽，一是治療疾病。 ◎ 黃蕙棻.

動動腦時間 — 腦筋急轉彎 —. 1. 有三個小朋友在猜拳，一個出石頭，一個出布，一個出剪刀，請問三個人共有幾根指頭？答案： 60 根.

第二节脉搏的评估及异常时的护理. 教学目标  1 、解释有关名词  2 、说出脉搏、呼吸的正常值  3 、叙述脉搏、呼吸的测量方法；识别脉搏、呼吸的异常变化  4 、叙述测量脉搏、呼吸的注意事项  5 、正确记录脉搏、呼吸，做到认真负责，实事求是。

项目四、腻子的施工　一、准备工作　二、安全与卫生　三、板件表面的处理　四、准备腻子　五、刮腻子　六、腻子的干燥　七、腻子的打磨　结束.

個人理財規劃第八章投資規劃.

保育员工作职责.

行政法之行政救济篇.

第一章　会计信息系统第一节　计算机会计概述.

开天门梅州市中医医院郑雪辉.

小儿斜颈的诊断与治疗.

数据库原理及应用《数据库原理及应用》课程组荆楚理工学院.

中式面点技艺长春市商业职业技术学校王成贵中式面点技艺长春市商业职业技术学校授课教师：王成贵.

第 3 章資料分類與蒐集 1.進行研究過程中最重要的步驟 2.資料收集與實驗設計具有關連性.

小寶寶家庭保健護理小常識講師：郭洽利老師

國立中正大學勞工研究所黃良志副教授中華民國九十四年九月

消防安全知识讲座 ---校园防火与逃生保卫科.

2017/3/9 实验误差及其控制魏敏杰陈杰阮强王振宁单凤平孟繁浩富伟能陈磊中国医科大学.

第六章資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用

第三章儿童少年、女子及中老年的体育卫生第一节儿童少年的体育卫生

第二章研究设计与评价.

統計調查管理研習班統計調查抽樣設計鄭宇庭國立政治大學統計學系.

第八課蓼莪.

学生学业水平诊断与提升策略探究平阳中学周秀丽.

初中语文总复习说明文阅读专题西安市第六十七中学潘敏.

征服火灾是全社会的事业，它需要科技的进步，需要消防监督，也需要消防科学知识的普及和提高。通过各类的消防安全培训，从而使人们更好的掌握消防常识和了解消防法规，提高消防安全意识，提高自防自救能力，使我们的生产和生活远离火灾的侵袭。

第五章病因病机.

解放軍論壇中共信息戰發展對我國軍事戰略之影響.

第十一章真理与价值主讲人：阎华荣.

資料倉儲與資料前置處理報告者：謝仁瑋.

足球運動情報蒐集與分析趙榮瑞教授.

講師：賴玉珊心理師證照：諮商心理師（諮心字第001495號）學歷：國立台南大學諮商與輔導研究所畢現任：長榮大學諮商中心專任心理師

专题五高瞻远瞩把握未来 ——信息化战争主讲教师：.

二、汽化和液化.

复习：一、细胞膜的成分 1、脂质 2、蛋白质 3、糖类二、生物膜的功能： 1、界膜 2、控制物质的进出 3、进行细胞间信息交流.

第七章固定资产.

第十章现代秘书协调工作.

預告統計資料發布 & 機關辦理統計調查管理作業

第1节人体内物质的运输人体的组织细胞每时每刻都需要营养物质和氧，并不断产生二氧化碳、尿素等废物。这些物质在人体内运输主要依靠系统。人体的血液循环系统由、和组成。血液循环血管心脏血液.

国际关系的决定因素：国家利益江苏省震泽中学丛海啸.

走自立自强之路自己的事情自己做.

人類的循環系統.

設計師與消費者在食品包裝理解力傳達設計之認知差異

第3节以水为主要传热介质的烹调方法.

第一章汽车的解体与清洗第一节汽车解体工艺一、零件的拆卸原则 1、拆卸前应熟悉被拆总成的结构

行政院國軍退除役官兵輔導委員會嘉義榮民醫院.

数据仓库与数据挖掘复习.

資訊管理第九章資料採礦.

檔案立案編目檔案管理局檔案徵集組陳穆怡 103年6月19日

大眾媒體研究導論 Chapter 4 抽樣第一部分研究程序

第 7 章抽樣與抽樣分配 Part B ( ).

Digital Terrain Modeling

第11章抽樣設計 本章的學習主題 1.抽樣的基本概念 2.抽樣的程序 3.機率抽樣 4.非機率抽樣 5.電話抽樣

Data Pre-Processing … What about your data?.

護理研究概論─ 樣本與取樣策略許翠華長庚科技大學護理系 T.H. Hsu.

Workshop on Statistical Analysis

社会研究方法第四讲：问卷调查.

统计学 (第三版) 2008 作者贾俊平统计学.

公立學校教職員退休資遣撫卹條例重點說明苗栗縣政府人事處編製主講人：陳處長坤榮 107年5月2日.

Introduction to Basic Statistics

第七章抽樣與抽樣分配.

Introduction to Basic Statistics

浙江大学医学院公共技术平台实验仪器预约管理系统系列培训医学院公共技术平台丁巧灵

Review 統計方法的順序確定目的蒐集資料整理資料分析資料推論資料 (變量，對象) (方法：普查，抽樣)

朝陽科技大學環境工程與管理學系課程名稱：空氣污染實驗課程內容：採樣及分析方法概論上課班級 : 二A & 二B 授課教師：楊錫賢教授.

國立台北教育大學數學技資訊教育學系陳幸玫

Presentation transcript:

資料精簡 (Data Reduction)

內容概要簡介資料精簡所包含之觀點資料維度精簡(Dimension Reduction) 資料維度的評估資料維度之組合策略資料維度組合產生順序資料記錄精簡(Record Reduction) 資料數值精簡(Value Reduction) 資料數值分離技術(Discretization Technique) 概念階層(Concept Hierarchy)

簡介(1) 資料精簡在資料探勘過程中所扮演的角色狹義而言：主要應用在資料的前置處理階段 (pre-processing phase) 廣義而言：整個資料探勘過程都可以應用資料精簡的技術前置處理階段(pre-processing phase) 探勘階段(mining phase) 後置處理階段(post-processing phase)

簡介(2) 前置處理階段之資料精簡探勘階段之資料精簡後置處理階段之資料精簡從資料庫或資料倉儲中選取並建立使用者感興趣的資料集合從資料集合中濾掉一些無關、偏差、重複的資料探勘階段之資料精簡探勘處理過程中去除不具代表性的中介資訊或法則，進而縮小探勘過程中所需花費的時間，減少產生重複、不重要的知識後置處理階段之資料精簡根據使用者的需求，由探勘結果中選取其感興趣和相關的知識，以及透過視覺化技術將知識作適當的歸納、整合，讓使用者更方便快速了解發展趨勢、市場偏向、消費者群集等等，以幫助其作決策

資料精簡之優點提高知識的應用性與準確性，降低無效、錯誤資料之影響挑選少量且具代表性的資料將大幅縮減資料探勘所需的時間使資料探勘方法的可用性提高助於高價值知識的取得與提升知識可讀性降低儲存的成本

資料精簡之考量如何選取代表性的資料如何進行資料精簡

資料精簡所包含之觀點資料精簡：資料維度精簡、資料記錄精簡與資料數值精簡會員資料集合資料維度資料記錄資料數值會員編號平均月收入 (千) 教育程度年齡會員等級 1 21 高中 30 低 2 24 大學 29 高 3 33 國中 28 4 20 32 5 42 31 6 38 35 7 37 36 資料記錄資料數值

資料維度精簡(Dimension Reduction) 主要用來描述一件事物或事件可利用年齡、教育程度、平均月收入和會員等級等資料維度來描述一個會員資料維度精簡在企業決策上的應用企業在決策支援與線上分析處理 (OLAP) 上，通常根據決策制定目標與應用目地的不同，會由日常線上交易處理(OLTP)資料集合中，挑選、轉換、乃至新增跟決策相關的資料維度來描述資料集合，並進行分析探勘

資料維度的評估(1) 利用一測量方法來挑選較好的資料維度以會員資料表為例，“平均月收入” 應該比 “教育程度” 和 “年齡” 這兩個資料維度更適合做為 “會員等級” 評比的依據。(因為大部分收入低的會員，同常會員等級也會低) 讓電腦透過所設計的測量方法，自動地從資料集合中挑選較好的資料維度，幫助我們客觀解決資料維度精簡的問題

資料維度的評估(2) 測量方法一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

資料維度的評估(3) 闡述測量方法的整合範例其他待評估之資料維度目標資料維度會員編號平均月收入 (千) 教育程度年齡會員等級 1 高中 2 低大學高 3 國中 4 5 6 7

測量方法一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

一致性測量法(1) 概念在使用者給定之標的資料維度下，一致性測量法的概念是利用最少的其他的資料維度，來描述資料表中每一筆記錄時，不會造成矛盾與衝突任兩筆資料記錄可以透過所選擇的資料維度來描述，但不會產生不一致(inconsistency)的情況範例以”會員等級”是標的資料維度，則單以 “平均月收入” 此資料維度來描述原來的會員資料表，將使得資料記錄一與資料記錄二會產生不一致同樣“平均月收入”等級一但是會員一與會員二之會員等級卻不同

一致性測量法(2) “平均月收入” 對 “會員等級” 所產生的不一致數量 “教育程度” 對 “會員等級” 所產生的不一致數量 I (平均月收入, 會員等級) = I (平均月收入(1), 會員等級) + I (平均月收入(2), 會員等級) + I (平均月收入(3), 會員等級) = 1 + 0 + 0 = 1 “教育程度” 對 “會員等級” 所產生的不一致數量 I (教育程度, 會員等級) = I (教育程度(大學), 會員等級) + I (教育程度(高中), 會員等級) + I (教育程度(國中), 會員等級) = 0 + 1 + 1 = 2 “年齡” 對 “會員等級” 所產生的不一致數量 I (年齡, 會員等級) = I (年齡(1), 會員等級) + I (年齡(2), 會員等級) = 0 + 2 = 2 “平均月收入”比其他資料維度重要

測量方法一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

關連性測量法(1) 概念測量資料維度之間的關連度(association degree)，當兩個資料維度A、B關連度愈高，由A中的資料數值可以判斷B中的資料數值的可能性愈高透過關連性測量法，可以得知標的資料維度與資料表中其餘資料維度之關連度範例以”會員等級”是標的資料維度，則“平均月收入” 與其關連度可以概略計算為2/3 * 1 * 1 = 2/3 平均月收入等級一時，有2/3的機會可以由此判斷為會員等級低平均月收入等級二時，有百分之百的機會判斷為會員等級高平均月收入等級三時，有百分之百的機會判斷為會員等級低

關連性測量法(2) “平均月收入” 與 “會員等級” 的關連度 “教育程度” 與 “會員等級”的關連度 “年齡” 與 “會員等級”的關連度 R (平均月收入, 會員等級) = R (平均月收入(1), 會員等級) * R (平均月收入(2), 會員等級) * R (平均月收入(3), 會員等級) = 2/3 * 1 * 1 = 2/3 “教育程度” 與 “會員等級”的關連度 R (教育程度, 會員等級) = R (教育程度(大學), 會員等級) * R (教育程度(高中), 會員等級) * R (教育程度(國中), 會員等級) = 1 * 2/3 * 1/2 = 1/3 “年齡” 與 “會員等級”的關連度 R (年齡, 會員等級) = R (年齡(1), 會員等級) * R (年齡(2), 會員等級) = 1 * 3/5 = 3/5 “平均月收入”比其他資料維度重要

測量方法一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

鑑別能力測量法(1) 概念測量資料表中的其它資料維度，對於標的資料維度中的資料數值之鑑別能力(discriminating power) 鑑別能力愈高的資料維度對於標的資料維度愈具有重要性和影響力範例以”會員等級”是標的資料維度，則“平均月收入” 對其鑑別能力可以概略計算Min (2/3, 3/4) = 2/3 (Min此函數為取最小值) 會員等級低的資料記錄而言，其中有2/3的部分是可以由平均月收入等級一來決定會員等級高的資料記錄而言，其中有3/4的部分是可以由平均月收入等級二來決定

鑑別能力測量法(2) “平均月收入” 對 “會員等級” 的鑑別能力 “教育程度” 對 “會員等級”的鑑別能力 D (會員等級, 平均月收入) = Min (D (會員等級(低), 平均月收入), D (會員等級(高), 平均月收入)) = Min(2/3, 3/4) = 2/3 “教育程度” 對 “會員等級”的鑑別能力 R (教育程度, 會員等級) = R (教育程度(大學), 會員等級) * R D (會員等級, 教育程度) = Min (D (會員等級(低), 教育程度), D (會員等級(高), 教育程度)) = Min (2/3, 2/4) = 1/2 “年齡” 對 “會員等級”的鑑別能力 D (會員等級, 年齡) = Min (D (會員等級(低), 年齡), D (會員等級(高), 年齡)) = Min (3/3, 2/4) = Min (3/3, 2/4) = 1/2 “平均月收入”比其他資料維度重要

測量方法一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

資訊量測量法(1) 概念測量資料集合中的其他資料維度對於標的資料維度的資訊獲利(information gain)，而所提供的資訊主要是用來幫助決定資料記錄中標的資料維度之資料數值資料維度所提供的資訊量愈多者，其重要性愈高範例資料表中的資料記錄有3/7的機會是屬於會員等級低，有4/7的機會是屬於會員等級高在考慮 “平均月收入” 此資料維度後，得到的資訊量為：在平均月收入等級一的資訊提供下，有2/3的機會可以判斷為會員等級低在平均月收入等級二和三的資訊提供下，更可以百分之百分別判斷為會員等級高和低

資訊量測量法(2) 未考慮其它資料維度下，標的資料維度的亂度值在考慮資料維度組合X下，標的資料維度的亂度值 PD(ci) 表示標的資料維度中資料數值ci的機率，而d表示標的資料維度的值域 (domain) 大小在考慮資料維度組合X下，標的資料維度的亂度值 PDj(ci) 表示當資料維度X為資料數值j時，標的資料維度中資料數值ci的機率，而d表示標的資料維度的值域大小計算資料維度組合X對標的資料維度的資訊獲利 p表示資料維度組合X的值域大小 

資訊量測量法(3) 標的資料維度”會員等級”的亂度值考慮 “平均月收入” 後 “會員等級” 的亂度值 = = 0.9852 = = 0.9852 PD (會員等級一) = 3/7和PD (會員等級二) = 4/7 考慮 “平均月收入” 後 “會員等級” 的亂度值 P (會員等級低|平均月收入等級一) = 2/3和P (會員等級高|平均月收入等級一) = 1/3 =  0.92 P (會員等級低|平均月收入等級二) = 0和P (會員等級高|平均月收入等級二) = 1 = = 0 P (會員等級低|平均月收入等級三) = 1和P (會員等級高|平均月收入等級三) = 0 ( )

資訊量測量法(4) 計算“平均月收入” 對 ”會員等級”的資訊獲利 = 0.9852 = 0.98520.394 = 0.591 當被考量的資料維度中的資料數值愈能將標的資料維度中的資料數值區分開來，則所求得之亂度值愈小；反之則愈大考慮其它資料維度後，標的資料維度所表現出來的亂度值愈小者，所得到的資訊獲利愈大

測量方法一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement)

準確性測量法概念準確性測量法則根據所產生的知識的優劣來挑選適合的資料維度準確性測量法將與探勘結果作緊密的結合，如果所挑選之資料維度其探勘後的結果對使用者愈有幫助，則其準確度愈高資料維度挑選與產生探勘過程結果評估

資料維度之組合策略資料維度組合策略的考量利用上述的測量公式對所有可能的資料維度組合進行評估，並選擇其中最好之組合，計算時間與空間的需求將以指數的成長因此，進行資料維度精簡時，使用者通常會設定一終止條件，例如：不一致的資料記錄數量小於2、資料維度組合之長度至多為五等等完全列舉策略 (exhaustive strategy) 經驗法則列舉策略 (heuristic strategy) 隨機列舉策略 (random strategy)

資料維度之組合策略完全列舉策略 (exhaustive strategy) 經驗法則列舉策略 (heuristic strategy) 隨機列舉策略 (random strategy)

完全列舉策略(1) 概念根據選擇之測量法計算任一個維度、任兩個維度、…、依此類推至所有可能之資料維度組合，最後挑選測量值最高的資料組合優缺點優點：可以保證能在所有可能之挑選組合中，找到最佳 (測量值最高) 的組合缺點：當資料維度數量多時，完全列舉策略將不切實際

完全列舉策略(2) 所有可能資料維度組合都需考慮

資料維度之組合策略完全列舉策略 (exhaustive strategy) 經驗法則列舉策略 (heuristic strategy) 隨機列舉策略 (random strategy)

經驗法則列舉策略(1) 概念優缺點經驗法則列舉策略是一種貪婪式方法 (greedy approach)，只關注於眼前最好的選擇在運作上，根據選擇之測量法，從單一資料維度中挑選出最好的維度出來；依此維度為基礎，從其餘未挑選之任一資料維度，產生可能之兩個資料維度之組合；以此類推，直到滿足使用者設定之終止條件為止優缺點優點：執行上較有效率缺點：最後所挑選之資料維度組合並不保證是最佳的

經驗法則列舉策略(2) 以 “平均月收入” 為基礎之資料維度組合

資料維度之組合策略完全列舉策略 (exhaustive strategy) 經驗法則列舉策略 (heuristic strategy) 隨機列舉策略 (random strategy)

隨機列舉策略概念優缺點隨機列舉策略則以單一資料維度為種子 (seed)，隨機產生可能之資料維度組合或以目前所產生之資料維度為基礎，隨機進行加入其他資料維度或去除舊有的資料維度，而加入或去除之維度數量也可以是隨機決定的優缺點優點：執行上有效率，可能可以跳脫區域最佳解(local optimal) 缺點：無法保證挑選結果的品質

資料維度組合產生順序(1) 資料維度組合產生的考量漸進式挑選法(sequential forward generation) 在尋找符合終止條件或最佳之資料維度組合時，應由較短的資料維度組合進行評核，還是由較長的資料維度組合進行評核漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

資料維度組合產生順序(2) 假設{“平均月收入”, “年齡”}為測量值最高、最佳之資料維度組合，配合完全列舉策略，以下將探討四種資料維度組合產生順序

資料維度組合產生順序漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

漸進式挑選法概念由晶格下方 { } 往晶格上方，每次多考慮一個資料維度根據選擇之測量法計算晶格第一層之單一資料維度 {“平均月收入”}、{“教育程度”} 與 {“年齡”}，並挑選其中最好的資料維度，假設為 {“平均月收入”} 針對晶格第二層之成對的資料維度 {“平均月收入”, “教育程度”}、{“平均月收入”, “年齡”} 與 {“教育程度”, “年齡”} 分別計算其測量值，並挑選其中最好的 {“平均月收入”, “年齡”} 測量值假設 {“平均月收入”, “年齡”} 的測量值優於 {“平均月收入”}，因此{“平均月收入”, “年齡”} 取代 {“平均月收入”} 成為最佳之資料維度組合以此類推，進行晶格第三層的處理

資料維度組合產生順序漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

漸進式刪減法概念由晶格上方 {“平均月收入”, “教育程度”, “年齡”} 往晶格下方，每次少考慮一個資料維度計算精簡任一資料維度後的可能組合 {“平均月收入”, “教育程度”}、{“平均月收入”, “年齡”} 和 {“教育程度”, “年齡”}，並挑選其中最好的資料維度 {“平均月收入”, “年齡”} 針對晶格單一資料維度 {“平均月收入”}、{“教育程度”} 與 {“年齡”} 分別計算其測量值，並挑選其中最好的資料維度 {“平均月收入”} 因為 {“平均月收入”} 的測量值低於 {“平均月收入”, “年齡”} ，因此{“平均月收入”, “年齡”} 仍為最佳之資料維度組合

資料維度組合產生順序漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

混合法概念混合法結合漸進式挑選法與漸進式刪減法，同時由晶格下方的{ }往晶格上方和由晶格上方的 {“平均月收入”, “教育程度”, “年齡”} 往晶格下方出發

資料維度組合產生順序漸進式挑選法(sequential forward generation) 漸進式刪減法(sequential backward generation) 混合法(bidirectional generation) 隨機選取法(randomized generation)

隨機選取法概念隨機選取法主要為配合隨機列舉策略所衍生出來。首先，隨機決定由晶格下方或晶格上方出發，配合隨機列舉策略產生任一可能的資料維度組合，並進行評核

列舉策略 v.s 組合產生順序資料維度組合產生策略與資料維度組合產生順序的搭配可行性完全列舉策略經驗法則列舉策略隨機列舉策略漸進式挑選法適合不適合漸進式刪減法混合法隨機選取法

資料記錄精簡(Record Reduction) 資料記錄精簡的需求隨著資料表中的資料記錄愈來愈多，整個資料探勘所需的時間將跟著拉長在資料維度精簡上也扮演著重要的角色，可以利用少量具代表性的資料記錄，將可以加速資料維度精簡上的處理資料記錄精簡對所獲得的知識影響求得之知識可能多少有些誤差然而當資料集合中存在無關、偏差的資料記錄時，將資料記錄作適當的精簡，將能獲得更準確有效的知識

資料記錄精簡的方法統計方法中抽樣(sampling)的作法資料集合中抽取部分的資料記錄樣本來代表整個資料集合母體隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

資料記錄精簡的方法隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

隨機抽樣(random sampling) 假設資料集合中的資料記錄數量為N，則每一筆被選擇的機率為1/N 取回式隨機抽樣每一筆被挑選的資料記錄，仍可以重覆再被挑選不取回式隨機抽樣每一資料記錄僅能被挑選一次，不可重覆被挑選資料集合(N=6) 取回式隨機抽樣(n=4) 不取回式隨機抽樣(n=4)

資料記錄精簡的方法隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

分層抽樣(stratified sampling) 概念步驟一：針對資料集合中同質性高且互不重疊的分層，各自進行隨機抽樣步驟二：將各分層的抽樣結果結合成一個樣本資料集合(N=6) 分層抽樣樣本(n=3) 分層一分層二分層三

資料記錄精簡的方法隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

群集抽樣(cluster sampling) 概念步驟一：利用群集分析技術，將整個資料集合區分成數個群集，使得每個群集中的資料記錄相似度很高，不同群集間的資料記錄相似度很低步驟二：隨機由這些群集中選取數個群集形成一個樣本群集抽樣資料集合(N=6) 樣本(n=3) 群集一群集二群集一群集二群集三

資料記錄精簡的方法隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

系統抽樣(systematic sampling) 概念步驟一：假設資料集合中的資料記錄筆數為N，而所需之樣本資料記錄筆數為n，則系統抽樣的方式首先隨機由1~N/n之間選取一個數字；假設所選取的數字為k 步驟二：以k開始，每N/n個間隔 (interval)，將相對應的資料記錄選取進樣本之中系統抽樣 k=2 資料集合(N=6) 樣本(n=3) 1 2 3 4 5 6

資料記錄精簡的方法隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling)

兩階段式抽樣(two-phase sampling) 概念進行兩個階段的抽樣選取過程以決定樣本第一階段首先由資料集合中隨機抽樣出一個較大的樣本，接著將第一階段中所得到的樣本當成資料集合兩階段式抽樣可以延伸成多階段式抽樣(multi-phase sampling)

抽樣方法設計考量一般抽樣或特定領域抽樣機率抽樣或非機率抽樣一次處理抽樣或多次處理抽樣取回式抽樣或不取回式抽樣動態抽樣或非動態抽樣

資料數值精簡(Value Reduction) 資料記錄精簡的需求原始資料中存在太細、過於底層的資料數值，對於許多資料探勘方法而言，將無法從中找出層次較高、趨勢導向的知識連續性資料數值精簡資料數值分離技術(discretization technique) 類別性資料數值精簡概念階層(concept hierarchy)

資料數值分離技術(1) 利用分離技術(discretization)，切割出數個區間來取代值域上眾多的資料數值人工分離法依據特定連續性資料維度的認知、專家的建議、普遍存在的現象，將資料數值的值域分離出數個區間 “年齡”此資料維度可以分離出下列三個區間，(0, 30]、(30,60]、(60,120]，並分別對應到 ‘青年’、‘中年’ 和 ‘老年’ 等三個資料數值

資料數值分離技術(2) 裝箱法(binning method) 相等寬度 (equal-width-interval)裝箱法相等深度 (equal-frequency-interval)裝箱法

等寬裝箱法在使用者所給定之箱子個數n下，依據排序過後資料數值之最大值與最小值切割成n個等寬箱子以 “年齡” 此資料維度而言，在使用者所給定之箱子個數為3下，每一個箱子的寬度為 (36-28) /3 = 2.67，經四捨五入後為3 箱子一：28, 29, 30 箱子二：31, 32 箱子三：35, 36

等深裝箱法此做法為在使用者所給定之箱子個數n下，依據資料數值的數量切割成n個數量相等箱子會員資料表中總共有7筆資料記錄，在使用者所給定之箱子個數為3下，每一個箱子可裝載之資料筆數為為7/3 = 2.33，經四捨五入後為2 箱子一：28, 29 箱子二：30, 31 箱子三：32, 35, 36

概念階層(1) 概念階層的概念對於某一領域中各個概念(concept) 給定適當之階層關係，透過這些階層關係，了解此領域的範圍和組成元素，幫助釐清與了解領域愈往上層的概念所涵蓋的範圍愈廣泛，愈往底層之概念所涵蓋範圍愈特定而狹隘

概念階層(2) 會員編號平均月收入 (千) 教育程度年齡會員等級 1 21 高中 30 低 2 24 大學 29 高 3 33 國中 28 4 20 32 5 42 31 6 38 35 7 37 36 會員編號平均月收入 (千) 教育程度年齡會員等級 1 21 高等教育 30 低 2 24 29 高 3 33 基礎教育 28 4 20 32 5 42 31 6 38 35 7 37 36

總結(1) 前置處理階段適當的資料精簡資料維度的精簡資料記錄的精簡減少整個探勘過程中所花費的時間和成本提高所獲取知識的準確性、利用性和可讀性資料維度的精簡給定標的資料維度，利用測量法、組合產生策略與組合產生順序，選出具有代表性的資料維度，縮短每一資料記錄的長度資料記錄的精簡利用統計抽樣的方法，挑選出部分具代表性的資料記錄，減少資料記錄的數量

總結(2) 資料數值的精簡資料維度、資料記錄與資料數值在進行精簡上，彼此互相關連和影響利用資料數值分離技術與概念階層，將分別縮小連續性資料數值與類別性資料數值的值域範圍資料維度、資料記錄與資料數值在進行精簡上，彼此互相關連和影響