資料倉儲與資料前置處理 報告者:謝仁瑋.

Slides:



Advertisements
Similar presentations
1 教師敘薪 Q & A 教師敘薪 Q & A 新竹縣立新湖國中 陳淑芬 新竹縣立自強國中 楊美娟
Advertisements

103 學年度縣內介聘申請說明會 南郭國小 教務主任張妙芬.  重要作業日程 : 1 、 5/1( 四 ) 前超額學校 ( 含移撥超額 ) 備文函報縣府教 育處輔導介聘教師名單 2 、 5/7( 三 ) 超額教師積分審查( 9 : : 00 、 13 : : 00 )。 3.
大學甄選申請入學 〃備審資料 〃面試. 確認你的追求對象 學校環境概況 系別特質 有無交換學生 未來出路 性質相似的科系要清楚之間的差別 ex: 社會福利學系,社會工作學系, 社會學系.
人文行動考察 羅東聖母醫院 老人醫療大樓 吳采凌 黃玨宸 劉映姍 陳嫚萱.
焦點 1 陸域生態系. 臺灣的陸域生態系 臺灣四面環海 黑潮通過  高溫, 雨量充沛 熱帶, 亞熱帶氣候.
資源問題與環境保育 第 6 章. 學完本章我能 ……  知道中國土地資源的問題與保育  了解中國水資源的問題與保育  知道中國森林資源的問題與保育  能分析自然環境和人文環境如何影響人類 的生活型態  說舉出全球面臨與關心的課題.
大公教育行政职业能力测验讲义 邢长文老师. Page 2 大公教育全国客服热线:
1 97 年度新住民子女教育研討會 九十七年十月二十九日 柯伯儒 [1] 詹雅琄 [2] [1] [2] [1] [1] 國立台北教育大學課程與教學研究所博士生、 彰化縣二林鎮廣興國小主任 [2] [2] 國立台中教育大學課程與教學研究所研究生、 彰化縣二林鎮廣興國小教師 有效提升國小新住民子女 語文學習的策略.
景美樣品房工程變更 / 追加請款 / 說明 102/08/09 樣品房停工 102/10/10 樣品房完工 102/09/26 向工務部提出 追加工程估價單 102/10/25 經工務部審核 轉送採發部門 102/09/03 工地會議 確認後續施工方式 102/11/ /11/ /12/09.
統計之迷思問題 保險 4B 張君翌. 迷思問題及教學者之對策 常見迷思概念教學者之對策 解題的過程重於答案 例 : 全班有 50 位同學,英文不及格的有 15 人,數學不及格的有 19 人,英文與 數學都及格的有 21 人。請問英文與數 學都不及格的有幾人? 老師常使用畫圖來解決這樣的問題,英文和.
社團法人台南市癲癇之友協會 講師:王乃央老師
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
寓言 何謂寓言? 寓言中的主角選擇 以動物為主角,形象分析—以成語及諺語中來歸納動物形象 以人為主角,形象分析
第七章 外營力作用 第一節 風化 第二節 崩壞 第三節 侵蝕與堆積.
湘雅医院中层干部培训讲座之二 医院行政管理工作思路 孙 虹 2010年10月27日.
物理治療師之僱傭關係 九十二年四月十二日.
勿讓權利睡著- 談車禍之損害賠償與消滅時效.
二、開港前的經濟發展 (一)土地開墾和農業發展 1.漢人移民的遷徙與拓墾 (1)遷徙 A.居住區 a.泉州人最多:沿海
設計新銳能量輔導 實習期中感想 實習生:賴美廷 部落格:TO13004.
日本的〈地獄劇〉 與 中國的〈目連戲〉.
選擇性逐字紀錄 臺北市立教育大學 張 德 銳.
授課教師:羅雅柔 博士 學員:吳沛臻/邱美如/張維庭/黃茹巧
第二章 复式记账原理*** 主要内容、重点难点: 1.会计要素与会计等式*** 2.会计科目与账户*** 3. 借贷记账法***
國小教師檢定經驗分享 分享者:胡瑋婷 現職:國語日報語文中心寫作班教師 閱讀寫作營教材編輯及任課講師 榮獲「教育部教育實習績優獎」全國第三名.
民主政治的運作
教育與學習科技學系 103學年度課程說明 103年9月2日.
國有不動產撥、借用法令與實務 財政部國有財產局 接收保管組撥用科 蔡芳宜.
公務人員 育嬰留職停薪權益.
大學教、職員之法義務規範與法律效果 台南地檢署林仲斌.
第三課 政府的組織、功能與權限 一、內閣制 壹、民主國家的政府體制 二、總統制 三、混合制 四、小結 一、前言 貳、我國的中央政府體制
明代開國謀臣 劉伯溫 組員:吳政儒 林天財 王鈴秀 陳冠呈 施典均 李孟儒.
1、分别用双手在本上写下自己的名字 2、双手交叉
中央與地方教育權限 第八組 王湘婷 邱淑婷 全 彥 洪英博
1.6 中国人口迁移.
中國宦官 鄭永富 鄭雅之 莊尉慈.
愛之花.
2007年11月考试相关工作安排 各考试点、培训中心和广大应考人员:
盧世欽 律師 鼎禾律師聯合事務所 民國 一○四 年 九 月 十八 日
分式的乘除(1) 周良中学 贾文荣.
簡報大綱 壹、親師溝通 貳、學生不當行為的處理 參、學生輔導 肆、個案研討分析.
第四章 制造业企业 主要经济业务核算.
福山國小 100學年度 新生家長始業輔導.
貨物稅稅務法令介紹 竹東稽徵所.
《思想品德》七年级下册 教材、教法与评价的交流 金 利 2006年1月10日.
九年一貫課程綱要微調 健康與體育領域召集人 「課綱微調轉化」研習
公私立大學特色介紹 (以第二類組為主) 報告人:吳婉綺.
危險情人的特徵 危險情人的特徵.
 第20讲 中国的交通.
基隆市立八斗高中 102 學年度第二學期 402 班『親師座談』
第四章 时间序列的分析 本章教学目的:①了解从数量方面研究社会经济现象发展变化过程和发展趋势是统计分析的一种重要方法;②掌握时间数列编制的基本要求;③理解和掌握水平速度两方面指标的计算及运用④理解和掌握长期趋势分析和预测的方法。 本章教学重点:现象发展的水平指标和速度指标。 本章教学难点:现象变动的趋势分析。
第十二单元 第28讲 第28讲 古代中国的科技和文艺   知识诠释  思维发散.
機關團體所得稅申報實務 中區國稅局苗栗縣分局第一課林天琴.
幼兒環境學習規畫 期末報告 指導老師:蔡其蓁 老師
雕塑你我他.
財政部臺灣省北區國稅局中壢稽徵所 各類所得扣繳暨免扣繳法令.
國內發展PACS之回顧與展望 黃興進 彭振興 連俊瑋 國立中正大學資訊管理學系 國立中正大學醫療資訊管理研究中心
「103年寒假教育優先區中小學生營隊」 校外補助計畫申請說明會.
水土保持法中「連續處罰」及「限期改正」制度之法律研究
國有公用財產管理及被占用處理暨活化運用法規與實務(含座談) 104年度教育部暨部屬機關學校總務人員研習會-不動產管理班
第一篇 数据仓库与OLAP 第一章 数据仓库基本概念
提升國民小學教師健康教育專業能力三年計畫
馬公高中100學年101大學博覽會 專題演講 演講主題 如何選填適合自己的大學科系
性騷擾防治宣導.
創業環境分析與 風險評估 赫斯提亞負責人:謝馥仲先生 主講 演講時間 : 2008/05/01.
葉脈標本的創意製作.
穿出自我… 高一家政.
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
財政四 徐瑜鴻 財政四 林博硯 財政四 陳玄恩 財政四 王張皓鈞 財政四 李定瑜
品格:熱 性格的培養6親熱就,48頁。 (一)什麼是熱.
Presentation transcript:

資料倉儲與資料前置處理 報告者:謝仁瑋

報告大鋼 資料倉儲 資料倉儲的特性 資料倉儲的實作 資料前置處理的原因

資料倉儲 資料倉儲(Data warehouse) 利用大量歷史資料之資料庫,提供彙總或是統計的資訊,以支援決策

線上分析處理與資料探勘 線上分析處理(OLAP) 資料探勘(Data mining) 是多維度結構的資料分析工具,能夠以不同的主題和角度,快速查出各種統計資料,例資料排名、增長率等。 資料探勘(Data mining) 利用分類、群集分析、關連性、序列分析、機器自我學習及其它統計方法,自歷史資料庫中,找出隱藏、未知的,但卻有用的資訊。 線上分析處理是真實的呈現出查詢的結果,而結果的解讀則是由使用者自行加以判斷。而資料探勘則是探勘出新且有用的知識,在資料的運用更勝於資料倉儲。

資料倉儲的特性(1) 整合的資料 􀁸 將不同來源的資料以一致的命名方式、統一度量單位、相同格式等加以整合儲存,以利未來使用者的存取。 ◦ 主題導向的資料 􀁸 在公司內,各部門因為業務性質不同,所使用的作業性資料也會因部門而有所不同,像是客服部門就只會存放產品和客戶資料;製造部門就只會存放零件與供應商的資料。其中有些資料對決策並沒有幫助,例如客戶的電話。

資料倉儲的特性(2) 歷史性資料 資料倉儲主要是提供過去某個時期的運作狀態,例如過去三年、五年,或是最近半年的銷售金額、獲利率等資訊,藉此分析、幫助決策,決定未來企業應採取的策略。 唯讀資料 當我們將作業性資料轉移到資料倉儲後,應當就不需再做什麼變動,除非是輸入錯誤的資料,所以資料倉儲主要是在提供資料快速彙總與查詢的功能,而不在於資料修改的功能。不需更新,頂多只需定期加入新資料,或是移出部分老舊的資料

資料倉儲與一般資料庫的差異 􀁠 一般關聯式資料庫使用關聯資料表儲存資料;而資料倉儲則使用多維度資料庫結構

資料倉儲的操作 分為下鑽(dirll-down)、上捲(roll-up)、切片(slice)、轉軸(piovt) 下鑽(再細分)

資料倉儲的操作 上捲(一季變一年)

資料倉儲的操作 切片(3d轉2d) 轉軸(橫的轉縱的)

資料倉儲的實作 資料描述 ◦ 假設一個類似網路線上購物網站◦ 其線上資料庫(簡稱OLT: On-Line Transaction 資料庫)包含四個資料表 會員資料表 商品資料表 商品類別資料表 交易資料表

需求假設 假設依據訪談結果,得到以下需求 針對上述各種分析需求,發現主要的索引主軸有:客戶、產品、時間三大類。 希望能對每一位客戶做銷售分析 希望能針對每一項產品做銷售業績分析 希望能對每一分類產品做銷售業績分析 希望能對付款方式做銷售分析 希望能對年度、季、月做銷售分析 針對上述各種分析需求,發現主要的索引主軸有:客戶、產品、時間三大類。

過程 第一步去排不需要的資料如電話、地址等

設計事實資料表 在交易資料表內,交易編號與交易數量是因為銷售所產生,所以兩者一定是事實資料。 訂單中的單價與銷售總金額,也是事實資料,單價可以由產品資料表的「售價」欄位提供。 (事先將其納入,可以避免每次必須到商品資料表查詢售價,加快彙總的計算) 在事實資料表內還需要包含關聯到三個維度資料表的索引欄位:會員帳號、商品編號、交易時間。 另外還加入付款方式欄位

設計時間維度資料表 由交易紀錄表得知交易時間是時間維度資料,時間階層選擇「年、季、月、日」。 實際上資料庫內並沒有一個時間資料表,但是可以由交易日期欄位計算出日期所屬的「年、季、月、日」資訊(關聯)。

最後設計完成的資料倉儲

資料前置處理的原因 資料不完整(data incomplete) 資料有雜訊(noise) 資料中某些屬性值有遺缺(少寫資料) 資料有雜訊(noise) 資料有錯誤或是特例(outlier)造成 資料不一致(data inconsistency) Ex: 商品價格在台灣是以台幣計價,在美國則是美金計價

資料遺缺填補法 直接忽略法 人工填補法 自動填補法 將資料遺缺的地方填入”未知/unKown”

雜訊去除法-裝箱法(等寬分割法) 公式為W=(B-A)/N 將資料的數值範圍劃分為N 個間隔相同的區間 A和B 分別為此屬性中的最小與最大值 12, 15, 18, 21, 28, 33, 36, 45, 50, 52 , 60 , 80 欲分割為四個箱子則箱子寬度=(80-12)/4=17

雜訊去除法-裝箱法(等深分割法) 將資料劃分為N 個資料數量大致相同的區間 《例》假設將12樣商品的價格資料排序如下: 12, 15, 18, 21, 28, 33, 36, 45, 50, 52 , 60 , 80 四個箱子則每個箱子均含三筆資料(寬度12/4=3)

裝箱資料的平緩處理 邊界值是若一數值離最小值較接近便用最小值取代、若離最大值較近便由最大值取代

資料正規化-極值正規化 主要目的是將不同標準之下所記錄的資料轉換到同一個標準,以便提高分析時的準確度。 極值正規化 公式 + 公式 + 假設某a地月收入範圍為[20000(a),100000()b] ,某b地上班族月收入範圍為[2000(c),10000(d)];在某a地收入30000(v)元相當於某b地收入多少?

資料正規化-Z-分數正規化 Z-分數正規化是運用平均值和標準差做計算 公式 /標準差 公式 /標準差 假設臺灣人月收入平均為35000元,標準差是10000元,將月收入30000元做正規化