Download presentation
Presentation is loading. Please wait.
1
資料探勘(Data Mining)及其應用之介紹
中華大學資訊工程系 周智勳 2005/12/8 Chih-Hsun Chou
2
Data Mining Mines 蝦密 稚齡: 真圓
“眾裡尋它千百度,驀然回首,那人卻在燈火闌珊處”,如果說我的人生在於尋覓的話,我想妳就是所謂的終點吧! 在那喧鬧的十字路口,使我浮躁不安的是你似有若無的眼神,在悸動的心情下,第一次有了長久注視著人的渴望,向影子般宿命地如影隨形,曼妙的生命舞出華麗的熱情化作燦爛的煙火,一絲絲擴散在黑暗的天空,就像塵封已久的感情已脫離了魔咒的束縛,嚮往著陽光的絢麗,有如陳年老酒的香濃,觸動我視酒如癡的心弦,感情的醞釀期待著柳暗花明的另一個出口,正如兵馬俑般的寂寞難耐,在莫名的牽引下,浴火重生,發酵的勇氣是在於想妳的每一天,而信的楔子,宛如蒲公英般飄蕩在風中,尋求一個賴以維生的地方,當雪花般的生命飄落再你面前時,我想感覺便由這出發,村上春樹曾說過”每個年代都有著它特定的火焰,只是稀微的需要我們用心去呵護,一旦熄滅了,就再也回不來了”在妳的身上我真正看到為我而活的東西,那種東西也許是特別的,但對我來說,那只是一個淡淡的微笑,我想我是幸運的,因為大多數的人終其一生只過著次流的感情生活,沒有所謂歌劇魅影式的無怨無悔,”天涯地角有窮時,只有相思無盡處”跨越時空的感情,透過古往今來單一的心情在此具體呈現,愛不是拘束,而是信任,就因信任而願意犧牲付出,嚮往無拘無束的妳,如果妳期待自由,我願意為你背負一雙翅膀,翱翔於現實與夢境,用那棉絮的羽翼編織著守護神,在眷戀妳的生命中,永遠為妳跳著舞步。 真圓 2005/12/8 Chih-Hsun Chou
3
Data Mining Mines 蝦密 愛 院 術 我 我 中 學 技 華 學 術 我 中 院 愛 我 學 中 學 學 華 術 我
愛 院 術 我 我 中 學 技 華 學 術 我 中 院 愛 我 學 中 學 學 華 術 我 技 我 術 中 2005/12/8 Chih-Hsun Chou
4
Data Mining Mines 蝦密 資料龐大-代表性 資料雜亂-規則性 2005/12/8 Chih-Hsun Chou
5
Data Mining Mines 蝦密 網頁搜尋 財務分析 影像監控 語音辨識 生物資訊 比賽資料 影片搜尋 阿諾 蝦咪挖歌
2005/12/8 Chih-Hsun Chou
6
Data Mining 基本架構 收集資料 前處理 特徵擷取 分類 規則萃取 辨識資料 前處理 特徵擷取 比對 辨識 文字 圖形 聲音 實驗
文字 圖形 聲音 實驗 前處理 特徵擷取 分類 規則萃取 Statistics PCA ICA Wavelet GA 斷詞,統計詞彙 RGB,LUV值 Fourier transform 資料庫格式 Decision tree Fuzzy clustering Neural network LDA SVM 辨識資料 文字 圖形 聲音 符號 前處理 特徵擷取 比對 辨識 2005/12/8 Chih-Hsun Chou
7
搜尋引擎-資料收集 2005/12/8 Chih-Hsun Chou
8
搜尋引擎-資料收集 2005/12/8 Chih-Hsun Chou
9
2005/12/8 Chih-Hsun Chou
10
搜尋引擎-前處理 訓練搜尋引擎 訓練網頁 測試網頁 Yahoo-以人工分類完成之網頁 (打散) 收集資料 前處理 特徵擷取 分類 規則萃取
2005/12/8 Chih-Hsun Chou
11
搜尋引擎-前處理 對每個網頁求取關鍵詞 再對每個類別求取特徵關鍵詞 訓練網頁 2005/12/8 Chih-Hsun Chou
12
搜尋引擎-前處理 刪除標點符號 去除「,」、「。」、「、」、「;」、「:」、「!」、「「」」、「『』」、「()」、「_」以及「?」等標點符號
2005/12/8 Chih-Hsun Chou
13
搜尋引擎-前處理 “防火牆”是電腦網路安全防護體系中最基礎的組成部分,每年在全球網絡安全防護產品市場占有最大銷售份額。2002年,我國國內的防火牆市場銷售增長勢頭良好,根據市場調查數據顯示,2003年的大型行業、企業用戶採購仍有傾向選用國外高端防火牆產品的趨勢。國家機關、金融、稅務、工商與電信等部門也仍然會優選國內領先的防火牆產品。 防火牆 是電腦網路安全防護體系中最基礎的組成部 分 每年在全球網絡安全防護產品市場占有最大銷售 份額 年 我國國內的防火牆市場銷售增長勢頭 良好 根據市場調查數據顯示 年的大型行業 企業用戶採購仍有傾向選用國外高端防火牆產品的趨 勢 國家機關 金融 稅務 工商與電信等部門也仍 然會優選國內領先的防火牆產品 2005/12/8 Chih-Hsun Chou
14
搜尋引擎-前處理 刪除虛詞、量詞 虛字詞庫 量詞詞庫
了,也,不,之,什,及,且,乎,以,他,可,另, 它,未,必,去,再,如,亦,各,在,她,有,此, 而,何,但,你,即,否,吧,呀,我,沒,並,些, 幾,最,僅,嗎,愈,理,該,嘛,確,和,啦,由, 是,未,要,某,哇,咱,很,怎 量詞詞庫 一,二,三,四,五,六,七,八,九,十,百,千, 萬,億 2005/12/8 Chih-Hsun Chou
15
搜尋引擎-前處理 防火牆 是電腦網路安全防護體系中最基礎的組成部 分 每年在全球網絡安全防護產品市場占有最大銷售
防火牆 是電腦網路安全防護體系中最基礎的組成部 分 每年在全球網絡安全防護產品市場占有最大銷售 份額 年 我國國內的防火牆市場銷售增長勢頭 良好 根據市場調查數據顯示 年的大型行業 企業用戶採購仍有傾向選用國外高端防火牆產品的趨 勢 國家機關 金融 稅務 工商與電信等部門也仍 然會優選國內領先的防火牆產品 防火牆 電腦網路安全防護體系 基礎 組成部 分 每年 全球網絡安全防護產品市場占 大銷售 份額 年 國國內 防火牆市場銷售增長勢頭 良好 根據市場調查數據顯示 年 大型行業 企業用戶採購仍 傾向選用國外高端防火牆產品 趨 勢 國家機關 金融 稅務 工商 電信等部門 仍 然會優選國內領先 防火牆產品 2005/12/8 Chih-Hsun Chou
16
搜尋引擎-特徵擷取 斷詞 N-元詞(N-Gram)法 實現環遊世界的夢想 1-元詞:實|現|環|遊|世|界|的|夢|想
2-元詞:實現 |現環 |環遊|遊世|世界|界的|的夢|夢想 3-元詞:實現環|現環遊|環遊世|遊世界|世界的|界的夢|的夢想 2005/12/8 Chih-Hsun Chou
17
搜尋引擎-特徵擷取 刪除只出現一次的詞彙或1-元詞 防火牆 電腦網路安全防護體系 基礎 組成部 分 每年 全球網絡安全防護產品市場占 大銷售
防火牆 電腦網路安全防護體系 基礎 組成部 分 每年 全球網絡安全防護產品市場占 大銷售 份額 年 國國內 防火牆市場銷售增長勢頭 良好 根據市場調查數據顯示 年 大型行業 企業用戶採購仍 傾向選用國外高端防火牆產品 趨 勢 國家機關 金融 稅務 工商 電信等部門 仍 然會優選國內領先 防火牆產品 防火牆 網路安全防護 網絡安全防護產品市場 銷售 國國內 防火牆市場銷售 市場 防火牆產品 國內 防火牆產品 2005/12/8 Chih-Hsun Chou
18
搜尋引擎-特徵擷取 建立2~4元詞詞庫並刪除僅出現一次的N元詞 2005/12/8 Chih-Hsun Chou
19
搜尋引擎-特徵擷取 3、4元詞篩選 中央研究院資訊科學研究所詞庫小組建構的詞庫 該詞庫中共43,028個3、4字詞
3、4元詞擷取字詞時比對的基礎 2005/12/8 Chih-Hsun Chou
20
搜尋引擎-特徵擷取 關鍵詞篩選條件 次數 集中度 廣度 篇數 類別一 電話服務 類別三 線上遊戲 類別二 機車 網頁一 網頁二 網頁三 …
收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou
21
搜尋引擎-特徵擷取 2005/12/8 Chih-Hsun Chou
22
搜尋引擎-文件分類 2005/12/8 Chih-Hsun Chou
23
搜尋引擎-文件分類 全部關鍵詞形成關鍵詞向量 所有訓練資料之網頁 normalization 收集資料 前處理 特徵擷取 分類 規則萃取
2005/12/8 Chih-Hsun Chou
24
搜尋引擎-文件分類 SVM (Support Vector Machine) Linear separable
Margin maximization Linear nonseparable Decision function: Linear separable 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou
25
搜尋引擎-文件分類 SVM (Support Vector Machine) Decision function:
Linear nonseparable Linear separable 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou
26
搜尋引擎-文件分類 SVM (Support Vector Machine) Find by maximizing the margins
Decision function: Linear separable Find by maximizing the margins 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou
27
搜尋引擎-文件分類 SVM (Support Vector Machine) 某一類別的SVM 某一類別 訓練向量 收集資料 前處理
特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou
28
語音辨識-前處理 端點偵測 2005/12/8 Chih-Hsun Chou
29
語音辨識-前處理 框分析 Short time Fourier transform 2005/12/8 Chih-Hsun Chou
30
語音辨識-特徵擷取 一個音框: 512 samples 一個音框: 係數 MFCC 2005/12/8 Chih-Hsun Chou
31
語音辨識-特徵擷取 Wavelet transformation 包含最多訊息 特徵值 Discrete signal 高通濾波器係數
低通濾波器係數 包含最多訊息 特徵值 2005/12/8 Chih-Hsun Chou
32
語音辨識-分類 將特徵值(向量)作為類神經網路的輸入 鳥種作為輸出 BP NN
Decision-based NN (winner takes all learning rule) 2005/12/8 Chih-Hsun Chou
33
財務分析-資料收集 財務資料 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou
34
財務分析-前處理 訓練資料 所有資料 測試資料 正常公司 地雷公司 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8
Chih-Hsun Chou
35
財務分析-前處理 財務資料 什麼財務參數能明顯反映地雷與非地雷公司 2005/12/8 Chih-Hsun Chou
36
財務分析-特徵擷取 。。。 Initial population of GA 選取代表性的財務變數 0 1 。。。 。
資產報酬率(稅前息前折舊前)% 資產報酬率(稅後息前)% 資產報酬率 (稅後息前折舊前) % 淨值報酬率(稅後)% 營業毛利率% 已實現銷貨毛利率 營業利益率% 。。。 Initial population of GA 0 1 。。。 。 選取代表性的財務變數 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou
37
財務分析-特徵擷取 演化最佳組合 Initial population 0 1 。。。 。 收集資料 前處理 特徵擷取 分類 規則萃取
2005/12/8 Chih-Hsun Chou
38
財務分析-特徵擷取 Fitness function 選取的參數 正常公司的值相近 地雷公司的值相近 正常與地雷公司間的值相異 正常公司
收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou
39
財務分析- 分類及辨識 只含選取參數之財務資料 欲辨識之公司 相似財報之地雷公司 比對財務資料 Fuzzy clustering 正常公司
收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou
40
生物資訊應用-資料收集及前處理 2005/12/8 Chih-Hsun Chou
41
生物資訊應用-前處理 不同基因對不同探針有不同強度(亮度)的反應 探針 基因 2005/12/8 Chih-Hsun Chou
42
生物資訊應用-前處理 依強度建立矩陣 相當大的矩陣 2005/12/8 Chih-Hsun Chou
43
生物資訊應用-特徵擷取 計算singular value decomposition 以singular values代表其特徵
PCA (principle component analysis) 相當大的矩陣 2005/12/8 Chih-Hsun Chou
44
討論 理論方法 資料收集 2005/12/8 Chih-Hsun Chou
Similar presentations