資料探勘(Data Mining)及其應用之介紹

Slides:



Advertisements
Similar presentations
1. 甚麼是人工智能 ? 甚麼是人工智能 ? 2. 強人工智能 - 弱人工智能 強人工智能 - 弱人工智能 3. 實現人工智能的必要條件 實現人工智能的必要條件 4. 人工智能的例子 人工智能的例子 5. 虛擬真實 虛擬真實 6. 感想 感想.
Advertisements

陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
病历书写 中山医院呼吸科 张 新. 定 义 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理, 按照规定的格式而写成的;是关于病人发病情况, 病情发展变化,转归和诊疗情况的系统记录。 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理,
第十二章 病历书写与要求 病历病历 医务人员在医疗中形成的文字、符号、图表、 影像、切片等资料的总和。 病历书写 通过诊法、诊断、治疗、护理等医疗活动获得有关资 料,进行归纳、分析、整理形成医疗活动记录行为。 病历意义 A 诊疗等的源文件; B 复 / 转 / 会诊,解决医疗纠纷、判定法律责任、医疗保险等的资料和依据;
第四單元 通電的玩具 張老師的網頁.
肺癌放疗新概念: 瘤根靶向放疗 北京大学临床肿瘤学院 北京肿瘤医院放疗科.
高雄師範大學103學年度教育學程招生準備方向 高師大師培中心 凃金堂
狙公 劉基.
上海交通大学 ·通识核心课 《投资创业与民商法文化》 凯原法学院教授、民商法研究所所长 博士生导师、博士后合作导师 韩长印 20010年3月.
天主教善導小學 錦繡中華 --- 專題研習報告比賽 實地考察 福建客家土樓的變與同.
巫山职教中心欢迎您.
第二組 組長:16葛詠馨 組員:8張庭瑋、14葉映歡 17鄭琇文、37黃世宣
第一章 会计信息系统 第一节 计算机会计概述.
網際網路行銷 Web 2.0 第十一章 網路行銷工具 — 從大眾到小眾.
漫 步 現 金 流 現金流,這輩子非得瞭解….
數位訊號處理 第4章 離散時間訊號與LTI系統之傅利葉分析
Some Knowledge of Machine Learning(1)
关于在宝钢全体党员中开展“学党章党规、 学系列讲话,做合格党员”学习教育的 实施方案
50个经典面试问答 主讲:卢秀峰.
第十一章 真理与价值 主讲人:阎华荣.
台灣的名勝古蹟.
台灣加油!! 決不放棄!! 加油!! 加油!! 馬英九.
第七章 固 定 资 产.
論文心得報告 冷凍二忠 39號 顏酩修.
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
第十八章 沟通的真理.
产后血晕.
台灣史總複習.
信 息 隐 藏 技 术 与 应 用 任延珍 副教授
國文報告 儒家生死文化討論 不死鳥 組員 972BP001 彭科強 972BP008 王薪榕 972BP025 彭裕宗
消防产品监督管理规定 《消防产品监督管理规定》已经2012年4月10日公安部部长办公会议通过,并经国家工商行政管理总局、国家质量监督检验检疫总局同意,现予发布,自2013年1月1日起施行。 2013年3月17日.
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
XI. Hilbert Huang Transform (HHT)
資訊管理 第九章 資料採礦.
第六章 智慧型的行銷資訊系統 課程名稱 行銷資訊系統 進度 第六章 授課老師 總時數 3小時 線 行銷資訊系統 – E世代的行銷管理.
Fuzzy在生活上的應用 陳詩豐 助理教授 龍華科技大學機械系.
植生工程植材選用決策支援系統 指導:錢滄海 授課:林俐玲 學生:楊孟叡.
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
國立政治大學 資訊科學研究所 知識系統實驗室 研究生: 鄭雍瑋 指導教授: 劉吉軒 博士 中華民國九十五年六月三十日
VI. Brief Introduction for Acoustics
市場調查與分析 Marketing Research and Analysis
VISP+MS 国际高校访问学生 及统计理学硕士项目
Source: IEEE Transactions on Image Processing, Vol. 25, pp ,
Support Vector Machines
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
近期科研汇报 报告人: 纪爱兵.
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
愛惜生命.
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
味精的妙用 班別:4A 姓名:盧芷桐(23),吳宝怡 (25),余心 穎,(26).
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
珊瑚白化和全球化之關係 作者:仲士豪、姜少強.
組員:4960P013 陳佳琪 4960P018 柯琬婷 4960P054 林家瑜 指導老師: 陳碩珮 老師
第十章 線上行銷研究.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
出生於:1866年11月12日 是中國的革命家,第一任中華民國臨時大總統
专 业: 信号与信息处理 学生姓名: 杜 兰 任课老师: 高新波 二零零二年十二月
LSVT Voice Rehabilitation
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
如何成立公司 組員:洪鼎鈞 謝宜龍 林永貴 曾賴志行.
薏仁=益人 20510李佶秝.
神经网络 Statistical Learning 方匡南 厦门大学教授 博士生导师.
行政救濟實務 -行政訴訟 楊東連 行政救濟實務.
数据挖掘导论 福建医科大学 郑伟成.
學校:德明財經科技大學 系別/班級:國貿系四年甲班 姓名:彭咨錞 2010/08/26
Term Project : Requirement
Gaussian Process Ruohua Shi Meeting
教育部教學卓越計畫 3-6-2國際會計準則初級會計課程設計 期末線上成果
Presentation transcript:

資料探勘(Data Mining)及其應用之介紹 中華大學資訊工程系 周智勳 2005/12/8 Chih-Hsun Chou

Data Mining Mines 蝦密 稚齡: 真圓 “眾裡尋它千百度,驀然回首,那人卻在燈火闌珊處”,如果說我的人生在於尋覓的話,我想妳就是所謂的終點吧! 在那喧鬧的十字路口,使我浮躁不安的是你似有若無的眼神,在悸動的心情下,第一次有了長久注視著人的渴望,向影子般宿命地如影隨形,曼妙的生命舞出華麗的熱情化作燦爛的煙火,一絲絲擴散在黑暗的天空,就像塵封已久的感情已脫離了魔咒的束縛,嚮往著陽光的絢麗,有如陳年老酒的香濃,觸動我視酒如癡的心弦,感情的醞釀期待著柳暗花明的另一個出口,正如兵馬俑般的寂寞難耐,在莫名的牽引下,浴火重生,發酵的勇氣是在於想妳的每一天,而信的楔子,宛如蒲公英般飄蕩在風中,尋求一個賴以維生的地方,當雪花般的生命飄落再你面前時,我想感覺便由這出發,村上春樹曾說過”每個年代都有著它特定的火焰,只是稀微的需要我們用心去呵護,一旦熄滅了,就再也回不來了”在妳的身上我真正看到為我而活的東西,那種東西也許是特別的,但對我來說,那只是一個淡淡的微笑,我想我是幸運的,因為大多數的人終其一生只過著次流的感情生活,沒有所謂歌劇魅影式的無怨無悔,”天涯地角有窮時,只有相思無盡處”跨越時空的感情,透過古往今來單一的心情在此具體呈現,愛不是拘束,而是信任,就因信任而願意犧牲付出,嚮往無拘無束的妳,如果妳期待自由,我願意為你背負一雙翅膀,翱翔於現實與夢境,用那棉絮的羽翼編織著守護神,在眷戀妳的生命中,永遠為妳跳著舞步。 真圓 2005/12/8 Chih-Hsun Chou

Data Mining Mines 蝦密 愛 院 術 我 我 中 學 技 華 學 術 我 中 院 愛 我 學 中 學 學 華 術 我 愛 院 術 我 我 中 學 技 華 學 術 我 中 院 愛 我 學 中 學 學 華 術 我 技 我 術 中 2005/12/8 Chih-Hsun Chou

Data Mining Mines 蝦密 資料龐大-代表性 資料雜亂-規則性 2005/12/8 Chih-Hsun Chou

Data Mining Mines 蝦密 網頁搜尋 財務分析 影像監控 語音辨識 生物資訊 比賽資料 影片搜尋 阿諾 蝦咪挖歌 2005/12/8 Chih-Hsun Chou

Data Mining 基本架構 收集資料 前處理 特徵擷取 分類 規則萃取 辨識資料 前處理 特徵擷取 比對 辨識 文字 圖形 聲音 實驗 文字 圖形 聲音 實驗 前處理 特徵擷取 分類 規則萃取 Statistics PCA ICA Wavelet GA 斷詞,統計詞彙 RGB,LUV值 Fourier transform 資料庫格式 Decision tree Fuzzy clustering Neural network LDA SVM 辨識資料 文字 圖形 聲音 符號 前處理 特徵擷取 比對 辨識 2005/12/8 Chih-Hsun Chou

搜尋引擎-資料收集 2005/12/8 Chih-Hsun Chou

搜尋引擎-資料收集 2005/12/8 Chih-Hsun Chou

2005/12/8 Chih-Hsun Chou

搜尋引擎-前處理 訓練搜尋引擎 訓練網頁 測試網頁 Yahoo-以人工分類完成之網頁 (打散) 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

搜尋引擎-前處理 對每個網頁求取關鍵詞 再對每個類別求取特徵關鍵詞 訓練網頁 2005/12/8 Chih-Hsun Chou

搜尋引擎-前處理 刪除標點符號 去除「,」、「。」、「、」、「;」、「:」、「!」、「「」」、「『』」、「()」、「_」以及「?」等標點符號 2005/12/8 Chih-Hsun Chou

搜尋引擎-前處理 “防火牆”是電腦網路安全防護體系中最基礎的組成部分,每年在全球網絡安全防護產品市場占有最大銷售份額。2002年,我國國內的防火牆市場銷售增長勢頭良好,根據市場調查數據顯示,2003年的大型行業、企業用戶採購仍有傾向選用國外高端防火牆產品的趨勢。國家機關、金融、稅務、工商與電信等部門也仍然會優選國內領先的防火牆產品。 防火牆 是電腦網路安全防護體系中最基礎的組成部 分 每年在全球網絡安全防護產品市場占有最大銷售 份額 2002年 我國國內的防火牆市場銷售增長勢頭 良好 根據市場調查數據顯示 2003年的大型行業 企業用戶採購仍有傾向選用國外高端防火牆產品的趨 勢 國家機關 金融 稅務 工商與電信等部門也仍 然會優選國內領先的防火牆產品 2005/12/8 Chih-Hsun Chou

搜尋引擎-前處理 刪除虛詞、量詞 虛字詞庫 量詞詞庫 了,也,不,之,什,及,且,乎,以,他,可,另, 它,未,必,去,再,如,亦,各,在,她,有,此, 而,何,但,你,即,否,吧,呀,我,沒,並,些, 幾,最,僅,嗎,愈,理,該,嘛,確,和,啦,由, 是,未,要,某,哇,咱,很,怎 量詞詞庫 一,二,三,四,五,六,七,八,九,十,百,千, 萬,億 2005/12/8 Chih-Hsun Chou

搜尋引擎-前處理 防火牆 是電腦網路安全防護體系中最基礎的組成部 分 每年在全球網絡安全防護產品市場占有最大銷售 防火牆 是電腦網路安全防護體系中最基礎的組成部 分 每年在全球網絡安全防護產品市場占有最大銷售 份額 2002年 我國國內的防火牆市場銷售增長勢頭 良好 根據市場調查數據顯示 2003年的大型行業 企業用戶採購仍有傾向選用國外高端防火牆產品的趨 勢 國家機關 金融 稅務 工商與電信等部門也仍 然會優選國內領先的防火牆產品 防火牆 電腦網路安全防護體系 基礎 組成部 分 每年 全球網絡安全防護產品市場占 大銷售 份額 年 國國內 防火牆市場銷售增長勢頭 良好 根據市場調查數據顯示 年 大型行業 企業用戶採購仍 傾向選用國外高端防火牆產品 趨 勢 國家機關 金融 稅務 工商 電信等部門 仍 然會優選國內領先 防火牆產品 2005/12/8 Chih-Hsun Chou

搜尋引擎-特徵擷取 斷詞 N-元詞(N-Gram)法 實現環遊世界的夢想 1-元詞:實|現|環|遊|世|界|的|夢|想 2-元詞:實現 |現環 |環遊|遊世|世界|界的|的夢|夢想 3-元詞:實現環|現環遊|環遊世|遊世界|世界的|界的夢|的夢想 2005/12/8 Chih-Hsun Chou

搜尋引擎-特徵擷取 刪除只出現一次的詞彙或1-元詞 防火牆 電腦網路安全防護體系 基礎 組成部 分 每年 全球網絡安全防護產品市場占 大銷售 防火牆 電腦網路安全防護體系 基礎 組成部 分 每年 全球網絡安全防護產品市場占 大銷售 份額 年 國國內 防火牆市場銷售增長勢頭 良好 根據市場調查數據顯示 年 大型行業 企業用戶採購仍 傾向選用國外高端防火牆產品 趨 勢 國家機關 金融 稅務 工商 電信等部門 仍 然會優選國內領先 防火牆產品 防火牆 網路安全防護 網絡安全防護產品市場 銷售 國國內 防火牆市場銷售 市場 防火牆產品 國內 防火牆產品 2005/12/8 Chih-Hsun Chou

搜尋引擎-特徵擷取 建立2~4元詞詞庫並刪除僅出現一次的N元詞 2005/12/8 Chih-Hsun Chou

搜尋引擎-特徵擷取 3、4元詞篩選 中央研究院資訊科學研究所詞庫小組建構的詞庫 該詞庫中共43,028個3、4字詞 3、4元詞擷取字詞時比對的基礎 2005/12/8 Chih-Hsun Chou

搜尋引擎-特徵擷取 關鍵詞篩選條件 次數 集中度 廣度 篇數 類別一 電話服務 類別三 線上遊戲 類別二 機車 網頁一 網頁二 網頁三 … 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

搜尋引擎-特徵擷取 2005/12/8 Chih-Hsun Chou

搜尋引擎-文件分類 2005/12/8 Chih-Hsun Chou

搜尋引擎-文件分類 全部關鍵詞形成關鍵詞向量 所有訓練資料之網頁 normalization 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

搜尋引擎-文件分類 SVM (Support Vector Machine) Linear separable Margin maximization Linear nonseparable Decision function: Linear separable 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

搜尋引擎-文件分類 SVM (Support Vector Machine) Decision function: Linear nonseparable Linear separable 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

搜尋引擎-文件分類 SVM (Support Vector Machine) Find by maximizing the margins Decision function: Linear separable Find by maximizing the margins 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

搜尋引擎-文件分類 SVM (Support Vector Machine) 某一類別的SVM 某一類別 訓練向量 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

語音辨識-前處理 端點偵測 2005/12/8 Chih-Hsun Chou

語音辨識-前處理 框分析 Short time Fourier transform 2005/12/8 Chih-Hsun Chou

語音辨識-特徵擷取 一個音框: 512 samples 一個音框: 係數 MFCC 2005/12/8 Chih-Hsun Chou

語音辨識-特徵擷取 Wavelet transformation 包含最多訊息 特徵值 Discrete signal 高通濾波器係數 低通濾波器係數 包含最多訊息 特徵值 2005/12/8 Chih-Hsun Chou

語音辨識-分類 將特徵值(向量)作為類神經網路的輸入 鳥種作為輸出 BP NN Decision-based NN (winner takes all learning rule) 2005/12/8 Chih-Hsun Chou

財務分析-資料收集 財務資料 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

財務分析-前處理 訓練資料 所有資料 測試資料 正常公司 地雷公司 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

財務分析-前處理 財務資料 什麼財務參數能明顯反映地雷與非地雷公司 2005/12/8 Chih-Hsun Chou

財務分析-特徵擷取 。。。 Initial population of GA 選取代表性的財務變數 0 1 。。。 。 資產報酬率(稅前息前折舊前)% 資產報酬率(稅後息前)% 資產報酬率 (稅後息前折舊前) % 淨值報酬率(稅後)% 營業毛利率% 已實現銷貨毛利率 營業利益率% 。。。 Initial population of GA 0 1 。。。 。 選取代表性的財務變數 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

財務分析-特徵擷取 演化最佳組合 Initial population 0 1 。。。 。 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

財務分析-特徵擷取 Fitness function 選取的參數 正常公司的值相近 地雷公司的值相近 正常與地雷公司間的值相異 正常公司 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

財務分析- 分類及辨識 只含選取參數之財務資料 欲辨識之公司 相似財報之地雷公司 比對財務資料 Fuzzy clustering 正常公司 收集資料 前處理 特徵擷取 分類 規則萃取 2005/12/8 Chih-Hsun Chou

生物資訊應用-資料收集及前處理 2005/12/8 Chih-Hsun Chou

生物資訊應用-前處理 不同基因對不同探針有不同強度(亮度)的反應 探針 基因 2005/12/8 Chih-Hsun Chou

生物資訊應用-前處理 依強度建立矩陣 相當大的矩陣 2005/12/8 Chih-Hsun Chou

生物資訊應用-特徵擷取 計算singular value decomposition 以singular values代表其特徵 PCA (principle component analysis) 相當大的矩陣 2005/12/8 Chih-Hsun Chou

討論 理論方法 資料收集 2005/12/8 Chih-Hsun Chou