Download presentation
Presentation is loading. Please wait.
1
第 10 章 專家系統與智慧型資料庫 2019/4/26
2
專家系統與智慧型資料庫 專家系統通常與資料庫系統是並存的, 如何將這些資料中隱藏的知識抽取出來,以作為建立專家系統的基礎,是一個常見的問題。
本章將針對文件式資料與數值式資料的不同處理方法加以說明。 對於多個知識庫彙整的知識整合問題也是本章討論的重點之一。 2019/4/26
3
專家系統與智慧型資料庫 本章將以兩個角度說明專家系統技術與資料庫整合的方式,分別為: 專家系統擔任資料庫系統前端智慧型查詢的功能。
透過知識擷取的相關技術,將資料庫之中大量的資料轉換成專家系統的知識庫。 2019/4/26
4
智慧型查詢 為提昇諮詢效率,並加強解釋功能,人工智慧的應用將大有助益。
在人工智慧的研究中,專家系統是一個應用廣泛的工具,特別在以循序漸進的方式指引使用者提出需求,並提供適當的參考資訊,幫助使用者解決問題。 2019/4/26
5
智慧型查詢的系統架構 2019/4/26
6
智慧型人事法規查詢系統 <圖10-3> 知識庫系統架構 2019/4/26
7
智慧型查詢流程 <圖10-4> 文件內涵擷取方法概念架構圖 2019/4/26
8
智慧型查詢流程 1.自動檢索過程 語料分析階段 (利用斷詞系統擷取出文件中有意義的檢索詞彙) 建立檢索詞庫的階段
(利用斷詞系統擷取出文件中有意義的檢索詞彙) 建立檢索詞庫的階段 (將有意義的詞彙擷取出來,成為系統專用的檢索詞庫) 2019/4/26
9
智慧型查詢流程 2.索引檔與全文檔建立 利用中文特徵法,將原始的文件資料轉換成相對應的二元序列,它的優點在於索引檔的額外空間需求小以及檢索的快速,並依其屬性加入屬性符號(#:作者姓名;@:日期;$:摘要)來幫助識別。 2019/4/26
10
資料來源 人事行政法規的釋例主要分為二部份: 要旨:要旨是諮詢者提出的問題 釋例:解釋則為人事行政局(或別的相關單位)所做的答覆。
2019/4/26
11
階層式分群 <圖10-5> 知識擷取流程 2019/4/26
12
擷取關鍵詞與轉換 依據資訊理論(Information theory)研究領域之公式:
假設A,B分別代表不同的字,AB代表其組合而成的詞,其可能成為詞的關聯程度(Association)計算如下: Association(AB) = log2 2019/4/26
13
計算相似程度 計算要旨與要旨之間的相似程度,若以m,n分別代表第m條要旨與第n條要旨,則相似程度S(m,n)之計算方式如下,
S(m,n) = * same(m,n) + *chap(m,n) 2019/4/26
14
階層式分群演算法 Step1 找出最相似的二群要旨,亦即找出相似程度S值最大者,其公式為:S(p,q) = Maximum { S(i,j) } Step2 合併p與q成一新群,稱 “new” Step3 更新其餘某群 “old” 與此新群 “new” 之相似程度 S(old,new) = { S(old,p),S(old,q) },其中代表取最大值(Maximum)、取最小值(Minimum)、或平均 (average)其中之一 Step4 若群數還太多,則跳至 Step1 2019/4/26
15
資料轉換成知識 專業知識除了儲存在專家的腦海中之外,通常以文字(電子檔案)的方式儲存,格式又可以略分為兩類: 文件式資料 數值式資料
2019/4/26
16
數值化的資料 在醫學、農業等專業研究領域中,依據現有資訊進行新年度的決策。
專業領域的專家根據數值的資料即可做出適當的推論,令人好奇的是,在這推論的過程中,專家是依據怎樣的規則及步驟來歸納結果的? 2019/4/26
17
數值化資料的處理 利用機器學習的方法歸納數值式的資料,找出隱藏的規則以建構知識庫。 機器學習方法可以區分為兩大類:
傳統的符號式學習,主要以版本空間(Version space)、決策樹(Decision tree)為代表 計算式學習,最常見的就是類神經網路(Neural network)。 2019/4/26
18
以基因遺算法進行知識整合 運用了基因遺算法的自我調整找尋技術,將不同專家所提供的知識或不同機器學習技術所推演得到的規則加以整合 優點:
只需要少許的整合時間 知識整合過程不需要專家介入 可以擴充至分散式知識整合環境 2019/4/26
19
利用資料探勘技術進行網站文件分類 第一階段: 第二階段: 利用知識探索程序先對文件分析。
擷取出其語意特性,再配合此分析結果建立一套自動分類的機制,將明顯可以分類的文件加以過濾。 第二階段: 透過事先定義的分類原則以及知識架構,建立網路文件分類架構。 2019/4/26
20
網站文件知識探索暨分類系統 對大量的網路紀錄檔(log files)加以分析以作為進一步分析文件內容的基礎
再利用全文檢索的技術將網站文件的特徵擷取出來,以便成為適合機器處理的格式。 2019/4/26
21
網站瀏覽記錄 包括瀏覽者來源、瀏覽頁檔名、瀏覽時間、系統服務代號...等。 <表10-1> 部份瀏覽記錄之實例
ccsun35.cc.nctu.edu.tw GET /DNS-basic/IP-dns.html HTTP/1.1 [03/Dec/1997:17:46:49]+8000 200 1366 Cissun1.cis.nctu.edu.tw GET /HTTP/1.0 5800 aho.cis.nctu.edu.tw GET /DNS-conf/index.html HTTP/1.1 9668 1155 <表10-1> 部份瀏覽記錄之實例 2019/4/26
22
資料探勘系統運作流程 2019/4/26
23
資料探勘系統運用關鍵 系統是否能夠依據者選擇的方法,快速的將資料格式轉換成該方法適合的格式?
是否有先前的經驗,提供此類方法的適合程度及可能的結果預測? 2019/4/26
24
資料探勘系統運作步驟 建立將網路資料轉換成資料庫格式的流程。 針對不同的網路應用,分析整理其資料的特性。
針對不同的資料探勘方法,分析其適合的應用方式。 整理上述兩步驟的分析結果,並依此建立資料探勘知識庫。 2019/4/26
25
資料探勘系統運作步驟 建立整合式的資料探勘方法,並利用網路上蒐集的大量資料加以驗證其效能。
調整於資料庫上知識探索的程序,設計一套針對網際網路上知識探索的程序。 建立一套網站文件分類系統,此系統可以針對文件的特性加以分析及分類。 建立具學習能力的知識整合系統,將不同網站文件分類系統所蒐集到分類加以整合,並依據機器學習的技術過濾資料中的雜訊。 2019/4/26
Similar presentations