Presentation is loading. Please wait.

Presentation is loading. Please wait.

指導老師 : 黃三益教授 M 徐慎宜 D 林皇吉 D 唐 筠

Similar presentations


Presentation on theme: "指導老師 : 黃三益教授 M 徐慎宜 D 林皇吉 D 唐 筠"— Presentation transcript:

1 指導老師 : 黃三益教授 M954020009 徐慎宜 D954020004 林皇吉 D954020008 唐 筠
資料探勘與知識發現 期末專案報告 指導老師 : 黃三益教授 M 徐慎宜 D   林皇吉 D 唐 筠

2 議程 簡介 背景 動機與目的 研究流程 資料探勘程序 結論 研究限制 未來展望 2008/6/17

3 簡介 背景 文字探勘是資料探勘的一環,透過文字探勘的理論與 技術,可對非結構化的資料進行深入挖掘資訊,洞察 文件的潛在價值,提供決策者評估與實行依據 一般文字探勘應用大量的文件資料庫,提供資訊蒐集、 訊息過濾、事件相關、趨勢預測、犯罪分析、案例追 蹤、知識管理、知識萃取與決策輔助等多種相關應用 2008/6/17

4 簡介 動機與目的 本研究希望透過分析此該基金會所贊助的計畫摘要的 內容,並透過摘要的分析,得知該基金會所贊助的計 畫案類型比例的分部,分析目前的研究計畫領域趨勢, 進而做為提供調整經費預算的比重等重要依據 說明: 美國國家科學基金會 ( National Science Foundation, NSF ) 為 一獨立的美國政府機構,依據經修正之1950年國家科學基 金法案 ( the National Science Foundation Act of 1950 ) 所設 置 2008/6/17

5 簡介 研究流程 確立研究目標 資料蒐集與確定 資料前置處理 資料整合 資料清理 資料轉換 資料精簡 模型建立與組成 數據分析與探討 結論
簡介 研究流程 確立研究目標 資料蒐集與確定 資料前置處理 資料整合 資料清理 資料轉換 資料精簡 模型建立與組成 數據分析與探討 結論 2008/6/17

6 資料探勘程序 1.轉換企業問題成為資料探勘問題
資料探勘程序 1.轉換企業問題成為資料探勘問題 為了瞭解美國國家科學基金會所贊助的計畫比例,讓 基金會對於所贊助的計畫在領域部門的比例有所了解, 因此轉換此問題為資料探勘的問題即是經由分析摘要 文件後,摘要內容文字所出現重要文字的頻率比較, 可以得知目前或是該年度的研究趨勢與領域方向,除 了可以作為未來研究趨勢的導引,也可以做為將來調 整經費贊助比例的依據 2008/6/17

7 資料探勘程序 2.選擇合適的資料 資料來源 UC Irvine Machine Learning Repository 網站的NSF Research Award Abstracts 的資料集 網址為 bstracts 該網站為熱門且實用的資料集提供網站,除了提供資料集 也接受研究者提供與分享自己的資料集,並有格式規範提 供研究者參考,因此選用該網站資料做研究,在公信力上 是有一定的水平 2008/6/17

8 資料探勘程序 3.瞭解選擇的資料 1/2 名稱 型態 說明 Title 文字 摘要的標題 Type 該計畫是屬於贊助計畫或是專案計畫等
資料探勘程序 3.瞭解選擇的資料 1/2 名稱 型態 說明 Title 文字 摘要的標題 Type 該計畫是屬於贊助計畫或是專案計畫等 Date 日期 該計畫提案日期 File 摘要文件檔案名稱 Award Number 數字 該基金會贊助計畫的編號 Start Date 計畫開始執行日期 Expires 計畫預計結束日期,可以為預估日期 Total Amt. 該基金會贊助的金額 Investigator 說明研究者姓名與研究者的電子郵件帳號 Abstract 提案計畫的摘要內容 表1文件摘要重要欄位屬性說明資訊 2008/6/17

9 資料探勘程序 3.瞭解選擇的資料 2/2 名稱 定義 說明 idnsfid.txt doic NSF_doc_id 文件檔案標號對應
資料探勘程序 3.瞭解選擇的資料 2/2 名稱 定義 說明 idnsfid.txt doic NSF_doc_id 文件檔案標號對應 docauths.txt docid Author_string 文件作者編號對應 doctitles.txt docid Title_string 文件標題與編號對應 docwords.txt docid wordid freq 文件編號、文字編號與字詞出現頻率對應表 備註 - 定義說明 docid   = a counter generated for each document as it was processed. wordid   = the id for a word, as obtained from the word.txt file. freq = the number of times that the word (wordid) appears in the file (docid) NSF_doc_id = the value taken from the File: field of an NSF awards file. Title_String = the value of the Title: field of an NSF awards file. Author_String = derived from the Investigator: field when feasible 表2文件摘要重要欄位屬性說明資訊 2008/6/17

10 資料探勘程序 4.建立模式集 本研究將由doctitle.txt此檔案為主要分析來源 配合其他檔案為輔助進行模是建立與資料分析 資料探勘工具
資料探勘程序 4.建立模式集 本研究將由doctitle.txt此檔案為主要分析來源 配合其他檔案為輔助進行模是建立與資料分析 資料探勘工具 Wordstat 5.1做為分析工具 加入Simstat模組輔助分析過程進行 摘要文件內容在領域分類上使用Wordstat工具內所附加的 字典進行文字比對與分類 使用的資料筆數為32108筆資料 2008/6/17

11 資料探勘程序 5.整理收集的資料為適合探勘問題的資料
資料探勘程序 5.整理收集的資料為適合探勘問題的資料 資料整合 消除資料不一致中的綱目不一致 ( schema conflict ) 的情況 本計畫由網站所提供的資料集均為文字檔案,且並無定義 資料庫綱要,因此,在此步驟,由人工方是手動一一將資 料整理與定義資料庫綱要,並且留意資料整合在此遇到的 問題,例如: Docid 和 DOC ID 這兩者不同的問題 資料清理: 主要目的是確認資料的完整性 由於資料中某些屬性有遺缺的情況,為了不影響探勘的結 果,本計畫以「直接忽略法」為資料清理的原則 2008/6/17

12 資料探勘程序 6.轉換資料 1/3 對於文字探勘而言,資料的前置處理是非常重要的, 由其是轉換資料的部分,需要特別小心與謹慎,因為 不同演算法有其適合的資料型態 本計畫使用Classification Model,並以關聯法則為分析 方式,因此在資料轉換的部分,需要將資料轉換為符 合此規則的型態 2008/6/17

13 資料探勘程序 6. 資料精簡 2/3 研究將摘要文件中的獨特屬性刪除
資料探勘程序 6. 資料精簡 2/3 研究將摘要文件中的獨特屬性刪除 例如贊助者 ( Sponsor ) 、程序參考( Program Ref )等 以將資料的維度降低,以利於探勘進行 2008/6/17

14 資料探勘程序 6. 資料轉換 3/3 資料經過轉換後,以Multiple Response 中的Inter-rater進行 分析,並以Nominal measure的Cohen’s Kappa與Ordinal measure的Kippendorff’s r 做為檢驗兩相鄰的觀測值,經過 分析,如圖,表示期望和觀察是幾乎相近的 2008/6/17

15 資料探勘程序 7.建立模式1/2 運用內容分析法建立分析模式,並以探勘工具中的字典做為字詞比對依據,字典中可分 為外觀 ( APPARENCE ) 、藝術 ( ARTS )、通訊 ( COMMUNICATION )、教育 ( EDUCATION )、家庭 ( FAMILY )、財務 ( FINANCE )、情緒 ( HUMOR )等常見的字詞 分類,如圖。並透過建立應對的關聯法則,進行第八步驟,關聯法則說明如表 2008/6/17

16 資料探勘程序 7.建立模式2/2 表3 關聯法則建立 - 以通訊類別為例 分類 項目 COMMUNICATION COMMUNICATIVE
資料探勘程序 7.建立模式2/2 表3 關聯法則建立 - 以通訊類別為例 分類 項目 COMMUNICATION COMMUNICATIVE CONVERSATION DISCUSSION DISCUSSIONS LISTENER OPINIONS PHILOSOPHIZE SOCIAL TALK TALKING UNDERSTANDING 2008/6/17

17 資料探勘程序 7.對模式進行評估1/2 由2000年到2003年之間
資料探勘程序 7.對模式進行評估1/2 由2000年到2003年之間 研究者申請贊助計畫的摘要文件所提出的內容,以教育類 別為最多,占了39.8% 工作類別數量為第二所提出的文件內容,其比例為31.7% 通訊類別 ( 涵蓋一般的溝通 )則為12.6%,位居第三 2008/6/17

18 資料探勘程序 7.對模式進行評估2/2 教育、工作、通訊與其他所佔有的比例圖 2008/6/17

19 資料探勘程序 9.對結果進行評估1/4 進行Clustering的部分 以之前已經預定的關鍵字目錄為分群標準 並以發生在相同案例作為基準
資料探勘程序 9.對結果進行評估1/4 進行Clustering的部分 以之前已經預定的關鍵字目錄為分群標準 並以發生在相同案例作為基準 索引部分,以Jaccard’s coffident ( occurrence ) 與Cosin theta ( frequency ) 為主要方式 Jaccard’s coffident -分群後的Dendrogram 2008/6/17

20 資料探勘程序 9.對結果進行評估2/4 Jaccard’s coffident -分群後類別之間的相似矩陣 2008/6/17

21 資料探勘程序 9.對結果進行評估3/4 Cosin theta ( frequency ) - 分群後的Dendrogram
資料探勘程序 9.對結果進行評估3/4 Cosin theta ( frequency ) - 分群後的Dendrogram 2008/6/17

22 資料探勘程序 9.對結果進行評估4/4 Cosin theta ( frequency ) - 分群後類別之間的相似矩陣 2008/6/17

23 資料探勘程序 結論 經由上述的分析,可以清楚的知道關於美國國家科學 基金會的贊助於2000年到2003年在不同領域中的比例
資料探勘程序 結論 經由上述的分析,可以清楚的知道關於美國國家科學 基金會的贊助於2000年到2003年在不同領域中的比例 透過如此的分析也可以知道過去當時其學術領域所探 討的領域趨勢 而教育的部分,由研究結果可以得知,幾乎是一個值 得發展的領域,因此當獲得這些資訊的時候,可以提 供決策者在經費預算與學門領導方向可以有更多的思 考空間與決策依據 2008/6/17

24 資料探勘程序 研究限制 工具 資料集 使用的試用版
資料探勘程序 研究限制 工具 使用的試用版 在使用多變量分析的部分,因為有許多分析需要有事先的描述程 式,所以如果不是事先撰寫script語法,就必須使用該公司的檔 案 在這一方面,分析上受到許多限制 資料集 對於網站做了部分斷詞的前置處理檔案而言,並不一定就能符合 研究立即可以使用分析的部分 例如:對於摘要內容雖然有提供一個資料夾檔案的字詞頻率分析, 但是,對於想要以摘要文件內容的其他欄位處理,會是一件浩大 的前置作業工程 研究者必須再先行使用斷詞與斷字的軟體對每一年份的每一資料 夾中的每一個贊助摘要文件處理 2008/6/17

25 資料探勘程序 未來展望 1/2 研究趨勢預測 主題發展
資料探勘程序 未來展望 1/2 研究趨勢預測 在研究趨勢的預測部分,不單是以過往資料作為預測未來 趨勢的基準,也要同時以過往資料作為淘汰過時或是不適 合的研究議題或是領域,如此才能在研究領域中找出創新 的切入點與良好的洞察力 對於一般支援贊助相關計畫或是研究的單位,這會是一個 非常良好的決策依據 主題發展 在主題發展的部分,一則是結合研究趨勢的預測,二則是 對於雖然非當時其大部份的研究相關計畫,但是卻是具有 前瞻的領導發展探究,以特定的主題方式進行分析,對於 前瞻領導計劃的推導具有一定的依據說明 因此,運用本研究的方式進行更大量與更加深入的探討, 訂定不同的特定主題,應該可以找出這樣的決策依據 2008/6/17

26 資料探勘程序 未來展望 2/2 預算編列與控制 透過前述研究趨勢預測與主題發展,可以提供決策者在預 算編列與控制上,有更好的分配方式與依據
資料探勘程序 未來展望 2/2 預算編列與控制 透過前述研究趨勢預測與主題發展,可以提供決策者在預 算編列與控制上,有更好的分配方式與依據 不至於讓經費侷限在某些領域或是某些計畫提案 如此更能促進在每個部門皆有均衡的經費使用與發展 2008/6/17

27 Thanks 2008/6/17


Download ppt "指導老師 : 黃三益教授 M 徐慎宜 D 林皇吉 D 唐 筠"

Similar presentations


Ads by Google