Presentation is loading. Please wait.

Presentation is loading. Please wait.

指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇

Similar presentations


Presentation on theme: "指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇"— Presentation transcript:

1 指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇
英文檢索原型化處理 指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇

2 目錄 研究目的 研究目標 基本功能導覽 Porter Stemming演算法的缺點 演算法新舊比較 Demo 心得與展望

3 研究目的 什麼是Stemming ? Stemming的用處和意義? Porter Stemming演算法

4 研究目的 透過stemming演算法,在要被搜尋的文章或是key terms佇列會找出字詞的原形

5 什麼是Stemming ? 將詞型、時態變化還原成原型 範例 stems  stem stemmed  stem
relate  relate relation  relate relative  relate

6 Stemming的用處和意義? 大部分的用途是用在資訊檢索(IR)上 IR用途上, 可以縮短搜尋時間,增加效率
字典用途上,可增加字典的查獲率

7 Porter Stemming演算法 1980年由 Martin Porter 提出 Porter Stemming algorithm 後,至今仍為最有效率的 Stemming algorithm

8 Porter Stemming演算法步驟 步驟1:將字尾有母音的es、e、ed、y替換掉 如: searched →search
步驟2:將字尾為tional、fulness、iveness等,替換成tion、 ful、ive等等 如:traditional →tradition 步驟3:將字尾為icate、iveness、alize等,替換成ic、ive、al 等等 如:specializes → special 步驟4:刪除剩餘的標準字尾,例如al、ance、er、ic等等 如:magical → magic 步驟5:去除字尾沒有母音的e 如:because → becaus

9 研究目標 increased →increase 將原形化作業介面視窗化,讓任何人都可以輕鬆簡單將各種格式之資料進行原形化
在搜尋引擎(IR)作業上 increased →increas increasing →increas machines →machin violence →violenc 在搜尋引擎(字典)作業上 increased →increase increasing →increase machines →machine violence →violence

10 基本功能導覽 資料輸入模式 原型化選項 內建的資料庫

11 資料輸入模式 純文字文件(*.txt) 資料庫檔案(*.DBF) 使用者輸入

12 原型化選項 全面小寫化 去除字首字尾標點 標記特殊保留字 破折號處理 標記數字 標記stop word 標記不規則變化 搜尋模式&喜好

13 內建的資料庫 特殊保留字 不規則變化 STOP WORD 字典檔

14 演算法新舊比較 Porter Stemming演算法的缺點 改良Porter Stemming演算法 IR用途 字典用途

15 Porter Stemming演算法的缺點

16 舊Porter Stemming演算法與改良結果比較

17 IR用途

18 字典用途

19 DEMO 展示IR用途的原型化處理 展示原形化前置作業選項的功能與用途 展示字典用途的原型化處理 展示內建資料庫的功能與用途

20 心得與展望 經過這次專題研究讓我們了解到開發一個系統的艱辛,從理論、分析到選擇開發工具與實現,讓我們對開發程式的語言有更深入的了解與學習,以及團隊需共同努力才能實現成果 期望能將系統廣泛實際地應用在搜尋引擎,增加搜尋速度與效率

21 ~報告結束,多謝指教~


Download ppt "指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇"

Similar presentations


Ads by Google