指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇 英文檢索原型化處理 指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇
目錄 研究目的 研究目標 基本功能導覽 Porter Stemming演算法的缺點 演算法新舊比較 Demo 心得與展望
研究目的 什麼是Stemming ? Stemming的用處和意義? Porter Stemming演算法
研究目的 透過stemming演算法,在要被搜尋的文章或是key terms佇列會找出字詞的原形
什麼是Stemming ? 將詞型、時態變化還原成原型 範例 stems stem stemmed stem relate relate relation relate relative relate
Stemming的用處和意義? 大部分的用途是用在資訊檢索(IR)上 IR用途上, 可以縮短搜尋時間,增加效率 字典用途上,可增加字典的查獲率
Porter Stemming演算法 1980年由 Martin Porter 提出 Porter Stemming algorithm 後,至今仍為最有效率的 Stemming algorithm
Porter Stemming演算法步驟 步驟1:將字尾有母音的es、e、ed、y替換掉 如: searched →search 步驟2:將字尾為tional、fulness、iveness等,替換成tion、 ful、ive等等 如:traditional →tradition 步驟3:將字尾為icate、iveness、alize等,替換成ic、ive、al 等等 如:specializes → special 步驟4:刪除剩餘的標準字尾,例如al、ance、er、ic等等 如:magical → magic 步驟5:去除字尾沒有母音的e 如:because → becaus
研究目標 increased →increase 將原形化作業介面視窗化,讓任何人都可以輕鬆簡單將各種格式之資料進行原形化 在搜尋引擎(IR)作業上 increased →increas increasing →increas machines →machin violence →violenc 在搜尋引擎(字典)作業上 increased →increase increasing →increase machines →machine violence →violence
基本功能導覽 資料輸入模式 原型化選項 內建的資料庫
資料輸入模式 純文字文件(*.txt) 資料庫檔案(*.DBF) 使用者輸入
原型化選項 全面小寫化 去除字首字尾標點 標記特殊保留字 破折號處理 標記數字 標記stop word 標記不規則變化 搜尋模式&喜好
內建的資料庫 特殊保留字 不規則變化 STOP WORD 字典檔
演算法新舊比較 Porter Stemming演算法的缺點 改良Porter Stemming演算法 IR用途 字典用途
Porter Stemming演算法的缺點
舊Porter Stemming演算法與改良結果比較
IR用途
字典用途
DEMO 展示IR用途的原型化處理 展示原形化前置作業選項的功能與用途 展示字典用途的原型化處理 展示內建資料庫的功能與用途
心得與展望 經過這次專題研究讓我們了解到開發一個系統的艱辛,從理論、分析到選擇開發工具與實現,讓我們對開發程式的語言有更深入的了解與學習,以及團隊需共同努力才能實現成果 期望能將系統廣泛實際地應用在搜尋引擎,增加搜尋速度與效率
~報告結束,多謝指教~