指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟 中文文字/語音文件中 類專有名詞擷取 及其可能應用之初步研究 An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟
簡介 本論文處理的類專有名詞類別包含人名、地名與組織名。 類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。 語音文件中的類專有名詞辨識: 在有語音辨識錯誤的語音文件中找出類專有名詞出現處 有助於語音摘要、語音問答、和語音對話系統的處理 類專有名詞 類別 舉例 人名(PER) 托尼·布萊爾 陳水扁、馬市長 地名(LOC) 胡志明市、中山堂 鶯歌、七堵 赴美、中日關係 組織名(ORG) 聯合國安理會 台灣積體電路製造股份有限公司 中油、台塑 <ENAMEX TYPE=“LOCATION”>美國</ENAMEX>國務卿 <ENAMEX TYPE=“PERSON”>鮑爾</ENAMEX>在 <ENAMEX TYPE=“LOCATION”>華府外籍記者中心</ENAMEX>表示...
綱要 文字文件中類專有名詞辨識 語音文件中類專有名詞辨識 類專有名詞辨識衍生之應用 結論
文字文件中的類專有名詞辨識 類別語言模型法 派樹式規則法
文字文件中類專有名詞辨識 -類別語言模型法的概念 類別的種類: 人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別 若辭典中有|V| 個詞彙,則總共的類別數有|V|+3個 基本概念:給定中文句子S,W為S的可切分詞串,C為W對應的類別,利用維特比搜尋找出滿足P(C,W)最大的最佳詞序列W*和W*對應的最佳類別序列C* 類別前後文模型 類別生成模型
各種類別語言模型的機率估計 各種類別生成模型估計 人名類別 (字元二連語言模型) 巢狀類別 (類別二連語言模型) 一般詞彙類別 人名類別 (字元二連語言模型) 中國人名、外國人名分成兩種機率模型 例:李小龍 巢狀類別 (類別二連語言模型) 地名、組織名 例:宜蘭清水公園 一般詞彙類別 每一個辭典中詞彙各自是一個類別 生成機率皆為1 類別前後文模型估計 由訓練語料庫訓練出三連類別語言模型機率 如:訓練語句:總統 PER 在 LOC 發表 聲明 … 可估計出:p(PER|總統,<s>), p(LOC|在,PER) … P(李小龍|PER) ≈p(李|<s>) p(小|李) p(龍|小) p(</s>|龍) P(宜蘭清水公園|LOC) ≈ p(LOC|<s>) p(PER|LOC) p(公園|PER) p(</s>|公園) p(宜蘭|LOC)*p(清水|PER)*p(公園|公園) 內部維特比搜尋找出內部最佳的類別及詞序列所對應的機率,以最高機率當成其生成機率 p(尤其|尤其) = 1、 p(今天|今天) = 1
類別語言模型法實作演算法 對於句子S,執行下列三個步驟: 建構詞網 正向動態規劃(維特比搜尋) 反向回溯找出最佳的詞序列及對應的類別序列 紀錄各類別候選詞於詞網上,並記錄其生成機率 一般詞彙、人名類別、地名類別、組織名類別 正向動態規劃(維特比搜尋) 從句首至句尾對每一個候選詞計算到該位置為止,滿足p(c,w)最大的最佳路徑,紀錄最佳分數及回溯指標 反向回溯找出最佳的詞序列及對應的類別序列 從句尾中有最高路徑分數的候選詞開始回溯至句首
演算法運作流程 處理句子:台北市中正紀念堂是為了紀念蔣中正先生 一般詞網示意圖 (1)建構詞網 <s> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 </s> 台 北 市 中 正 紀 念 堂 是 為 了 紀 念 蔣 中 正 先 生 最佳類別路徑(C*): LOC 是 為了 紀念 PER 先生 最佳詞路徑(W*): 台北市中正紀念堂 是 為了 紀念 蔣中正 先生 P(C*,W* ) = P(C*) * P(W*|C*) = P(LOC|<s>) * P(是|LOC,<s>) * P(為了|是,LOC)*P(紀念|為了,是)*P(PER|紀念,為 了)*P(先生|PER,紀念)*P(</s>|先生,PER)* P(台北市中正紀念堂|地名)*P(是|是)*P(為了|為了)P(紀念|紀念)*P(蔣中正|人名)*P(先生| 先生) 台北 中正 紀念 為了 紀念 蔣中正 先生 紀念堂 中正(p) 紀念(p) 堂是(p) 紀念(p) 蔣中(p) 一般詞彙類別 每個詞的生成機率皆為1。 如:p(紀念|紀念)=1 紀念堂(p) 紀念蔣(p) 堂是為(p) 蔣中正(p) 台北(l) (1)建構詞網 台北市(l) 正紀念堂(l) 生成機率計算: 做內部維特比搜尋,得出最佳類別序列和最佳機率 中正紀念堂(l) 計算人名類別的生成機率。 如:p(紀念|人名)= P(紀|<s>)*p(念|紀)*p(</s>|念) (2)正向維特比搜尋 c*,w* = max p(c*)*p(w*|c*) 市中正紀念堂(l) 北市中正紀念堂(l) (3)反向回溯 台北市中正紀念堂(l)
由地名類別的語言模型查出可能出現在地名的詞彙,生成機率皆設為1 巢狀類別內部維特比搜尋 地名類別詞網 計算地名生成機率 P(台北市中正紀念堂|LOC) 台北市中正紀念堂(l) <s> </s> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 台 北 市 中 正 紀念堂 生成機率設為: P(台北市中正紀念堂|LOC) =P(C*)*P(W*|C*) =P(LOC|<s>)*P(PER|LOC) *P(紀念堂|PER)*P(</s>|紀念堂) *P(台北市|LOC)*P(中正|PER)*p(紀念堂|紀念堂) 台北(l) 由地名類別的語言模型查出可能出現在地名的詞彙,生成機率皆設為1 台北市(l) 各種類別的候選詞與生成機率 中正(p) 紀念(p) 紀念堂(p)
縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多,使用單純類別語言模型法較難偵測出。 類別語言模型法討論 類別語言模型法觀察: 優點: 將斷詞與類專有名詞辨識合在同一個架構下,具有斷詞解歧異的功能 弱點: 不易取得涵蓋領域夠廣且標註夠一致的訓練語料 不容易回收沒有關鍵詞的地名、組織名(九份、中廣) 需要做內部維特比搜尋的字串將成指數成長 一次處理一句,未用到整篇文章所包含的字串資訊 新的想法: 派樹式類專有名詞抽取: 使用整篇文章所包含的樣式統計資訊及該樣式所有出現過的前後文幫助抽取類專有名詞 金門縣長陳水在昨天呼籲兩岸 … ,陳水在表示… ,陳水在當初擔任 … 臺北縣鶯歌鎮的陶瓷… ,鶯歌有許多賣精美陶瓷的店家… ,要到鶯歌遊玩的民眾可以搭乘… 遊戲橘子集團高階人事異動 … ,對於遊戲橘子跨足研發領域 … ,遊戲橘子旗下的產品多數是以代理自韓國為主 … ,遊戲橘子董事長劉柏園表示 … 縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多,使用單純類別語言模型法較難偵測出。
派樹式規則法 -派樹式類專有名詞抽取概念 派樹:是一種很有效率的資料結構,在資訊檢索的領域使用很多 建構派樹:將處理的文章中每一個語意片段中的後部字串(suffix string) 加入派樹中 正向派樹、反向派樹 優點:可以容易地獲得任意字串在整篇文章中的出現頻率及所有前後文 統計值(左右相連詞變異度)可判斷詞的邊界完整性 前後文字串可以用來判斷類別 正向派樹: S=今天在總統府 Suffix strings: 今天在總統府 天在總統府 在總統府 總統府 統府 府 反向派樹: S=府統總在天今 Suffix strings: 府統總在天今 統總在天今 總在天今 在天今 天今 今 s X:陳水在X1:陳水在 X2:在水陳 Y:陳水 Z:在水 正向派樹可以容易地查詢字串的所有後文(RC) 反向派樹可以容易地查詢字串的所有前文(LC) Z Y X2 X1 RC1 RC2 RC3 LC1 LC2 LC3 RC1:陳水在說* RC2:陳水在強調* RC3:陳水在昨天呼籲* LC1:在水陳長縣門金* LC2:在水陳,* LC3:在水陳當*
派樹式規則法 -派樹式類專有名詞抽取流程 對整篇文章建構正向及反向派樹 內部特徵: 使用字串的 人名:人名機率是否大過門檻值 地名、組織名:內部是否有關鍵詞(隊、鄉) 外部特徵: 人名:頭銜、發言動詞 地名:重要前後文 (抵達、飛往,地區、附近、市…) 組織名:重要前後文 (大廠、廠商,公司…) 組合特徵: 搭配內部及外部特徵對各類別記錄證據分數。(詳述於論文中) 使用字串的 前後文變異統計值做抽詞 處理派樹中出現頻率>=tf 的字串 估計候選字串的邊界完整性 繼續判斷候選字串 可能的類專有名詞類別 檢驗字串內部及外部前後文資訊 記錄各類別證據分數 w=馬英 β=九 f(w,β)/f(w) < tb? 如果f(w,β)/f(w) >= tb,則 w=馬英 可能不是一個邊界完整的詞 選擇證據分數最高分 且超過門檻值的類別 抽取出的 類專有名詞槽 興農:AORG 兄弟:AORG 天母球場:LOC …
派樹式規則法系統架構 抽取出的 單篇文件 類專有名詞槽 派樹式類專有名詞抽取 斷詞法: 後向最大匹配與 特性標註 斷詞與特性標註 輸入整篇文章 單篇文件 派樹式類專有名詞抽取 LOC →{[PER][APER][LOC][ALOC]}*[Content Word]*{LOC_KEY} ORG →{[PER][APER][LOC][ALOC][ORG][AORG]}*[Content Word]* {ORG_KEY} 組成結構及邊界判定(STOP,LOC_LEFT_CONTEXT_KEY…) 斷詞法: 後向最大匹配與 特性標註 一次輸入一個句子 中國的中、日本的日等。 中美關係,日韓代表,中、韓、日三方。 SCNE pattern→{SCNE}* {co-occur pattern} 美總統布希、日相、英首相布萊爾、美代表、以代表 SCNE title 美方、日方、美軍、伊軍、中方… 美重申、美發表、… 斷詞與特性標註 類專有名詞重要 相關詞彙列表 人名機率門檻值限制及 邊界判定 (STOP,TITLE, PER_SPOKEN_VERB…) 人名辨識 快取 類專有名詞槽 一般辭典 從派樹中查詢整篇文章中是否出現過澳洲、澳門、澳大利亞、澳國,若有,則澳字單獨出現時可能是地名,如:澳代表… 巢狀類專有名詞辨識 LOC →{LOC}* ORG →{ORG}* ORG->LOC ORG 聯合國安理會 大陸上海… 類專有名詞的結合 單字詞類專有名詞辨識 輸出標註類專有名詞的句子
文字文件類專有名詞辨識實驗 -測試語料 測試語料: 類專有名詞統計量 評分方法: MUC-7(Message Understanding Conference-7)的MET-2(Multilingual Entity Task)測試語料,為大陸簡體字、火箭發射相關新聞共100則 類專有名詞統計量 評分方法: 精確率、回收率 F-測量=(2*精確率*回收率)/(精確率+回收率) 類別 出現次數 人名 174 地名 750 組織名 377
文字文件類專有名詞辨識實驗結果 CED電子辭典 派樹式類專有名詞抽取、 訓練語料:大陸人民日報一個月的自動標註類專有名詞新聞 類專有名詞暗示詞列表、 經驗法則 訓練語料:大陸人民日報一個月的自動標註類專有名詞新聞 訓練語料:台灣雅虎網路新聞8天份,1萬多篇的自動標註新聞 CED電子辭典、 已知各類專有名詞列表 派樹式規則法表現最好 類別語言模型法會受到訓練語言模型優劣影響好壞 類別語言模型法只偵測結尾有關鍵詞的巢狀類別結果較好 句子中所有子字串都當成可能的巢狀類別候選詞並加入詞網中 詞網中只加入結尾有關鍵詞的巢狀類別候選詞
轉寫文件直接辨認 結合關鍵詞辨識可信度分數門檻值限制 結合時間與主題同質的類專有名詞匹配 語音文件中的類專有名詞辨識 轉寫文件直接辨認 結合關鍵詞辨識可信度分數門檻值限制 結合時間與主題同質的類專有名詞匹配
語音文件中類專有名詞辨識 -測試語料 測試語料中類專有名詞統計量 News98 2002年9月份200則語音新聞經由時間同質調適語料做語言模型調適的語音辨識結果 音節辨識率較字元辨識率高許多 測試語料中類專有名詞統計量 字元辨識率 音節辨識率 87.99% 93.42% 類別 出現次數 人名 315 地名 457 組織名 500
轉寫文件直接類專有名詞辨識實驗結果 類別語言模型法:73.00 派樹式規則法:80.01 當成基礎結果
轉寫文件直接類專有名詞辨識 -結果觀察 直接辨識的問題: 將辨識錯誤處當成對的類專有名詞 辨識錯誤的類專有名詞無法回收 例子:郭塘又缺少運動的婦女… (過糖) 導致精確率降低 辨識錯誤的類專有名詞無法回收 例子:立委甚至會帶領… (沈智慧) 導致回收率降低 `郭’字辨識錯誤… 提出方法: 結合關鍵詞辨識可信度分數門檻值 “甚至會” 是辨識錯誤… 提出方法: 結合時間與主題同質的類專有名詞匹配 PER:沈智慧 ORG:立法院 …
結合關鍵詞辨識可信度分數門檻值限制 如何設定關鍵詞可信度門檻值(tkey)呢? 先對可信度分數大小做觀察 語音辨識信心測量,以CM(confidence measure)代表 人名: 當中國人名姓氏或外國人名首字沒有重要前後文一同出現時(頭銜、發言動詞),可信度必須大過門檻值tkey,才當成可能的候選詞 例:(過糖) 地名、組織名: 當結尾關鍵詞(市、廠、鄉)可信度大過門檻值tkey 時,才當成可能的候選詞 <s> 郭 塘 又 缺 乏 運 動 的 婦 女 </s> 缺乏 運動 婦女 郭塘 結合關鍵詞可信度門檻值限制 CM(郭) < tkey? 則詞網中不加入此中國人名候選詞 郭 塘 又 缺乏 運動 的婦女 直接辨認法:PER 又 缺乏 運動 的 婦女 如何設定關鍵詞可信度門檻值(tkey)呢? 先對可信度分數大小做觀察
最佳輸出結果中每個詞可信度分數計算 詞圖(word graph)中節點辨識可信度分數計算: 詞圖中每一個節點的可信度分數,是將經過該節點的所有路徑事後機率相加而得 最佳輸出結果(1-best)的每個詞的可信度分數計算: 在詞圖中將時間點有重疊且候選詞一樣的節點可信度分數相加得到 為了避免在詞圖中找不到對應最佳輸出的路徑,通常會建構較龐大的詞圖 詞圖大小與可信度的關係: 詞圖愈大保留的候選詞就愈多,每個候選詞的路徑機率會被分散掉,使得可信度分數平均而言會變小。
關鍵詞辨識可信度分數門檻值估計 -可信度分數排序觀察 (200則開發集) 關鍵詞辨識可信度分數門檻值估計 -可信度分數排序觀察 (200則開發集) 辨識正確詞的可信度有10%只在0.01以下 可信度值偏小 設的可信度門檻值不宜太高
類別語言模型法 -結合關鍵詞辨識可信度分數門檻值實驗結果 If CM(W關鍵詞) < tkey,表示可能為辨識錯誤, 不當成可能的類專有名詞候選詞繼續處理 辨識可信度門檻值設得愈高,表示要求的精確率愈高,然而回收率可能下降 加入可信度分數門檻值有可能得到較好的F-測量(73.00 →73.41) 派樹式規則法在可信度門檻值0.01時也可得到較好的F-測量(80.01 → 80.09)
結合時間與主題同質的類專有名詞匹配 (幫助回收率增加) 文件No.56 相似度0.6 PER 鮑爾 3 ORG 眾議院 2 PER 布希 7 PER 布萊爾 1 LOC 美國 3 文件No.12 相似度0.5 LOC 伊拉克 6 PER 布希 3 ORG 參議院 2 … 2002年9月份 雅虎奇摩網路新聞,可透過網路抓取 使用TF*log(IDF) 計算出語音文件與各篇純文字文件的文件向量相似度 找出最相似的前20篇且相似度大於0.2的文字文件 美國總統布希間表示… 不惜雖然堅稱… 國務卿鮑爾在眾議院談伊拉克問題 … 時間同質 新聞 語料庫 後端前處理 單篇 語音文件 文字文件 類專有名詞辨識器 時間與主題 同質類專有 名詞庫 資訊檢索 時間同質 新聞語料庫及 類專有名詞庫 每篇文字新聞中的類專有名詞都已經自動抽取出來了。 如: 文件No.1. PER 陳金鋒 ORG 洛杉磯道奇隊 LOC 美國 … 結合類專有名詞匹配 的類專有名詞辨識 發音相似度 矩陣 美國(loc)總統布希(per)間表示… 布希(per)雖然堅稱… 國務卿鮑爾(per)在眾議院(loc)談伊拉克(loc)問題 … 發音辭典 錯誤修正後的 類專有名詞標註 語音文件
結合時間與主題同質的類專有名詞匹配 -類別語言模型法 文件No.124 相似度0.6 PER 鮑爾 3 ORG 眾議院 2 PER 布希 7 LOC 美國 3 文件No.124 相似度0.5 LOC 伊拉克 4 ORG 蓋達組織 2 PER 賓拉登 2 PER 布希 3 … 美國總統布希間表示… 不惜雖然堅稱… 國務卿鮑爾在眾議院談伊拉克問題 … 時間與主題 同質類專有 名詞庫 單篇 語音文件 字元完全匹配 音節完全/近似匹配 尋找可匹配處 匹配到的候選詞 做類別生成機率調適 匹配處的處理 人名類別 快取語言模型 percache 地名類別 快取語言模型 loccache 組織名類別 快取語言模型 orgcache P(鮑爾|percache)=3/15 P(布希|percache)=10/15 P(賓拉登|percache)=2/15 P(美國|loccache)=3/7 P(伊拉|loccache)=4/7 P(眾議院|orgcache)=2/4 P(蓋達組織|orgcache)= 2/4
類別語言模型法 -時間與主題同質的類專有名詞匹配 P(布希|percache)=10/15 P(美國|loccache)=3/7 <s> 美 國 總 統 布 希 間 表 示 </s> 美國 總統 表示 美國 布希 字元完全匹配 布希間 P(美國|LOC)=(1- λcache)P(美國|loc) + λcache P(美國|loccache) P(布希|PER)=(1- λcache)P(布希|per) + λcacheP(布希|percache) 滿足音節完全/近似匹配 音節相似度 >= tsyll_sim 以及 CM(不惜) < tcorrect <s> 不 惜 雖 然 堅 稱 </s> 不惜 雖然 堅稱 布希 syll_sim(不、布)=2.0 syll_sim(惜、希)=2.0 P(布希|PER)=(1- λcache)P(布希|per) + λcacheP(布希|percache) 有助於回收率的提升與錯誤字元修正
類別語言模型法結合字元完全匹配及類別生成機率調適實驗結果 類別生成機率內插的結果比單純使用任何一種模型要來的好 (λcache= 0.6時最好) 回收率隨著λcache提升
類別語言模型法 結合關鍵詞可信度分數門檻值、字元完全匹配及類別生成機率調適實驗結果 (F-測量) 關鍵詞可信度分數門檻值: If CM(W關鍵詞) < tkey,表示可能為辨識錯誤, 不當成可能的類專有名詞候選詞繼續處理 希望精確率與 回收率都能提升 tkey
類別語言模型法 結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 (F-測量) 字元完全匹配最好的結果為:λcache=0.6, tkey=0.1 F-測量從 73.00→78.42 放鬆匹配條件至音節近似匹配時,我們固定λcache=0.6, tkey=0.1,研究字元修正信心分數門檻值tcorrect在不同設定下的結果 tcorrect =0.6時, tsyll_sim=2.0時, F-測量進步到79.50 CM(不惜) < tcorrect 則加入”布希”至詞網
類別語言模型法 結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 (語音辨識率) 語音字元辨識率也從87.99提升到88.17
類別語言模型法 結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果觀察 音節完全匹配時最好的設定下:類專有名詞F測量: 從73.00 → 79.50 語音字元辨識率: 從87.99 → 88.17
結合時間與主題同質的類專有名詞匹配 -派樹式規則法 非類別語言模型法的統計式解歧異,因此,以設定快取語言模型的機率門檻值(tcache)作為匹配的限制 <s> <s> 不 布希 不 惜 惜 雖 雖 然 然 堅 堅 稱 稱 </s> </s> 布希 音節完全/近似匹配 根據匹配特徵限制: 音節相似度 >= tsyll_sim CM(不惜) < tcorrect P(布希|percache) > tcache 最好的設定為: 關鍵詞可信度門檻值 tkey = 0.01 快取語言模型門檻值 tcache=0.2 音節近似匹配 tsyll_sim=1.7 字元修正信心分數門檻值 tcorrect=0.6 F-測量: 80.01 → 80.93 語音字元辨識率: 87.99 → 88.16
語音文件中類專有名詞辨識 最佳設定結果比較 結合關鍵詞可信度分數門檻值及時間與主題同質的類專有名詞匹配 關鍵詞可信度分數門檻值→提高精確率 時間與主題同質的類專有名詞匹配→提高回收率 兩者結合使用可同時提高精確率與回收率 類別語言模型法: tkey = 0.1, λcache= 0.6, tsyll_sim = 2.0, tcorrect = 0.6時, F-測量 73.00→79.50 派樹式規則法: tkey=0.01, tcache = 0.2, tsyll_sim = 1.7, tcorrect = 0.6時, F-測量 80.01→80.93
自動建立類專有名詞索引之資訊檢索系統 網際網路語音問答系統 類專有名詞辨識衍生之應用 自動建立類專有名詞索引之資訊檢索系統 網際網路語音問答系統
類專有名詞辨識衍生之應用 -自動建立類專有名詞索引之資訊檢索系統 幫助使用者瞭解新聞語料庫中重要的資訊,並提供使用者檢索的詞彙
類專有名詞辨識衍生之應用 -網際網路語音問答系統 將檢索出來的網頁摘要(Snippet)做類專有名詞辨識(選取前N篇) 結合語音輸入、語音合成, 以自然語言在網路上做問答,並以類專有名詞辨識淬取出重要的資訊,在未來是一個發展趨勢 問問題 Google共檢索出2750篇 可用語音合成方式唸出 最可能的答案 檢索詞重寫 (Query Reformulation) 可能答案排序
結論 文字文件中類專有名詞辨識 類別語言模型法: 派樹式規則法: 統計式的類別語言模型法及派樹式規則法各有優劣處 語音文件中類專有名詞辨識 在有優值語言模型的情形下,解歧異功能最好 不容易處理無關鍵詞結尾的巢狀類別 派樹式規則法: 可抽出許多無關鍵詞的類專有名詞 在新聞領域測試語料中可以達到很好的效果 統計式的類別語言模型法及派樹式規則法各有優劣處 語音文件中類專有名詞辨識 結合關鍵詞可信度分數門檻值限制及時間與主題同質的類專有名詞匹配可以同時增加精確率與回收率,F-測量可以進步許多 做了類專有名詞辨識後的語音文件可以幫助瀏覽、建構索引、實作問答等系統,對於語音摘要也能帶來幫助
謝謝各位