指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

Slides:



Advertisements
Similar presentations
课前寄语 1 、保持纪律 2 、相互配合. 第三节 公民的投资 —— 公民的存款储蓄 课堂导入.
Advertisements

第五节 函数的微分 二、微分的几何意义 三、基本初等函数的微分公式与微分运算法则 四、微分在近似计算中的应用 一、微分的定义.
旅遊實務Ⅰ 授課教師:李健民 上課班級: 320. 課程大綱 旅遊業之設立程序 旅行業組織結構 旅行業之分類 旅行業之管理.
颅骨及其连接 解剖学教研室 陈通. 一、颅的骨性构成:共 23 块。 1. 脑颅骨: 8 块。 成对 -- 顶骨、颞骨 不成对 -- 额骨、筛骨、蝶骨、枕骨.
食管癌病人的护理 上海交通大学护理学院 曹伟新 曹伟新. 学习目标 识记 识记 能正确叙述食管癌的病因和诱因 能正确叙述食管癌的病因和诱因 能简要概述常用于食管癌辅助检查 能简要概述常用于食管癌辅助检查 理解 理解 能正确描述食管癌病人的常见症状和体征 能正确描述食管癌病人的常见症状和体征 能简要概述食管癌的治疗原则.
化学是一门以实验为基础的科学 广元市零八一中学 化学备课组 化学是一门以实验为基础的科学,化学 的许多重大发现和研究成果都是通过实 验得到的。由此可见实验在化学学习过 程中的重要地位:学好了化学实验,就 为我们学好整个化学打下坚实的基础。 【新课引入】
腹部仰卧前后位 (正位) 腹部仰卧前后位(正位) 摄影目的:观察尿路或腹腔脏器结石、 钙化及腹部包块、异物存留.
深圳市沙井中学:刘沅南制作. 1 、出生的小宝宝 ( 新生命)是怎么来的呢? 新生命都是从一个细胞 —— 受精卵发育而 来的。 2 、 受精卵又是如何产生的呢? 是精子和卵细胞相互结合产生的。
金門神鵰俠侶 風獅爺與大樹之風中傳奇 風獅爺與大樹之風中傳奇  104 年 6 月 17 日 報告人:鍾佳玫.
生殖器、肛门与直肠检查 生殖器、肛门和直肠检查是全面体检的 一部分,有时对临床诊断具有重要意义。但 某些病人不易接受此项检查,因此对有指征 的病人应耐心说明检查的目的、方法和重要 性,务必做到全面检查。被检查者若为女性, 男性医生必须有女医护人员或家属陪同检查。
親 ( 四 ) 親近神的路. 一、親的三字訣、七字訣: 親近神,親愛人; 與主交通親近神,同情關心親愛人。 甚麼是親? 1. 親有親近、親愛,更有關心、同情、親切的 意思。 2. 親的人與人沒有間隔,拉近人與人之間的距 離,並且樂意幫助人,與人相調建造在一起。
第二班群教師團隊 105 張心平 107 鐘于寧 106 黃意評 108 鄭婉茹. 第二班群之班親會說明 學校規定事項說明 教學活動說明 班群活動介紹.
差勤.
申論題要拿高分並不容易,因為他是 有一定的技巧的,如果你遵照下列技 巧來作答申論題,相信高分並不難拿, 其技巧如下:
102大學甄選入學 個人申請、繁星推薦說明 主講人:簡慧嫻.
景观规划的分类设计——居住区景观环境规划设计
芳香植物.
新進教師研習 教務處報告 報告人:教務處 林永仁 2011 年 8 月31日.
「明清時期台灣古典散文」 教師:田啟文.
妇科病史及检查 山东大学第二医院 朱 琳.
新頒解釋函令 ● 所得稅扣(免)繳相關法令、 ● 所得稅扣(免)繳申報實務 ● 扣繳常見稅務違章類型 財政部南區國稅局屏東分局
中藥如何提升免疫力 補氣藥=黃耆、人參、白朮等。 補血藥=當歸、川芎、龍眼肉等。 補陰藥=地黃、麥門冬、何首烏。
壹、緣起 在「夢想大作戰」的主題裡,主要分為「個人挑戰」與「小組挑戰」兩個部份,當個人挑戰陸續完成後,緊接著進入小組挑戰的階段。
科學科技動手學 方潤華小學上午校
基本礼仪 一、礼仪基本原则 二、形象礼仪 三、交谈礼仪 四、礼貌用语 五、行为礼仪 六、礼仪细节.
高雄市小港區海汕國民小學 第一期校舍新建工程 工程現況簡報
鼻炎 症狀: 鼻(眼睛)內發癢或不舒服、 打噴嚏、 流鼻涕(水)、 鼻塞………等 。 鼻子內的任何發炎。
苟利国家生死以, 岂因祸福避趋之。 ----禁毒英雄,一生为公 --林则徐.
恒泰期货研究所2016年 期债暴跌告一段落,短期波动降低 国债期货周报
模块七 房地产营销渠道策略 主要内容 房地产营销渠道类型 房地产营销渠道选择方法 开发商与代理商的合作模式.
早一步,海阔天空 大肠癌预防与早期发现.
遣詞造句知多少? 中文系 王偉勇教授 兼通識教育中心中心主任.
(4)理论体系与实训模块 必须衔接、融合 本课程把理论教学体系与实训模块结构连接成一个完整的高职课程体系。
最有利標及評選優勝廠商 講師 劉金龍 經歷:臺中市政府發包科科長.
三、市场营销学研究的基本方法 (1)产品研究法。是以物为中心的研究方法,即在产品分类的基础上,对各类产品市场分别进行研究。 (2)机构研究法。是以研究市场营销制度为出发点,体现以人为中心的研究方法,即集中对整个市场营销系统中的各特定机构的性质和功能进行研究。 (3)职能研究法。是以研究产品从生产者到消费者手中所进行的各种营销活动过程中,市场营销组织所发挥的功能的方法。
《桥梁设计师》软件.
拯救企鵝,人人有責 >.< 報告人:李承恩、楊承峰 日期:104/3/19.
青春期 要長大囉! 男女有別 生命的誕生~兩性結合才有下一代的新生命 為什麼會有月經? 經痛怎麼辦 ? 渡過快樂青春喜歡自己
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
親愛的吉姆舅舅:   今天吃完晚餐後,奶奶說,在家裡情況變好以前,您要我搬到城裡跟您住。奶奶有沒有跟您說,爸爸已經好久沒有工作,也好久沒有人請媽媽做衣服了?   我們聽完都哭了,連爸爸也哭了,但是媽媽說了一個故事讓我們又笑了。她說:您們小的時候,她曾經被您追得爬到樹上去,真的嗎?   雖然我個子小,但是我很強壯,只要我會做的我都可以幫忙,但是,奶奶說,做其他事情以前,要先把功課做完。
网络的利与弊 2017/3/19 该课件由【语文公社】
最有利標及評選優勝廠商 講師 劉金龍 經歷:臺中市政府發包科科長.
目 錄 壹、緣由 貳、問題解析 參、問題歸納 肆、因應對策 伍、評鑑獎勵 陸、追蹤考核 1.
當 家 新 鮮 事.
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
服装结构与工艺(一) 裙 装 部 分.
臺北市特殊教育校園融合 聽覺障礙篇 臺北市政府教育局 發行 臺北市立中山女子高級中學 彙編.
兒童及少年福利服務 講師:張智昇.
社会调查辅导 适用于电大开放教育行政管理本科专业.
电磁干扰 在电子产品的外部和内部存在着各种电磁干扰,干扰会影响或破坏产品的正常工作。
百變千層 洪憶如老師.
中國美術史報告-我最喜歡的一幅畫 班級:2年2班 姓名:郭馥甄 座號:23.
高鐵炫風 製作人林淑蘭老師.
行政院勞工委員會勞工保險局 勞退舊制與新制分析說明 高雄市政府人事處 99年2月1日.
2007/5/23初訪螢光蕈 (等了兩年).
开始 结束.
98年度活化校園閒置空間總體計畫—能資源教育中心
RC建築連續壁與牆配筋施工圖之自動化設計簡報
第一部 上班族賺錢密碼.
臺北市特殊教育校園融合 聽覺障礙篇 臺北市政府教育局 發行 臺北市立中山女子高級中學 彙編.
第八单元 Word和Excel 进阶应用.
五年級數學科 直徑與圓周.
大圓小圓展風貌 ─圓面積 製作者:蔡怡真.
香港道教聯合會圓玄學院石圍角小學 中國清朝衣服 By:蔡思敏.梁嘉敏.杭依澄.
校外教學一日遊 -八仙樂園 作者:江麗妮.
4上 17 正方形和長方形的周界 9. 長方形草地的四邊圍了小籬笆,內有一個 , 的長方形花圃。 長5米 闊4米
新豐鄉.
高雄區12年國教入學方式 報告人:高雄市政府教育局 局長 鄭新輝.
安全保密产品检测申请书 材料准备介绍.
§2.3 红外光谱的特征吸收峰.
Presentation transcript:

指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟 中文文字/語音文件中 類專有名詞擷取 及其可能應用之初步研究 An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

簡介 本論文處理的類專有名詞類別包含人名、地名與組織名。 類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。 語音文件中的類專有名詞辨識: 在有語音辨識錯誤的語音文件中找出類專有名詞出現處 有助於語音摘要、語音問答、和語音對話系統的處理 類專有名詞 類別 舉例 人名(PER) 托尼·布萊爾 陳水扁、馬市長 地名(LOC) 胡志明市、中山堂 鶯歌、七堵 赴美、中日關係 組織名(ORG) 聯合國安理會 台灣積體電路製造股份有限公司 中油、台塑 <ENAMEX TYPE=“LOCATION”>美國</ENAMEX>國務卿 <ENAMEX TYPE=“PERSON”>鮑爾</ENAMEX>在 <ENAMEX TYPE=“LOCATION”>華府外籍記者中心</ENAMEX>表示...

綱要 文字文件中類專有名詞辨識 語音文件中類專有名詞辨識 類專有名詞辨識衍生之應用 結論

文字文件中的類專有名詞辨識 類別語言模型法 派樹式規則法

文字文件中類專有名詞辨識 -類別語言模型法的概念 類別的種類: 人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別 若辭典中有|V| 個詞彙,則總共的類別數有|V|+3個 基本概念:給定中文句子S,W為S的可切分詞串,C為W對應的類別,利用維特比搜尋找出滿足P(C,W)最大的最佳詞序列W*和W*對應的最佳類別序列C* 類別前後文模型 類別生成模型

各種類別語言模型的機率估計 各種類別生成模型估計 人名類別 (字元二連語言模型) 巢狀類別 (類別二連語言模型) 一般詞彙類別 人名類別 (字元二連語言模型) 中國人名、外國人名分成兩種機率模型 例:李小龍 巢狀類別 (類別二連語言模型) 地名、組織名 例:宜蘭清水公園 一般詞彙類別 每一個辭典中詞彙各自是一個類別 生成機率皆為1 類別前後文模型估計 由訓練語料庫訓練出三連類別語言模型機率 如:訓練語句:總統 PER 在 LOC 發表 聲明 … 可估計出:p(PER|總統,<s>), p(LOC|在,PER) … P(李小龍|PER) ≈p(李|<s>) p(小|李) p(龍|小) p(</s>|龍) P(宜蘭清水公園|LOC) ≈ p(LOC|<s>) p(PER|LOC) p(公園|PER) p(</s>|公園) p(宜蘭|LOC)*p(清水|PER)*p(公園|公園) 內部維特比搜尋找出內部最佳的類別及詞序列所對應的機率,以最高機率當成其生成機率 p(尤其|尤其) = 1、 p(今天|今天) = 1

類別語言模型法實作演算法 對於句子S,執行下列三個步驟: 建構詞網 正向動態規劃(維特比搜尋) 反向回溯找出最佳的詞序列及對應的類別序列 紀錄各類別候選詞於詞網上,並記錄其生成機率 一般詞彙、人名類別、地名類別、組織名類別 正向動態規劃(維特比搜尋) 從句首至句尾對每一個候選詞計算到該位置為止,滿足p(c,w)最大的最佳路徑,紀錄最佳分數及回溯指標 反向回溯找出最佳的詞序列及對應的類別序列 從句尾中有最高路徑分數的候選詞開始回溯至句首

演算法運作流程 處理句子:台北市中正紀念堂是為了紀念蔣中正先生 一般詞網示意圖 (1)建構詞網 <s> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 </s> 台 北 市 中 正 紀 念 堂 是 為 了 紀 念 蔣 中 正 先 生 最佳類別路徑(C*): LOC 是 為了 紀念 PER 先生 最佳詞路徑(W*): 台北市中正紀念堂 是 為了 紀念 蔣中正 先生 P(C*,W* ) = P(C*) * P(W*|C*) = P(LOC|<s>) * P(是|LOC,<s>) * P(為了|是,LOC)*P(紀念|為了,是)*P(PER|紀念,為 了)*P(先生|PER,紀念)*P(</s>|先生,PER)* P(台北市中正紀念堂|地名)*P(是|是)*P(為了|為了)P(紀念|紀念)*P(蔣中正|人名)*P(先生| 先生) 台北 中正 紀念 為了 紀念 蔣中正 先生 紀念堂 中正(p) 紀念(p) 堂是(p) 紀念(p) 蔣中(p) 一般詞彙類別 每個詞的生成機率皆為1。 如:p(紀念|紀念)=1 紀念堂(p) 紀念蔣(p) 堂是為(p) 蔣中正(p) 台北(l) (1)建構詞網 台北市(l) 正紀念堂(l) 生成機率計算: 做內部維特比搜尋,得出最佳類別序列和最佳機率 中正紀念堂(l) 計算人名類別的生成機率。 如:p(紀念|人名)= P(紀|<s>)*p(念|紀)*p(</s>|念) (2)正向維特比搜尋 c*,w* = max p(c*)*p(w*|c*) 市中正紀念堂(l) 北市中正紀念堂(l) (3)反向回溯 台北市中正紀念堂(l)

由地名類別的語言模型查出可能出現在地名的詞彙,生成機率皆設為1 巢狀類別內部維特比搜尋 地名類別詞網 計算地名生成機率 P(台北市中正紀念堂|LOC) 台北市中正紀念堂(l) <s> </s> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 台 北 市 中 正 紀念堂 生成機率設為: P(台北市中正紀念堂|LOC) =P(C*)*P(W*|C*) =P(LOC|<s>)*P(PER|LOC) *P(紀念堂|PER)*P(</s>|紀念堂) *P(台北市|LOC)*P(中正|PER)*p(紀念堂|紀念堂) 台北(l) 由地名類別的語言模型查出可能出現在地名的詞彙,生成機率皆設為1 台北市(l) 各種類別的候選詞與生成機率 中正(p) 紀念(p) 紀念堂(p)

縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多,使用單純類別語言模型法較難偵測出。 類別語言模型法討論 類別語言模型法觀察: 優點: 將斷詞與類專有名詞辨識合在同一個架構下,具有斷詞解歧異的功能 弱點: 不易取得涵蓋領域夠廣且標註夠一致的訓練語料 不容易回收沒有關鍵詞的地名、組織名(九份、中廣) 需要做內部維特比搜尋的字串將成指數成長 一次處理一句,未用到整篇文章所包含的字串資訊 新的想法: 派樹式類專有名詞抽取: 使用整篇文章所包含的樣式統計資訊及該樣式所有出現過的前後文幫助抽取類專有名詞 金門縣長陳水在昨天呼籲兩岸 … ,陳水在表示… ,陳水在當初擔任 … 臺北縣鶯歌鎮的陶瓷… ,鶯歌有許多賣精美陶瓷的店家… ,要到鶯歌遊玩的民眾可以搭乘… 遊戲橘子集團高階人事異動 … ,對於遊戲橘子跨足研發領域 … ,遊戲橘子旗下的產品多數是以代理自韓國為主 … ,遊戲橘子董事長劉柏園表示 … 縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多,使用單純類別語言模型法較難偵測出。

派樹式規則法 -派樹式類專有名詞抽取概念 派樹:是一種很有效率的資料結構,在資訊檢索的領域使用很多 建構派樹:將處理的文章中每一個語意片段中的後部字串(suffix string) 加入派樹中 正向派樹、反向派樹 優點:可以容易地獲得任意字串在整篇文章中的出現頻率及所有前後文 統計值(左右相連詞變異度)可判斷詞的邊界完整性 前後文字串可以用來判斷類別 正向派樹: S=今天在總統府 Suffix strings: 今天在總統府 天在總統府 在總統府 總統府 統府 府 反向派樹: S=府統總在天今 Suffix strings: 府統總在天今 統總在天今 總在天今 在天今 天今 今 s X:陳水在X1:陳水在 X2:在水陳 Y:陳水 Z:在水 正向派樹可以容易地查詢字串的所有後文(RC) 反向派樹可以容易地查詢字串的所有前文(LC) Z Y X2 X1 RC1 RC2 RC3 LC1 LC2 LC3 RC1:陳水在說* RC2:陳水在強調* RC3:陳水在昨天呼籲* LC1:在水陳長縣門金* LC2:在水陳,* LC3:在水陳當*

派樹式規則法 -派樹式類專有名詞抽取流程 對整篇文章建構正向及反向派樹 內部特徵: 使用字串的 人名:人名機率是否大過門檻值 地名、組織名:內部是否有關鍵詞(隊、鄉) 外部特徵: 人名:頭銜、發言動詞 地名:重要前後文 (抵達、飛往,地區、附近、市…) 組織名:重要前後文 (大廠、廠商,公司…) 組合特徵: 搭配內部及外部特徵對各類別記錄證據分數。(詳述於論文中) 使用字串的 前後文變異統計值做抽詞 處理派樹中出現頻率>=tf 的字串 估計候選字串的邊界完整性 繼續判斷候選字串 可能的類專有名詞類別 檢驗字串內部及外部前後文資訊 記錄各類別證據分數 w=馬英 β=九 f(w,β)/f(w) < tb? 如果f(w,β)/f(w) >= tb,則 w=馬英 可能不是一個邊界完整的詞 選擇證據分數最高分 且超過門檻值的類別 抽取出的 類專有名詞槽 興農:AORG 兄弟:AORG 天母球場:LOC …

派樹式規則法系統架構 抽取出的 單篇文件 類專有名詞槽 派樹式類專有名詞抽取 斷詞法: 後向最大匹配與 特性標註 斷詞與特性標註 輸入整篇文章 單篇文件 派樹式類專有名詞抽取 LOC →{[PER][APER][LOC][ALOC]}*[Content Word]*{LOC_KEY} ORG →{[PER][APER][LOC][ALOC][ORG][AORG]}*[Content Word]* {ORG_KEY} 組成結構及邊界判定(STOP,LOC_LEFT_CONTEXT_KEY…) 斷詞法: 後向最大匹配與 特性標註 一次輸入一個句子 中國的中、日本的日等。 中美關係,日韓代表,中、韓、日三方。 SCNE pattern→{SCNE}* {co-occur pattern} 美總統布希、日相、英首相布萊爾、美代表、以代表 SCNE title 美方、日方、美軍、伊軍、中方… 美重申、美發表、… 斷詞與特性標註 類專有名詞重要 相關詞彙列表 人名機率門檻值限制及 邊界判定 (STOP,TITLE, PER_SPOKEN_VERB…) 人名辨識 快取 類專有名詞槽 一般辭典 從派樹中查詢整篇文章中是否出現過澳洲、澳門、澳大利亞、澳國,若有,則澳字單獨出現時可能是地名,如:澳代表… 巢狀類專有名詞辨識 LOC →{LOC}* ORG →{ORG}* ORG->LOC ORG 聯合國安理會 大陸上海… 類專有名詞的結合 單字詞類專有名詞辨識 輸出標註類專有名詞的句子

文字文件類專有名詞辨識實驗 -測試語料 測試語料: 類專有名詞統計量 評分方法: MUC-7(Message Understanding Conference-7)的MET-2(Multilingual Entity Task)測試語料,為大陸簡體字、火箭發射相關新聞共100則 類專有名詞統計量 評分方法: 精確率、回收率 F-測量=(2*精確率*回收率)/(精確率+回收率) 類別 出現次數 人名 174 地名 750 組織名 377

文字文件類專有名詞辨識實驗結果 CED電子辭典 派樹式類專有名詞抽取、 訓練語料:大陸人民日報一個月的自動標註類專有名詞新聞 類專有名詞暗示詞列表、 經驗法則 訓練語料:大陸人民日報一個月的自動標註類專有名詞新聞 訓練語料:台灣雅虎網路新聞8天份,1萬多篇的自動標註新聞 CED電子辭典、 已知各類專有名詞列表 派樹式規則法表現最好 類別語言模型法會受到訓練語言模型優劣影響好壞 類別語言模型法只偵測結尾有關鍵詞的巢狀類別結果較好 句子中所有子字串都當成可能的巢狀類別候選詞並加入詞網中 詞網中只加入結尾有關鍵詞的巢狀類別候選詞

轉寫文件直接辨認 結合關鍵詞辨識可信度分數門檻值限制 結合時間與主題同質的類專有名詞匹配 語音文件中的類專有名詞辨識 轉寫文件直接辨認 結合關鍵詞辨識可信度分數門檻值限制 結合時間與主題同質的類專有名詞匹配

語音文件中類專有名詞辨識 -測試語料 測試語料中類專有名詞統計量 News98 2002年9月份200則語音新聞經由時間同質調適語料做語言模型調適的語音辨識結果 音節辨識率較字元辨識率高許多 測試語料中類專有名詞統計量 字元辨識率 音節辨識率 87.99% 93.42% 類別 出現次數 人名 315 地名 457 組織名 500

轉寫文件直接類專有名詞辨識實驗結果 類別語言模型法:73.00 派樹式規則法:80.01 當成基礎結果

轉寫文件直接類專有名詞辨識 -結果觀察 直接辨識的問題: 將辨識錯誤處當成對的類專有名詞 辨識錯誤的類專有名詞無法回收 例子:郭塘又缺少運動的婦女… (過糖) 導致精確率降低 辨識錯誤的類專有名詞無法回收 例子:立委甚至會帶領… (沈智慧) 導致回收率降低 `郭’字辨識錯誤… 提出方法: 結合關鍵詞辨識可信度分數門檻值 “甚至會” 是辨識錯誤… 提出方法: 結合時間與主題同質的類專有名詞匹配 PER:沈智慧 ORG:立法院 …

結合關鍵詞辨識可信度分數門檻值限制 如何設定關鍵詞可信度門檻值(tkey)呢? 先對可信度分數大小做觀察 語音辨識信心測量,以CM(confidence measure)代表 人名: 當中國人名姓氏或外國人名首字沒有重要前後文一同出現時(頭銜、發言動詞),可信度必須大過門檻值tkey,才當成可能的候選詞 例:(過糖) 地名、組織名: 當結尾關鍵詞(市、廠、鄉)可信度大過門檻值tkey 時,才當成可能的候選詞 <s> 郭 塘 又 缺 乏 運 動 的 婦 女 </s> 缺乏 運動 婦女 郭塘 結合關鍵詞可信度門檻值限制 CM(郭) < tkey? 則詞網中不加入此中國人名候選詞 郭 塘 又 缺乏 運動 的婦女 直接辨認法:PER 又 缺乏 運動 的 婦女 如何設定關鍵詞可信度門檻值(tkey)呢? 先對可信度分數大小做觀察

最佳輸出結果中每個詞可信度分數計算 詞圖(word graph)中節點辨識可信度分數計算: 詞圖中每一個節點的可信度分數,是將經過該節點的所有路徑事後機率相加而得 最佳輸出結果(1-best)的每個詞的可信度分數計算: 在詞圖中將時間點有重疊且候選詞一樣的節點可信度分數相加得到 為了避免在詞圖中找不到對應最佳輸出的路徑,通常會建構較龐大的詞圖 詞圖大小與可信度的關係: 詞圖愈大保留的候選詞就愈多,每個候選詞的路徑機率會被分散掉,使得可信度分數平均而言會變小。

關鍵詞辨識可信度分數門檻值估計 -可信度分數排序觀察 (200則開發集) 關鍵詞辨識可信度分數門檻值估計 -可信度分數排序觀察 (200則開發集) 辨識正確詞的可信度有10%只在0.01以下 可信度值偏小 設的可信度門檻值不宜太高

類別語言模型法 -結合關鍵詞辨識可信度分數門檻值實驗結果 If CM(W關鍵詞) < tkey,表示可能為辨識錯誤, 不當成可能的類專有名詞候選詞繼續處理 辨識可信度門檻值設得愈高,表示要求的精確率愈高,然而回收率可能下降 加入可信度分數門檻值有可能得到較好的F-測量(73.00 →73.41) 派樹式規則法在可信度門檻值0.01時也可得到較好的F-測量(80.01 → 80.09)

結合時間與主題同質的類專有名詞匹配 (幫助回收率增加) 文件No.56 相似度0.6 PER 鮑爾 3 ORG 眾議院 2 PER 布希 7 PER 布萊爾 1 LOC 美國 3 文件No.12 相似度0.5 LOC 伊拉克 6 PER 布希 3 ORG 參議院 2 … 2002年9月份 雅虎奇摩網路新聞,可透過網路抓取 使用TF*log(IDF) 計算出語音文件與各篇純文字文件的文件向量相似度 找出最相似的前20篇且相似度大於0.2的文字文件 美國總統布希間表示… 不惜雖然堅稱… 國務卿鮑爾在眾議院談伊拉克問題 … 時間同質 新聞 語料庫 後端前處理 單篇 語音文件 文字文件 類專有名詞辨識器 時間與主題 同質類專有 名詞庫 資訊檢索 時間同質 新聞語料庫及 類專有名詞庫 每篇文字新聞中的類專有名詞都已經自動抽取出來了。 如: 文件No.1. PER 陳金鋒 ORG 洛杉磯道奇隊 LOC 美國 … 結合類專有名詞匹配 的類專有名詞辨識 發音相似度 矩陣 美國(loc)總統布希(per)間表示… 布希(per)雖然堅稱… 國務卿鮑爾(per)在眾議院(loc)談伊拉克(loc)問題 … 發音辭典 錯誤修正後的 類專有名詞標註 語音文件

結合時間與主題同質的類專有名詞匹配 -類別語言模型法 文件No.124 相似度0.6 PER 鮑爾 3 ORG 眾議院 2 PER 布希 7 LOC 美國 3 文件No.124 相似度0.5 LOC 伊拉克 4 ORG 蓋達組織 2 PER 賓拉登 2 PER 布希 3 … 美國總統布希間表示… 不惜雖然堅稱… 國務卿鮑爾在眾議院談伊拉克問題 … 時間與主題 同質類專有 名詞庫 單篇 語音文件 字元完全匹配 音節完全/近似匹配 尋找可匹配處 匹配到的候選詞 做類別生成機率調適 匹配處的處理 人名類別 快取語言模型 percache 地名類別 快取語言模型 loccache 組織名類別 快取語言模型 orgcache P(鮑爾|percache)=3/15 P(布希|percache)=10/15 P(賓拉登|percache)=2/15 P(美國|loccache)=3/7 P(伊拉|loccache)=4/7 P(眾議院|orgcache)=2/4 P(蓋達組織|orgcache)= 2/4

類別語言模型法 -時間與主題同質的類專有名詞匹配 P(布希|percache)=10/15 P(美國|loccache)=3/7 <s> 美 國 總 統 布 希 間 表 示 </s> 美國 總統 表示 美國 布希 字元完全匹配 布希間 P(美國|LOC)=(1- λcache)P(美國|loc) + λcache P(美國|loccache) P(布希|PER)=(1- λcache)P(布希|per) + λcacheP(布希|percache) 滿足音節完全/近似匹配 音節相似度 >= tsyll_sim 以及 CM(不惜) < tcorrect <s> 不 惜 雖 然 堅 稱 </s> 不惜 雖然 堅稱 布希 syll_sim(不、布)=2.0 syll_sim(惜、希)=2.0 P(布希|PER)=(1- λcache)P(布希|per) + λcacheP(布希|percache) 有助於回收率的提升與錯誤字元修正

類別語言模型法結合字元完全匹配及類別生成機率調適實驗結果 類別生成機率內插的結果比單純使用任何一種模型要來的好 (λcache= 0.6時最好) 回收率隨著λcache提升

類別語言模型法 結合關鍵詞可信度分數門檻值、字元完全匹配及類別生成機率調適實驗結果 (F-測量) 關鍵詞可信度分數門檻值: If CM(W關鍵詞) < tkey,表示可能為辨識錯誤, 不當成可能的類專有名詞候選詞繼續處理 希望精確率與 回收率都能提升 tkey

類別語言模型法 結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 (F-測量) 字元完全匹配最好的結果為:λcache=0.6, tkey=0.1 F-測量從 73.00→78.42 放鬆匹配條件至音節近似匹配時,我們固定λcache=0.6, tkey=0.1,研究字元修正信心分數門檻值tcorrect在不同設定下的結果 tcorrect =0.6時, tsyll_sim=2.0時, F-測量進步到79.50 CM(不惜) < tcorrect 則加入”布希”至詞網

類別語言模型法 結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 (語音辨識率) 語音字元辨識率也從87.99提升到88.17

類別語言模型法 結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果觀察 音節完全匹配時最好的設定下:類專有名詞F測量: 從73.00 → 79.50 語音字元辨識率: 從87.99 → 88.17

結合時間與主題同質的類專有名詞匹配 -派樹式規則法 非類別語言模型法的統計式解歧異,因此,以設定快取語言模型的機率門檻值(tcache)作為匹配的限制 <s> <s> 不 布希 不 惜 惜 雖 雖 然 然 堅 堅 稱 稱 </s> </s> 布希 音節完全/近似匹配 根據匹配特徵限制: 音節相似度 >= tsyll_sim CM(不惜) < tcorrect P(布希|percache) > tcache 最好的設定為: 關鍵詞可信度門檻值 tkey = 0.01 快取語言模型門檻值 tcache=0.2 音節近似匹配 tsyll_sim=1.7 字元修正信心分數門檻值 tcorrect=0.6 F-測量: 80.01 → 80.93 語音字元辨識率: 87.99 → 88.16

語音文件中類專有名詞辨識 最佳設定結果比較 結合關鍵詞可信度分數門檻值及時間與主題同質的類專有名詞匹配 關鍵詞可信度分數門檻值→提高精確率 時間與主題同質的類專有名詞匹配→提高回收率 兩者結合使用可同時提高精確率與回收率 類別語言模型法: tkey = 0.1, λcache= 0.6, tsyll_sim = 2.0, tcorrect = 0.6時, F-測量 73.00→79.50 派樹式規則法: tkey=0.01, tcache = 0.2, tsyll_sim = 1.7, tcorrect = 0.6時, F-測量 80.01→80.93

自動建立類專有名詞索引之資訊檢索系統 網際網路語音問答系統 類專有名詞辨識衍生之應用 自動建立類專有名詞索引之資訊檢索系統 網際網路語音問答系統

類專有名詞辨識衍生之應用 -自動建立類專有名詞索引之資訊檢索系統 幫助使用者瞭解新聞語料庫中重要的資訊,並提供使用者檢索的詞彙

類專有名詞辨識衍生之應用 -網際網路語音問答系統 將檢索出來的網頁摘要(Snippet)做類專有名詞辨識(選取前N篇) 結合語音輸入、語音合成, 以自然語言在網路上做問答,並以類專有名詞辨識淬取出重要的資訊,在未來是一個發展趨勢 問問題 Google共檢索出2750篇 可用語音合成方式唸出 最可能的答案 檢索詞重寫 (Query Reformulation) 可能答案排序

結論 文字文件中類專有名詞辨識 類別語言模型法: 派樹式規則法: 統計式的類別語言模型法及派樹式規則法各有優劣處 語音文件中類專有名詞辨識 在有優值語言模型的情形下,解歧異功能最好 不容易處理無關鍵詞結尾的巢狀類別 派樹式規則法: 可抽出許多無關鍵詞的類專有名詞 在新聞領域測試語料中可以達到很好的效果 統計式的類別語言模型法及派樹式規則法各有優劣處 語音文件中類專有名詞辨識 結合關鍵詞可信度分數門檻值限制及時間與主題同質的類專有名詞匹配可以同時增加精確率與回收率,F-測量可以進步許多 做了類專有名詞辨識後的語音文件可以幫助瀏覽、建構索引、實作問答等系統,對於語音摘要也能帶來幫助

謝謝各位