指導教授：李琳山博士共同指導：陳信希博士研究生：劉禹吟

Slides:

Advertisements

Similar presentations

课前寄语 1 、保持纪律 2 、相互配合. 第三节公民的投资 —— 公民的存款储蓄课堂导入.

Advertisements

第五节函数的微分二、微分的几何意义三、基本初等函数的微分公式与微分运算法则四、微分在近似计算中的应用一、微分的定义.

旅遊實務Ⅰ 授課教師：李健民上課班級： 320. 課程大綱旅遊業之設立程序旅行業組織結構旅行業之分類旅行業之管理.

颅骨及其连接解剖学教研室陈通. 一、颅的骨性构成：共 23 块。 1. 脑颅骨： 8 块。成对 -- 顶骨、颞骨不成对 -- 额骨、筛骨、蝶骨、枕骨.

食管癌病人的护理上海交通大学护理学院曹伟新曹伟新. 学习目标识记识记能正确叙述食管癌的病因和诱因能正确叙述食管癌的病因和诱因能简要概述常用于食管癌辅助检查能简要概述常用于食管癌辅助检查理解理解能正确描述食管癌病人的常见症状和体征能正确描述食管癌病人的常见症状和体征能简要概述食管癌的治疗原则.

化学是一门以实验为基础的科学广元市零八一中学化学备课组化学是一门以实验为基础的科学，化学的许多重大发现和研究成果都是通过实验得到的。由此可见实验在化学学习过程中的重要地位：学好了化学实验，就为我们学好整个化学打下坚实的基础。【新课引入】

腹部仰卧前后位（正位）腹部仰卧前后位（正位）摄影目的：观察尿路或腹腔脏器结石、钙化及腹部包块、异物存留.

深圳市沙井中学：刘沅南制作. 1 、出生的小宝宝 ( 新生命）是怎么来的呢？新生命都是从一个细胞 —— 受精卵发育而来的。 2 、受精卵又是如何产生的呢？是精子和卵细胞相互结合产生的。

金門神鵰俠侶風獅爺與大樹之風中傳奇風獅爺與大樹之風中傳奇  104 年 6 月 17 日報告人：鍾佳玫.

生殖器、肛门与直肠检查生殖器、肛门和直肠检查是全面体检的一部分，有时对临床诊断具有重要意义。但某些病人不易接受此项检查，因此对有指征的病人应耐心说明检查的目的、方法和重要性，务必做到全面检查。被检查者若为女性，男性医生必须有女医护人员或家属陪同检查。

親 ( 四 ) 親近神的路. 一、親的三字訣、七字訣：親近神，親愛人；與主交通親近神，同情關心親愛人。甚麼是親？ 1. 親有親近、親愛，更有關心、同情、親切的意思。 2. 親的人與人沒有間隔，拉近人與人之間的距離，並且樂意幫助人，與人相調建造在一起。

第二班群教師團隊 105 張心平 107 鐘于寧 106 黃意評 108 鄭婉茹. 第二班群之班親會說明學校規定事項說明教學活動說明班群活動介紹.

申論題要拿高分並不容易，因為他是有一定的技巧的，如果你遵照下列技巧來作答申論題，相信高分並不難拿，其技巧如下：

102大學甄選入學個人申請、繁星推薦說明主講人：簡慧嫻.

景观规划的分类设计——居住区景观环境规划设计

新進教師研習教務處報告報告人:教務處林永仁 2011 年 8 月31日.

「明清時期台灣古典散文」教師：田啟文.

妇科病史及检查山东大学第二医院朱琳.

新頒解釋函令 ● 所得稅扣(免)繳相關法令、 ● 所得稅扣(免)繳申報實務 ● 扣繳常見稅務違章類型財政部南區國稅局屏東分局

中藥如何提升免疫力補氣藥=黃耆、人參、白朮等。補血藥=當歸、川芎、龍眼肉等。補陰藥=地黃、麥門冬、何首烏。

壹、緣起在「夢想大作戰」的主題裡，主要分為「個人挑戰」與「小組挑戰」兩個部份，當個人挑戰陸續完成後，緊接著進入小組挑戰的階段。

科學科技動手學方潤華小學上午校

基本礼仪一、礼仪基本原则二、形象礼仪三、交谈礼仪四、礼貌用语五、行为礼仪六、礼仪细节.

高雄市小港區海汕國民小學第一期校舍新建工程工程現況簡報

鼻炎症狀：鼻(眼睛)內發癢或不舒服、打噴嚏、流鼻涕(水)、鼻塞………等。鼻子內的任何發炎。

苟利国家生死以，岂因祸福避趋之。 ----禁毒英雄，一生为公 --林则徐.

恒泰期货研究所2016年期债暴跌告一段落，短期波动降低国债期货周报

模块七房地产营销渠道策略主要内容房地产营销渠道类型房地产营销渠道选择方法开发商与代理商的合作模式.

早一步，海阔天空大肠癌预防与早期发现.

遣詞造句知多少？中文系王偉勇教授兼通識教育中心中心主任.

（4）理论体系与实训模块必须衔接、融合本课程把理论教学体系与实训模块结构连接成一个完整的高职课程体系。

最有利標及評選優勝廠商講師劉金龍經歷：臺中市政府發包科科長.

三、市场营销学研究的基本方法 (1)产品研究法。是以物为中心的研究方法，即在产品分类的基础上，对各类产品市场分别进行研究。 (2)机构研究法。是以研究市场营销制度为出发点，体现以人为中心的研究方法，即集中对整个市场营销系统中的各特定机构的性质和功能进行研究。 (3)职能研究法。是以研究产品从生产者到消费者手中所进行的各种营销活动过程中，市场营销组织所发挥的功能的方法。

《桥梁设计师》软件.

拯救企鵝，人人有責 >.< 報告人:李承恩、楊承峰日期:104/3/19.

青春期要長大囉！男女有別生命的誕生~兩性結合才有下一代的新生命為什麼會有月經？經痛怎麼辦？渡過快樂青春喜歡自己

共产党员致力新疆油田信息化建设数据公司信息业务党支部 2013年6月.

親愛的吉姆舅舅：　　今天吃完晚餐後，奶奶說，在家裡情況變好以前，您要我搬到城裡跟您住。奶奶有沒有跟您說，爸爸已經好久沒有工作，也好久沒有人請媽媽做衣服了？　　我們聽完都哭了，連爸爸也哭了，但是媽媽說了一個故事讓我們又笑了。她說：您們小的時候，她曾經被您追得爬到樹上去，真的嗎？　　雖然我個子小，但是我很強壯，只要我會做的我都可以幫忙，但是，奶奶說，做其他事情以前，要先把功課做完。

网络的利与弊 2017/3/19 该课件由【语文公社】

最有利標及評選優勝廠商講師劉金龍經歷：臺中市政府發包科科長.

目錄壹、緣由貳、問題解析參、問題歸納肆、因應對策伍、評鑑獎勵陸、追蹤考核 1.

當家新鮮事.

一二三四五六七项目建设总体情况建设工作机制与举措项目建设进展建设经费投入与使用贡献与示范典型案例

服装结构与工艺（一）裙装部分.

臺北市特殊教育校園融合聽覺障礙篇臺北市政府教育局發行臺北市立中山女子高級中學彙編.

兒童及少年福利服務講師：張智昇.

社会调查辅导适用于电大开放教育行政管理本科专业.

电磁干扰在电子产品的外部和内部存在着各种电磁干扰，干扰会影响或破坏产品的正常工作。

百變千層洪憶如老師.

中國美術史報告-我最喜歡的一幅畫班級:2年2班姓名:郭馥甄座號:23.

高鐵炫風製作人林淑蘭老師.

行政院勞工委員會勞工保險局勞退舊制與新制分析說明高雄市政府人事處 99年2月1日.

2007/5/23初訪螢光蕈 (等了兩年).

98年度活化校園閒置空間總體計畫—能資源教育中心

RC建築連續壁與牆配筋施工圖之自動化設計簡報

第一部上班族賺錢密碼.

臺北市特殊教育校園融合聽覺障礙篇臺北市政府教育局發行臺北市立中山女子高級中學彙編.

第八单元 Word和Excel 进阶应用.

五年級數學科直徑與圓周.

大圓小圓展風貌 ─圓面積製作者：蔡怡真.

香港道教聯合會圓玄學院石圍角小學中國清朝衣服 By:蔡思敏.梁嘉敏.杭依澄.

校外教學一日遊 -八仙樂園作者:江麗妮.

4上 17 正方形和長方形的周界 9. 長方形草地的四邊圍了小籬笆，內有一個，的長方形花圃。長5米闊4米

高雄區12年國教入學方式報告人：高雄市政府教育局局長鄭新輝.

安全保密产品检测申请书材料准备介绍.

§2.3 红外光谱的特征吸收峰.

Presentation transcript:

指導教授：李琳山博士共同指導：陳信希博士研究生：劉禹吟中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究 An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications 指導教授：李琳山博士共同指導：陳信希博士研究生：劉禹吟

簡介本論文處理的類專有名詞類別包含人名、地名與組織名。類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。語音文件中的類專有名詞辨識：在有語音辨識錯誤的語音文件中找出類專有名詞出現處有助於語音摘要、語音問答、和語音對話系統的處理類專有名詞類別舉例人名(PER) 托尼·布萊爾陳水扁、馬市長地名(LOC) 胡志明市、中山堂鶯歌、七堵赴美、中日關係組織名(ORG) 聯合國安理會台灣積體電路製造股份有限公司中油、台塑 <ENAMEX TYPE=“LOCATION”>美國</ENAMEX>國務卿 <ENAMEX TYPE=“PERSON”>鮑爾</ENAMEX>在 <ENAMEX TYPE=“LOCATION”>華府外籍記者中心</ENAMEX>表示...

綱要文字文件中類專有名詞辨識語音文件中類專有名詞辨識類專有名詞辨識衍生之應用結論

文字文件中的類專有名詞辨識類別語言模型法派樹式規則法

文字文件中類專有名詞辨識 -類別語言模型法的概念類別的種類：人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別若辭典中有|V| 個詞彙，則總共的類別數有|V|+3個基本概念：給定中文句子S，W為S的可切分詞串，C為W對應的類別，利用維特比搜尋找出滿足P(C,W)最大的最佳詞序列W*和W*對應的最佳類別序列C* 類別前後文模型類別生成模型

各種類別語言模型的機率估計各種類別生成模型估計人名類別 (字元二連語言模型) 巢狀類別 (類別二連語言模型) 一般詞彙類別人名類別 (字元二連語言模型) 中國人名、外國人名分成兩種機率模型例：李小龍巢狀類別 (類別二連語言模型) 地名、組織名例：宜蘭清水公園一般詞彙類別每一個辭典中詞彙各自是一個類別生成機率皆為1 類別前後文模型估計由訓練語料庫訓練出三連類別語言模型機率如：訓練語句：總統 PER 在 LOC 發表聲明 … 可估計出：p(PER|總統,<s>), p(LOC|在,PER) … P(李小龍|PER) ≈p(李|<s>) p(小|李) p(龍|小) p(</s>|龍) P(宜蘭清水公園|LOC) ≈ p(LOC|<s>) p(PER|LOC) p(公園|PER) p(</s>|公園) p(宜蘭|LOC)*p(清水|PER)*p(公園|公園) 內部維特比搜尋找出內部最佳的類別及詞序列所對應的機率，以最高機率當成其生成機率 p(尤其|尤其) = 1、 p(今天|今天) = 1

類別語言模型法實作演算法對於句子S，執行下列三個步驟：建構詞網正向動態規劃(維特比搜尋) 反向回溯找出最佳的詞序列及對應的類別序列紀錄各類別候選詞於詞網上，並記錄其生成機率一般詞彙、人名類別、地名類別、組織名類別正向動態規劃(維特比搜尋) 從句首至句尾對每一個候選詞計算到該位置為止，滿足p(c,w)最大的最佳路徑，紀錄最佳分數及回溯指標反向回溯找出最佳的詞序列及對應的類別序列從句尾中有最高路徑分數的候選詞開始回溯至句首

演算法運作流程處理句子：台北市中正紀念堂是為了紀念蔣中正先生一般詞網示意圖 (1)建構詞網 <s> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 </s> 台北市中正紀念堂是為了紀念蔣中正先生最佳類別路徑(C*): LOC 是為了紀念 PER 先生最佳詞路徑(W*)：台北市中正紀念堂是為了紀念蔣中正先生 P(C*,W* ) = P(C*) * P(W*|C*) = P(LOC|<s>) * P(是|LOC,<s>) * P(為了|是,LOC)*P(紀念|為了,是)*P(PER|紀念,為了)*P(先生|PER,紀念)*P(</s>|先生,PER)* P(台北市中正紀念堂|地名)*P(是|是)*P(為了|為了)P(紀念|紀念)*P(蔣中正|人名)*P(先生| 先生) 台北中正紀念為了紀念蔣中正先生紀念堂中正(p) 紀念(p) 堂是(p) 紀念(p) 蔣中(p) 一般詞彙類別每個詞的生成機率皆為1。如：p(紀念|紀念)=1 紀念堂(p) 紀念蔣(p) 堂是為(p) 蔣中正(p) 台北(l) (1)建構詞網台北市(l) 正紀念堂(l) 生成機率計算: 做內部維特比搜尋，得出最佳類別序列和最佳機率中正紀念堂(l) 計算人名類別的生成機率。如：p(紀念|人名)= P(紀|<s>)*p(念|紀)*p(</s>|念) (2)正向維特比搜尋 c*,w* = max p(c*)*p(w*|c*) 市中正紀念堂(l) 北市中正紀念堂(l) (3)反向回溯台北市中正紀念堂(l)

由地名類別的語言模型查出可能出現在地名的詞彙，生成機率皆設為1 巢狀類別內部維特比搜尋地名類別詞網計算地名生成機率 P(台北市中正紀念堂|LOC) 台北市中正紀念堂(l) <s> </s> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 台北市中正紀念堂生成機率設為： P(台北市中正紀念堂|LOC) =P(C*)*P(W*|C*) =P(LOC|<s>)*P(PER|LOC) *P(紀念堂|PER)*P(</s>|紀念堂) *P(台北市|LOC)*P(中正|PER)*p(紀念堂|紀念堂) 台北(l) 由地名類別的語言模型查出可能出現在地名的詞彙，生成機率皆設為1 台北市(l) 各種類別的候選詞與生成機率中正(p) 紀念(p) 紀念堂(p)

縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多，使用單純類別語言模型法較難偵測出。類別語言模型法討論類別語言模型法觀察：優點：將斷詞與類專有名詞辨識合在同一個架構下，具有斷詞解歧異的功能弱點：不易取得涵蓋領域夠廣且標註夠一致的訓練語料不容易回收沒有關鍵詞的地名、組織名(九份、中廣) 需要做內部維特比搜尋的字串將成指數成長一次處理一句，未用到整篇文章所包含的字串資訊新的想法：派樹式類專有名詞抽取: 使用整篇文章所包含的樣式統計資訊及該樣式所有出現過的前後文幫助抽取類專有名詞金門縣長陳水在昨天呼籲兩岸 … ，陳水在表示… ，陳水在當初擔任 … 臺北縣鶯歌鎮的陶瓷… ，鶯歌有許多賣精美陶瓷的店家… ，要到鶯歌遊玩的民眾可以搭乘… 遊戲橘子集團高階人事異動 … ，對於遊戲橘子跨足研發領域 … ，遊戲橘子旗下的產品多數是以代理自韓國為主 … ，遊戲橘子董事長劉柏園表示 … 縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多，使用單純類別語言模型法較難偵測出。

派樹式規則法 -派樹式類專有名詞抽取概念派樹：是一種很有效率的資料結構，在資訊檢索的領域使用很多建構派樹：將處理的文章中每一個語意片段中的後部字串(suffix string) 加入派樹中正向派樹、反向派樹優點：可以容易地獲得任意字串在整篇文章中的出現頻率及所有前後文統計值(左右相連詞變異度)可判斷詞的邊界完整性前後文字串可以用來判斷類別正向派樹： S=今天在總統府 Suffix strings: 今天在總統府天在總統府在總統府總統府統府府反向派樹： S=府統總在天今 Suffix strings: 府統總在天今統總在天今總在天今在天今天今今 s X:陳水在X1:陳水在 X2:在水陳 Y:陳水 Z:在水正向派樹可以容易地查詢字串的所有後文(RC) 反向派樹可以容易地查詢字串的所有前文(LC) Z Y X2 X1 RC1 RC2 RC3 LC1 LC2 LC3 RC1:陳水在說* RC2:陳水在強調* RC3:陳水在昨天呼籲* LC1:在水陳長縣門金* LC2:在水陳，* LC3:在水陳當*

派樹式規則法 -派樹式類專有名詞抽取流程對整篇文章建構正向及反向派樹內部特徵：使用字串的人名：人名機率是否大過門檻值地名、組織名：內部是否有關鍵詞(隊、鄉) 外部特徵：人名：頭銜、發言動詞地名：重要前後文 (抵達、飛往，地區、附近、市…) 組織名：重要前後文 (大廠、廠商，公司…) 組合特徵：搭配內部及外部特徵對各類別記錄證據分數。(詳述於論文中) 使用字串的前後文變異統計值做抽詞處理派樹中出現頻率>=tf 的字串估計候選字串的邊界完整性繼續判斷候選字串可能的類專有名詞類別檢驗字串內部及外部前後文資訊記錄各類別證據分數 w=馬英 β=九 f(w,β)/f(w) < tb? 如果f(w,β)/f(w) >= tb，則 w=馬英可能不是一個邊界完整的詞選擇證據分數最高分且超過門檻值的類別抽取出的類專有名詞槽興農：AORG 兄弟：AORG 天母球場:LOC …

派樹式規則法系統架構抽取出的單篇文件類專有名詞槽派樹式類專有名詞抽取斷詞法：後向最大匹配與特性標註斷詞與特性標註輸入整篇文章單篇文件派樹式類專有名詞抽取 LOC →{[PER][APER][LOC][ALOC]}*[Content Word]*{LOC_KEY} ORG →{[PER][APER][LOC][ALOC][ORG][AORG]}*[Content Word]* {ORG_KEY} 組成結構及邊界判定(STOP,LOC_LEFT_CONTEXT_KEY…) 斷詞法：後向最大匹配與特性標註一次輸入一個句子中國的中、日本的日等。中美關係，日韓代表，中、韓、日三方。 SCNE pattern→{SCNE}* {co-occur pattern} 美總統布希、日相、英首相布萊爾、美代表、以代表 SCNE title 美方、日方、美軍、伊軍、中方… 美重申、美發表、… 斷詞與特性標註類專有名詞重要相關詞彙列表人名機率門檻值限制及邊界判定 (STOP,TITLE, PER_SPOKEN_VERB…) 人名辨識快取類專有名詞槽一般辭典從派樹中查詢整篇文章中是否出現過澳洲、澳門、澳大利亞、澳國，若有，則澳字單獨出現時可能是地名，如：澳代表… 巢狀類專有名詞辨識 LOC →{LOC}* ORG →{ORG}* ORG->LOC ORG 聯合國安理會大陸上海… 類專有名詞的結合單字詞類專有名詞辨識輸出標註類專有名詞的句子

文字文件類專有名詞辨識實驗 -測試語料測試語料：類專有名詞統計量評分方法： MUC-7(Message Understanding Conference-7)的MET-2(Multilingual Entity Task)測試語料，為大陸簡體字、火箭發射相關新聞共100則類專有名詞統計量評分方法：精確率、回收率 F-測量=(2*精確率*回收率)/(精確率+回收率) 類別出現次數人名 174 地名 750 組織名 377

文字文件類專有名詞辨識實驗結果 CED電子辭典派樹式類專有名詞抽取、訓練語料：大陸人民日報一個月的自動標註類專有名詞新聞類專有名詞暗示詞列表、經驗法則訓練語料：大陸人民日報一個月的自動標註類專有名詞新聞訓練語料：台灣雅虎網路新聞8天份，1萬多篇的自動標註新聞 CED電子辭典、已知各類專有名詞列表派樹式規則法表現最好類別語言模型法會受到訓練語言模型優劣影響好壞類別語言模型法只偵測結尾有關鍵詞的巢狀類別結果較好句子中所有子字串都當成可能的巢狀類別候選詞並加入詞網中詞網中只加入結尾有關鍵詞的巢狀類別候選詞

轉寫文件直接辨認結合關鍵詞辨識可信度分數門檻值限制結合時間與主題同質的類專有名詞匹配語音文件中的類專有名詞辨識轉寫文件直接辨認結合關鍵詞辨識可信度分數門檻值限制結合時間與主題同質的類專有名詞匹配

語音文件中類專有名詞辨識 -測試語料測試語料中類專有名詞統計量 News98 2002年9月份200則語音新聞經由時間同質調適語料做語言模型調適的語音辨識結果音節辨識率較字元辨識率高許多測試語料中類專有名詞統計量字元辨識率音節辨識率 87.99% 93.42% 類別出現次數人名 315 地名 457 組織名 500

轉寫文件直接類專有名詞辨識實驗結果類別語言模型法:73.00 派樹式規則法:80.01 當成基礎結果

轉寫文件直接類專有名詞辨識 -結果觀察直接辨識的問題：將辨識錯誤處當成對的類專有名詞辨識錯誤的類專有名詞無法回收例子：郭塘又缺少運動的婦女… (過糖) 導致精確率降低辨識錯誤的類專有名詞無法回收例子：立委甚至會帶領… (沈智慧) 導致回收率降低 `郭’字辨識錯誤… 提出方法：結合關鍵詞辨識可信度分數門檻值 “甚至會” 是辨識錯誤… 提出方法：結合時間與主題同質的類專有名詞匹配 PER:沈智慧 ORG:立法院 …

結合關鍵詞辨識可信度分數門檻值限制如何設定關鍵詞可信度門檻值(tkey)呢？先對可信度分數大小做觀察語音辨識信心測量，以CM(confidence measure)代表人名：當中國人名姓氏或外國人名首字沒有重要前後文一同出現時(頭銜、發言動詞)，可信度必須大過門檻值tkey，才當成可能的候選詞例：(過糖) 地名、組織名：當結尾關鍵詞(市、廠、鄉)可信度大過門檻值tkey 時，才當成可能的候選詞 <s> 郭塘又缺乏運動的婦女 </s> 缺乏運動婦女郭塘結合關鍵詞可信度門檻值限制 CM(郭) < tkey? 則詞網中不加入此中國人名候選詞郭塘又缺乏運動的婦女直接辨認法:PER 又缺乏運動的婦女如何設定關鍵詞可信度門檻值(tkey)呢？先對可信度分數大小做觀察

最佳輸出結果中每個詞可信度分數計算詞圖(word graph)中節點辨識可信度分數計算：詞圖中每一個節點的可信度分數，是將經過該節點的所有路徑事後機率相加而得最佳輸出結果(1-best)的每個詞的可信度分數計算：在詞圖中將時間點有重疊且候選詞一樣的節點可信度分數相加得到為了避免在詞圖中找不到對應最佳輸出的路徑，通常會建構較龐大的詞圖詞圖大小與可信度的關係：詞圖愈大保留的候選詞就愈多，每個候選詞的路徑機率會被分散掉，使得可信度分數平均而言會變小。

關鍵詞辨識可信度分數門檻值估計 -可信度分數排序觀察 (200則開發集) 關鍵詞辨識可信度分數門檻值估計 -可信度分數排序觀察 (200則開發集) 辨識正確詞的可信度有10%只在0.01以下可信度值偏小設的可信度門檻值不宜太高

類別語言模型法 -結合關鍵詞辨識可信度分數門檻值實驗結果 If CM(W關鍵詞) < tkey，表示可能為辨識錯誤，不當成可能的類專有名詞候選詞繼續處理辨識可信度門檻值設得愈高，表示要求的精確率愈高，然而回收率可能下降加入可信度分數門檻值有可能得到較好的F-測量(73.00 →73.41) 派樹式規則法在可信度門檻值0.01時也可得到較好的F-測量(80.01 → 80.09)

結合時間與主題同質的類專有名詞匹配 (幫助回收率增加) 文件No.56 相似度0.6 PER 鮑爾 3 ORG 眾議院 2 PER 布希 7 PER 布萊爾 1 LOC 美國 3 文件No.12 相似度0.5 LOC 伊拉克 6 PER 布希 3 ORG 參議院 2 … 2002年9月份雅虎奇摩網路新聞，可透過網路抓取使用TF*log(IDF) 計算出語音文件與各篇純文字文件的文件向量相似度找出最相似的前20篇且相似度大於0.2的文字文件美國總統布希間表示… 不惜雖然堅稱… 國務卿鮑爾在眾議院談伊拉克問題 … 時間同質新聞語料庫後端前處理單篇語音文件文字文件類專有名詞辨識器時間與主題同質類專有名詞庫資訊檢索時間同質新聞語料庫及類專有名詞庫每篇文字新聞中的類專有名詞都已經自動抽取出來了。如：文件No.1. PER 陳金鋒 ORG 洛杉磯道奇隊 LOC 美國 … 結合類專有名詞匹配的類專有名詞辨識發音相似度矩陣美國(loc)總統布希(per)間表示… 布希(per)雖然堅稱… 國務卿鮑爾(per)在眾議院(loc)談伊拉克(loc)問題 … 發音辭典錯誤修正後的類專有名詞標註語音文件

結合時間與主題同質的類專有名詞匹配 -類別語言模型法文件No.124 相似度0.6 PER 鮑爾 3 ORG 眾議院 2 PER 布希 7 LOC 美國 3 文件No.124 相似度0.5 LOC 伊拉克 4 ORG 蓋達組織 2 PER 賓拉登 2 PER 布希 3 … 美國總統布希間表示… 不惜雖然堅稱… 國務卿鮑爾在眾議院談伊拉克問題 … 時間與主題同質類專有名詞庫單篇語音文件字元完全匹配音節完全/近似匹配尋找可匹配處匹配到的候選詞做類別生成機率調適匹配處的處理人名類別快取語言模型 percache 地名類別快取語言模型 loccache 組織名類別快取語言模型 orgcache P(鮑爾|percache)=3/15 P(布希|percache)=10/15 P(賓拉登|percache)=2/15 P(美國|loccache)=3/7 P(伊拉|loccache)=4/7 P(眾議院|orgcache)=2/4 P(蓋達組織|orgcache)= 2/4

類別語言模型法 -時間與主題同質的類專有名詞匹配 P(布希|percache)=10/15 P(美國|loccache)=3/7 <s> 美國總統布希間表示 </s> 美國總統表示美國布希字元完全匹配布希間 P(美國|LOC)=(1- λcache)P(美國|loc) + λcache P(美國|loccache) P(布希|PER)=(1- λcache)P(布希|per) + λcacheP(布希|percache) 滿足音節完全/近似匹配音節相似度 >= tsyll_sim 以及 CM(不惜) < tcorrect <s> 不惜雖然堅稱 </s> 不惜雖然堅稱布希 syll_sim(不、布)=2.0 syll_sim(惜、希)=2.0 P(布希|PER)=(1- λcache)P(布希|per) + λcacheP(布希|percache) 有助於回收率的提升與錯誤字元修正

類別語言模型法結合字元完全匹配及類別生成機率調適實驗結果類別生成機率內插的結果比單純使用任何一種模型要來的好 (λcache= 0.6時最好) 回收率隨著λcache提升

類別語言模型法結合關鍵詞可信度分數門檻值、字元完全匹配及類別生成機率調適實驗結果 (F-測量) 關鍵詞可信度分數門檻值: If CM(W關鍵詞) < tkey,表示可能為辨識錯誤，不當成可能的類專有名詞候選詞繼續處理希望精確率與回收率都能提升 tkey

類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 (F-測量) 字元完全匹配最好的結果為:λcache=0.6, tkey=0.1 F-測量從 73.00→78.42 放鬆匹配條件至音節近似匹配時，我們固定λcache=0.6, tkey=0.1，研究字元修正信心分數門檻值tcorrect在不同設定下的結果 tcorrect =0.6時， tsyll_sim=2.0時， F-測量進步到79.50 CM(不惜) < tcorrect 則加入”布希”至詞網

類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 (語音辨識率) 語音字元辨識率也從87.99提升到88.17

類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果觀察音節完全匹配時最好的設定下：類專有名詞F測量: 從73.00 → 79.50 語音字元辨識率: 從87.99 → 88.17

結合時間與主題同質的類專有名詞匹配 -派樹式規則法非類別語言模型法的統計式解歧異，因此，以設定快取語言模型的機率門檻值(tcache)作為匹配的限制 <s> <s> 不布希不惜惜雖雖然然堅堅稱稱 </s> </s> 布希音節完全/近似匹配根據匹配特徵限制：音節相似度 >= tsyll_sim CM(不惜) < tcorrect P(布希|percache) > tcache 最好的設定為：關鍵詞可信度門檻值 tkey = 0.01 快取語言模型門檻值 tcache=0.2 音節近似匹配 tsyll_sim=1.7 字元修正信心分數門檻值 tcorrect=0.6 F-測量： 80.01 → 80.93 語音字元辨識率： 87.99 → 88.16

語音文件中類專有名詞辨識最佳設定結果比較結合關鍵詞可信度分數門檻值及時間與主題同質的類專有名詞匹配關鍵詞可信度分數門檻值→提高精確率時間與主題同質的類專有名詞匹配→提高回收率兩者結合使用可同時提高精確率與回收率類別語言模型法： tkey = 0.1, λcache= 0.6, tsyll_sim = 2.0, tcorrect = 0.6時， F-測量 73.00→79.50 派樹式規則法： tkey=0.01, tcache = 0.2, tsyll_sim = 1.7, tcorrect = 0.6時, F-測量 80.01→80.93

自動建立類專有名詞索引之資訊檢索系統網際網路語音問答系統類專有名詞辨識衍生之應用自動建立類專有名詞索引之資訊檢索系統網際網路語音問答系統

類專有名詞辨識衍生之應用 -自動建立類專有名詞索引之資訊檢索系統幫助使用者瞭解新聞語料庫中重要的資訊，並提供使用者檢索的詞彙

類專有名詞辨識衍生之應用 -網際網路語音問答系統將檢索出來的網頁摘要(Snippet)做類專有名詞辨識(選取前N篇) 結合語音輸入、語音合成，以自然語言在網路上做問答，並以類專有名詞辨識淬取出重要的資訊，在未來是一個發展趨勢問問題 Google共檢索出2750篇可用語音合成方式唸出最可能的答案檢索詞重寫 (Query Reformulation) 可能答案排序

結論文字文件中類專有名詞辨識類別語言模型法：派樹式規則法：統計式的類別語言模型法及派樹式規則法各有優劣處語音文件中類專有名詞辨識在有優值語言模型的情形下，解歧異功能最好不容易處理無關鍵詞結尾的巢狀類別派樹式規則法：可抽出許多無關鍵詞的類專有名詞在新聞領域測試語料中可以達到很好的效果統計式的類別語言模型法及派樹式規則法各有優劣處語音文件中類專有名詞辨識結合關鍵詞可信度分數門檻值限制及時間與主題同質的類專有名詞匹配可以同時增加精確率與回收率，F-測量可以進步許多做了類專有名詞辨識後的語音文件可以幫助瀏覽、建構索引、實作問答等系統，對於語音摘要也能帶來幫助

謝謝各位