中文文本自動分詞與標注第9章漢語自動分詞軟件系統

Slides:

Advertisements

Similar presentations

第七組古文閱讀報告組長：秀惠組員：孟筑、雅曼、雅文、盈蓁. 《朱買臣苦學有成》之原文翻譯朱買臣，字翁子，吳人也。朱買臣，字翁子，吳國人。家貧，好讀書，不治產業，常刈（一ˋ）薪樵，賣以給（ㄐㄧ ˇ ）食。家裡雖然很窮困，但是他還是很喜歡讀書，因不懂得如何治理產業，只能靠著上山砍材去城.

Advertisements

教育部 1 教育部技職司南區： 2010 年 11 月 5 日北區： 2010 年 11 月 8 日中區： 2010 年 11 月 9 日產學攜手合作計畫政策宣導.

年節保腸健胃 - 遠離腸癌飲食注意事項台大醫院營養室鄭金寶. 大腸癌朋友春節飲食原則 1. 遵守治療醫矚，不放假 2. 過年期間，不舒服即時就醫 3. 配合支持醫療的飲食原則， (1) 心理建設有個準備 : 過年要像平日一樣沒有什麼大不同 (2) 該限制的還是要限制 (3)

全国普通高等院校招生统一考试考务培训. 考试时间全国统考科目时间表考试日期上午下午 6 月 7 日星期日语文（ 9:00-11:30 ）数学（ 15:00-17:00 ） 6 月 8 日星期一文课综合 / 理科综合（ 9:00-11:30 ）英语（ 15:00-16:40.

104 年度環保小學堂經費編列注意事項會計室 : 丁子芸中華民國 103 年 10 月 22 日會計室 : 丁子芸中華民國 103 年 10 月 22 日.

“ 菸 ” 之非福 Part Ⅰ. 你的想法 ─ Q1 ：你覺得他很有個性嗎？ Q2 ：吸菸會增加個人魅力嗎？ Q3 ：吸菸會讓人感覺成熟？

景信集团. 2 樊文峥 1980 年出生，厦门大学工商管理硕士 (EMBA) 。年，山东龙口新龙食油有限公司从事小包装食用油的销售工作。年 6 月，在益海集团（中国最大的粮油加工贸易企业）工作。 2002 年 8 月年 8 月，在福建省创世纪集团工.

學會摘要四年級 ( 內容擷取自劍潭國小陳錦蓮和詹珮怡老師的簡報 ). 2 分享綱要 1 1 什麼是摘要 2 3 如何教摘要實例與實際操作.

我們可以如何應付氾濫 ? 2c 第三組. 目錄防洪 (1) 防洪 (2) 湖北坪興建三峽主壩簡介長江三峽水利樞紐工程三峽工程的利益 (Part1) 三峽工程的利益 (Part2) 三峽工程的弊 (Part1) 三峽工程的弊 (Part2) 總結組員名單完.

1 寫作測驗武功秘笈洪德惠老師 99 年 1 月 18 日. 2 PART1 理論部分 3 寫作測驗的基本能力 1. 能掌握寫作步驟，充實作品內容，精確表達自己的思想。 2. 能依收集材料立意、選材、安排段落及組織等步驟行文。 3. 能運用觀察的方法觀察周遭事物，並能寫下重點。 4. 能適切地遣詞造句，使用正確的標點符號，完.

健康飲食與預防代謝症候群盛新食品公司營養師林宛儀 1. 什麼是代謝症候群 ? 2 吃太多不運動一粗：大肚子二高：高血糖、高血壓心臟病、中風、糖尿病、高血壓、高血脂症血脂異常 3 代謝症候群.

備審資料與面試準備高雄醫學大學醫學系林郁涵.

施氏十二字养生功 ——谈颈椎病的预防与保健.

拉伸和收缩包装技术 1. 简介 2. 主要特点 3. 常见收缩包装设备 4. 常见拉伸包装设备.

第八章互换的运用.

申請赴大陸姊妹校擔任交換學生簡介及流程朝陽科技大學 Chaoyang University of Technology.

600年前，鄭和率領世界上最強大的艦隊，浩浩蕩蕩的駛入印度洋，展開一場「文化帝國」的海上大秀。

社會福利績效實地考核結果檢討性侵害加害人處遇業務

第八章组织文化的整合 ——并购中的文化整合（二）小组成员：浦若蓉、朱谷一、贾彦彦.

从生命伦理学角度对转基因食品市场准入标准及道德评价标准的研究

2015高考试题分析及高三第一轮复习心得 ----余江一中物理组

雷曼的滑铁卢 ——雷曼兄弟破产案例分析.

最新消息插播! 意見反應: 我是貴校學生的家長，請問貴校該給工讀生的薪水何時才肯發呢？現在已經是十一月中了，九月十月的薪水還沒入帳我們不知道是卡在哪個環節，但貴校是否知道有多少同學需要這筆錢去過生活、繳納房租？ …………………………………………………….？請各位報帳同仁、專兼任助理們務必養成平時定期清帳的習慣，不要等到年終或結案前才開始緊張。

物流系统的特点.

人資實務專題面談指引Interview Guide

九年一貫課程導論教案設計森林系簡睿涵口生所張智為歷史系陳秋雪.

生命停看聽—生命圖書館萬中選一的祝福推薦人：彰師附工進修學校蘇郁惠.

性侵害犯罪防治法及相關子法規衛生福利部心理及口腔健康司 105年1月 1.

鞘翅目生科四乙蘇俊融.

我心目中的一位领导人 ——邓小平.

回顾与展望：高州经验与广东医改省卫生计生委、省医改办黄飞 2015年7月3日.

進修外文四谷彬彬生態演化所彭黃銘數學研究所郭柏宏食品科學所林靜慧

972學期性平教育輔導活動『我的性平宣言』兩性交往價值觀澄清活動.

山东省水生态文明城市创建工作联席会议办公室

网络环境下大学英语教学改革创新和实践湖北经济学院外国语学院院长邓俊外教社2009年全国外语骨干教师暑期研修班.

愛心月課程活動設計者：洪雪玲老師.

身心障礙學生之升學與就業人發郭峻如科技吳心昀

居住住宅正義與台灣不動產未來.

認識食品標示營養師李曼瑄定緁食品有限公司

[雅颂居开盘前营销方案] [北京中原地产雅颂居项目组] [TANGSHAG ]

導覽解說技巧海生館－展示組解說志工曾運明.

第十章人力資源管理.

杭州xx房地产微信营销策划方案序言引言国内微信房地产平台分析微信房地产平台应用前景微信公众平台介绍我们的方案合作案例.

103年度雙和分區總務實務研討會經費申撥與核銷流程說明永續環境教育科-馮紹華 103年4月30日.

姓名：梁晓莹职务：安徽省旅游局安全办主任（高级经济师）中国旅游研究院（华侨大学）旅游安全研究基地行业顾问经历：自1987年就职于安徽省旅游局自2009年主持安全办工作曾主编《旅游安全宣传手册——暨安徽旅游安全格言警句精选》、《安徽旅游安全》、《安徽旅游发展大事记》等承办过“安徽省旅游安全演讲征文大赛”及“旅游安全调研成果奖”评选等工作.

2008年高考趋向与高考英语复习方法暨备考导航.

性侵害犯罪防治法及相關子法規衛生福利部心理及口腔健康司 105年1月 1.

《汽车底盘构造与维修》项目三气压制动系统任务气压制动系统.

医学人文折翼的天使不会飞谈晓文

核心价值观记心中主题班会

雞蛋這樣孵出小雞的動物的生殖 Part I.

抗菌药物临床应用管理仁爱和谐敬业进取.

課堂老師：林儒禮老師學生：奈米四乙林庭億奈米四乙穆建良

班級：車輛三乙學號：學生：王章嘉指導老師：吳宗霖老師

应需推新提升研究生培养质量 ——CNKI服务产品介绍中国学术期刊（光盘版）电子杂志社有限公司 2015年3月.

從性格心理學看生涯發展組員: 高嘉鴻李冠廷簡品卉李雅芳陳怡馨.

性別平等教育校園性侵害性騷擾或性霸凌防治宣導簡報

大同大學圖書館 - 研究生利用指引：論文上傳篇

主講人：李瓊淑總經理.

領導、經營、管理與授權領導與競爭優勢報告 NCKU 2006 EMBA 指導教授：曾燦燈博士第五組：

科系：休閒事業管理系. 指導老師：許興家老師. 組員：游海欽.周書豪.林季蓁.

授課教授：簡立賢老師報告人：林慧萍、許菀婷

——向刑事案件被告人家属调查取证的伦理性讨论

與家庭工作〜家訪技巧方瓊聆社工師　　　　　高雄市學生輔導諮商中心

醫學美學期末報告醫學美學之我見---- 談單眼皮變雙眼皮

餐旅籌備與規劃授課老師: 陳怡慈.

YOUR LOGO 扁平商务数据动态模板适用于年终汇报、工作总结等.

异常交易监管等监察业务培训大连商品交易所监察部 2018年4月.

Presentation transcript:

中文文本自動分詞與標注第9章漢語自動分詞軟件系統 CPTWT Presentation R95921094 楊祝晉

摘要自80年代初提出漢語自動分詞系統以來，已經提出了多種分詞方法例如：正向最大匹配、逆向最大匹配、窮多層次列舉、鄰接約束、聯想-回溯、詞頻統計、專家系統、類神經網路等方法。不同的分詞方法模擬了分詞行為的不同面向，取得了不同的成效，並且已應用在不同用途的中文訊息處理系統上。本次報告主要介紹二種分詞軟體系統

Outline 字串頻率統計和詞形匹配相結合的分詞系統基於聯想-回溯方法的漢語自動分詞系統系統結構及其各種模型的主要功能實驗結果及分析系統結構及分詞方法分詞知識庫的多層次建構

Part I 字串頻率統計和詞形匹配相結合的分詞系統系統架構介紹實驗結果分析與討論

系統結構及處理流程系統架構圖 1. 初步處理模型 2. 字串頻率統計 3. 分詞處理模型原文字串序列候選詞切分標記資料庫單字數詞詞典單字量詞詞典詞綴集臨時詞典靜態常用詞詞典分詞序列

系統結構說明系統對原文進行三遍掃描：三個處理模型：二個資料庫：四個詞典：第一遍，利用切分標記將原文分成較短字串序列第二遍，根據每個短字串的子字串在上下文中的頻率計算其權重值，權重值大的子字串視為候選詞第三遍，利用候選詞和常用詞典對短字串進行切分三個處理模型：初步處理模型、字串頻率統計模型、分詞處理模型二個資料庫：切分標記庫、詞綴集四個詞典：單字數詞詞典、單字量詞詞典、臨時詞典、靜態常用詞詞典

1. 初步處理模型初步處理模型例如：「的」原文分成較短的字串序列集顯式切分標記：標點、數字、外文、其他非漢字符號隱式切分標記：出現頻率高、構詞能力差的單字詞 (客觀) 例如：「的」平均每二十五個字就會出現一次構詞能力並不強本系統共收入 181 條規則

隱式切分標記「的」字的規則：判斷方式：若 LR 判斷滿足且 L* 判斷滿足在切分標記的左邊將字串切開若 LR 判斷滿足且 *R 判斷滿足在切分標記的右邊將字串切開「單字數詞 + 單字量詞」將量詞視為切分標記，在量詞的左右兩邊將字串切開此系統共收集了 115 個常用量詞

2.字串頻率統計計算各字串序列的所有長度大於1的子字串在局部上下文200字左右(經驗值)中的出現次數，並根據字串頻率和字串長度做加權函數 W = F * L3(F為字串頻率亦即此子字串在上下文中出現的次數；L為字串長度)。若計算出來的權重超過給定的預設值，則此子字串將這些詞語存入臨時詞庫中 Sliding Window 當前字串之前後各二十個字串將 String 以 Hashing 方式存入 Slot 每個 Slot 內容序對 = 該字之 Sliding Window 序號 + 該字在字串中的序號

字串頻率計算說明「語言」的頻率計算為 3 權重函數：3 * 23 = 24 權重值大於 Threshold Value 時，則該字串被認定為詞，需加入臨時詞庫，待分詞結束後自動清除頻率大於 Threshold Value 且不被其他字串完全覆蓋則被視為潛在的候選詞 S 為 T 的子字串，且 S 的頻率不大於 T的權重值時，稱 T完全覆蓋S 例如：「俄羅斯」(權值81)、「俄羅」各出現3次；則稱「俄羅斯」完全覆蓋「俄羅」

3. 分詞處理模型同時借助各字串的候選詞集(局部資訊)、臨時詞庫(全域資訊)、和一部含 5000 常用詞的詞典(背景資訊)，對字串進行切分。經此分詞後仍未做標記的相鄰單字視為一個權重值很低的詞例如：「觀看」瑪麗「的」「表演」，瑪、麗兩個字均不是詞，且「瑪麗」做為一個字串的頻率小於3，則將「瑪麗」視為一個詞

4. 實驗結果與分析(1/3) 實驗結果本系統對十篇中文文章，包括科技文獻、新聞報導、政論、故事等題材進行了分詞實驗分詞正確率平均達 98.4 % 平均分詞速度為每秒236個字 (IBM-PC386)

4. 實驗結果與分析(2/3) 分析與討論切分精準度高：因為這些詞的頻率較高得以識別，或是這些詞的頻率夠低，當他們周圍的詞均已得到正確切分後，自然將該字串合成一個詞設立臨時詞典可使分詞過程利用全域上下文的頻率統計結果，正確切分依靠局部上下文所無法解決的切分問題例如：如果利用了臨時詞典中「軍事基地」，可避免切分成「軍事」「基地」。

4. 實驗結果與分析(3/3) 切分標記將長字串分割為短字串，大幅度減少了字串的子字串數量。設字串S的長度為 n ( n > 1 )，則S包含 n * ( n + 1 )/2 個子字串若將S分為兩個短字串，長度分別為 m ( 0 < m < n )和 n –m，則兩個短字串所擁有的子字串數之和為 m * ( m + 1 ) / 2 + ( n - m) * ( n – m + 1 ) / 2 比S 所含的子字串數少 m * (n – m )個，即一個長串分成兩個短字串後，子字串總數減少的數目恰好等於兩個短字串的長度乘積。例如：長字串長度為10，含子字串數為 55，二個短字串的長度各為 5，含子字串數為30，子字串數共減少了 5 * 5 = 25個子字串的數量減少為頻率統計節約了時間。切分錯誤的主要原因是某個子字串由於在上下文中多次出現而獲得較高的權重值，以至於被切分成詞。例如：在「聚合分析」、「組合分析」雖然經常出現，但「合分析」的權值可能更高，可被切成「聚」「合分析」、「組」「合分析」。因為多次鄰接出現，使這幾個詞串聯而成的詞串的權重值很高，因而被成一個詞。

Part II 基於聯想-回溯方法的漢語自動分詞系統系統結構及分詞方法分詞知識庫建構

簡介本節介紹一個基於聯想-回溯方法的漢語自動分詞系統：ABWS(Association-Backtracking Word Segmentation) 簡稱為AB算法不過分依賴於詞表，而是較多利用漢語本身的知識，如：構詞法、句法等提出一些處理歧義結構的實用分詞規則，以提高分詞速度和分詞正確率由於分級建庫和兩次掃描增加了時間與空間複雜度，但對小規模語料處理上還是可行的。主要是採用切分標記法和多次列舉的方法：經實用中測試，分詞正確率可達98%左右。

ABWS系統架構圖系統架構輸出分割模型細分模型輸入初步處理模型特徵詞庫實詞詞庫規則庫人工干預規則調用模型

系統五大功能模組(1/3) 1. 預先處理模型 2. 分割模型將原文依各種分解成獨立的、可被切分程序直接處理的字串序列，並保留原文中的所有部分，如：標點符號、數字、字母等非漢字符號冠以特殊標記處理 2. 分割模型以特徵詞庫中的詞作為詞切分標記，依靠聯想規則將一個字串分割為多個更小的子字串對特徵詞庫中不同類型的詞採用不同的處理方法如對前綴或前置字，分割標誌設在該字之後，對重疊詞、連綿詞等其他特徵詞，分割標誌設在該詞的兩端。

系統五大功能模組(2/3) 3. 細分模型 4. 規則調用模型依據實詞詞庫將分割模型得到的子字串切分為語詞當遇到歧義組合結構或產生拒分現象時，便分別轉向4和5 4. 規則調用模型用(3)提示的信息，調用相對應的規則處理歧義組合結構，或調用通用規則切分出類型詞，如：數字詞。

系統五大功能模組(3/3) 5. 人工干預模型：常由詞典收詞不足引起修改實詞詞庫當人工干預是由詞庫收詞不足或不當而引起時，我們便在詞庫中增加新詞或修改詞庫中的內容。人名、地名常常會引起這種人工干預。例如：「台灣女歌星王秀如一曲”千言萬語”贏得全場熱烈掌聲」，若「台灣」未收入詞庫，則需人工干預將其加入詞庫。追加臨時詞庫上例中，人名「王秀如」同樣需要人工干預，但因「王秀如」是低頻詞，故不將其加入實詞詞庫，而是收入臨時詞庫，待一段文字處理完後將其刪除。修改規則庫當人工干預是由句法歧義句段引起時，其原因在於規則庫的不完善，此時我們便修改已有的規則或增加新的規則。修改特徵詞詞庫特徵詞詞庫中的詞絕大多數不是絕對的，假如情況考慮不周，也將引起人工干預。例如：「葡萄牙外長取消北京之行同兩國關係現狀無關」，「葡萄」是作為連綿詞存放在特徵詞詞庫中的，若未考慮到例外詞「葡萄牙」則「葡」字處必導致人工干預，此時，我們需將例外詞「葡萄牙」加入。

說明本系統中其基本思想可描述為：首先將待切分的漢字符號串序列依特徵詞詞庫分割為若干子串，每個子串或為詞或為詞群；然後利用實詞庫和規則庫再將詞群細分為詞。分詞時，我們利用了一定的語法知識。聯想回溯機制同時作用於分割和細分兩個階段，旨在有效地解決歧義組合結構的切分問題。聯想網絡描述每個虛詞的構詞能力，聯想推理則是利用相對應的聯想網絡判定該虛詞究竟是單獨成詞還是作為構詞成分構成了其他的詞。當一個句子的切分雖以在句法平面中確定時，我們便借助於語義及上下文信息來進行判定。回溯機制主要用於處理語義歧義句子的切分。如「原子能發電」可切分為：原子能/發/電、原子/能/發/電。本系統利用回溯機制依次對各種分法進行測試，直至找到正確答案為止。不難看出，聯想和回溯機制，提供了自動檢錯和自動糾錯的功能。

分詞知識庫的建構特徵詞詞庫所謂特徵詞，泛指那些具有可作為分割標誌的某種特徵的詞，主要包括詞綴、虛詞、重疊詞、連綿詞等。使用頻度高，或可用規則描述為了避免歧義切分，我們建立每個詞的聯想網絡，列出該特徵詞的例外情形，並附有相對應的處理規則。這些規則有的提煉於構詞法、構形法以及詞的搭配關係，有的則源於大量的實驗數據。現以詞綴為例加以說明例如：「子」一般認為是後綴詞素，故將它收在特徵詞詞庫中

分詞知識庫的建構實詞詞庫使用率高：常用詞覆蓋率高：收集專業詞語由於固定搭配的詞組、成語、俗語以及古漢語的殘留成分在現代漢語占有相當比例，且這些固定用語通常具有特定的含義，按常規的方法進行切分顯然是不合理的，例如：「桃李滿天下」不應再分為「桃李/滿/天下」。因而，詞庫中應適當地收錄這些成分。

分詞知識庫的建構規則庫交集型歧義字段切分規則組合型歧義字段切分規則前綴詞規則後綴詞規則重疊詞規則

分級建庫的優點特徵詞靜態數目少，但均為高頻詞，在第一次掃描時便將其分割出來，提高了分詞速度由於利用規則描述了一些無法逐條收入詞庫的詞(重疊詞、數詞等)，一方面壓縮了詞庫規模，另一方面又增強了詞庫的使用效果，提高了分詞的正確率多數歧義組合是由特徵詞引起的，針對特徵詞制定詳儘的聯想規則，既是切實可行，又可更有效地解決歧義組合結構的切分。並且針對語法功能不同的特徵詞和實詞分別制定規則以可以提高規則的有效性知識庫的三個層次間既相互聯繫又相互獨立，因此在程序調試進行期間，哪一層次發生問題，便單獨修改哪個層次，管理和維護較為方便。各庫都是以動態方式建造的，可隨時向其中添加詞和規則

Thanks for your attention