中文文本自動分詞與標注 第9章 漢語自動分詞軟件系統

Slides:



Advertisements
Similar presentations
第七組古文閱讀報告 組長:秀惠 組員:孟筑、雅曼、雅文、盈蓁. 《朱買臣苦學有成》之原文翻譯 朱買臣,字翁子,吳人也。 朱買臣,字翁子,吳國人。 家貧,好讀書,不治產業,常刈(一ˋ)薪 樵,賣以給 (ㄐㄧ ˇ ) 食。 家裡雖然很窮困,但是他還是很喜歡讀書,因 不懂得如何治理產業,只能靠著上山砍材去城.
Advertisements

教育部 1 教育部技職司 南區: 2010 年 11 月 5 日 北區: 2010 年 11 月 8 日 中區: 2010 年 11 月 9 日 產學攜手合作計畫 政策宣導.
年節保腸健胃 - 遠離腸癌飲食注意事項 台大醫院營養室 鄭金寶. 大腸癌朋友春節飲食原則 1. 遵守治療醫矚, 不放假 2. 過年期間,不舒服即時就醫 3. 配合支持醫療的飲食原則, (1) 心理建設有個準備 : 過年要 像平日一樣沒有什麼大不同 (2) 該限制的還是要限制 (3)
全国普通高等院校招生统一 考试考务培训. 考 试 时 间 全国统考科目时间表 考试日期上 午下 午 6 月 7 日 星期日 语文( 9:00-11:30 )数学( 15:00-17:00 ) 6 月 8 日 星期一 文课综合 / 理科综合 ( 9:00-11:30 ) 英语( 15:00-16:40.
104 年度環保小學堂 經費編列注意事項 會計室 : 丁子芸 中華民國 103 年 10 月 22 日 會計室 : 丁子芸 中華民國 103 年 10 月 22 日.
“ 菸 ” 之非福 Part Ⅰ. 你的想法 ─ Q1 :你覺得他很有個性嗎? Q2 :吸菸會增加個人魅力嗎? Q3 :吸菸會讓人感覺成熟?
景信集团. 2 樊文峥 1980 年出生,厦门大学工商管理硕士 (EMBA) 。 年, 山东龙口新龙食油有限公司从事 小包装食用油的销售工作。 年 6 月,在益海集团(中国最大的粮油 加工贸易企业)工作。 2002 年 8 月 年 8 月,在福建省创世纪集团工.
學會摘要 四年級 ( 內容擷取自劍潭國小陳錦蓮和詹珮怡老師的簡報 ). 2 分享綱要 1 1 什麼是摘要 2 3 如何教摘要 實例與實際操作.
我們可以如何應付氾濫 ? 2c 第三組. 目錄 防洪 (1) 防洪 (2) 湖北坪興建三峽主壩簡介 長江三峽水利樞紐工程 三峽工程的利益 (Part1) 三峽工程的利益 (Part2) 三峽工程的弊 (Part1) 三峽工程的弊 (Part2) 總結 組員名單 完.
1 寫作測驗武功秘笈 洪德惠老師 99 年 1 月 18 日. 2 PART1 理論部分 3 寫作測驗的基本能力 1. 能掌握寫作步驟,充實作品內容,精確表達自 己的思想。 2. 能依收集材料立意、選材、安排段落及組織等 步驟行文。 3. 能運用觀察的方法觀察周遭事物,並能寫下重 點。 4. 能適切地遣詞造句,使用正確的標點符號,完.
健康飲食與 預防代謝症候群 盛新食品公司 營養師 林宛儀 1. 什麼是代謝症候群 ? 2 吃太多 不運動 一粗:大肚子 二高:高血糖、高血壓 心臟病、中風、糖尿病、 高血壓、高血脂症 血脂異常 3 代謝症候群.
備審資料與面試準備 高雄醫學大學醫學系 林郁涵.
施氏十二字养生功 ——谈颈椎病的预防与保健.
拉伸和收缩包装技术 1. 简 介 2. 主要特点 3. 常见收缩包装设备 4. 常见拉伸包装设备.
第八章 互换的运用.
申請赴大陸姊妹校 擔任交換學生 簡介及流程 朝陽科技大學 Chaoyang University of Technology.
600年前,鄭和率領世界上最強大的艦隊,浩浩蕩蕩的駛入印度洋,展開一場「文化帝國」的海上大秀。
社會福利績效實地考核結果檢討 性侵害加害人處遇業務
第八章 组织文化的整合 ——并购中的文化整合(二) 小组成员:浦若蓉、朱谷一、贾彦彦.
从生命伦理学角度 对转基因食品市场准入标准及道德评价标准的研究
2015高考试题分析 及高三第一轮复习心得 ----余江一中物理组
雷 曼 的 滑 铁 卢 ——雷曼兄弟破产案例分析.
最新消息插播! 意見反應: 我是貴校學生的家長,請問貴校該給工讀生的薪水何時才肯發呢?現在已經是十一月中了,九月十月的薪水還沒入帳我們不知道是卡在哪個環節,但貴校是否知道有多少同學需要這筆錢去過生活、繳納房租? …………………………………………………….? 請各位報帳同仁、專兼任助理們務必養成平時定期清帳的習慣,不要等到年終或結案前才開始緊張。
物流系统的特点.
人資實務專題 面談指引Interview Guide
九年一貫課程導論 教案設計 森林系 簡睿涵 口生所 張智為 歷史系 陳秋雪.
生命停看聽—生命圖書館 萬中選一的祝福 推薦人:彰師附工進修學校 蘇郁惠.
性侵害犯罪防治法及相關子法規 衛生福利部 心理及口腔健康司 105年1月 1.
鞘翅目 生科四乙 蘇俊融.
我心目中的一位领导人 ——邓小平.
回顾与展望:高州经验与广东医改 省卫生计生委、省医改办 黄 飞 2015年7月3日.
進修外文四 谷彬彬 生態演化所 彭黃銘 數學研究所 郭柏宏 食品科學所 林靜慧
972學期性平教育輔導活動 『我的性平宣言』 兩性交往價值觀澄清活動.
山东省水生态文明城市创建工作联席会议办公室
网络环境下大学英语教学改革创新和实践 湖北经济学院外国语学院院长 邓俊 外教社2009年全国外语骨干教师暑期研修班.
愛心月課程活動 設計者:洪雪玲老師.
身心障礙學生之升學與就業 人發 郭峻如 科技 吳心昀
居住住宅正義與台灣不動產未來.
認識食品標示 營養師 李曼瑄 定緁食品有限公司
[雅颂居开盘前营销方案] [北京中原地产 雅颂居项目组] [TANGSHAG ]
導 覽 解 說 技 巧 海生館-展示組 解說志工 曾 運 明.
第十章 人力資源管理.
杭州xx房地产微信营销策划方案 序言 引言 国内微信房地产平台分析 微信房地产平台应用前景 微信公众平台介绍 我们的方案 合作案例.
103年度雙和分區總務實務研討會 經費申撥 與 核銷流程說明 永續環境教育科-馮紹華 103年4月30日.
姓名:梁晓莹 职务:安徽省旅游局安全办主任(高级经济师) 中国旅游研究院(华侨大学)旅游安全研究基地行业顾问 经历: 自1987年就职于安徽省旅游局 自2009年主持安全办工作 曾主编《旅游安全宣传手册——暨安徽旅游安全格言警句精选》、《安徽旅游安全》、《安徽旅游发展大事记》等 承办过“安徽省旅游安全演讲征文大赛”及“旅游安全调研成果奖”评选等工作.
2008年高考趋向与高考英语复习方法暨备考导航.
性侵害犯罪防治法及相關子法規 衛生福利部 心理及口腔健康司 105年1月 1.
《汽车底盘构造与维修》 项目三气压制动系统 任务 气压制动系统.
医学人文 折翼的天使不会飞 谈晓文
核心价值观记心中 主题班会
雞蛋這樣孵出小雞的 動物的生殖 Part I.
抗菌药物临床应用管理 仁爱 和谐 敬业 进取.
課堂老師:林儒禮 老師 學生:奈米四乙 林庭億 奈米四乙 穆建良
班級:車輛三乙 學號: 學生:王章嘉 指導老師:吳宗霖老師
应需推新 提升研究生培养质量 ——CNKI服务产品介绍 中国学术期刊(光盘版)电子杂志社有限公司 2015年3月.
從性格心理學看生涯發展 組員: 高嘉鴻 李冠廷 簡品卉 李雅芳 陳怡馨.
性別平等教育 校園性侵害性騷擾或性霸凌防治 宣導簡報
大同大學圖書館 - 研究生利用指引:論文上傳篇
主講人:李瓊淑 總經理.
領導、經營、管理與授權 領導與競爭優勢報告 NCKU 2006 EMBA 指導教授:曾燦燈博士 第五組:
機車鎖.
科 系:休閒事業管理系. 指導老師:許興家老師. 組 員:游海欽.周書豪.林季蓁.
授課教授 : 簡立賢 老師 報告人 : 林慧萍、許菀婷
大陸物流.
——向刑事案件被告人家属调查取证的伦理性讨论
與家庭工作〜 家訪技巧 方瓊聆社工師      高雄市學生輔導諮商中心
醫學美學期末報告 醫學美學之我見---- 談單眼皮變雙眼皮
餐旅籌備與規劃 授課老師: 陳怡慈.
YOUR LOGO 扁平商务 数据动态模板 适用于年终汇报、工作总结等.
异常交易监管等监察业务培训 大连商品交易所 监察部 2018年4月.
Presentation transcript:

中文文本自動分詞與標注 第9章 漢語自動分詞軟件系統 CPTWT Presentation R95921094 楊祝晉

摘要 自80年代初提出漢語自動分詞系統以來,已經提出了多種分詞方法 例如:正向最大匹配、逆向最大匹配、窮多層次列舉、鄰接約束、聯想-回溯、詞頻統計、專家系統、類神經網路等方法。 不同的分詞方法模擬了分詞行為的不同面向,取得了不同的成效,並且已應用在不同用途的中文訊息處理系統上。 本次報告主要介紹二種分詞軟體系統

Outline 字串頻率統計和詞形匹配相結合的分詞系統 基於聯想-回溯方法的漢語自動分詞系統 系統結構及其各種模型的主要功能 實驗結果及分析 系統結構及分詞方法 分詞知識庫的多層次建構

Part I 字串頻率統計和詞形匹配相結合的分詞系統 系統架構介紹 實驗結果分析與討論

系統結構及處理流程 系統 架構圖 1. 初步處理模型 2. 字串頻率統計 3. 分詞處理模型 原文 字串序列 候選詞 切分標記資料庫 單字數詞詞典 單字量詞詞典 詞綴集 臨時詞典 靜態常用詞詞典 分詞 序列

系統結構說明 系統對原文進行三遍掃描: 三個處理模型: 二個資料庫: 四個詞典: 第一遍,利用切分標記將原文分成較短字串序列 第二遍,根據每個短字串的子字串在上下文中的頻率計算其權重 值,權重值大的子字串視為候選詞 第三遍,利用候選詞和常用詞典對短字串進行切分 三個處理模型: 初步處理模型、字串頻率統計模型、分詞處理模型 二個資料庫: 切分標記庫、詞綴集 四個詞典: 單字數詞詞典、單字量詞詞典、臨時詞典、靜態常用詞詞典

1. 初步處理模型 初步處理模型 例如:「的」 原文分成較短的字串序列集 顯式切分標記:標點、數字、外文、其他非漢字符號 隱式切分標記:出現頻率高、構詞能力差的單字詞 (客觀) 例如:「的」 平均每二十五個字就會出現一次 構詞能力並不強 本系統共收入 181 條規則

隱式切分標記 「的」字的規則: 判斷方式: 若 LR 判斷滿足且 L* 判斷滿足 在切分標記的左邊將字串切開 若 LR 判斷滿足且 *R 判斷滿足 在切分標記的右邊將字串切開 「單字數詞 + 單字量詞」 將量詞視為切分標記,在量詞的左右兩邊將字串切開 此系統共收集了 115 個常用量詞

2.字串頻率統計 計算各字串序列的所有長度大於1的子字串在局部上下文200字左右(經驗值)中的出現次數,並根據字串頻率和字串長度做加權函數 W = F * L3(F為字串頻率亦即此子字串在上下文中出現的次數;L為字串長度)。若計算出來的權重超過給定的預設值,則此子字串將這些詞語存入臨時詞庫中 Sliding Window 當前字串之前後各二十個字串 將 String 以 Hashing 方式存入 Slot 每個 Slot 內容序對 = 該字之 Sliding Window 序號 + 該字在字串中的序號

字串頻率計算說明 「語言」的頻率計算為 3 權重函數:3 * 23 = 24 權重值大於 Threshold Value 時,則該字串被認定為詞,需加入臨時詞庫,待分詞結束後自動清除 頻率大於 Threshold Value 且不被其他字串完全覆蓋則被視為潛在的候選詞 S 為 T 的子字串,且 S 的頻率不大於 T的權重值時,稱 T完全覆蓋S 例如:「俄羅斯」(權值81)、「俄羅」各出現3次;則稱「俄羅斯」完全覆蓋「俄羅」

3. 分詞處理模型 同時借助各字串的候選詞集(局部資訊)、臨時詞庫(全域資訊)、和一部含 5000 常用詞的詞典(背景資訊),對字串進行切分。 經此分詞後仍未做標記的相鄰單字視為一個權重值很低的詞 例如:「觀看」瑪麗「的」「表演」,瑪、麗兩個字均不是詞,且「瑪麗」做為一個字串的頻率小於3,則將「瑪麗」視為一個詞

4. 實驗結果與分析(1/3) 實驗結果 本系統對十篇中文文章,包括科技文獻、新聞報導、政論、故事等題材 進行了分詞實驗 分詞正確率平均達 98.4 % 平均分詞速度為每秒236個字 (IBM-PC386)

4. 實驗結果與分析(2/3) 分析與討論 切分精準度高:因為這些詞的頻率較高得以識別,或是這些詞的頻率夠低,當他們周圍的詞均已得到正確切分後,自然將該字串合成一個詞 設立臨時詞典可使分詞過程利用全域上下文的頻率統計結果,正確切分依靠局部上下文所無法解決的切分問題 例如:如果利用了臨時詞典中「軍事基地」,可避免切分成「軍事」「基地」。

4. 實驗結果與分析(3/3) 切分標記將長字串分割為短字串,大幅度減少了字串的子字串數量。 設字串S的長度為 n ( n > 1 ),則S包含 n * ( n + 1 )/2 個子字串 若將S分為兩個短字串,長度分別為 m ( 0 < m < n )和 n –m,則兩個短字串所擁有的子字串數之和為 m * ( m + 1 ) / 2 + ( n - m) * ( n – m + 1 ) / 2 比S 所含的子字串數少 m * (n – m )個,即一個長串分成兩個短字串後,子字串總數減少的數目恰好等於兩個短字串的長度乘積。 例如:長字串長度為10,含子字串數為 55,二個短字串的長度各為 5,含子字串數為30,子字串數共減少了 5 * 5 = 25個 子字串的數量減少為頻率統計節約了時間。 切分錯誤的主要原因是某個子字串由於在上下文中多次出現而獲得較高的權重值,以至於被切分成詞。 例如:在「聚合分析」、「組合分析」雖然經常出現,但「合分析」的權值可能更高,可被切成「聚」「合分析」、「組」「合分析」。因為多次鄰接出現,使這幾個詞串聯而成的詞串的權重值很高,因而被成一個詞。

Part II 基於聯想-回溯方法的漢語自動分詞系統 系統結構及分詞方法 分詞知識庫建構

簡介 本節介紹一個基於聯想-回溯方法的漢語自動分詞系統:ABWS(Association-Backtracking Word Segmentation) 簡稱為AB算法 不過分依賴於詞表,而是較多利用漢語本身的知識,如:構詞法、句法等 提出一些處理歧義結構的實用分詞規則,以提高分詞速度和分詞正確率 由於分級建庫和兩次掃描增加了時間與空間複雜度,但對小規模語料處理上還是可行的。 主要是採用切分標記法和多次列舉的方法:經實用中測試,分詞正確率可達98%左右。

ABWS系統架構圖 系統 架構 輸出 分割模型 細分模型 輸入 初步處理模型 特徵詞庫 實詞詞庫 規則庫 人工干預 規則調用模型

系統五大功能模組(1/3) 1. 預先處理模型 2. 分割模型 將原文依各種分解成獨立的、可被切分程序直接處理的字串序列,並保留原文中的所有部分,如:標點符號、數字、字母等 非漢字符號冠以特殊標記處理 2. 分割模型 以特徵詞庫中的詞作為詞切分標記,依靠聯想規則將一個字串分割為多個更小的子字串 對特徵詞庫中不同類型的詞採用不同的處理方法 如對前綴或前置字,分割標誌設在該字之後,對重疊詞、連綿詞等其他特徵詞,分割標誌設在該詞的兩端。

系統五大功能模組(2/3) 3. 細分模型 4. 規則調用模型 依據實詞詞庫將分割模型得到的子字串切分為語詞 當遇到歧義組合結構或產生拒分現象時,便分別轉向4和5 4. 規則調用模型 用(3)提示的信息,調用相對應的規則處理歧義組合結構,或調用通用規則切分出類型詞,如:數字詞。

系統五大功能模組(3/3) 5. 人工干預模型:常由詞典收詞不足引起 修改實詞詞庫 當人工干預是由詞庫收詞不足或不當而引起時,我們便在詞庫中增加新詞或修改詞庫中的內容。人名、地名常常會引起這種人工干預。 例如:「台灣女歌星王秀如一曲”千言萬語”贏得全場熱烈掌聲」,若「台灣」未收入詞庫,則需人工干預將其加入詞庫。 追加臨時詞庫 上例中,人名「王秀如」同樣需要人工干預,但因「王秀如」是低頻詞,故不將其加入實詞詞庫,而是收入臨時詞庫,待一段文字處理完後將其刪除。 修改規則庫 當人工干預是由句法歧義句段引起時,其原因在於規則庫的不完善,此時我們便修改已有的規則或增加新的規則。 修改特徵詞詞庫 特徵詞詞庫中的詞絕大多數不是絕對的,假如情況考慮不周,也將引起人工干預。例如:「葡萄牙外長取消北京之行同兩國關係現狀無關」,「葡萄」是作為連綿詞存放在特徵詞詞庫中的,若未考慮到例外詞「葡萄牙」則「葡」字處必導致人工干預,此時,我們需將例外詞「葡萄牙」加入。

說明 本系統中其基本思想可描述為:首先將待切分的漢字符號串序列依特徵詞詞庫分割為若干子串,每個子串或為詞或為詞群;然後利用實詞庫和規則庫再將詞群細分為詞。分詞時,我們利用了一定的語法知識。聯想回溯機制同時作用於分割和細分兩個階段,旨在有效地解決歧義組合結構的切分問題。 聯想網絡描述每個虛詞的構詞能力,聯想推理則是利用相對應的聯想網絡判定該虛詞究竟是單獨成詞還是作為構詞成分構成了其他的詞。 當一個句子的切分雖以在句法平面中確定時,我們便借助於語義及上下文信息來進行判定。回溯機制主要用於處理語義歧義句子的切分。如「原子能發電」可切分為:原子能/發/電、原子/能/發/電。本系統利用回溯機制依次對各種分法進行測試,直至找到正確答案為止。不難看出,聯想和回溯機制,提供了自動檢錯和自動糾錯的功能。

分詞知識庫的建構 特徵詞詞庫 所謂特徵詞,泛指那些具有可作為分割標誌的某種特徵的詞,主要包括詞綴、虛詞、重疊詞、連綿詞等。 使用頻度高,或可用規則描述 為了避免歧義切分,我們建立每個詞的聯想網絡,列出該特徵詞的例外情形,並附有相對應的處理規則。這些規則有的提煉於構詞法、構形法以及詞的搭配關係,有的則源於大量的實驗數據。現以詞綴為例加以說明 例如:「子」一般認為是後綴詞素,故將它收在特徵詞詞庫中

分詞知識庫的建構 實詞詞庫 使用率高:常用詞 覆蓋率高:收集專業詞語 由於固定搭配的詞組、成語、俗語以及古漢語的殘留成分在現代漢語占有相當比例,且這些固定用語通常具有特定的含義,按常規的方法進行切分顯然是不合理的,例如:「桃李滿天下」不應再分為「桃李/滿/天下」。因而,詞庫中應適當地收錄這些成分。

分詞知識庫的建構 規則庫 交集型歧義字段切分規則 組合型歧義字段切分規則 前綴詞規則 後綴詞規則 重疊詞規則

分級建庫的優點 特徵詞靜態數目少,但均為高頻詞,在第一次掃描時便將其分割出來,提高了分詞速度 由於利用規則描述了一些無法逐條收入詞庫的詞(重疊詞、數詞等),一方面壓縮了詞庫規模,另一方面又增強了詞庫的使用效果,提高了分詞的正確率 多數歧義組合是由特徵詞引起的,針對特徵詞制定詳儘的聯想規則,既是切實可行,又可更有效地解決歧義組合結構的切分。並且針對語法功能不同的特徵詞和實詞分別制定規則以可以提高規則的有效性 知識庫的三個層次間既相互聯繫又相互獨立,因此在程序調試進行期間,哪一層次發生問題,便單獨修改哪個層次,管理和維護較為方便。各庫都是以動態方式建造的,可隨時向其中添加詞和規則

Thanks for your attention