汉语分词汉语分词.

Slides:

Advertisements

Similar presentations

陳旺全醫師主講健康養生茶飲明目菊花茶明目菊花茶成分：菊花五錢、 500c.c 熱水沖泡成分：菊花五錢、 500c.c 熱水沖泡功效：可治療急慢性結膜炎、頭暈功效：可治療急慢性結膜炎、頭暈頭痛、口苦、口乾、高血壓頭痛、口苦、口乾、高血壓.

Advertisements

六大類食物五穀根莖類六大類食物油脂類蛋魚肉豆類奶類蔬菜類水果類. 五穀根莖類 : 提供熱量 : 部份蛋白質，維生素，礦物質，及膳食纖維包含麵 ( 及麵包饅頭 ) ，飯類，蕃薯等食物也就是一般所稱的 " 主食 " ( 蘿蔔不是這一類，是屬於蔬菜類喔！ ) 飲食建議吃三到六碗並推薦攝取全穀類食品.

油脂水解主要成份為脂肪酸，在自然界脂肪酸其碳數多為偶數且以直鏈結構存在脂肪酸有三種 (1) 飽和脂肪酸 (2) 單元不飽和脂肪酸 (3) 多元不飽和脂肪酸對人體健康需求 (1) 必需脂肪酸 (2) 非必需脂肪酸 1. 油脂功能與成分.

正確睡午睡精神更好正確睡午睡精神更好可降血壓增加思考能力懶懶的冬天加上星期一又是假日後上班，如果能夠在中午補個眠，稍微休息一下，對於精神的提振及下午工作效率都有幫助。但冬天睡午覺要注意保暖以及水分的補充，避免受涼或是血液循環不好，造成手或腿麻痛，注意這些小地方可以讓睡午睡更健康！

揮別電腦族疲勞症候群主講人 : 陳潮宗中醫師. 常有症狀一起因＆症狀：起因＆症狀：坐姿不正最易引起腰酸背痛、過度看螢幕則眼睛疲勞酸痛。治療重點：治療重點：補固腰腎、明目保睛。

引言高血壓自我健康管理包含飲食、運動、及健康生活型態三大方向。飲食是改善高血壓的重要部分，並提供飲食方式來改善高血壓。

人事室專題計畫業務報告人事室謝明峯轉一、專任助理注意事項計畫案如有聘任專任助理者, 請依據「南華大學專案助理報到程序單」內容, 將資料繳交至人事室 ( 請於聘任到職日前繳交, 以免影響到本身權利 ) 。離職儲金或勞工退休金依勞工退休金條例相關規定,

山伯與英台在健康書院修業完成後，一行人逗陣開開心心的回自己的家鄉 …… 於是開啟了另一段 ~ 新梁祝的故事 ~ 在下梁山伯小女子祝英台我是阿成我是阿香.

糖尿病的饮食控制厦门长庚医院张翼翔. 糖尿病糖尿病的发病率逐年增高糖尿病的发病率逐年增高糖尿病对健康和生命的危害糖尿病对健康和生命的危害心、脑、肾、神经等心、脑、肾、神经等糖尿病的表现和诊断糖尿病的表现和诊断糖尿病的治疗 — 终身治疗糖尿病的治疗 — 终身治疗.

第八章膳食與營養第一節均衡營養與膳食年 7 月公布新版「每日飲食指南」，依食物營養特性，分為六大類：全榖根莖類蔬菜類水果類低脂乳品類油脂與堅果種子類豆魚肉蛋類食全十美.

中醫臨床常見養生藥膳臺北市立聯合醫院中醫院區院長鄭振鴻. 壹、前言在臺灣地處亞熱帶的氣候，冬季溫暖，夏季炎熱，雨量多的特性。吃補的概念源自中國大陸，但生活習性與食物亦有其地域性，因此針對臺灣常用藥膳的食物與藥物的性能作用，解析其效用、功能，了解食物與人的關係，利用食物特性，藥物的效.

青春期女生可以早在八、九歲，或晚到十三、四歲才進入青春期。男生早的在十、十一歲，晚到十四、五歲，甚至更遲才進入青春期。

高職生的早餐飲食習慣之研究以市立士林高商為例二年九班李婷葦二年九班卓佳惠二年九班郭胤彣關鍵字：早餐. 飲食習慣. 士林高商.

第八課路＊課前預習一二三＊題解＊作者介紹＊課文內容一、、、＊修辭回顧

第八章土地行政管理.

請愛惜自己衛生署日前公佈了去年國人的十大死因統計，惡性腫瘤（癌症）又第二十度蟬聯冠軍，而且是每四名死亡人口中，就有一人「因癌而」，

「互联网金融2.0时代」与房地产的融合广州互联网金融协会会长、广州e贷总裁方颂.

企业会计学（三）人大版本吕昌.

E時代盛宴健康123年菜發表會新春新氣象，處於資訊蓬勃E時代的您，是否已構思好如何為自己及家人準備一桌健康、豐盛的年菜？隨著國人健康意識的提升，對年菜訴求也有別於傳統年菜四大特點－高油、高鹽、高糖、低纖，加上其繁瑣的製備過程，對講求速度及效率的E時代族群而言，已不符現今年菜簡單製備、健康需求性。在這距離農曆春節只剩短短二個星期，豐原醫院營養室關心您的健康、滿足您的胃蕾，推出「E時代盛宴-健康123-年菜發表會」，以「一高、二少、三低」的健康原則，利用家中減少烹調油量的鍋具，如：烤箱、電鍋、不沾鍋等，製

雅樂舞基本動作與身體探索陳玉秀老師主授【本著作除另有註明外，採取創用CC「姓名標示－非商業性－相同方式分享」台灣3.0版授權釋出】

嘴破怎麼辦？嘴角或嘴唇內常常破一小傷口的人，吃東西時真是痛苦萬分；有的人試著補充維他命C及B群，

小学科学中的化学武威十九中刘玉香.

神州五号、六号的发射和回收都取得了成功，圆了几代中国人的航天梦，让全中国人为之骄傲和自豪神州五号、六号的发射和回收都取得了成功，圆了几代中国人的航天梦，让全中国人为之骄傲和自豪!但是你们知道我们的科学家是怎样迅速地找到返回舱着陆的位置的吗？这全依赖于GPS——卫星全球定位系统”。大家一定觉得很神奇吧！学习了今天的内容，你就会明白其中的奥妙。

第十二章小组评估本章重点问题: 评估的设计测量工具的选择和资料的收集与分析.

據點考核與評鑑報告人：臺南市政府照顧服務管理中心.

肺臟的藥膳介紹台中慈濟醫院中醫部陳建仲.

位置的表示方法.

說明完後將會有一個小測驗歐！要認真聽歐！

合理水價之探討台灣省自來水公司前財務處經理王禮忠台灣省自來水公司財務處組長賴祐.

特殊族群運動健康訓練(I).

依据教材全国高等教育自学考试指定教材《西方行政学说史》，竺乾威主编，高等教育出版社。

口腔衛生保健主講者：興中國小護理師:莊靜華.

水生命之源威海文登中心医院王倩倩.

合同法主讲人：教材：《合同法学》（崔建远） 2017/3/10.

正信讀書會主持群：姚永錩、鄭健、陳淑珍佛法的生活應用 2008/07/23.

認識大腸直腸癌大腸直腸外科李元魁醫師.

健康飲食觀主講人：蘇麗棗.

請愛惜自己衛生署日前公佈了去年國人的十大死因統計，惡性腫瘤（癌症）又第二十度蟬聯冠軍，而且是每四名死亡人口中，就有一人「因癌而」，

內政部老人福利機構評鑑分區說明會管理類指標

節能減碳—兒童廢物利用遊戲闖關活動設計者—賴姿良陳俐諭陳松吉.

牙齒保健常識胖福2050/12.

第1课欧洲的君主专制香山中学聂渭清.

農委會及其他計畫執行應注意事項第四組涂怡禎日期：104年10月5、6日.

膀胱過動症 & 間質性膀胱炎台中榮總/埔里分院蔡青倍.

嘴破怎麼辦？嘴角或嘴唇內常常破一小傷口的人，吃東西時真是痛苦萬分；有的人試著補充維他命C及B群，有的人塗抹進口藥膏，

小組成員：洪偉凱簡子昀李佳旻陳泓憲.

延伸課程(專題研習)科美好生活之成長的我

微笑的天空２００８．１２．１（星期一）農曆戌子年十一月四日的傍晚天上的金星、木星在上弦月左右相互輝映，形成「微笑的天空」天文奇景。「金星、木星伴月」，在空軍官校停機坪的上空微笑著面對著校園裡所有仰望天空的筧橋學子，真是令人難忘！因此，決定將網路詩集的初刊定名為「微笑的天空」。

別忘了，每天都要…… 實踐8大自然養生法保持3次排便至少喝3杯蔬果汁曬太陽30分鐘

泰式料理食譜 137實餐謝宏德.

【本著作除另有註明外，採取創用CC「姓名標示－非商業性－相同方式分享」台灣2.5版授權釋出】

報告人：常務監事巫垂晃指導人：理事長施義芳台灣省土木技師公會

8-5 特別口腔清潔法 (一)目的 1. 為病情較嚴重而無法自行刷牙的案主保持口腔清潔、潮溼與舒適。 2. 避免口腔發生感染情況。

【本著作除另有註明外，採取創用CC「姓名標示－非商業性－相同方式分享」台灣2.5版授權釋出】

第四章内战与危机第一节南京国民政府统治的确立与加强第二节中共的武装反抗和土地革命第三节日本入侵与局部抗战

一年三班我愛早讀 102/11/11.

狗狗宝典（全新版）汪汪出版社.

西餐烹調香蒜白酒海瓜子麵焦糖布丁.

第 5 單元：法規的種類與位階關係(二) 1 【本著作除另有註明外，採取創用CC「姓名標示－非商業性－相同方式分享」台灣3.0版授權釋出】

國立勤益科技大學 105學年度新進教師輔導講習總務處業務簡報報告人:鄭文達總務長 105年9月6日.

臺灣當代小說與電影授課教師：宋千儀　老師【本著作除另有註明外，採取創用CC「姓名標示－非商業性－相同方式分享」台灣2.5版授權釋出】

网校温州中学关于显性基因与隐性基因 ——

多元文化概論.

黴飛色舞組別：應用科學組員：李悅慈、戴敬芳、楊佳琳指導老師：盧惠鶴老師繳交報告日期：93/8/27 研究日期：93年8月9日.

臺灣當代小說與電影授課教師：宋千儀老師【本著作除另有註明外，採取創用CC「姓名標示－非商業性－相同方式分享」台灣2.5版授權釋出】

Presentation transcript:

汉语分词汉语分词

主要内容分词歧义分词规范主要分词方法生词识别汉语分词

分词的提出和定义汉语文本是基于单字的，汉语的书面表达方式也是以汉字作为最小单位的，词与词之间没有显性的界限标志，因此分词是汉语文本分析处理中首先要解决的问题添加合适的显性的词语边界标志使得所形成的词串反映句子的本意，这个过程就是通常所说的分词汉语分词

分词的意义正确的机器自动分词是正确的中文信息处理的基础文本检索文语转换和服 | 务 | 于三日后裁制完毕，并呈送将军府中。王府饭店的设施 | 和 | 服务 | 是一流的。如果不分词或者“和服务”分词有误，都会导致荒谬的检索结果。文语转换他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha）行侠仗义的 | 查金泰 | 远近闻名。（“查”读音为zha) 汉语分词

分词面临的主要难题如何面向大规模开放应用是汉语分词研究亟待解决的主要问题如何识别未登录词如何低廉地获取语言学知识词语边界歧义处理实时性应用中的效率问题汉语分词

分词歧义交集型切分歧义组合型切分歧义汉语分词

交集型切分歧义汉字串AJB被称作交集型切分歧义，如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。 [例] “结合成分子” 结合 | 成分|子 | 结合|成|分子| 结 | 合成 |分子| [例] “美国会通过对台售武法案” [例] “乒乓球拍卖完了” 汉语分词

组合型切分歧义汉字串AB被称作组合型切分歧义，如果满足条件：A、B、AB同时为词 [例]组合型切分歧义：“起身” 他站 | 起 | 身 | 来。他明天 | 起身 | 去北京。汉语分词

“真歧义”和“伪歧义” 真歧义指存在两种或两种以上的可实现的切分形式，如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义伪歧义一般只有一种正确的切分形式，如“建设/有”、“中国/人民”、“各/地方”、 “本/地区”等汉语分词

未登录词虽然一般的词典都能覆盖大多数的词语，但有相当一部分的词语不可能穷尽地收入系统词典中，这些词语称为未登录词或新词分类：专有名词：中文人名、地名、机构名称、外国译名、时间词重叠词：“高高兴兴”、“研究研究” 派生词：“一次性用品” 与领域相关的术语：“互联网” 汉语分词

分词规范词是自然语言的一种客观存在汉语书写过程中并不分词连写，对词组和词、单字语素和单字词的划分因人而异，甚至因时而异汉语信息处理现在需要制订统一的分词标准，否则将严重影响计算机的处理《信息处理用现代汉语分词规范及自动分词方法》：结合紧密、使用频繁汉语分词

具体的分词标准实例二字或三字词，以及结合紧密、使用稳定的：发展可爱红旗对不起自行车青霉素二字或三字词，以及结合紧密、使用稳定的：发展可爱红旗对不起自行车青霉素四字成语一律为分词单位：胸有成竹欣欣向荣四字词或结合紧密、使用稳定的四字词组:社会主义春夏秋冬由此可见五字和五字以上的谚语、格言等，分开后如不违背原有组合的意义，应予切分: 时间/就/是/生命/ 失败/是/成功/之/母汉语分词

具体的分词标准实例结合紧密、使用稳定的词组则不予切分:不管三七二十一惯用语和有转义的词或词组，在转义的语言环境下，一律为分词单位: 妇女能顶/半边天/ 他真小气，象个/铁公鸡/ 略语一律为分词单位:科技奥运会工农业分词单位加形成儿化音的“儿” :花儿悄悄儿玩儿汉语分词

具体的分词标准实例阿拉伯数字等，仍保留原有形式:1234 7890 现代汉语中其它语言的汉字音译外来词，不予切分:巧克力吉普现代汉语中其它语言的汉字音译外来词，不予切分:巧克力吉普不同的语言环境中的同形异构现象，按照具体语言环境的语义进行切分: 把/手/抬起来这个/把手/是木制的汉语分词

常见的动词分词规范动词前的否定副词一律单独切分:不/写不/能没/研究未/完成动词前的否定副词一律单独切分:不/写不/能没/研究未/完成用肯定加否定的形式表示疑问的动词词组一律切分，不完整的则不予切分:说/没/说看/不/看相信/不/相信动宾结构的词或结合紧密、使用稳定的:开会跳舞解决/吃饭/问题孩子该/念书/了结合不紧密或有众多与之相同结构词组的动宾词组一律切分:吃/鱼学/滑冰写/信汉语分词

常见的动词分词规范动宾结构的词或词组如中间插入其它成分，则应予切分:吃/两/顿/饭跳/新疆/舞动宾结构的词或词组如中间插入其它成分，则应予切分:吃/两/顿/饭跳/新疆/舞动补结构的二字词或结合紧密、使用稳定的二字动补词组，不予切分:打倒提高加长做好 “2十1,1”或“1十2”结构的动补词组一律切分:整理/好说/清楚解释/清楚打/得/倒提/不/高偏正结构的词，以及结合紧密的词不予切分:胡闹瞎说死记汉语分词

常见的动词分词规范复合趋向动词一律为分词单位:出去进来当插入“得、不”时应予切分:出/得/去进/不/来复合趋向动词一律为分词单位:出去进来当插入“得、不”时应予切分:出/得/去进/不/来动词与趋向动词结合的词组一律切分:寄/来跑/出去多字动词无连词并列，一律切分:调查/研究宣传/鼓动汉语分词

主要的分词方法简单的模式匹配：正向最大匹配、逆向最大匹配法、双向匹配法基于规则的方法：最少分词算法基于统计的方法：统计语言模型分词、串频统计和词形匹配相结合的汉语自动分词、无词典分词汉语分词

正向最大匹配分词(Forward Maximum Matching method, FMM) 基本思想：设自动分词词典中最长词条所含汉字个数为I；取被处理材料当前字符串序数中的I个字作为匹配字段，查找分词词典。若词典中有这样的一个I字词，则匹配成功，匹配字段作为一个词被切分出来，转 6；如果词典中找不到这样的一个I字词，则匹配失败；匹配字段去掉最后一个汉字，I--；重复2-4，直至切分成功为止； I重新赋初值，转2，直到切分出所有词为止。汉语分词

分析 “市场/中国/有/企业/才能/发展/” 对交叉歧义和组合歧义没有什么好的解决办法错误切分率为1／169 往往不单独使用，而是与其它方法配合使用汉语分词

逆向最大匹配分词(Backward Maximum Matching method, BMM法) 分词过程与FMM方法相同，不过是从句子(或文章)末尾开始处理，每次匹配不成功时去掉的是前面的一个汉字 “市场/中/国有/企业/才能/发展/ 实验表明：逆向最大匹配法比最大匹配法更有效，错误切分率为1／245 汉语分词

双向匹配法（Bi-direction Matching method, BM法）比较FMM法与BMM法的切分结果，从而决定正确的切分可以识别出分词中的交叉歧义汉语分词

最少分词问题分词结果中含词数最少等价于在有向图中搜索最短路径问题汉语分词

最少匹配算法(Fewest Words Matching,FWM) ) 分段逐段计算最短路径(Dijkstra算法) 得到若干分词结果统计排歧发展\中\国家发展\中国\家算法复杂性与FMM相当汉语分词

基于统计的词网格分词第一步是候选词网格构造：利用词典匹配，列举输入句子所有可能的切分词语，并以词网格形式保存第二步计算词网格中的每一条路径的权值，权值通过计算图中每一个节点（每一个词）的一元统计概率和节点之间的二元统计概率的相关信息根据图搜索算法在图中找到一条权值最大的路径，作为最后的分词结果汉语分词

字串“中华人民共和国”的切分词网格汉语分词

分析可利用不同的统计语言模型计算最优路径具有比较高的分词正确率算法时间、空间复杂性较高汉语分词

一种基于N-gram信息的生词获取基本思想：N元对→词频过滤→互信息过滤→校正→生词获取词频互信息（Mutual Information）词频与互信息的关系候选生词的校正汉语分词

一些抽取出的新词（三元组）汉语分词

一些抽取出的新词（二元组）汉语分词

人名识别规则方法：利用语言规则来进行人名识别。优点：识别较准确；缺点：很难列举所有规则，规则之间往往会顾此失彼，产生冲突，系统庞大、复杂，耗费资源多但效率却不高统计方法：一种是仅从字、词本身来考虑，通过计算字、词作人名用的概率来实现，另一种结合基于统计的汉语词语边界划分来实现。统计方法占用的资源少、速度快、效率高，但准确率较低。其合理性、科学性及所用统计源的可靠性、代表性、合理性难以保证。搜集合理的有代表性的统计源的工作本身也较难。混合方法：取长补短汉语分词

一种基于统计和规则的人名识别方法中文姓名用字特点（82年人口普查结果） 729个姓氏用字姓氏分布很不均匀，但相对集中有些姓氏可用作单字词名字用字分布较姓氏要平缓、分散名字用字涉及范围广某些汉字既可用作姓氏，又可用作名字用字汉语分词

人名识别系统资源语料库：95、96两年的人民日报语料全集。共约4000万字。人名库：包含共约31000多个人名。是95、96两年人民日报语料的所有人名的集合。人名库和语料库的一致性对保证统计数据的准确性至关重要。汉语分词

人名识别系统知识库姓氏用字频率库和名字用字频率库：653个单姓氏，15个复姓，1894个名字用字汉语分词

人名识别系统知识库名字常用词表汉语分词朝阳劲松爱国建国立新黎明宏伟朝晖向阳海燕爱民凤山雪松新民剑峰建军红旗光明汉语分词

人名识别系统知识库称谓库三种类型称谓前缀表：“副”、“总”、“代”、 “代理”、“助理”、“常务”、“名誉”、 “荣誉”等只能用于姓名之前，如：战士、歌星、演员等；只能用于姓名之后，如：阁下、之流等；姓名前后皆可，如：先生、主席、市长等。称谓前缀表：“副”、“总”、“代”、 “代理”、“助理”、“常务”、“名誉”、 “荣誉”等汉语分词

人名识别系统知识库简单上下文指界词表：约110个词标点符号集动词：说、是、指出、认为、表示、参加等；介词：在、之、的、被、以等；正在、今天、本人、先后等。标点符号集人名出现在句首或句尾（包括分句）的机会比较大，标点符号可用来帮助判断人名的边界。顿号一边是人名时，另一边的候选人名的可靠性高。汉语分词

人名识别系统知识库非名字用词表：有些双字词，如：时间、奖励、纬度等不作名字用词，但因为组成它们的单字可作为名字用字，如果跟在姓氏后面，往往会将其与可作姓氏的字一起误判为姓名。例： “做\这\件\事\花\了\我们\一\段\时间\。\” 汉语分词

中文人名识别过程汉语分词

人名识别的具体实现 →姓氏判别 →名字识别 →概率判断候选字符串为人名的概率为： P = 姓氏部分为姓氏的概率P1 * 余下部分的汉字作名字用字的概率P2*P3(单名时，为P2) 汉语分词

校正(对潜在人名的后处理) 当两个已辨识的人名相似时，需要检查是否要更正 C1C2C3与C1C2C4同时存在，C1C2正确； C1C2C3与C1C2C4同时存在，C1C2C3正确； C1C2C3与C1C2同时存在，C1C2正确； C1C2C3与C1C2同时存在，C1C2C3正确汉语分词

校正(对潜在人名的后处理) 自动校正：人工校正如果两个潜在人名相似，考察它们的权值。一高一低时，将低权值的潜在人名清除(李文常、李文)；都为高权值时，两者都认为是人名(刘文军、刘文俊)；都是低权值时，则各自通过第三个字作名字用字的概率大小来判断。概率够高，识别为人名。否则将第三个字去掉(李文常、李文及) 。人工校正汉语分词

人名识别结果与分析实验结果：8个测试样本，共22000多字，共有中文人名270个。系统共识别出中文人名330个，其中267个为真正人名。召回率=文本中的中文人名辨识正确的比例=267/270*100% =98.89% 准确率=真正辨识正确的人名的比例 =267/330*100% =80.91% 准确率和召回率是互相制约的，可通过概率阈值的调整来调节二者的关系。汉语分词

人名识别结果与分析产生错误的主要原因被未识别的地名干扰。“湖北\英\山\县\詹\家\河\乡 \陶\家\河\村\，\ ” 受非中式人名的干扰。“司\马\义\·\艾\买\提\ ” 分词结果不理想。“为\迎接\香港\回\归\送\贺\礼\” 规则不准确。“南\宋\大\诗人\杨\万\里\“\惊\如\汉 \殿\三\千\女\，\ ” 其他。“全世界\每年\影片\产量\高\达\两\三\千\部 \，\ ” 汉语分词

改进措施采用更好的分词系统构建更准确的姓名用字库、指界词库等识别时结合一些语法、语义知识采用更合理的大规模人名语料进行训练，使阈值确定得更合理增加一些校正措施汉语分词