汉语分词 汉语分词.

Slides:



Advertisements
Similar presentations
陳旺全醫師主講 健康養生茶飲 明目菊花茶 明目菊花茶 成分:菊花五錢、 500c.c 熱水沖泡 成分:菊花五錢、 500c.c 熱水沖泡 功效:可治療急慢性結膜炎、頭暈 功效:可治療急慢性結膜炎、頭暈 頭痛、口苦、口乾、高血壓 頭痛、口苦、口乾、高血壓.
Advertisements

六大類食物 五穀根莖類 六大類食物 油脂類 蛋魚肉豆類 奶類 蔬菜類 水果類. 五穀根莖類 : 提供熱量 : 部份蛋白質,維生素,礦物質,及膳食纖維 包含麵 ( 及麵包饅頭 ) ,飯類,蕃薯等食物 也就是一般所稱的 " 主食 " ( 蘿蔔不是這一類,是屬於蔬菜類喔! ) 飲食建議吃三到六碗 並推薦攝取全穀類食品.
油脂水解主要成份為脂肪酸,在自然 界脂肪酸其碳數多為偶數且以直鏈結 構存在 脂肪酸有三種 (1) 飽和脂肪酸 (2) 單元不飽和脂肪酸 (3) 多元不飽和脂肪酸 對人體健康需求 (1) 必需脂肪酸 (2) 非必需脂肪酸 1. 油脂功能與成分.
正確睡午睡精神更好 正確睡午睡 精神更好 可降血壓 增加思考能力 懶懶的冬天加 上星期一又是假日後上班,如果能夠在 中午補個眠,稍微休息一下,對於精神 的提振及下午工作效率都有幫助。但冬 天睡午覺要注意保暖以及水分的補充, 避免受涼或是血液循環不好,造成手或 腿麻痛,注意這些小地方可以讓睡午睡 更健康!
揮別電腦族疲勞症候群 主講人 : 陳潮宗 中醫師. 常有症狀一 起因&症狀: 起因&症狀: 坐姿不正最易引起腰酸背痛、 過度看螢幕則眼睛疲勞酸痛。 治療重點: 治療重點:補固腰腎、明目保睛。
引言 高血壓自我健康管理包含飲食、 運動、 及健康生活型態三大方向。 飲食 是改善高血壓的重要部分, 並提 供飲食方式來改善高血壓。
人事室專題計畫業務報告 人事室 謝明峯 轉 一、專任助理注意事項 計畫案如有聘任專任助理者, 請依據「南 華大學專案助理報到程序單」內容, 將資 料繳交至人事室 ( 請於聘任到職日前繳交, 以免影響到本身權利 ) 。 離職儲金或勞工退休金 依勞工退休金條例相關規定,
山伯與英台在健康書院修業完 成後,一行人逗陣開開心心的 回自己的家鄉 …… 於是開啟了另一段 ~ 新梁祝的故事 ~ 在下 梁山伯 小女子 祝英台 我是 阿成 我是 阿香.
糖尿病的饮食控制 厦门长庚医院张翼翔. 糖尿病 糖尿病的发病率逐年增高 糖尿病的发病率逐年增高 糖尿病对健康和生命的危害 糖尿病对健康和生命的危害 心、脑、肾、神经等 心、脑、肾、神经等 糖尿病的表现和诊断 糖尿病的表现和诊断 糖尿病的治疗 — 终身治疗 糖尿病的治疗 — 终身治疗.
第八章 膳食與營養 第一節 均衡營養與膳食 年 7 月公布新版「每日飲食指南」, 依食物營養特性,分為六大類: 全榖根莖類 蔬菜類水果類 低脂乳品類 油脂與堅果種子類 豆魚肉蛋類 食全十美.
中醫臨床常見養生藥膳 臺 北 市 立 聯 合 醫 院中醫院區 院長 鄭振鴻. 壹、前言 在臺灣地處亞熱帶的氣候,冬季溫暖,夏 季炎熱,雨量多的特性。吃補的概念源自 中國大陸,但生活習性與食物亦有其地域 性,因此針對臺灣常用藥膳的食物與藥物 的性能作用,解析其效用、功能,了解食 物與人的關係,利用食物特性,藥物的效.
青春期 女生可以早在八、九歲, 或晚到十三、四歲才進入 青春期。 男生早的在十、十一歲, 晚到十四、五歲,甚至更 遲才進入青春期。
高職生的早餐飲食習慣之研究 以市立士林高商為例 二年九班 李婷葦 二年九班 卓佳惠 二年九班 郭胤彣 關鍵字:早餐. 飲食習慣. 士林高商.
第八課 路 *課前預習 一 二 三 *題解 *作者介紹 *課文內容 一 、 、 、 *修辭回顧
第八章 土地行政管理.
請愛惜自己 衛生署日前公佈了去年國人的十大 死因統計,惡性腫瘤(癌症)又第 二十度蟬聯冠軍,而且是每四名死 亡人口中,就有一人「因癌而」,
「互联网金融2.0时代」与房地产的融合 广州互联网金融协会会长、广州e贷总裁 方颂.
企业会计学(三) 人大版本 吕 昌.
E時代盛宴 健康123年菜發表會 新春新氣象,處於資訊蓬勃E時代的您,是否已構思好如何為自己及家人準備一桌健康、豐盛的年菜?隨著國人健康意識的提升,對年菜訴求也有別於傳統年菜四大特點-高油、高鹽、高糖、低纖,加上其繁瑣的製備過程,對講求速度及效率的E時代族群而言,已不符現今年菜簡單製備、健康需求性。在這距離農曆春節只剩短短二個星期,豐原醫院營養室關心您的健康、滿足您的胃蕾,推出「E時代盛宴-健康123-年菜發表會」,以「一高、二少、三低」的健康原則,利用家中減少烹調油量的鍋具,如:烤箱、電鍋、不沾鍋等,製
生活常規.
雅樂舞基本動作與身體探索 陳玉秀老師主授 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」台灣3.0版授權釋出】
嘴破怎麼辦? 嘴角或嘴唇內常常破一小傷口的人, 吃東西時真是痛苦萬分; 有的人試著補充維他命C及B群,
小学科学中的化学 武威十九中 刘玉香.
神州五号、六号的发射和回收都取得了成功 ,圆了几代中国人的航天梦,让全中国人为之骄傲和自豪 神州五号、六号的发射和回收都取得了成功 ,圆了几代中国人的航天梦,让全中国人为之骄傲和自豪!但是你们知道我们的科学家是怎样迅速地找到返回舱着陆的位置的吗? 这全依赖于GPS——卫星全球定位系统”。大家一定觉得很神奇吧!学习了今天的内容,你就会明白其中的奥妙。
第十二章 小组评估 本章重点问题: 评估的设计 测量工具的选择和资料的收集 与分析.
據點考核與評鑑 報告人:臺南市政府 照顧服務管理中心.
肺臟的藥膳介紹 台中慈濟醫院 中醫部 陳建仲.
位置的表示方法.
說明完後將會有一個小測驗歐! 要認真聽歐!
合理水價之探討 台灣省自來水公司前財務處經理 王禮忠 台灣省自來水公司財務處組長 賴祐.
特殊族群運動健康訓練(I).
依据教材 全国高等教育自学考试指定教材 《西方行政学说史》, 竺乾威主编,高等教育出版社。
口腔衛生保健 主講者:興中國小 護理師:莊靜華.
花孃心語.
水 生命之源 威海文登中心医院 王倩倩.
合 同 法 主讲人: 教材:《合同法学》(崔建远) 2017/3/10.
正 信 讀 書 會 主 持 群 : 姚 永 錩 、 鄭 健 、 陳 淑 珍 佛法的生活應用 2008/07/23.
認識大腸直腸癌 大腸直腸外科 李元魁醫師.
芳香小物.
健康飲食觀 主講人:蘇麗棗.
兔 子.
請愛惜自己 衛生署日前公佈了去年國人的十大 死因統計,惡性腫瘤(癌症)又第 二十度蟬聯冠軍,而且是每四名死 亡人口中,就有一人「因癌而」,
內政部老人福利機構評鑑 分區說明會 管理類指標
節能減碳—兒童廢物利用 遊戲闖關活動 設計者—賴姿良 陳俐諭 陳松吉.
牙齒保健常識 胖福2050/12.
第1课 欧洲的君主专制 香山中学 聂渭清.
農委會及其他計畫 執行應注意事項 第四組 涂怡禎 日期:104年10月5、6日.
膀胱過動症 & 間質性膀胱炎 台中榮總/埔里分院 蔡青倍.
嘴破怎麼辦? 嘴角或嘴唇內常常破一小傷口的人, 吃東西時真是痛苦萬分; 有的人試著補充維他命C及B群, 有的人塗抹進口藥膏,
小組成員:洪偉凱 簡子昀 李佳旻 陳泓憲.
延伸課程(專題研習)科美好生活之成長的我
微笑的天空 2008.12.1(星期一)農曆戌子年十一月四日的傍晚天上的金星、木星在上弦月左右相互輝映,形成「微笑的天空 」天文奇景。 「金星、木星伴月」,在空軍官校停機坪的上空微笑著面對著校園裡所有仰望天空的筧橋學子,真是令人難忘!因此,決定將網路詩集的初刊定名為「微笑的天空 」。
別忘了,每天都要…… 實踐8大自然養生法 保持3次排便 至少喝3杯蔬果汁 曬太陽30分鐘
泰式料理食譜 137實餐 謝宏德.
奶 麻.
【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」台灣2.5版授權釋出】
報告人:常務監事 巫垂晃 指導人:理 事 長 施義芳 台灣省土木技師公會
8-5 特別口腔清潔法 (一)目的 1. 為病情較嚴重而無法自行刷牙的案主保持口腔清潔、潮溼與舒適。 2. 避免口腔發生感染情況。
【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」台灣2.5版授權釋出】
第四章 内战与危机 第一节 南京国民政府统治的确立与加强 第二节 中共的武装反抗和土地革命 第三节 日本入侵与局部抗战
一年三班 我 愛 早 讀 102/11/11.
狗狗宝典 (全新版) 汪汪出版社.
西餐烹調 香蒜白酒海瓜子麵 焦糖布丁.
第 5 單元:法規的種類與位階關係(二) 1 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」台灣3.0版授權釋出】
國立勤益科技大學 105學年度新進教師輔導講習 總務處業務簡報 報告人:鄭文達總務長 105年9月6日.
臺灣當代小說與電影 授課教師:宋千儀 老師 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」台灣2.5版授權釋出】
网校温州中学 关于显性基因与隐性基因 ——
多元文化概論.
黴飛色舞 組別:應用科學 組員:李悅慈、戴敬芳、楊佳琳 指導老師 :盧惠鶴老師 繳交報告日期:93/8/27 研究日期:93年8月9日.
臺灣當代小說與電影 授課教師:宋千儀 老師 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」台灣2.5版授權釋出】
Presentation transcript:

汉语分词 汉语分词

主要内容 分词歧义 分词规范 主要分词方法 生词识别 汉语分词

分词的提出和定义 汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题 添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词 汉语分词

分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 文语转换 和服 | 务 | 于三日后裁制完毕,并呈送将军府中。 王府饭店的设施 | 和 | 服务 | 是一流的。 如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。 文语转换 他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha) 行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha) 汉语分词

分词面临的主要难题 如何面向大规模开放应用是汉语分词研究亟待解决的主要问题 如何识别未登录词 如何低廉地获取语言学知识 词语边界歧义处理 实时性应用中的效率问题 汉语分词

分词歧义 交集型切分歧义 组合型切分歧义 汉语分词

交集型切分歧义 汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。 [例] “结合成分子” 结合 | 成 分|子 | 结合|成|分子| 结 | 合成 |分子| [例] “美国会通过对台售武法案” [例] “乒乓球拍卖完了” 汉语分词

组合型切分歧义 汉字串AB被称作组合型切分歧义,如果满足条件:A、B、AB同时为词 [例]组合型切分歧义:“起身” 他站 | 起 | 身 | 来。 他明天 | 起身 | 去北京。 汉语分词

“真歧义”和“伪歧义” 真歧义指存在两种或两种以上的可实现的切分形式,如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义 伪歧义一般只有一种正确的切分形式,如“建设/有”、“中国/人民”、“各/地方”、 “本/地区”等 汉语分词

未登录词 虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词 分类: 专有名词:中文人名、地名、机构名称、外国译名、时间词 重叠词:“高高兴兴”、“研究研究” 派生词:“一次性用品” 与领域相关的术语:“互联网” 汉语分词

分词规范 词是自然语言的一种客观存在 汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异 汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理 《信息处理用现代汉语分词规范及自动分词方法》:结合紧密、使用频繁 汉语分词

具体的分词标准实例 二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素 二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素 四字成语一律为分词单位:胸有成竹 欣欣向荣 四字词或结合紧密、使用稳定的四字词组:社会主义 春夏秋冬 由此可见 五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分: 时间/就/是/生命/ 失败/是/成功/之/母 汉语分词

具体的分词标准实例 结合紧密、使用稳定的词组则不予切分:不管三七二十一 惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位: 妇女能顶/半边天/ 他真小气,象个/铁公鸡/ 略语一律为分词单位:科技 奥运会 工农业 分词单位加形成儿化音的“儿” :花儿 悄悄儿 玩儿 汉语分词

具体的分词标准实例 阿拉伯数字等,仍保留原有形式:1234 7890 现代汉语中其它语言的汉字音译外来词,不予切分:巧克力 吉普 现代汉语中其它语言的汉字音译外来词,不予切分:巧克力 吉普 不同的语言环境中的同形异构现象,按照具体语言环境的语义进行切分: 把/手/抬起来 这个/把手/是木制的 汉语分词

常见的动词分词规范 动词前的否定副词一律单独切分:不/写 不/能 没/研究 未/完成 动词前的否定副词一律单独切分:不/写 不/能 没/研究 未/完成 用肯定加否定的形式表示疑问的动词词组一律切分,不完整的则不予切分:说/没/说 看/不/看 相信/不/相信 动宾结构的词或结合紧密、使用稳定的:开会 跳舞 解决/吃饭/问题 孩子该/念书/了 结合不紧密或有众多与之相同结构词组的动宾词组一律切分:吃/鱼 学/滑冰 写/信 汉语分词

常见的动词分词规范 动宾结构的词或词组如中间插入其它成分,则应予切分:吃/两/顿/饭 跳/新疆/舞 动宾结构的词或词组如中间插入其它成分,则应予切分:吃/两/顿/饭 跳/新疆/舞 动补结构的二字词或结合紧密、使用稳定的二字动补词组,不予切分:打倒 提高 加长 做好 “2十1,1”或“1十2”结构的动补词组一律切分:整理/好 说/清楚 解释/清楚 打/得/倒 提/不/高 偏正结构的词,以及结合紧密的词不予切分:胡闹 瞎说 死记 汉语分词

常见的动词分词规范 复合趋向动词一律为分词单位:出去 进来 当插入“得、不”时应予切分:出/得/去 进/不/来 复合趋向动词一律为分词单位:出去 进来 当插入“得、不”时应予切分:出/得/去 进/不/来 动词与趋向动词结合的词组一律切分:寄/来 跑/出去 多字动词无连词并列,一律切分:调查/研究 宣传/鼓动 汉语分词

主要的分词方法 简单的模式匹配:正向最大匹配、逆向最大匹配法、双向匹配法 基于规则的方法:最少分词算法 基于统计的方法:统计语言模型分词、串频统计和词形匹配相结合的汉语自动分词、无词典分词 汉语分词

正向最大匹配分词(Forward Maximum Matching method, FMM) 基本思想: 设自动分词词典中最长词条所含汉字个数为I; 取被处理材料当前字符串序数中的I个字作为匹配字 段,查找分词词典。若词典中有这样的一个I字词, 则匹配成功,匹配字段作为一个词被切分出来,转 6; 如果词典中找不到这样的一个I字词,则匹配失败; 匹配字段去掉最后一个汉字,I--; 重复2-4,直至切分成功为止; I重新赋初值,转2,直到切分出所有词为止。 汉语分词

分析 “市场/中国/有/企业/才能/发展/” 对交叉歧义和组合歧义没有什么好的解决办法 错误切分率为1/169 往往不单独使用,而是与其它方法配合使用 汉语分词

逆向最大匹配分词(Backward Maximum Matching method, BMM法) 分词过程与FMM方法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字 “市场/中/国有/企业/才能/发展/ 实验表明:逆向最大匹配法比最大匹配法更有效,错误切分率为1/245 汉语分词

双向匹配法(Bi-direction Matching method, BM法) 比较FMM法与BMM法的切分结果,从而决定正确的切分 可以识别出分词中的交叉歧义 汉语分词

最少分词问题 分词结果中含词数最少 等价于在有向图中搜索最短路径问题 汉语分词

最少匹配算法(Fewest Words Matching,FWM) ) 分段 逐段计算最短路径(Dijkstra算法) 得到若干分词结果 统计排歧 发展\中\国家 发展\中国\家 算法复杂性与FMM相当 汉语分词

基于统计的词网格分词 第一步是候选词网格构造:利用词典匹配,列举输入句子所有可能的切分词语,并以词网格形式保存 第二步计算词网格中的每一条路径的权值,权值通过计算图中每一个节点(每一个词)的一元统计概率和节点之间的二元统计概率的相关信息 根据图搜索算法在图中找到一条权值最大的路径,作为最后的分词结果 汉语分词

字串“中华人民共和国”的切分词网格 汉语分词

分析 可利用不同的统计语言模型计算最优路径 具有比较高的分词正确率 算法时间、空间复杂性较高 汉语分词

一种基于N-gram信息的生词获取 基本思想:N元对→词频过滤→互信息过滤→校正→生词获取 词频 互信息(Mutual Information) 词频与互信息的关系 候选生词的校正 汉语分词

一些抽取出的新词(三元组) 汉语分词

一些抽取出的新词(二元组) 汉语分词

人名识别 规则方法:利用语言规则来进行人名识别。优点:识别较准确;缺点:很难列举所有规则,规则之间往往会顾此失彼,产生冲突,系统庞大、复杂,耗费资源多但效率却不高 统计方法:一种是仅从字、词本身来考虑,通过计算字、词作人名用的概率来实现,另一种结合基于统计的汉语词语边界划分来实现。统计方法占用的资源少、速度快、效率高,但准确率较低。其合理性、科学性及所用统计源的可靠性、代表性、合理性难以保证。搜集合理的有代表性的统计源的工作本身也较难。 混合方法:取长补短 汉语分词

一种基于统计和规则的人名识别方法 中文姓名用字特点(82年人口普查结果) 729个姓氏用字 姓氏分布很不均匀,但相对集中 有些姓氏可用作单字词 名字用字分布较姓氏要平缓、分散 名字用字涉及范围广 某些汉字既可用作姓氏,又可用作名字用字 汉语分词

人名识别系统资源 语料库:95、96两年的人民日报语料全集。共约4000万字。 人名库:包含共约31000多个人名。是95、96两年人民日报语料的所有人名的集合。 人名库和语料库的一致性对保证统计数据的准确性至关重要。 汉语分词

人名识别系统知识库 姓氏用字频率库和名字用字频率库:653个单姓氏,15个复姓,1894个名字用字 汉语分词

人名识别系统知识库 名字常用词表 汉语分词 朝阳 劲松 爱国 建国 立新 黎明 宏伟 朝晖 向阳 海燕 爱民 凤山 雪松 新民 剑峰 建军 红旗 光明 汉语分词

人名识别系统知识库 称谓库 三种类型 称谓前缀表:“副”、“总”、“代”、 “代理”、“助理”、“常务”、“名誉”、 “荣誉”等 只能用于姓名之前,如:战士、歌星、演员等; 只能用于姓名之后,如:阁下、之流等; 姓名前后皆可,如:先生、主席、市长等。 称谓前缀表:“副”、“总”、“代”、 “代理”、“助理”、“常务”、“名誉”、 “荣誉”等 汉语分词

人名识别系统知识库 简单上下文 指界词表:约110个词 标点符号集 动词:说、是、指出、认为、表示、参加等; 介词:在、之、的、被、以等; 正在、今天、本人、先后等。 标点符号集 人名出现在句首或句尾(包括分句)的机会比较大,标点符号可用来帮助判断人名的边界。 顿号一边是人名时,另一边的候选人名的可靠性高。 汉语分词

人名识别系统知识库 非名字用词表:有些双字词,如:时间、奖励、纬度等不作名字用词,但因为组成它们的单字可作为名字用字,如果跟在姓氏后面,往往会将其与可作姓氏的字一起误判为姓名。 例: “做\这\件\事\花\了\我们\一\段\时间\。\” 汉语分词

中文人名识别过程 汉语分词

人名识别的具体实现 →姓氏判别 →名字识别 →概率判断 候选字符串为人名的概率为: P = 姓氏部分为姓氏的概率P1 * 余下部分的汉字作名字用字的概率P2*P3(单名时,为P2) 汉语分词

校正(对潜在人名的后处理) 当两个已辨识的人名相似时,需要检查是否要更正 C1C2C3与C1C2C4同时存在,C1C2正确; C1C2C3与C1C2C4同时存在,C1C2C3正确; C1C2C3与C1C2同时存在,C1C2正确; C1C2C3与C1C2同时存在,C1C2C3正确 汉语分词

校正(对潜在人名的后处理) 自动校正: 人工校正 如果两个潜在人名相似,考察它们的权值。 一高一低时,将低权值的潜在人名清除(李文常、 李文); 都为高权值时,两者都认为是人名(刘文军、刘文 俊); 都是低权值时,则各自通过第三个字作名字用字的 概率大小来判断。概率够高,识别为人名。否则将 第三个字去掉(李文常、李文及) 。 人工校正 汉语分词

人名识别结果与分析 实验结果:8个测试样本,共22000多字,共有中文人名270个。系统共识别出中文人名330个,其中267个为真正人名。 召回率=文本中的中文人名辨识正确的比例=267/270*100% =98.89% 准确率=真正辨识正确的人名的比例 =267/330*100% =80.91% 准确率和召回率是互相制约的,可通过概率阈值的调整来调节二者的关系。 汉语分词

人名识别结果与分析 产生错误的主要原因 被未识别的地名干扰。“湖北\英\山\县\詹\家\河\乡 \陶\家\河\村\,\ ” 受非中式人名的干扰。“司\马\义\·\艾\买\提\ ” 分词结果不理想。“为\迎接\香港\回\归\送\贺\礼\” 规则不准确。“南\宋\大\诗人\杨\万\里\“\惊\如\汉 \殿\三\千\女\,\ ” 其他。“全世界\每年\影片\产量\高\达\两\三\千\部 \,\ ” 汉语分词

改进措施 采用更好的分词系统 构建更准确的姓名用字库、指界词库等 识别时结合一些语法、语义知识 采用更合理的大规模人名语料进行训练,使阈值确定得更合理 增加一些校正措施 汉语分词