Presentation is loading. Please wait.

Presentation is loading. Please wait.

汉语分词 汉语分词.

Similar presentations


Presentation on theme: "汉语分词 汉语分词."— Presentation transcript:

1 汉语分词 汉语分词

2 主要内容 分词歧义 分词规范 主要分词方法 生词识别 汉语分词

3 分词的提出和定义 汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题 添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词 汉语分词

4 分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 文语转换 和服 | 务 | 于三日后裁制完毕,并呈送将军府中。
王府饭店的设施 | 和 | 服务 | 是一流的。 如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。 文语转换 他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha) 行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha) 汉语分词

5 分词面临的主要难题 如何面向大规模开放应用是汉语分词研究亟待解决的主要问题 如何识别未登录词 如何低廉地获取语言学知识 词语边界歧义处理
实时性应用中的效率问题 汉语分词

6 分词歧义 交集型切分歧义 组合型切分歧义 汉语分词

7 交集型切分歧义 汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。
[例] “结合成分子” 结合 | 成 分|子 | 结合|成|分子| 结 | 合成 |分子| [例] “美国会通过对台售武法案” [例] “乒乓球拍卖完了” 汉语分词

8 组合型切分歧义 汉字串AB被称作组合型切分歧义,如果满足条件:A、B、AB同时为词 [例]组合型切分歧义:“起身”
他站 | 起 | 身 | 来。 他明天 | 起身 | 去北京。 汉语分词

9 “真歧义”和“伪歧义” 真歧义指存在两种或两种以上的可实现的切分形式,如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义 伪歧义一般只有一种正确的切分形式,如“建设/有”、“中国/人民”、“各/地方”、 “本/地区”等 汉语分词

10 未登录词 虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词 分类:
专有名词:中文人名、地名、机构名称、外国译名、时间词 重叠词:“高高兴兴”、“研究研究” 派生词:“一次性用品” 与领域相关的术语:“互联网” 汉语分词

11 分词规范 词是自然语言的一种客观存在 汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异
汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理 《信息处理用现代汉语分词规范及自动分词方法》:结合紧密、使用频繁 汉语分词

12 具体的分词标准实例 二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素
二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素 四字成语一律为分词单位:胸有成竹 欣欣向荣 四字词或结合紧密、使用稳定的四字词组:社会主义 春夏秋冬 由此可见 五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分: 时间/就/是/生命/ 失败/是/成功/之/母 汉语分词

13 具体的分词标准实例 结合紧密、使用稳定的词组则不予切分:不管三七二十一 惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位:
妇女能顶/半边天/ 他真小气,象个/铁公鸡/ 略语一律为分词单位:科技 奥运会 工农业 分词单位加形成儿化音的“儿” :花儿 悄悄儿 玩儿 汉语分词

14 具体的分词标准实例 阿拉伯数字等,仍保留原有形式:1234 7890 现代汉语中其它语言的汉字音译外来词,不予切分:巧克力 吉普
现代汉语中其它语言的汉字音译外来词,不予切分:巧克力 吉普 不同的语言环境中的同形异构现象,按照具体语言环境的语义进行切分: 把/手/抬起来 这个/把手/是木制的 汉语分词

15 常见的动词分词规范 动词前的否定副词一律单独切分:不/写 不/能 没/研究 未/完成
动词前的否定副词一律单独切分:不/写 不/能 没/研究 未/完成 用肯定加否定的形式表示疑问的动词词组一律切分,不完整的则不予切分:说/没/说 看/不/看 相信/不/相信 动宾结构的词或结合紧密、使用稳定的:开会 跳舞 解决/吃饭/问题 孩子该/念书/了 结合不紧密或有众多与之相同结构词组的动宾词组一律切分:吃/鱼 学/滑冰 写/信 汉语分词

16 常见的动词分词规范 动宾结构的词或词组如中间插入其它成分,则应予切分:吃/两/顿/饭 跳/新疆/舞
动宾结构的词或词组如中间插入其它成分,则应予切分:吃/两/顿/饭 跳/新疆/舞 动补结构的二字词或结合紧密、使用稳定的二字动补词组,不予切分:打倒 提高 加长 做好 “2十1,1”或“1十2”结构的动补词组一律切分:整理/好 说/清楚 解释/清楚 打/得/倒 提/不/高 偏正结构的词,以及结合紧密的词不予切分:胡闹 瞎说 死记 汉语分词

17 常见的动词分词规范 复合趋向动词一律为分词单位:出去 进来 当插入“得、不”时应予切分:出/得/去 进/不/来
复合趋向动词一律为分词单位:出去 进来 当插入“得、不”时应予切分:出/得/去 进/不/来 动词与趋向动词结合的词组一律切分:寄/来 跑/出去 多字动词无连词并列,一律切分:调查/研究 宣传/鼓动 汉语分词

18 主要的分词方法 简单的模式匹配:正向最大匹配、逆向最大匹配法、双向匹配法 基于规则的方法:最少分词算法
基于统计的方法:统计语言模型分词、串频统计和词形匹配相结合的汉语自动分词、无词典分词 汉语分词

19 正向最大匹配分词(Forward Maximum Matching method, FMM)
基本思想: 设自动分词词典中最长词条所含汉字个数为I; 取被处理材料当前字符串序数中的I个字作为匹配字 段,查找分词词典。若词典中有这样的一个I字词, 则匹配成功,匹配字段作为一个词被切分出来,转 6; 如果词典中找不到这样的一个I字词,则匹配失败; 匹配字段去掉最后一个汉字,I--; 重复2-4,直至切分成功为止; I重新赋初值,转2,直到切分出所有词为止。 汉语分词

20 分析 “市场/中国/有/企业/才能/发展/” 对交叉歧义和组合歧义没有什么好的解决办法 错误切分率为1/169
往往不单独使用,而是与其它方法配合使用 汉语分词

21 逆向最大匹配分词(Backward Maximum Matching method, BMM法)
分词过程与FMM方法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字 “市场/中/国有/企业/才能/发展/ 实验表明:逆向最大匹配法比最大匹配法更有效,错误切分率为1/245 汉语分词

22 双向匹配法(Bi-direction Matching method, BM法)
比较FMM法与BMM法的切分结果,从而决定正确的切分 可以识别出分词中的交叉歧义 汉语分词

23 最少分词问题 分词结果中含词数最少 等价于在有向图中搜索最短路径问题 汉语分词

24 最少匹配算法(Fewest Words Matching,FWM) )
分段 逐段计算最短路径(Dijkstra算法) 得到若干分词结果 统计排歧 发展\中\国家 发展\中国\家 算法复杂性与FMM相当 汉语分词

25 基于统计的词网格分词 第一步是候选词网格构造:利用词典匹配,列举输入句子所有可能的切分词语,并以词网格形式保存
第二步计算词网格中的每一条路径的权值,权值通过计算图中每一个节点(每一个词)的一元统计概率和节点之间的二元统计概率的相关信息 根据图搜索算法在图中找到一条权值最大的路径,作为最后的分词结果 汉语分词

26 字串“中华人民共和国”的切分词网格 汉语分词

27 分析 可利用不同的统计语言模型计算最优路径 具有比较高的分词正确率 算法时间、空间复杂性较高 汉语分词

28 一种基于N-gram信息的生词获取 基本思想:N元对→词频过滤→互信息过滤→校正→生词获取 词频
互信息(Mutual Information) 词频与互信息的关系 候选生词的校正 汉语分词

29 一些抽取出的新词(三元组) 汉语分词

30 一些抽取出的新词(二元组) 汉语分词

31 人名识别 规则方法:利用语言规则来进行人名识别。优点:识别较准确;缺点:很难列举所有规则,规则之间往往会顾此失彼,产生冲突,系统庞大、复杂,耗费资源多但效率却不高 统计方法:一种是仅从字、词本身来考虑,通过计算字、词作人名用的概率来实现,另一种结合基于统计的汉语词语边界划分来实现。统计方法占用的资源少、速度快、效率高,但准确率较低。其合理性、科学性及所用统计源的可靠性、代表性、合理性难以保证。搜集合理的有代表性的统计源的工作本身也较难。 混合方法:取长补短 汉语分词

32 一种基于统计和规则的人名识别方法 中文姓名用字特点(82年人口普查结果) 729个姓氏用字 姓氏分布很不均匀,但相对集中
有些姓氏可用作单字词 名字用字分布较姓氏要平缓、分散 名字用字涉及范围广 某些汉字既可用作姓氏,又可用作名字用字 汉语分词

33 人名识别系统资源 语料库:95、96两年的人民日报语料全集。共约4000万字。
人名库:包含共约31000多个人名。是95、96两年人民日报语料的所有人名的集合。 人名库和语料库的一致性对保证统计数据的准确性至关重要。 汉语分词

34 人名识别系统知识库 姓氏用字频率库和名字用字频率库:653个单姓氏,15个复姓,1894个名字用字 汉语分词

35 人名识别系统知识库 名字常用词表 汉语分词 朝阳 劲松 爱国 建国 立新 黎明 宏伟 朝晖 向阳 海燕 爱民 凤山 雪松 新民 剑峰 建军
红旗 光明 汉语分词

36 人名识别系统知识库 称谓库 三种类型 称谓前缀表:“副”、“总”、“代”、 “代理”、“助理”、“常务”、“名誉”、 “荣誉”等
只能用于姓名之前,如:战士、歌星、演员等; 只能用于姓名之后,如:阁下、之流等; 姓名前后皆可,如:先生、主席、市长等。 称谓前缀表:“副”、“总”、“代”、 “代理”、“助理”、“常务”、“名誉”、 “荣誉”等 汉语分词

37 人名识别系统知识库 简单上下文 指界词表:约110个词 标点符号集 动词:说、是、指出、认为、表示、参加等; 介词:在、之、的、被、以等;
正在、今天、本人、先后等。 标点符号集 人名出现在句首或句尾(包括分句)的机会比较大,标点符号可用来帮助判断人名的边界。 顿号一边是人名时,另一边的候选人名的可靠性高。 汉语分词

38 人名识别系统知识库 非名字用词表:有些双字词,如:时间、奖励、纬度等不作名字用词,但因为组成它们的单字可作为名字用字,如果跟在姓氏后面,往往会将其与可作姓氏的字一起误判为姓名。 例: “做\这\件\事\花\了\我们\一\段\时间\。\” 汉语分词

39 中文人名识别过程 汉语分词

40 人名识别的具体实现 →姓氏判别 →名字识别 →概率判断 候选字符串为人名的概率为: P = 姓氏部分为姓氏的概率P1 *
余下部分的汉字作名字用字的概率P2*P3(单名时,为P2) 汉语分词

41 校正(对潜在人名的后处理) 当两个已辨识的人名相似时,需要检查是否要更正 C1C2C3与C1C2C4同时存在,C1C2正确;
C1C2C3与C1C2C4同时存在,C1C2C3正确; C1C2C3与C1C2同时存在,C1C2正确; C1C2C3与C1C2同时存在,C1C2C3正确 汉语分词

42 校正(对潜在人名的后处理) 自动校正: 人工校正 如果两个潜在人名相似,考察它们的权值。
一高一低时,将低权值的潜在人名清除(李文常、 李文); 都为高权值时,两者都认为是人名(刘文军、刘文 俊); 都是低权值时,则各自通过第三个字作名字用字的 概率大小来判断。概率够高,识别为人名。否则将 第三个字去掉(李文常、李文及) 。 人工校正 汉语分词

43 人名识别结果与分析 实验结果:8个测试样本,共22000多字,共有中文人名270个。系统共识别出中文人名330个,其中267个为真正人名。
召回率=文本中的中文人名辨识正确的比例=267/270*100% =98.89% 准确率=真正辨识正确的人名的比例 =267/330*100% =80.91% 准确率和召回率是互相制约的,可通过概率阈值的调整来调节二者的关系。 汉语分词

44 人名识别结果与分析 产生错误的主要原因 被未识别的地名干扰。“湖北\英\山\县\詹\家\河\乡 \陶\家\河\村\,\ ”
受非中式人名的干扰。“司\马\义\·\艾\买\提\ ” 分词结果不理想。“为\迎接\香港\回\归\送\贺\礼\” 规则不准确。“南\宋\大\诗人\杨\万\里\“\惊\如\汉 \殿\三\千\女\,\ ” 其他。“全世界\每年\影片\产量\高\达\两\三\千\部 \,\ ” 汉语分词

45 改进措施 采用更好的分词系统 构建更准确的姓名用字库、指界词库等 识别时结合一些语法、语义知识
采用更合理的大规模人名语料进行训练,使阈值确定得更合理 增加一些校正措施 汉语分词


Download ppt "汉语分词 汉语分词."

Similar presentations


Ads by Google