自然语言处理 第07章 汉语自动分词 软件学院 陈鄞.

Slides:



Advertisements
Similar presentations
早期療育社工的 角色、內涵與家庭服務 實務分享.  由社會福利、衛生、教育等專業人員以團隊 合作模式,依未滿六歲之發展遲緩兒童及其 家庭知個別需求,提供必要之治療、教育、 諮詢、轉介、安置與其他服務及照顧。
Advertisements

商管群科科主任 盧錦春 年 3 月份初階建置、 4 月份進階建置、 5 月份試賣與對外營業。
第七章 获利能力分析. 第一节 获利能力分析概述 获利能力的内涵 获利能力(盈利能力)是指企业获取利润的能力。 评价方法: ①利润与销售收入之间的比率 ②利润与资产之间的比率.
退休規劃之應用與實例討論退休規劃之應用與實例討論 誠心誠意 從聽做起. 長壽的趨勢 有人說生是偶然、意外也是偶然 但是老是必然 ……….. 您同意嗎 ? 又有人說老一點都不可怕,病也不可怕 老又病也不可怕 但是 …… 又老又病又沒錢才可怕 所以一定要規劃退休養老、投資理財.
103上語音專題第二階段題目.
幾米 作業 1 飛上天空 我想飛上天空 遨遊在無際的天空 美麗的天空 漂亮的天空 這終究只是夢…… (李高仰)
必修2 第一单元 古代中国经济的基本结构和特点
科学平衡的饮食成就健康人生 健康的概念:健康是指一个人在身体、精神和社会等方面都处于良好的状态.
学习全国“两会”精神 常州工学院  理学院党总支 2014年3月.
乘势而上再谱发展新篇章 -2012全国两会精神解读
开启新征程 点燃中国梦 开启新征程 点燃中国梦 ——学习、领会2013年全国“两会”精神.
人生格言: 天道酬勤 学院:自动化与电气工程学院 班级: 自师1201 姓名:刘 威.
行政法 之 行政救济篇.
目录 关于我们 产品介绍 极致服务 大闸蟹知识. 目录 关于我们 产品介绍 极致服务 大闸蟹知识.
第五单元 社会生活的变迁 第1课时 衡量变化的尺子 ——— 时间和纪年 新围初中 王济洪.
市场营销类流程化系列教材 市场营销综合实训 主编:渤海大学 单凤儒 教授 科学出版社.
2011年10月31日是一个令人警醒的日子,世界在10月31日迎来第70亿人口。当日凌晨,成为象征性的全球第70亿名成员之一的婴儿在菲律宾降生。 ?
《普通高中课程方案(实验)》 解读.
各位弟兄姐妹,主內平安! 請將手機關靜音,帶著敬虔的心來到上帝的面前!
第一节 呼吸道对空气的处理.
十面“霾”伏 湖南长沙民政职业技术学院“思政”第九组 组员:李亮亮 许静 赵凯丽 何敏 张艳欣 付幻菱 陈京萍 王诗雨.
初级会计实务 第八章 产品成本核算 主讲人:杨菠.
社会保险计划 私人经营社会保障的可能性 联邦健康保险制度系统的资金融通仍是一个亟待解决的问题 医疗费用的风险是一个基本风险吗?
第二课 战国时期的 百家争鸣 呼伦贝尔学院附属中学:司顺英.
如何对付脏空气.
第三节 神经调节和体液调节的关系.
中考阅读 复习备考交流 西安铁一中分校 向连吾.
第八課 蓼莪.
教師執行計畫案聘任助理說明會 (勞務型、學習型申請方式說明)
岳阳市教学竞赛课件 勾股定理 授课者 赵真金.
水腫的原因 徐淑娟護理師 PM.
中国未成年人法制安全课程 雾霾哪里来? 初中段 第七讲.
第二讲 环境污染及其防治、环境管理.
“深入推进依法行政加快建设法治政府” -《法治政府建设实施纲要》解读
中央广播电视大学开放教育 成本会计(补修)期末复习
人教版义务教育课程标准实验教科书 小学数学四年级上册第七单元《数学广角》 合理安排时间 248.
第六节 可降阶的二阶微分方程 一、 型的微分方程 二、 型的微分方程 三、 型的微分方程.
第三单元 发展社会主义民主政治.
3.3 资源的跨区域调配 ——以南水北调为例 铜山中学 李启强.
温 馨 提 示 感谢您从“河姆渡教师教育网”下载使用该PPT文件,仅供学习参考,未经作者同意勿在公开场合使用,谢谢合作!
上海交通大学 概率论第一、二章测验题 大学数学教研室 童品苗.
走自立自强之路 自己的事情自己做.
中考语文积累 永宁县教研室 步正军 2015.9.
一、活动目的 1、在奔腾B50上市一周年之际,邀请新老客户到店,共同庆祝奔腾B50周岁生日,借此增加展厅集客量,积极挖掘有价值的潜在用户群体;
人類的循環系統.
天气和气候.
小学数学知识讲座 应用题.
勾股定理 说课人:钱丹.
倒装句之其他句式.
何俊賢教學資料.
十二生肖的故事.
第 22 课 孙中山的民主追求 1 .近代变法救国主张的失败教训: “师夷之长技以制 夷”“中体西用”、兴办洋务、变法维新等的失败,使孙中山
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
1 Introduction Prof. Lin-Shan Lee.
人教版数学四年级(下) 乘法分配律 单击页面即可演示.
最大熵模型简介 A Simple Introduction to the Maximum Entropy Models
1 Introduction Prof. Lin-Shan Lee.
2016台中市不動產高峰論壇 房地合一稅與房市政策 德明財經科技大學 花敬群
隐马尔可夫模型简介 X1 X2 XT ………… O1 O2 OT 刘群
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
美丽的旋转.
外國學生漢字學習的認知與策略整理 兼談漢字教學的建議
第6课 我是共和国的公民.
畢氏定理(百牛大祭)的故事 張美玲 製作 資料來源:探索數學的故事(凡異出版社).
阶段性词汇训练3 上海海事大学信息工程学院.
地点识别调研 施林锋.
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
102年人事預算編列說明 邁向頂尖大學辦公室製作.
Some discussions on Entity Identification
Presentation transcript:

自然语言处理 第07章 汉语自动分词 软件学院 陈鄞

引言 什么是汉语自动分词 汉语分词的实现途径 用空格或其它标记把词跟词分开 词是语言中能自由运用的基本单位 中文信息处理中必不可少的第一道工序 汉语分词的实现途径 人工分词 工作量大、难以处理大规模语料 计算机自动分词 速度快、一致性好、一般来说正确率比人工分词低

汉语自动分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索

汉语自动分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索

汉语自动分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 “华人”与“中华人民共和国”

汉语自动分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 机器翻译

汉语自动分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 机器翻译

汉语自动分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 机器翻译 文语转换(Text-to-Speech Conversion) 他们是来 | 查 | 金泰 | 撞人那件事的。(cha) 行侠仗义的 | 查金泰 | 远近闻名。(zha) 学校/校对 重量/重新

汉语自动分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 机器翻译 文语转换(Text-to-Speech Conversion) 汉字输入(同音字) yi {以、一、易、已、意、……} {以为、一定、容易、已经、意义、……}

汉语自动分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 机器翻译 文语转换(Text-to-Speech Conversion) 汉字输入(同音字) 汉字的简体/繁体转换 迅速发展的计算机技术。 迅速發展的電腦技術。 她有一头黑亮的头发。 她有一頭黑亮的頭髮。

汉语自动分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 机器翻译 文语转换(Text-to-Speech Conversion) 汉字输入(同音字) 汉字的简体/繁体转换 文本编辑器的自动选词 …… 汉语自动分词是手段而不是目的,任何分词系统产生的结果都是为某个具体的应用服务的

典型的自动分词系统 CDWS分词系统 ABWS CASS 书面汉语自动分词专家系统 是我国第一个实用的自动分词系统, 由北京航空航天大学计算机系于1983年设计实现, ABWS 山西大学计算机系 CASS 北京航空航天大学,1988年 书面汉语自动分词专家系统 北京师范大学现代教育研究所,1991年

清华大学 国家语委文字所 复旦大学 哈工大 杭州大学 Microsoft Research 北大计算语言所 ……

本章内容 7.1 汉语自动分词中的基本问题 7.2 基本分词方法 7.3 中文姓名识别 7.4 汉语自动分词系统的评价

7.1 汉语自动分词中的基本问题 7.1.1 分词标准 无论是人工分词还是计算机自动分词,都需要有一个标准或规范,以说明怎样分词才是正确的

分词规范与词表 “词”这个概念一直是汉语语言学界纠缠不清而又挥之不去的问题 主要困难出自两个方面 “词是什么”(词的抽象定义) “什么是词”(词的具体界定) 主要困难出自两个方面 单字词vs.词素 词vs.短语 关于汉语“词”的认识,普通人和语言学家的标准也有较大的差异 《信息处理用现代汉语分词规范(国家标准)》 1987年制定,1988年通过专家审定 从信息处理的实际需要出发,根据现代汉语的特点和规律 确定了现代汉语的分词原则 制订了一系列具体规则

分词原则 空格或标点符号是计算机中分词单位的分隔标记 二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位 发展 可爱 红旗 发展   可爱  红旗 对不起  自行车   青霉素     四字成语一律为分词单位 胸有成竹 欣欣向荣 四字词或结合紧密、使用稳定的四字词组,一律为分词单位 社会主义  春夏秋冬  由此可见 五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分 时间 / 就 / 是 / 生命  失败 / 是 / 成功 / 之 / 母 人 / 心 / 齐 / , / 泰山 / 移 何谓“紧密”?何谓“稳定”?人们在实际操作中都很难界定 迄今拿不出一个公认的、具有权威性的词表来

具体规则 举例 时间名词或词组的分词规则 一年的十二个月份以及每周的七天,一律为分词单位。 五月 元月 3月 星期日 礼拜三 五月  元月  3月  星期日  礼拜三 “年、日、时、分、秒”分别为分词单位。 1988/年 15/日 11/时/42/分/8/秒 “前、后、上、下、大前、大后”等直接与时间名词或量词组合时,它们为一个分词单位。 前天  后年  上星期  下月  大前天  大后年 “初”加十以内的数字一律为分词单位。 初一   初二

不同应用对词的切分规范要求不同 校对系统 将含有易错字的词和词组作为词单位 “敢做”、“敢作敢为”、 “叫做”、“做出”、“看作”、“做为”、……

不同应用对词的切分规范要求不同 校对系统 简繁转换系统 “干”的繁体形式有“乾”和“幹 “幹部”、“幹事”、…… “乾净”、“乾燥”、…… 20

不同应用对词的切分规范要求不同 校对系统 简繁转换系统 语音合成系统 语音合成系统收集多音字所组成的词和词组作为分词单位 "补给"、"给水" 21

分词单位的粒度大小需要考虑到查全率和查准率的矛盾 不同应用对词的切分规范要求不同 校对系统 简繁转换系统 语音合成系统 检索系统 注重术语和专名 倾向于分词单位较小化 “并行计算机”→"并行/计算机" “计算语言学” → “计算/语言学” 分词单位的粒度大小需要考虑到查全率和查准率的矛盾 22

词表 自动分词一般都需要有一个词表,分词时主要根据这个词表来决定一个字符串是不是一个分词单位 《规范》中许多规定可以而且应该落实在词表中 “惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位” “白菜”和“小媳妇”应该收入词表(其中的“白”和“小”有转义) “白花”和“小床”不应该收入词表 “半边天”、“铁公鸡”、…… “略语一律为分词单位” 科技 奥运会 工农业 “音译外来词,不予切分” 巧克力 吉普

7.1.2 切分歧义 切分歧义的基本类型 交集型歧义切分 组合型歧义切分

交集型歧义切分 定义 举例 “美国会通过对台售武法案” “乒乓球拍卖完了” 一个汉字串包含A、B、C三个子串,AB和BC都是词,到底应该切成AB/C还是切成A/BC 举例 “使用户” 使用/户 使/用户 “美国会通过对台售武法案” 美国/会/通过/对/台/售/武/法案 美/国会/通过/对/台/售/武/法案 “乒乓球拍卖完了” 乒乓球/拍卖/完/了 乒乓球拍/卖/完/了

统计工作 语料 词库 结果 来源:网络 领域:新闻 规模:510万字 规模:77000词条 交集型歧义字段:2.4万条,7.8万余次 平均1.6次/100字 链长 所占比例 2 95.41% 3 3.11% 4~8 1.5%

组合型歧义切分 定义 举例 包含至少两个汉字的汉字串,它本身是词,切开来也分别是词 马上 他/从/马/上/跳/下/来 我/马上/就/来 将来 他/将/来/我/校/参观 将来/我/校/会/有/很/大/的/发展 个人 屋子/里/只/有/一/个/人 这/是/我/个人/的/意见

如果不利用句法以及更高层面上的知识,组合型歧义切分是很难解决的 若是在词处理的相应阶段, 结合对分词阶段未解决的歧义字段进行处理, 则会起到事半功倍的效果。 统计表明,组合型歧义字段只占整个歧义字段总数的1/30 以下, 因此不必在分词阶段花费巨大的开销来处理它们。

混合型歧义切分 例 从目前接触到的语言事实来看,都是交集型字段内包含组合型字段 (1)这篇文章写得太平淡了。 (2)这墙抹得太平了。 (3)即使太平时期也不应该放松警惕 从目前接触到的语言事实来看,都是交集型字段内包含组合型字段

“真歧义”和“伪歧义” 真歧义 伪歧义 存在两种或两种以上的可实现的切分形式 一般只有一种正确的切分形式, “必须/加强/企业/中/国有/资产/的/管理/” “中国/有/能力/解决/香港/问题/” 伪歧义 一般只有一种正确的切分形式, “充分/发挥” “情不自禁/地” “中国/人民”、 “建设/有”、 “各/地方”、 “本/地区” ……

7.1.3 未登录词 汉语未登录词的种类 专有名词 中国人名 外国译名 地名:“北京市经济技术开发区” 组织机构名称:“山东省滕州市星光电脑机械研究所” ……

7.1.3 未登录词 汉语未登录词的种类 专有名词 实体名词 数字、日期、时间、货币、百分数、 温度、长度、面积、体积、重量、 地址、电话号码、传真号码、电子邮件地址、……

7.1.3 未登录词 汉语未登录词的种类 专有名词 实体名词 衍生词 重叠形式 动词 形容词 数量词 打牌、打打牌 散步、散散步 高兴、高高兴兴 忙碌、忙忙碌碌 数量词 一个、一个个 一堆、一堆堆

7.1.3 未登录词 汉语未登录词的种类 专有名词 实体名词 衍生词 重叠形式 派生词 前缀派生 后缀派生 中缀派生 “非党员”、“非教师”、“非工人” 后缀派生 “成功者” 、“开发者”、“开发中国第一个操作系统软件者” 中缀派生 看见、看得见、看不见、看没看见 相信、相不相信 洗澡、洗了澡、洗过澡

7.1.3 未登录词 汉语未登录词的种类 专有名词 实体名词 衍生词 重叠形式 派生词 离合词 打架、打了一场架 睡觉、睡了一个觉

7.1.3 未登录词 汉语未登录词的种类 专有名词 实体名词 衍生词 新词(普通词汇或专业术语) 超女、恶搞、博客、禽流感、…… 命名实体 (named entity)

为什么要进行未登录词识别? NER的处理效果直接影响到信息抽取、信息检索、机器翻译和文摘自动生成等应用系统的性能。 各种汉语处理系统都需要使用词频等信息, 如果自动分词中对未登录词识别不对,统计到的信息就会有很大误差。 比如,一个分词系统若不做中外人名识别,分词后进行词频统计,可能会发现“张”、“王”、“李”、“刘”、“尔”、“斯”的频率比“却”、“如”、“你”的频率还要高,用这样的统计结果做汉语处理,其效果肯定有问题。 又比如校对系统,如果系统不具备生词识别能力,就无法判断句子中大部分词的使用是否合理,也就不能检查真正的错误所在。

Named Entity Recognition (NER) The uses: Named entities can be indexed, linked off, etc. Sentiment can be attributed to companies or products A lot of IE relations are associations between named entities For question answering, answers are often named entities. Concretely: Many web pages tag various entities, with links to bio or topic pages, etc. Reuters’ OpenCalais, Evri, AlchemyAPI, Yahoo’s Term Extraction, … Apple/Google/Microsoft/… smart recognizers for document content

汉语未登录词识别的困难 长度不定 人名 地名、机构名 中国人名:二字、三字、四字、单字 外国人名(译名) “大不列颠及北爱尔兰联合王国外交和英联邦事务大臣、议会议员杰克·斯特劳阁下在联合国安理会就伊拉克问题发言。” “他还兼任何应钦在福州办的东陆军军官学校的政治教官。”

汉语未登录词识别的困难 长度不定 很多未登录词都是由普通词汇构成的 姓氏:于(介词)、张(量词)、江(名词)、…… 名字:建国、国庆、胜利、文革、…… “山东省滕州市星光电脑机械研究所”

汉语未登录词识别的困难 长度不定 很多未登录词都是由普通词汇构成的 嵌套问题 地名中嵌套人名和其它地名 机构名中嵌套人名、地名和其它机构名 茅盾故居纪念馆 北京市经济技术开发区 机构名中嵌套人名、地名和其它机构名 富士通(中国)有限公司 宋庆龄基金会

汉语未登录词识别的困难 长度不定 很多未登录词都是由普通词汇构成的 嵌套问题 专有名词的首词和尾词可能与上下文中的其它词汇存在交集型歧义切分 例1:他还兼任何应钦在福州办的东陆军军官学校的政治教官。 例2:林徽因此时已离开了那里。 例3:赵微笑着走了。 例4:南京市长江大桥。

新词的识别 基于统计的方法 在大规模语料库的支持下,先由机器根据某种算法自动生成一张候选词表(无监督的机器学习策略),由人工筛选出其中的新词并补充到词表中。 互信息 四分联立表 A B C D w2 ~w2 w1 ~w1

NER Three standard approaches Hand-written regular expressions Perhaps stacked

NER Three standard approaches Hand-written regular expressions Perhaps stacked Using classifiers Generative: Naïve Bayes Discriminative: Maxent models Decision Tree Error-driven Learning Sequence models HMMs CMMs/MEMMs CRFs

提纲 7.1 汉语自动分词中的基本问题 7.2 基本分词方法 7.3 中文姓名识别 7.4 汉语自动分词系统的评价

7.2 基本分词方法 最大匹配法 最少分词法(最短路径法) 最大概率法(最短加权路径法) 与词性标注相结合的分词方法 基于互现信息的分词方法 基于字分类的分词方法 基于实例的汉语分词方法

7.2.1 最大匹配法 匹配 最大匹配 分词过程中用文本中的候选词去跟词表中的词匹配 匹配成功,则认为候选词是词,予以切分。否则就认为不是词 尽可能地用最长的词来匹配句子中的汉字串 “社会”和“社会主义” 切出来的词尽可能长,词数尽可能少 问题 “他从马上跳下来”

算法示例 “时间就是生命” 步骤 s1 s2 w 1 时间就是生命 null 时间就是 2 时间就是生命 null 时间就 4 就是生命 时间/ 5 就是生命 时间/ 就是生命 6 就是生命 时间/ 就是生 7 就是生命 时间/ 就是 8 就是生命 时间/ 就 9 是生命 时间/就/ 10 是生命 时间/就/ 是生命 11 是生命 时间/就/ 是生 12 是生命 时间/就/ 是 13 生命 时间/就/是/ 14 生命 时间/就/是/ 生命 15 null 时间/就/是/生命/

算法描述 两重循环 外循环 从输入串s1中复制候选词w, w尽可能长,是为了进行“最大匹配” 开始 s1待切分的汉字串 清空已切分的汉字串s2 s1空? 结束 Y N w从 s1左边取MWL个字 词表中查到w? |w|==1? s2+=w/ 从s1左边去掉w 去掉w中最后一个字 两重循环 外循环 从输入串s1中复制候选词w, w尽可能长,是为了进行“最大匹配” 只要每次都能切掉s1左边的若干个字,就一定能够经过有限次操作,使输入串变为空串 内循环 用w去匹配词表中的词 最好的情况是一次就匹配成功 最坏的情况是每次匹配均不成功,这时为了使输入串变短,就把剩下的一个汉字看作是词,不管它能否在词表中匹配上

性能分析 优点: 缺点: 程序简单易行,开发周期短; 仅需要很少的语言资源(词表),不需要任何词法、句法、语义资源; 消解切分歧义的能力差; 例:“使用户满意” 切分正确率不高,一般在95%左右。

逆向扫描 正向扫描 逆向扫描 每次从汉字串左边取一个候选词,候选词不止一个汉字而且在词表中查不到时,将它的最后面的一个汉字去掉 每次从汉字串右边取一个候选词,候选词不止一个汉字而且在词表中查不到时,将它的最前面的一个汉字去掉

逆向扫描举例 “使用户满意” 步骤 s1 s2 w 1 使用户满意 null 用户满意 2 使用户满意 null 户满意 4 使用户 /满意 5 使用户 /满意 使用户 6 使用户 /满意 用户 7 使 /用户/满意 8 使 /用户/满意 使 9 null /使/用户/满意

正向扫描与逆向扫描 歧义切分的发现 双向最大匹配法存在着切分歧义检测盲区 对同一个汉字串分别进行正向和逆向两次扫描,如果切分结果不一样,则认为有切分歧义,采取某种措施来处理 双向最大匹配法存在着切分歧义检测盲区 “结合成分子时” “结合/成分/子时” 源句子 正向扫描 逆向扫描 使用户满意 使用 / 户 / 满意× 使 / 用户 / 满意√ 需求和规格说明 需求 / 和 / 规格 / 说明√ 需 / 求和 / 规格 / 说明×

7.2.2 最少分词法 基本思想 分词结果中含词数最少 等价于在有向图中搜索最短路径问题 提高 生活 人民 水平 提 高 生 活 水 平 人 1 3 4 提 高 2 生 3 活 水 4 平 1 人 2 民 高人 民生 活水 提 提高 高 高人 人 人民 民 民生 生 生活 平 1 活 活水 水 水平 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

动态规划技术 在实际应用中,人们通常不仅仅只需要算出最短路径,还需要得到可能的路径中前N个最短路径 逐段计算最佳子路径 每增加一个词,都把它跟前面计算的最短路径连接起来,到最后一段时,只要看看作为终点的词谁的累积距离最小即可 前趋词:把wi称为wi+1的前趋词 最佳前趋词:累积距离最小的前趋词 在实际应用中,人们通常不仅仅只需要算出最短路径,还需要得到可能的路径中前N个最短路径 为了实现这一点,通常存储一个节点的N个最短的先前节点

N-最短路径法 例:“他说的确实在理” (N=3)

他/说/的/确实/在理 他/说/的确/实/在理 他/说/的确/实在/理 3 的 确实 他 说 1 2 5.1 在理 实 7 的确 4.1 1 2 5.1 在理 实 7 的确 4.1 6.1 理 实在 最大匹配法切分结果

性能分析 缺点: 随着字符串长度n和最短路径数N的增大,长度相同的路径数急剧增加 最短路径有多条时,选择最终的输出结果缺乏应有的标准。 “江泽民在北京人民大会堂会见参加全国法院工作会议和全国法院系统打击经济犯罪先进集体表彰大会代表时要求大家充分认识打击经济犯罪工作的艰巨性和长期性” N=2时,粗分结果138种 最短路径有多条时,选择最终的输出结果缺乏应有的标准。 以上两种方法都无法解决分词阶段的两大基本问题

7.2.3 最大概率法 自动分词的统计模型 根据信源-信道(Source-channel)模型,认为词串经过信道传送,由于噪声干扰而丢失了词界标记,到输出端便成了一个汉字串 自动分词就是已知一个汉字串,求跟它对应的、有最大概率的词串 概率最大的词串,便是最佳的词串

P(W)的计算——n元语法 n元语法 二元语法 一元语法 当前符号的出现概率只跟前面出现的n-1个符号有关 根据词表把输入串中的所有可能的词都找出来,然后把所有可能的切分路径(词串)都找出来,并且从这些路径找出一条最佳(即概率最大的)路径作为输出结果 考虑到词表可能不够完备,为了保证至少有一种输出结果,应该把每个汉字都作为候选词:能在词表中找到,就使用它的概率,否则就给它一个很小的概率 “鸬鹚”

将概率转化为“费用” 问题的提出 因为每个词的概率都是一个很小的正数(小于1),如果汉字串较长,最后得到各种可能的词串的概率都接近于0,无法在机器上表示出来,当然也就无法比较大小 解决办法 求每词概率的对数之和,把乘法变成加法 概率越高则费用越低 选择费用最小的词串

最佳路径的搜索 “结合成分子时” 词 费用 1 结 3.573 2 结合 3.543 3 合 3.518 4 合成 4.194 5 成 2.800 6 成分 3.908 7 分 2.862 8 分子 3.465 9 子 3.304 10 子时 6.000 11 时 2.478 结 结合 合 合成 成 成分 分 分子 子 子时 13 5 7 时 8 10 2 3 4 6 9 11 12 1

1 2 3 4 5 6 7 8 9 10 11 词 结 结合 合 合成 成 成分 分 分子 子 子时 时 费用 3.573 3.543 3.518 4.194 2.800 3.908 2.862 3.465 3.304 6.000 2.478 合成 4.194 分子 3.465 结 3.573 合 3.518 成 2.800 分 2.862 子 3.304 时 2.478 3.573 3.543 6.343 7.451 9.808 12.286 结合 3.543 成分 3.908 子时 6.000

算法 算法 “结合成分子时” 结合/成/分子/时 按其在句子中的出现顺序列出全部候选词 计算每个候选词的费用 找出它的最佳前趋词 计算它的累积费用(最佳前趋词的累积费用+当前词的费用) 如果当前词是终点词,且累积费用最小,则以它为终点词的路径是最小费用路径,通过最佳前趋词的连接可以输出这条路径上的各个词 “结合成分子时” 结合/成/分子/时 词 费用 前趋词 最佳前趋词 累积费用 结 3.573 Null 0+3.573=3.573 结合 3.543 0+3.543=3.543 合 3.518 3.573+3.518=7.091 合成 4.194 3.573+4.194=7.767 成 2.800 合、结合 3.543+2.800=6.343 成分 3.908 3.543+3.908=7.451 分 2.862 成、合成 6.343+2.862=9.205 分子 3.465 6.343+3.465=9.808 子 3.304 分、成分 7.451+3.304=10.755 子时 6.000 7.451+6.000=13.451 时 2.478 子、分子 9.808+2.478=12.286

最大概率法——性能分析 优点 可以发现所有的切分歧义 缺点 很大程度上取决于统计语言模型的精度和决策算法 需要大量的标注语料

7.2.4 与词性标注相结合的分词方法 例:“他俩儿谈恋爱是从头年元月开始的。” .… 是 │ 从头 │ 年 │ 元月 │ … .… 是 │ 从头 │ 年 │ 元月 │ … 动词 副词 时间量词 时间词 .… 是 │ 从 │ 头年 │ 元月 │ … 动词 介词 时间词 时间词 即使 P(“从头”)×P(“年”) >P(“从”) ×P(“头年”) 但是 P(“动词+副词+时间量词+时间词”) <<P(“动词+介词+ 时间词 +时间词”) , 所以选择后一种切分结果。

基本思想 将自动分词和基于Markov链的词性自动标注技术结合起来,利用从人工标注语料库中提取出的词性二元统计规律来消解切分歧义 将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

7.2.5 基于互现信息的分词方法 基本思想 性能 从形式上看,词是稳定的字的组合。因此,相邻的字同时出现的次数越多,就越有可能构成一个词 优点 不需要词典 缺点 经常会抽出一些共现频度高、但并不是词的常用字组 “这一”、“之一”、“我的”、“许多的”、 对常用词的识别精度差 时空开销大

7.2.6 基于字分类的分词方法 基本思想 例 将分词过程看作是字的分类问题 每个字有4种词位 词首(B) 词中(M) 词尾(E) 单独成词(S) 例 上海/ 计划/ 到/ 本/ 世纪/ 末/ 实现/ 人均/ 国内/ 生产/ 总值/ 五千美元/ 。 / 上 海 计 划 到 本 世 纪 末 实 现 人 均 国 内 生 产 总 值 五 千 美 元 。 B E B E S S B E S B E B E B E B E B E B M M E S

性能分析 没有显式地考虑词表知识 大大简化了分词系统的设计

7.2.7 基于实例的汉语分词方法 基本思想 实现过程 在训练语料中已经存在的事先切分好的汉字串为以后输入的待切分句子提供可靠的实例 根据输入句子和训练语料,找到所有切分片段的实例和可能的词汇 依据某些优化原则和概率信息寻求最优次序列

各种分词方法对语言学资源的利用 序号 分词方法 词典 语料库 1 最大匹配法 √ 2 最少分词法(最短路径法) 3 最大概率法(最短加权路径法) 4 与词性标注相结合的分词方法 5 基于互现信息的分词方法 6 基于字分类的分词方法

提纲 7.1 汉语自动分词中的基本问题 7.2 基本分词方法 7.3 中文姓名识别 7.4 汉语自动分词系统的评价

7.3 中文人名识别 中文人名识别过程 我看陈袁沁是个好学生 陈袁 陈袁沁 袁沁 我/看/陈/袁/沁/是/个/好/学生

中文姓名识别方法 基于规则的方法 利用语言规则来进行人名识别 基于统计的方法 仅从字、词本身来考虑,通过计算字、词作人名用的概率来实现

7.3.1 基于规则的方法 郑家恒(1993)将姓氏用字分为4类 类别 举例 1 只能或几乎总是用作姓氏的字 陈、丁、邓、蒋、…… 2 偶然用作姓氏的字 曾、都、向、于 3 机会几乎相等 马、黄、张、…… 4 待定,因语料规模有限而难以归入前三类的 任、房、方、……

识别姓氏的规则 准确率:85%(10万字语料测试) 条件 结果 举例 1 “老/小”+姓氏用字 是 小王、老李 2 姓氏用字+ “工/总” 张工、陈总 称谓 3 数词+可作量词的姓氏用字 否 一周、第七章 词性(数词) 4 “多/各”+”方/项/章/段”等 多方筹备、各项准备 5 只能或几乎总是用作姓氏的字+双字词 罗胜利、陈建国 6 只能或几乎总是用作姓氏的字X+单字Z + “的/了/是/动词” XZ 瑞金医院的陈柯、 主治医师毛羽说、 常委乔石今天上午 停用字 7 只能或几乎总是用作姓氏的字X+单字Z1 + ~“的/了/是/在/动词”的单字Z2 是XZ1Z2 顾筑胜、吴俊洲

姓氏用字分类是人们根据语感对于汉字用作姓氏的概率的主观估计 根据语料库统计来估计汉字用作姓氏的概率 人名在一般语料库中出现的概率是1%(以词为单位计算) 要可靠地估计姓名用字的概率,至少需要10万个姓名 语料库规模1000万词,正确标注出每个人名

基于限制性成分的方法——宋柔(1993) 识别方法 首次提到一个人名时,通常在其前后加一些限制性成分(定义性出现) 再次提到此人时,便可不加限制性成分而只提其名(使用性出现) 识别方法 找出候选人名 利用人名前后的一些限制性成分制定规则,以确认候选人名的定义性出现,填人名表 如果候选人名已经见于人名表,则视为人名的使用性出现

限制性成分 身份词(称谓) 三种类型 称谓前缀表:“副”、“总”、“代”、“代理”、“助理” 、“常务”、“名誉”、“荣誉”等 “工人/教师/影星/犯人”+人名 人名+ “同志/女士“ “教授/总理/小姐” 可前可后 称谓前缀表:“副”、“总”、“代”、“代理”、“助理” 、“常务”、“名誉”、“荣誉”等

限制性成分 身份词(称谓) 地名和单位名 静海县大丘庄禹作敏 中国足球队古广明

限制性成分 身份词(称谓) 地名和单位名 指界词(约110个) 动词:说、是、指出、认为、表示、参加等; 介词:在、之、的、被、以等; 正在、今天、本人、先后等。

限制性成分 身份词(称谓) 地名和单位名 指界词(约110个) 复杂定语(通常加“的”) 刚毕业的赵晓华 年过七旬的王贵芝

限制性成分 身份词(称谓) 地名和单位名 指界词(约110个) 复杂定语(通常加“的”) 标点符号 人名出现在句首或句尾(包括分句)的机会比较大,标点符号可用来帮助判断人名的边界。 顿号一边是人名时,另一边的候选人名的可靠性高。

性能分析——基于规则的方法 优点: 缺点: 识别较准确 很难列举所有规则 规则之间往往会顾此失彼,产生冲突 系统庞大、复杂,耗费资源多但效率却不高

7.3.2 基于统计的方法 基本思想 例:陈袁沁or陈袁or袁沁? Model 1 P(姓名|陈袁沁)=P(X|陈) P(M |袁) P(M|沁) P(XMM) P(姓名|陈袁)=P(X|陈) P(M|袁) P(XM) P(姓名|袁沁)=P(X|袁) P(M|沁) P(XM) Model 2 P(姓名|陈袁沁)=P(X|陈) P(M1 |袁) P(M2 |沁) P(XM1M2) Model 3 P(姓名|陈袁沁)=P(X|陈) P(M1 |袁, 陈) P(M2 |沁, 袁) P(XM1M2) P(姓名|陈袁)=P(X|陈) P(M|袁, 陈) P(XM) P(姓名|袁沁)=P(X|袁) P(M|沁, 袁) P(XM) 据统计,单名和双名所占比例分别为37.2%和62.8%

译名 日本人名:用字广、具有较明显的姓氏特征、姓氏集合大 欧美人名:朗、鲁、伦、曼、…… 苏俄人名:斯、基、娃、…… 标记 标记的描述 Sur 中国人名姓氏 RBfn 苏俄人名首字 Dgb 中国人名首字 RMfn 苏俄人名中间字 Dge 中国人名尾字 REfn 苏俄人名尾字 EBfn 欧美人名首字 JBfn 日本人名首字 EMfn 欧美人名中间字 JMfn 日本人名中间字 EEfn 欧美人名尾字 JEfn 日本人名尾字 标记 标记的描述 Bol 地名首词 Mol 地名中间词 Eol 地名尾词 Boo 机构名首词 Moo 机构名中间词 Eoo 机构名尾词 Aloc 单字地名 例:“奥特洛夫斯基” P( 苏俄人名 | 奥特洛夫斯基 ) =P(RB|奥) P(RM |特,奥) P(RM|洛,特) P(RM|夫,洛) P(RM|斯,夫) P(RE|基,斯)

基于规则的识别方法 基于统计的识别方法 特 点 利用语言规则来进行人名识别 仅从字、词本身来考虑,通过计算字、词作人名用的概率来实现 优 准确率较高 占用的资源少 速度快、效率高 缺 系统庞大、复杂,耗费资源多但效率却不高 很难列举所有规则 规则之间往往会顾此失彼,产生冲突 准确率较低 其合理性、科学性及所用统计源的可靠性、代表性、合理性难以保证 搜集合理的有代表性的统计源的工作本身也较难

提纲 7.1 汉语自动分词中的基本问题 7.2 基本分词方法 7.3 中文姓名识别 7.4 汉语自动分词系统的评价

7.4 汉语自动分词系统的评价 技术评测的意义 提供科学的、统一的测试方法和共同的数据集合,在公开公正的基础上进行评测 节省各个研究者重复采集数据而造成的重复劳动 为大家提供一个交流研究开发经验的平台 对整个领域的科学研究和技术进步起到很大的推动作用

汉语自动分词的主要评测指标 准确率 召回率 F-测度

汉语自动分词的国际评测 为了比较不同方法和分词系统的性能,第41届ACL 国际会议(41st Annual Meeting of the Association for Computational Linguistics, 国际计算语言联合会)下设的汉语特别兴趣研究组SIGHAN(the ACL Special Interest Group on Chinese Language Processing)负责国际汉语分词的评测工作。

第1届汉语分词评测 时间:2003年 参加单位个数:12(来自中国大陆、香港、台湾、美国、日本、新加坡等) 语料来源 测试类型 评测指标 北大PK、LDC、台湾中研院AS、香港城市大学HK 测试类型 封闭测试:仅允许使用组织者提供的训练语料做模型训练 开放测试:训练语料没有任何限制 评测指标 准确率、召回率、F-测度、未登录词的召回率

第2届汉语分词评测, 时间: 2005 地点:韩国 参加单位个数:34 语料来源 北大PK、微软亚洲研究院MSR、台湾中研院AS、香港城市大学HK 评测结果 使用MSR语料参加评测的系统最多 评测方式 准确率 召回率 F-measure 未登录词召回率 封闭 0.966 0.962 0.964 0.717 开放 0.965 0.980 0.972 0.59

第3届汉语分词评测, 时间: 2006 地点:澳大利亚 参加单位个数:30 评测结果 F-measure:0.979(MSR语料、开放测试)

国内评测 从20世纪90年代起,我国863计划 “中文信息处理与智能人机接口技术评测组”多次组织汉语分词与词性标注系统评测 2003年10月,评测内容 分词测试(包括歧义切分专项测试) 名实体识别测试(人名、地名、机构名、其它) 分词与词性标注一体化测试(包括歧义切分专项测试) 分词部分最好成绩 正确率:93.44% 召回率:93.69% F-测度:93.46%

本章小结 汉语自动分词中的基本问题 基本分词方法 中文姓名识别 汉语自动分词系统的评价 分词标准 切分歧义 未登录词 最大匹配法 最少分词法(最短路径法) 最大概率法(最短加权路径法) 与词性标注相结合的分词方法 基于互现信息的分词方法 基于字分类的分词方法 基于实例的汉语分词方法 中文姓名识别 基于规则的方法 基于统计的方法 汉语自动分词系统的评价

结束