汉语分词:最大匹配方法 (6学时) 陈文亮 2016年3月14日.

Slides:



Advertisements
Similar presentations
遥远而神秘的大陆 —— 非洲, 有着悠久的历史,辽阔的地域、 奇特的风景和古朴的民俗;更 有那极具感染力、热情奔放的 音乐和舞蹈。 让我们一起走进非洲,去 聆听、感受和体验那具有独 特魅力的非洲歌舞音乐! 非洲正以其独特的、近乎原汁原味的风光和文化吸 引着全世界的目光, 也吸引了你我的目光。
Advertisements

电话: XXXXX 主讲: XXXXX 任务五 组织旅游线路. 本节任务:设计一条旅游线路 休闲度假天堂游 早烟台集合,乘车赴蓬莱,游览人间仙境 — 蓬莱阁风景区 ( 1.5 小时)、水城、古船馆、八仙群雕。 第一天 然后自由活动或自费游览:八仙渡海口风景区( 60 元自 理)海洋极地世界( 120.
运用《指南》科学观察和评价儿童 阜新市教师进修学院 谢亚琳.
无锡商业职业技术学院 机电工程学院党总支孙蓓雄
2016年全国中级会计资格考试 经济法 主讲老师:葛江静.
樓宇及單位要求 遵守建築物條例規定的安全及衛生標準 聘請認可人士提供服務 提交擬議工程的圖則 認可人士/註冊結構工程師名冊
述 职 报 告 ——报告人:xxxxx.
全面了解入党程序 认真履行入党手续 第一讲 主讲人:陈亭而.
中共湖北大学知行学院委员会党校 入党材料规范填写指导 学工处 李华琼 二〇一三年十二月.
云南财经大学2010年党员发展培训—— 党员发展工作培训 校党委组织部 2010年9月17日.
成品成本计算 鞠传英.
机电设备概论 安全管理概述 XXXXX.
公司纪检监察信访举报工作办法和监督 工作联席会议制度升版征求意见稿说明
评估报告的撰写 二手车评估报告是评估机构或评估师在完成鉴 定评估工作后,向委托方提供鉴定评估工作的 总结。
地方預算執行規範介紹 行政院主計總處公務預算處何視察蓓 地方歲計人員研習班第17期 102年3月
第7课 一元二次方程 要点梳理   1.定义: 只含有一个未知数,并且未知数的最高次数是2,这样的整式方程叫做一元二次方程.通常可写成如下的 一般形式: (a、b、c是已知数,a≠0) , 其中a、b、c分别叫做二次项系数、一次项系数和常数项. 2.解法:
医师变更执业注册申请审核表 填写说明 医务部.
论文题目 指导教师: 班级: 学生: 学号:.
课程体系改革及工作过程系统化课程建设整体设计与实施
XXXXXX系统产业化及市场推广 项目介绍
經濟部工業局 產業升級創新平台輔導計畫 (創新優化計畫)
广州能源所外事业务指南 所级因公出国(境)访问 广州能源所科技处 2014年12月.
基层违纪违法案件 查办的基本程序 基本要求和案例解析 学 思 践 悟 基层违纪违法案件 查办的基本程序 基本要求和案例解析 内蒙古纪委案件审理室 方瑛 2015年5月24日.
努力做好新常态下 反映社情民意信息工作 省政协研究室 欧阳东 2016年5月31日.
归档文件整理规则 & 机关文件材料归档范围及文书档案保管期限规定 2015年4月 市档案局 业务指导科 刘薇
中国人事科学院学术咨询中心 主任 甄源泰 研究员
几种常见应用文体示例.
2014年工作总结 暨2015年工作展望.
免 疫 与 计 划 免 疫 东平县实验中学 纪涛.
我 自我介绍 我爱看的 书 名片 格言.
公 文 写 作 第一讲 主讲教师:娄淑华          学时:32.
案例名称:XXXXXXX ——XXXX小学互联创未来项目 2015年数字校园创新应用案例报告
第八章 诉讼法 第一节 诉讼法概述 第二节 民事诉讼法 第三节 行政诉讼法 第四节 刑事诉讼法.
XXX 2015年年度工作计划.
个人 RESU : X X X ME 简历 Resume先出现,然后RESU消失,ME留下变为白色,再出现:,再出现名字,个人简历和双线同时出现.
能源监察简介 宁波市节能监察中心
如何写好自己的简历 讲课:XXX.
通 知 通知是批转下级机关的公文,转发上级机关和不相隶属机关的公文,传达要求下级机关办理和需要有关单位周知或执行的事项,任免人员时使用的公文。
在PHP和MYSQL中实现完美的中文显示
公文写作.
扁平化精美IT工作实施规划.
SOA – Experiment 3: Web Services Composition Challenge
PPT模板使用说明 既有的文本框都可以插入您需要填写的内容,已经写有文字的部分也 可以选中修改。
集中保管有價證券 提存帳簿劃撥作業介紹 (代庫銀行版)
我们的使命 通过xxxxxxx 达到减少二氧化碳排放的目的, 减缓全球气候变暖,改善人类的生活环境。 我们为您提供xxxxx自多年的积累
2 1 金万维大会 企业信息化垂直B2B 将是传统IT领域的下一亮点吗?.
PPT模板使用说明 既有的文本框都可以插入您需要填写的内容,已经写有文字的部分也 可以选中修改。
計畫成果說明(範本) 成果說明:請依輔導成效另訂標題(slogan) 診斷重點 輔導成效 成果照片1 成果照片2
認識多項式 1 多項式的加法 2 多項式的減法
7 5. 分離係數法: 將直式運算中的係數和文字符號分離, 只寫出係數的記錄方式。 在寫出係數時,遇到缺項,一定要補 0 。
判別下列何者是 x 的多項式。以「○」表示是x的多項式,「×」表示不是 x的多項式 :
本节内容 随机读取 视频提供:昆山爱达人信息技术有限公司.
中国科学院南海海洋研究所 国际合作管理系统 用户操作手册
四川农业大学 第二十二期团校课程 第四讲:校团委日常公文与写作 主讲人:刘瀛锴.
姚金宇 MIT SCHEME 使用说明 姚金宇
主标题 副标题 日期.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
工业行业工作总结 PPT宝藏_www.pptbz.com_提供下载.
詹卫东 第九讲 中文姓名识别 詹卫东
把这个 位置 给适合他的人 PPT应聘简历 应聘人:xx 应聘职务:美术指导 电话: xxx
第七、八次实验要求.
想做好作品說明書嗎? 主講: 王秀勻 組長 助教: 劉大瑋 老師.
PpT宝藏专业制作最新环保模版设计图案 我们的使命 PPT模板下载:
行政管理专业毕业论文(本科) 写 作 规 范 法律与行政系 刘翔.
電的使用.
词的搭配(一).
Xxxxx市xxxxxxxx有限公司.
8的乘法口诀 导入 新授 练习.
鉅額買賣帳簿劃撥作業說明 臺灣集中保管結算所 九十六年三月.
PPT中条条框框的使用 秋记 提供下载 秋记与好看簿.
Presentation transcript:

汉语分词:最大匹配方法 (6学时) 陈文亮 2016年3月14日

UTF-8编码 UTF-8是不定长的,根据左侧位1的个数来决定占用了几个字节,中文一般占 2-4个字节 0xxxxxxx占1个字节 110xxxxx 10xxxxxx占2个字节 1110xxxx 10xxxxxx 10xxxxxx占3个字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx占4个字节

1.分词任务 中文分词的目的是将汉字序列切分为词序列 举例说明: 输入句子:他是研究生物化学的。 可能的分词:他 是 研究生 物化 学 的 。 他 是 研究生 物 化学 的 。 他 是 研究 生物 化学 的 。 合理答案:他 是 研究 生物 化学 的 。

2.最大匹配算法 从左到右寻找词的最大匹配(每次都从字典中贪心的找一个最长的词) 我们有一个词典,用于存放所有可能的词语,即除了单字,分词结果中 的每个词均要在词典中出现。 文件的格式: 词总个数\t词的最大长度 word1 word2 … 如果你打开乱码…… UTF8文件记事本下显示乱码,可以在浏览器(或其他高级编辑器)中打开

2.最大匹配算法 从当前位置开始,向右截取最大长度,组成当前词; 和字典中的词逐一进行匹配; 若匹配成功,则进行下次匹配,下次匹配的当前位置则为这次词后面的 那个字。 如果未能匹配,就缩短长度(长度减一)重新截取,直到当前词与词典 中的词匹配或者当前词是单字;

2.最大匹配算法 举例: 给定句子:我是中国人 字典:中国、中国人 指定:词的最大长度m=3

2.最大匹配算法 句子:我是中国人 第一轮: 第一次:"我是中"是选取的词,在词典中未找到匹配项 第二次:"我是"是选取的词,在词典中未找到匹配项 第三次:"我"是选取的词,是单字,匹配成功

2.最大匹配算法 句子:我 是中国人 第二轮: 第一次:"是中国"是选取的词,在词典中未找到匹配项 第二次:"是中"是选取的词,在词典中未找到匹配项 第三次:"是"是选取的词,是单字,匹配成功

2.最大匹配算法 句子:我 是 中国人 第三轮: 第一次:"中国人"是选取的词,在词典中找到匹配项,匹配成功 至此,短句中所有字匹配结束,该短句分词结束。

3.分词算法评价 给定人工标注的分词答案,评价某一算法给出的结果。 正确率(Precision) =正确识别的个体总数 / 识别出的个体总数 召回率(Recall) = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 思考:评价程序应该怎么写?

3.分词算法评价 例子: 句子:我是中国人 分词:我是 中国人 答案:我 是 中国人 识别出的个体总数:2 正确识别的个体总数:1 识别出的个体总数:2 正确识别的个体总数:1 测试集中存在的个体总数:3 正确识别的个体总数:1 正确率(Precision) = 1/2 = 50.00% 召回率(Recall) = 1/3 = 33.33% F值 = (1/2) * (1/3) * 2 / (1/2 + 1/3) = 40.00%

4.语料数据格式 corpus.sentence.txt格式

4.语料数据格式 corpus.answer.txt格式

5.编程作业 要求:编程平台不限(windows、linux),编程语言不限(C、 C++) 任务:使用最大匹配算法、字典文件(corpus.dict.txt),对语料 (corpus.sentence.txt)进行分词 --将分词的结果输出到文件corpus.out.txt中; --对比corpus.answer.txt和corpus.out.txt,给出算法的P/R/F指标 输出:一个corpus.out.txt文件(格式参照corpus.answer.txt) P/R/F指标(格式类似于:Precision = 36 / 100 = 36.00%)