詹卫东 http://ccl.pku.edu.cn/doubtfire zwd@pku.edu.cn 第九讲 中文姓名识别 詹卫东 http://ccl.pku.edu.cn/doubtfire zwd@pku.edu.cn.

Slides:



Advertisements
Similar presentations
新东方多媒体库介绍 和 使用方法 申晓雨 江苏省区域经理 M: Q: E :
Advertisements

冀教版四年级数学上册 本节课我们主要来学习 2 、 3 、 5 的倍数特征,同学们要注意观察 和总结规律,掌握 2 、 3 、 5 的倍 数分别有什么特点,并且能够按 要求找出符合条件的数。
100 以内数的认识 10 个一是十 10 个十是一百 10 个一是十 10 个十是一百 数一数 从 35 数到 42 从 88 数到 100.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
药物分析 pharmaceutical analysis
Kuài sù yuē huì.
老师好! 同学们好! LDE: 2012.
中文信息处理与汉语研究 —— 现状和发展 詹卫东 北京大学中文系 北京大学汉语语言学研究中心 北京,100871
Learning Goals Lesson1&2 To exchange basic greetings;
U3.4 Occupation.
探索三角形相似的条件(2).
Unit 1 Lesson 2 IML Mandarin Level 1.
拓展 问题 探究 练习 北师大版 五年级上册 第五单元 分数的意义 绿色圃中小学教育网
第2章 Z变换 Z变换的定义与收敛域 Z反变换 系统的稳定性和H(z) 系统函数.
第二课 你叫什么?.
Unit 1 Hello! B let’s learn 南坛小学实验学校 廖敏娜老师.
定制Drupal主题 Drupal 社区团队 大漠 :QQ
SOA – Experiment 3: Web Services Composition Challenge
新版湘少版三年级起点 unit 7 It’s a dog Part F
我 姓 金,叫 金 太成。 生存交际第一级第二单元 Wǒ xìng Jīn , jiào Jīn Tàichéng.
第五讲 四则运算计算器(一) 精品教程《C#程序设计与应用(第2版)清华大学出版社 谭恒松 主编
Learning Objectives: Vocabulary: Structures:
Q: Nǐ xiǎng chī shén me. 你 想 吃 什 么?. A: Wǒ xiǎng chī …
我 是 陈 老师。 Wǒ shì chén lǎoshī.  我 叫 陈 山 卉 Wǒ jiào chénshānhuì.
作业调度系统常用命令.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
作业情况 已交作业人数:140人 凡是自己没有交过作业的同学,课后留下,有话要说。 2. 文件名范例: 姓名:王树武 wshw_1.c
Unit title: 假期 – Holiday
本节内容 消息的分发 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
实验四、TinyOS执行机制实验 一、实验目的 1、了解tinyos执行机制,实现程序异步处理的方法。
Jesus the Messiah Matthew 13 His Secret.
姚金宇 MIT SCHEME 使用说明 姚金宇
八年级 下册 16.1 二次根式(2) 湖北省通山县教育局教研室 袁观六.
学习目标 1、Mysql Workbench更新数据
Select模型 本节内容 视频提供:昆山爱达人信息技术有限公司 视频录制:yang 官网地址:
本节内容 内存复制指令 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
第九节 赋值运算符和赋值表达式.
iSIGHT 基本培训 使用 Excel的栅栏问题
3.16 枚举算法及其程序实现 ——数组的作用.
第六章 素材的加工与处理 第13讲 用GoldWave进行音频的截取、合并、淡入淡出操作
本节内容 线性地址的管理 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
_13简单的GDI绘图操作 本节课讲师——void* 视频提供:昆山爱达人信息技术有限公司 官网地址:
本节内容 文件系统 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
B :调 4/4 因他活着 William Gaither
B :调 4/4 因他活着 William Gaither
POWER POINT 簡報小工具 課程教授:楊淳皓 老師 學生姓名:連逸峻.
PPT快速打造iPhone风格图标 1 按住Shift键,画出一个圆角正方形。.
誰曾應許 誰 曾 應 許 一 生 不 撇 下 我 每 段 窄 路 誰 陪 我 去 走 過 團契遊樂園5 - 應許
2.2直接证明(一) 分析法 综合法.
本节内容 C语言的汇编表示 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
第9章 多媒体技术 掌握 Windows 画图工具的基本操作; 掌握 Windows 音频工具进行音频播放;
本节内容 Windows线程切换_时钟中断切换 视频提供:昆山滴水信息技术有限公司 官网地址: 论坛地址: QQ交流 :
本节内容 通用寄存器 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
_08文件操作 本节课讲师——void* 视频提供:昆山爱达人信息技术有限公司 官网地址:
WSAAsyncSelect 模型 本节内容 视频提供:昆山爱达人信息技术有限公司 视频录制:yang
2.3.运用公式法 1 —平方差公式.
总复习.
基于列存储的RDF数据管理 朱敏
本节内容 动态链接库 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
任选四个不同的数字,组成一个最大的数和一个最小的数。用最大的数减去最小的数。用所得结果的四位数重复上述过程,最多七步,必得6174
本节内容 导出表 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
中文题目采用黑体14号中文题目采用黑体14号中文题目采用黑体14号中文题目采用黑体14号 中文题目采用黑体14号中文题目采用黑体14号 单位:8号黑体 作者:8号黑体 目的 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文 样文.
中文题目采用黑体40号字体 单位:23号宋体 作者:23号宋体 目的
本节内容 进程 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
基于学案制作ppt 录屏工具使用 郑建彬.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
8、9的认识 一年级组 李 晶.
Cfc Zeilberger 算法 陈焕林 陈永川 付梅 臧经涛 2009年7月29日.
Yuenan Hou, Zheng Ma, Chunxiao Liu, and Chen Change Loy
Presentation transcript:

詹卫东 http://ccl.pku.edu.cn/doubtfire zwd@pku.edu.cn 第九讲 中文姓名识别 詹卫东 http://ccl.pku.edu.cn/doubtfire zwd@pku.edu.cn

提纲 用概率法猜测中文姓名

一 概率法猜测中文姓名 例子: 她的名字是叫谭柳华吧 1 从右向左取出词串(直到非单字词为止): 是 叫 谭 柳 华 吧 一 概率法猜测中文姓名 例子: 她的名字是叫谭柳华吧 1 从右向左取出词串(直到非单字词为止): 是 叫 谭 柳 华 吧 2 在上述单字词串(碎片)中寻找可能是中文姓名的部分: 是 叫 谭 柳 华 吧 7.4944 把“谭柳”加入候选姓名 20.0000 - 0.2694 20.0000 把“谭柳华”加入候选姓名 - 10.3450 - 16.2774 - 9.4401 把“柳华”加入候选姓名 - 6.8817 1.5160 把“柳华吧”加入候选姓名

谭柳(-10.3450) 谭柳华(- 16.2774) 柳华(- 9.4401) 柳华吧(- 6.8817) 得到四个候选姓名: 谭柳(-10.3450) 谭柳华(- 16.2774) 柳华(- 9.4401) 柳华吧(- 6.8817) 同源姓名 交错姓名 交错姓名 “谭柳”费用高,删之 “柳华”费用高,删之 “柳华吧”费用高,删之 谭柳华

产生输出串 : 是 叫 谭柳华 吧 先处理姓名左边的词串: 是/ 叫/ 再输出姓名串: 是/ 叫/ 谭柳华/ 再输出姓名右边的词串: 是/ 产生输出串 : 是 叫 谭柳华 吧 poffset = 4 先处理姓名左边的词串: 是/ 叫/ 再输出姓名串: 是/ 叫/ 谭柳华/ 再输出姓名右边的词串: 是/ 叫/ 谭柳华/ 吧/ 继续向左输出词串: 是/ 叫/ 谭柳华/ 吧/ 名字/

继续处理剩余的“碎片: 她 的 “她 的” 费用: 14.2829  不是姓名 因此,作为单字词输出,得到最后结果: 她/ 的/ 名字/ 是/ 叫/ 谭柳华/ 吧/

课后练习 改进例子程序,使得可以识别数字 在例子程序中增加跟踪功能,将分析过程中的全部侯选词及其费用输出到一个文件中。