中文信息处理与汉语研究 —— 现状和发展 詹卫东 北京大学中文系 北京大学汉语语言学研究中心 北京,100871

Slides:



Advertisements
Similar presentations
护理部教学管理 南医大二附院 张淑芬. 护理部主要工作:  培训  质量  教学科研 临床教学的秘诀 What – 需要的、喜欢的 Who – 教师的角色 – 学生的程度、学习方式 How – 教学方法.
Advertisements

1 安全乘坐电梯 与大型游乐设施 福建省特检院宁德分院党支部 王祖生 特种设备安全知识进校园.
《礼记 · 学记》学习心得报告 教育的本质与运用 主讲人:徐浩明. 一、认识什么是教育 二、明白教育的本质 三、如何落实德行教育.
高一年级组家长会. 一、考试成绩分析 二、存在的问题 三、给家长的建议 四、科任教师交流 表扬 1 、 年级组语数外成绩优异同学 ( 年级排名 ) 李 芮第 1 名 吕明洋第 2 名 王 越第 3 名 杨天宇第 4 名 张凯燕第 5 名 李 曦第 7 名 魏书静第 8 名 项春怡第 10 名 郑明明第.
沟通交流 活动有序 内容轻松 文明守纪 团结共进 1. 成立家长委员会, 通知 15 人明天下午 3-5 点五楼报告厅 “ 全面育人教育论坛 ” 2. 介绍附中、年级、班级的规范和要求 日常行为规范,高中学习特点,考试、作业要求 3. 开学以来年级、班级开展的工作及安排 开学以来年级、班级开展的工作及安排.
19. 谈礼貌.
1、毛将后代握手言欢泯恩怨 2、美国总统奥巴马访华.
智慧城.
大学生安全防范知识 城北派出所 陶燕雄.
《史记·魏公子列传》.
远 方 宽厚肩膀,手指干净而修长。 笑声像大海,眼睛里有阳光。 我想象你,一定就是这样。 还没出现,就已对你爱恋;还没遇见,就先有了思念。
语文园地四.
窦娥冤 关汉卿 感天动地 元·关汉卿.
情境导入: 诚信是金 同学们,这是一个非常经典的故事。请大家思考当小男孩真的遇到狼时,为什么没人去救他呢? 你从中得到了什么启示?狼来了.MP4.
兵 车 行 杜甫.
国家自然科学基金项目申请 经验交流与心得体会
欢迎各位家长 同样的心情 一样的期待 初二(2)班家长会.
欢迎各位家长的到来! 沟通 交流 协作 初二 班家长会.
家校同心, 师生同行 ——八(五、六)班家长会.
“他的人生观真是一种‘单纯信仰’,这里面只有三个大字:一个是爱,一个是自由,一个是美。他梦想这三个理想的条件能够回合在一个人生里,这是他的‘单纯信仰’。他的一生的历史,只是他追求这个单纯信仰的实现的历史。” ——胡适《追悼志摩》
欢迎各位家长光临 初二(1)班家长会
高考主题讲座 高考语文 董 腾.
人教版语文 三年级下册 语文园地四 作者:佚名 来源:网络.
第2课 大一统与秦朝中央集权制度的确立 课标要求: 知道“始皇帝”的来历和郡县制建立的史实,了解中国古代中央集权制度的形成及其影响。
品读论语之四---- 巧言令色非君子.
知其不可而为之.
第十四篇 答李翊書 韓 愈.
史記 貨 殖 列 傳                                                            商业篇.
中国画家协会理事、安徽省美术家协会会员、 工艺美术师、黄山市邮协常务理事余承平主讲
陈情表 李密 龙江一中高二语文备课组.
秋天 何其芳.
欣赏歌曲 歌曲:《一个真实的故事》   走过那条小河,你可曾听说,有一位女孩,她曾经来过,走过这片芦苇坡,你可曾听说,有一位女孩,她留下一首歌,为何片片白云悄悄落泪,为何阵阵风儿轻声诉说,还有一只丹顶鹤,轻轻地,轻轻地,飞过。 走过那条小河,你可曾听说,有一位女孩,她曾经来过,走过这片芦苇坡,你可曾听说,有一位女孩,她再也没来过,只有片片白云悄悄落泪,只有阵阵风儿为她唱歌,还有一群丹顶鹤,轻轻地,轻轻地,飞过。
热烈欢迎您 参加家长会!.
人教新课标版(2013修订)初中七上 《寓言四则》.
高考复习专题 文言文翻译
2013 澎湖自助旅行講座 澎湖,其實就是一片海洋 主辦:沿著菊島旅行 協辦: 台北澎湖同鄉會、台中澎湖同鄉會、高雄澎湖同鄉會
汉字的构造.
诵读欣赏 古代诗词三首.
在生活中,我们看见姓李的老师称李老师,看见姓李的会计称李会计,看见姓李的厂长称李厂长,那看见姓李的粉刷师傅,我们称他什么呢?为什么称河北大街一家营造厂的师傅为“刷子李”呢? “刷子李” 的技艺到底有多高?今天这节课我们来看看作者是怎样描写的。
胡同文化 汪曾祺.
令我后悔的一件事.
食物在口腔里的变化.
从2008年度时尚先生看我们的时代精神方向.
學習行為觀察與評估 講 師:陳怡華.
酒 中国是一个 文化历史悠久的国家.
雪 鲁 迅.
罗湖区第二届智慧杯中学政治学科小课题研究
理解常见文言实词在文中的含义.
杨玉环(公元719-756年) 杨玉环,名玉环,字太真,唐玄宗李隆基的宠妃,原名杨芙蓉(故有芙蓉出水),出生地为四川成都,祖籍山西永济。杨贵妃自小习音律,善歌舞,姿色超群。曾祖父杨汪是隋朝的上柱国、吏部尚书,唐初被李世民所杀,父杨玄琰(yǎn),是蜀州(四川崇州)司户,其叔父杨玄璬(jiǎo)曾任河南府士曹,杨玉环的童年是在四川度过的,10岁左右,父亲去世,她寄养在洛阳的三叔杨玄璬家。后来又迁往山西永乐(山西永济)。 
左迁至蓝关示侄孙湘 韩愈.
科普说明文 生物入侵者 高天群.
贴近教学 服务师生 方便老师.
六年级 语文 下册 第四单元 指尖的世界.
王 何 必 曰 利.
(浙教版)四年级品德与社会下册 共同生活的世界 第四单元 世界之窗 第二课时.
文化底蕴与作文 第一节:底蕴成句 【温馨点拨】:底蕴成句是把含有文化底蕴的内容表达成句。底蕴成句有三种情况:
语言表达的十八般武艺 ——修辞手法.
专题二 号角,为你长鸣—— 第5课 指南录后序.
海燕 郑振铎.
小 学 语 文 二 年 级 下 册 第 一单 元.
歐巴桑症候群 *** 歐巴桑症候群***.
107學年度高雄區 實用技能學程輔導分發 五福國中說明會
玲玲的画 龙山中心小学二年级 张冬梅.
國民年金 np97006.
孔融《与曹操论盛孝章书》.
理想與現實 空談與貼地 可二:1-12.
20 谈礼貌 合肥市螺岗小学 赵勋.
Xián 伯 牙 绝 弦 安徽淮南市八公山区第二小学 陈燕朵.
请同学们仔细观察,这两幅画有什么不同?你认为哪幅画更好?
Presentation transcript:

中文信息处理与汉语研究 —— 现状和发展 詹卫东 北京大学中文系 北京大学汉语语言学研究中心 北京,100871 全国语言文字信息化工作会议 · 湖南 · 长沙 · 2003.10.5 - 10.6 中文信息处理与汉语研究 —— 现状和发展 詹卫东 北京大学中文系 北京大学汉语语言学研究中心 北京,100871 zwd@pku.edu.cn http://ccl.pku.edu.cn/doubtfire/

提 纲 中文信息处理研究的格局 中文信息处理的现状和发展趋势 语言知识资源的建设 面向中文信息处理的汉语研究

一 中文信息处理研究的格局 信息的两个层次: 符号层 —— 中文 / 汉语 / 汉字 内容层 —— 符号所承载的意义 一 中文信息处理研究的格局 信息的两个层次: 符号层 —— 中文 / 汉语 / 汉字 内容层 —— 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等) (信号 vs. 信息)

符号层的信息处理 拼音文字:小字符集 —— 比较容易 非拼音文字:大字符集 —— 难度很大 拉丁字母只有26个符号 汉字是一个大字符集 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号 汉字是一个大字符集 《说文解字》(东汉):9353字 《玉篇》(南朝)收录16,917字 《广韵》(宋代)收字26,194字 《字汇》(明朝)收录33,197字 《康熙字典》(清朝)收录47,043字 《汉语大字典》(1992年)5.6万 《中华字海》( 1994年) 8.6万

符号层的信息处理 4 1 8 5 2 9 6 3 7 汉字输入 自动输入 键盘输入 字形识别 声音识别 整字键盘 通用键盘 手写体识别 主辅式 形码 8 5 在线手写 感应式 音码 2 9 6 脱机手写 形音结合码 3 印刷体识别 7

内容层的信息处理 汉语 英语 老师都来了 All professors came here. 张老师都来了 形态丰富的语言(inflecting language):处理难 形态不丰富的语言(analytic language):处理更难 汉语 英语 老师都来了 All professors came here. 张老师都来了 Even Professor Zhang came here. 编辑工作很难 Editing is very difficult. 如何当好编辑 How to become a good editor

内容层的信息处理 机器翻译全过程 原文 译文 1 2 3 4 5 6 7 8 9 10 11 12 需要语言知识 !!! 原文输入 译前编辑 词法分析 句法分析 语义分析 语境分析 内部表示转换 译词选择 译后编辑 译文输出 词形变化 句子生成 译文 1 2 3 4 5 6 7 8 9 10 11 12 需要语言知识 !!! 机器翻译全过程

内容层处理对符号层处理的反作用 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪 系 点 脑 机 树 雪 系 点 脑 机 树 共有14×98×41×15×167×68=95.8亿种可能性 学 洗 电 闹 给 述 学 西 颠 挠 记 书 …… 候选词串 学习 电脑 级数 共有2×1×7=14种可能性 血洗 电脑 奇数 血洗 电脑 基数 正确文字串 学习电脑技术

内容层处理对符号层处理的反作用 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪 系 点 脑 机 树 雪 系 点 脑 机 树 共有14×98×41×15×167×68=95.8亿种可能性 学 洗 电 闹 给 述 学 西 颠 挠 记 书 …… 候选词串 学习 电脑 级数 共有2×1×7=14种可能性 血洗 电脑 奇数 血洗 电脑 基数 正确文字串 学习电脑技术

内容层处理对符号层处理的反作用 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪 系 点 脑 机 树 雪 系 点 脑 机 树 共有14×98×41×15×167×68=95.8亿种可能性 学 洗 电 闹 给 述 学 西 颠 挠 记 书 …… 候选词串 学习 电脑 级数 共有2×1×7=14种可能性 血洗 电脑 奇数 血洗 电脑 基数 正确文字串 学习电脑技术

内容层处理对符号层处理的反作用 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪 系 点 脑 机 树 雪 系 点 脑 机 树 共有14×98×41×15×167×68=95.8亿种可能性 学 洗 电 闹 给 述 学 西 颠 挠 记 书 …… 候选词串 学习 电脑 级数 共有2×1×7=14种可能性 血洗 电脑 奇数 血洗 电脑 基数 正确文字串 学习电脑技术

二 中文信息处理的现状和发展趋势 现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/…… 内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索

系统演示 北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等) http://www.icl.pku.edu.cn/nlp-tools/segtagtest.htm (北大计算语言所网上分词、标注、注音系统)

中文信息处理的发展趋势 发展趋势 信息产品的多样化 网络的迅速发展 积累更多基础资源, 开发更多应用系统。 内容层的处理将受到越来越多的重视 发展趋势 信息产品的多样化 网络的迅速发展 积累更多基础资源, 开发更多应用系统。 内容层的处理将受到越来越多的重视 信息家电,内容计算,……

三 语言知识资源的建设 现代汉语语法信息词典 基于配价理论的现代汉语语义词典 现代汉语短语结构信息库 2700万字现代汉语分词与词性标注语料库 句子对齐的汉英双语语料库 现代汉语树库 现代汉语短语结构规则库

资源演示 现代汉语语义词典(詹卫东、王惠等) http://ccl.pku.edu.cn 汉英平行语料库(常宝宝、柏晓静等) 现代汉语树库(詹卫东、常宝宝等)

四 面向中文信息处理的语言学研究 充分重视各个层次上的语言歧义研究 拓展语言现象的研究面 强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化 加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源

歧义示例 张店区 大学生 不 看 重大 城市 户口 张 店 区 大 学 生 不 看 重 大 城 市 户 口 张店区 大学生 不 看 重大 城市 户口 张 店 区 大 学 生 不 看 重 大 城 市 户 口 张店区 大学生 不 看重 大 城市 户口

歧义示例(续) 有 三 百 多 种 树 有 三 百 多 种 树 v m m m q/v n 有 三 百 多 种 树 v mcp q n mp 有 三 百 多 种 树 有 三 百 多 种 树 v mcp q n mp np vp 有 三 百 多 种 树 v mcp n vp np 有 三 百 多 种 树 v m m m q/v n

歧义示例(续) 请转告李宇明司长 下午三点出发 请 转告 李宇明 司长 下午 三点 出发 v v n n t t v 请转告李宇明 司长下午三点出发 请转告李宇明司长 下午三点出发 请 转告 李宇明 司长 下午 三点 出发 v v n n t t v

结 语 要让计算机“理解”一个句子,实际上要解决下面两个核心问题: (1)一个句子的结构和意义是什么? (2)如何得到一个句子的结构和意义? 结 语 要让计算机“理解”一个句子,实际上要解决下面两个核心问题: (1)一个句子的结构和意义是什么? (2)如何得到一个句子的结构和意义? 第一个问题是“What”的问题,这是理论语言学关心的问题; 第二个问题是“How”的问题,这是计算语言学关心的问题, 也就是面向中文信息处理的语言研究需要关心的问题。

参考文献 慈林林 鲁元魁,1999,《中文信息处理新技术展望》,《计算机世界》1999年第44期“产品与技术”版“专题报道”。 刘梦松,1998,《中文信息处理软件概述》,《计算机世界》1998年第26期“技术专题”版。 许嘉璐,2002,《现状和设想 —— 试论中文信息处理与现代汉语研究》,《中国语文》2000年第6期。 俞士汶,朱学锋,2002,《关于汉语信息处理的认识及其研究方略》,《语言文字应用》2002年第3期。 俞士汶,朱学锋,王惠,2001,《<现代汉语语法信息词典>的新进展》,《中文信息学报》2001年第1期。 詹卫东,常宝宝,俞士汶,2002,《机器翻译与语言研究》,《语言科学》2002年第1期(创刊号)。 詹卫东,2000,《 80年代以来汉语信息处理研究述评》,《当代语言学》 2000年第2期。 张华平,2003,《中文信息处理技术发展简史》,http://www.nlp.org.cn(中文信息处理开放平台网站)

国内外重要的语言知识资源举例 WordNet,http://www.cogsci.princeton.edu/~wn/ FrameNet,http://www.icsi.berkeley.edu/~framenet/ HowNet,http://www.keenage.com/ 台湾中研院词库、现代汉语平衡语料库 http://www.sinica.edu.tw/ftms-bin/kiwi.sh

谢 谢 请大家批评指正 欢迎访问 http://ccl.pku.edu.cn http://icl.pku.edu.cn