汉语自动分词— 中文信息处理的一项战略任务

Slides:



Advertisements
Similar presentations
大教育家孔子 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。 2011 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。
Advertisements

一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
急性腹痛 急性疼痛. 急性疼痛 — 孙树杰、沈洪、 刘保池 (1)(1)(1)(1) 概 述 (2)(2)(2)(2) 重症急性腹痛的临床特点 (3)(3)(3)(3) 急性腹痛的分类及诊治 主要教学内容.
中华人民共和国教育部 深入推进中小学校挂牌督导工作 主讲:周坚 2015年6月19日
第三章 现代汉语词汇.
世界读书日 4月23日.
古诗鉴赏 (常用答题方法 ).
授课人:王苗.
目的要求:骨骼肌的形态与结构、功能与分布 重点难点:肌的形态与结构,主要肌的分布、名称
牛 汉 ——《华南虎》 …… 恍惚之中听见一声 石破天惊的咆哮, 有一个不羁的灵魂 掠过我的头顶 腾空而去, 我看见了火焰般的斑纹
牛 汉 …… 恍惚之中听见一声 石破天惊的咆哮, 有一个不羁的灵魂 掠过我的头顶 腾空而去, 我看见了火焰似的斑纹 火焰似的眼睛,
第三课 氓.
梦想的力量 博湖一小 赵秀珍. 梦想的力量 博湖一小 赵秀珍 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。 瑞恩的梦想是什么?他是怎样实现自己的梦想的? 梦想的力量是什么? 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。
梦想的力量.
2、加一笔成新字 一 →二 二 →三、干、工 十 →土、士 口 →日、中 日 →目、白、田 月 →用 目 →自 木 →禾、本 大 →天、太、犬 人 →大、个 了 →子.
导入新课 同学们,大家都知道我们的祖国包括哪些部分吗? 大 陆.
常州市戚墅堰实验中学 虞超群 执教 《诗经》选读 卫风·氓.
作文训练: 突出中心.
愛情直播不NG -破解戀愛迷思 嘉南藥理科技大學 學生輔導中心.
药品 质量 标准.
成功的招聘 一、明确用人需求 二、做好面试前的准备 三、行为事例STAR法 四、在面试中恰当的提问 五、做出正确的选聘决定.
四组制作: 许顺楠、姬少丽、李澎、刘伏、 徐娅丽、李頔
第一单元  秋天的故事.
第16课时: 桥.
经济新闻集锦.
中国特色社会主义政党制度 主讲:西南大学 李强 2011年12月28日.
贴近教学 服务师生 方便老师.
春?.
欢迎南京市政治学科的教研同仁 光临指导.
第八章 网络课程的设计与开发.
琵琶行 白居易,字乐天,晚号香山居士 。我国唐代伟大的现实主义诗人 。他的诗歌题材广泛,形式多样,语言平易通俗,有“诗魔”和“诗王”之称 ,有《白氏长庆集》传世 。代表诗作有《长恨歌》、《卖炭翁》、《琵琶行》等 。
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
义务教育课程标准实验教科书二年级下册 玲玲的画 山东滨州市无棣县棣丰街道中心小学 曹雪敏. 生活中有些事真有意思!要是肯动 脑筋,坏事也能变成好事;要是肯动脑 筋,看来不可能办成的事也能办成。碰 到问题,我们要认真想想,找到解决问 题的办法,做个善于思考的孩子。
歌咏对象是谁? 1)志洁行廉,爱国忠君真气节; 辞微旨远,经天纬地大诗篇。 2)翁去八百载,醉乡犹在; 山行六七里,亭影不孤。 3)刚直不阿,留得正气冲霄汉; 幽愁发愤,著成信史照尘寰。 4)世上疮痍,诗中圣哲; 人间疾苦,笔底波澜。 屈原 欧阳修 司马迁 杜甫.
项羽之死 司马迁.
苏教版小学语文第七册 5.我给江主席献花 第一课时 侯小群.
第三章 古代汉语语法 3—1古汉语语法及其研究 一、《马氏文通》以前的《古汉语研究》
词 五 首.
第六章 技术创新与经济增长 本章主要问题 ---技术创新过程 ---技术创新分类 ---技术创新动力源 ---技术创新影响因素
學得來的領導魅力 催化員工參與感 指導老師 胡凱傑教授 第八組 連芊華 吳靜芳
互联网时代班主任的挑战 万玮 2014年9月20日.
第一章 神话.
学校食物中毒的预防与控制 邓 红 四川旅游学院
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
— —1998年全世界诺贝尔获奖者集会巴黎时的宣言
重点字词: 1、吾党之小子狂简 3、暴虎冯河 5、无所取材! 6、予所否者,天厌之 8、子哭之恸.
2008年安徽省初中毕业学业考试 语 文 (试题卷) 注意事项:
最知心的朋友 My Best Friend 其它敬拜赞美诗歌 27首.
第五章 中耕机械 一、除草技术与中耕机械 ○ 化学除草剂:易于污染环境、有些草难以除尽 ○ 中耕机械:适于行间除草
如何对矿井 通风进行审计式监察.
Space Weather Study in China
文化学习 Mrs.Han.
英文文法 楊淑棻.
鄉村尋根-農具篇.
下个周末我要去中国. My house 1 – 小考 一. bathroom – 浴室 七. kitchen – 厨房
这里有神的同在 zhe li you shen de tong zai
16 葡萄沟.
英语教学课件 七年级上册.
最知心的朋友.
一九九四年九月五日.
淑明女子大學 在哪裡?. 淑明女子大學 在哪裡? 學校週遭 第一次 剛到淑大時?
第二課 我的家人 dì èr kè wǒ de jiā rén
八爪怪 班級:二年九班 姓名:林承旭 指導:黃源弘 資料來源
王品集團的獎酬制度 四管二:U 池育翰 四管二:U 洪偉智 四管二:U 劉奕辰
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
說話的藝術 香港仔工業學校 盧仲衡老師.
如何制订幼儿园园本培训工作计划 大连亿达世纪城幼儿园 姜承华 2011年3月10日.
與家庭工作〜 家訪技巧 方瓊聆社工師      高雄市學生輔導諮商中心
10/29 今天的学习目标 (Today’s Learning Objectives)
‘人因罪與神隔絕’ 左邊代表每一個人像你和我。 黑暗代表我們的罪。 聖經說: 世人都犯了罪,虧缺了神的榮耀。 (羅3:23)
Presentation transcript:

汉语自动分词— 中文信息处理的一项战略任务 孙茂松 清华大学智能技术与系统国家重点实验室 2004年7月 复旦大学

一个老生常谈、老掉牙的问题? 最简单的语言计算任务,最有可能实用,同时市场呼声最高。 近几年已经取得了长足进步:以北大《人民日报》语料库(或类似语料库)为训练集。

Text-to-Speech Synthesis 例:Impact on Text-to-Speech Conversion Bell Labs Mandarin Text-to-Speech Synthesis http://www.bell-labs.com/project/tts/mandarin-gb.html Segmentation Ambiguity: 项目的 项目/的: de 项/目的: di project/of classifier/objective 我是这个项目的负责人。 I am the leader of this project. 他将向英王陛下政府提出与上述各项目的相配合的任何政策。 He will propose to the British government any policy to meet the above objectives.

例:Impact on Text-to-Speech Conversion Bell Labs Mandarin Text-to-Speech Synthesis 我的老板查建泰不同意他弟弟查建国先生的看法。 Zha Zha(Cha) My boss Zha Jian-Tai did not agree to the opinion of his younger brother, Mr Zha Jian-Guo. 华国锋曾任中华人民共和国国务院总理。 Hua4 Ceng(Zeng) Hua1 Hua Guo-Feng is the former premier of the People’s Republic of China.

ICTCLAS Output 我是这个项目的负责人。 我/r 是/v 这个/r 项目/n 的/u 负责人/n 。/w 他将向英王陛下政府提出与上述各项目的相配合的任何政策。 他/r 将/d 向/p 英/j 王/n 陛下/n 政府/n 提出/v 与/p 上述/b 各/r 项目/n 的/u 相/d 配合/v 的/u 任何/r 政策/n 。/w

ICTCLAS Output 我的老板查建泰不同意他弟弟查建国先生的看法。 我/r 的/u 老板/n 查建泰/nr 不/d 同意/v 他/r 弟弟/n 查建国/nr 先生/n 的/u 看法/n 。/w 华国锋曾任中华人民共和国国务院总理。 华/nr 国锋/nr 曾/d 任/v 中华人民共和国/ns 国务院/nt 总理/n 。/w

例:Impact on MT: Chinese to English MT http://www.transtar.com.cn/transtar/chinese/netbar/onlinetrans.asp 我看见邓小平同江泽民打招呼。 Transtar: I see that Deng Xiao-Ping greets with Jiang Ze-Min. 我看见周星驰同张学友打招呼。 Transtar: I see week star Chi open together study friend greet.

从中文搜索引擎反映出来的分词问题

从中文搜索引擎反映出来的分词问题

从图象搜索引擎反映出来的分词问题

从图象搜索引擎反映出来的分词问题

从图象搜索引擎反映出来的分词问题

走向Web: 对分词系统性能的粗略考察 豫园是著名的江南古典园林,全国重点文物保护单位。 豫园始建于明嘉靖年间,有明代四川布政使潘允端所建,至今已有400多年的历史。1853年上海小刀会起义时,豫园点春堂曾作为起义军的城北指挥部,现堂内陈列着当年小刀会的武器、自铸的钱币,以及发布的文告等文物。解放后政府对豫园进行了大规模的修缮,1961年正式对外开放。 1987年重建东部,恢复百余年前故景风姿,新旧诸景相映互彰,融为一体,古园更臻完美,实为游乐观瞻之极佳去处。现占地30余亩,全园擅江南园林之胜,有萃秀堂、仰山堂、三穗堂、玉华堂、点春堂、万花楼、会景楼、快楼、鱼乐榭、大假山等40多处胜景。其中点春堂为1853年上海小刀会起义的指挥部。“玉华堂”前的“玉玲珑”假山石是与苏州留园的“瑞云峰”、杭州花圃的“皱云峰”齐名的江南园林三大奇石之一。 豫园新开设了一个藏有千奇石雕的展馆——石头城,其观赏价值和人文价值受到中外游客的青睐。该馆规模之大,奇石之多,为世人罕见。

走向Web: 对分词系统性能的粗略考察

走向Web: 对分词系统性能的粗略考察 专名识别出错最多:点/t 春堂/nr、快/a 楼/n、玉/n 玲珑/an、皱/v 云/vg 峰/ng、奇石/nr、…… 通用词表不够完善:布/n 政/ng 使/v、小刀/n 会/v 组合歧义:三大/j 交集歧义:假山/n 石/ng 词性标注:自/p 铸/v 的/u 钱币/n 构词联想能力差:故/dg 景/vg,古/tg 园/ng

走向Web: 对分词系统性能的粗略考察 金茂大厦位于上海浦东新区陆家嘴金融贸易区黄金地段,与著名的外滩风景区隔江相望。金茂大厦由中国上海对外贸易中心股份有限公司投资建造、管理,美国芝加哥SOM建筑事务所设计。 甫入金茂,气势恢弘的"世界十大名楼集锦"印入眼帘,它展示着20世纪人类建筑史上最伟大的奇迹;搭乘2倍于直升机爬升速度的观光电梯直达顶层,令人感受到前所未有的锋速体验;从这个全上海独一无二的视角远眺,旅游者更能窥见浪漫的云海戏珠,感慨百年外滩的沧桑烟云,尽览堪称世纪经典的世纪大道全貌……;如果从观光层内俯瞰酒店中庭,这高152米,直径27米,比拥有世界最高中庭的圣彼得大教堂更高更宏伟的中庭共享空间,更是让人感到极目眩晕。乘着盎然的游兴,人们还可以在这340多米的高空,世界最高的邮政所给亲人朋友寄一张精美的明信片,送出这来自云间、最浪漫的祝福。

走向Web: 对分词系统性能的粗略考察

走向Web: 对分词系统性能的粗略考察(专业领域) 做空依据: 第一:上行量能不足,市场心态谨慎。大盘连续四个交易日在1440点附近横盘蓄势,由于经历长期惨跌,大盘在中期筑底方面必然有一个逐步企稳的过程,而不可能在无重大利好的情况下,出现短期的大幅拉升,应而在30日线压制下横盘筑底,将是短期大盘走势的主基调。同时从量能方面来看,大盘自7月1日长阳拉升后,此后便一直出现一个缩量盘整的过程,显示投资者追涨信心不足,在市场无强势热点和强势板块领引的情况下,大盘要在短期内突破30日线善有难度。

走向Web: 对分词系统性能的粗略考察(专业领域)

走向Web: 对分词系统性能的粗略考察(专业领域)

基本结论:现有的汉语自动分词系统远不能覆盖Web! 必要性:克服制约中文信息处理发展的最大瓶颈(英语文本的信息处理天然地就在词平面上。而汉语文本起步是在字平面上,落后英文一个层次。这一个层次的差异是本质上的、全局性的,如果解决不好,中文信息处理将在整体上永远困顿于低水平,无法向高级形态发展)。 可能性:难度极大!可能跨越吗? 越来越强大、准确的分词能力(但不可能达到理想境界) + 字 需要新思维 基本基调:面向Web, 基于Web。 “大规模”重新定义:TB级的Corpus

相关的重要研究任务 (1)核心词表(通用词表):尽快形成共识(国家标准) (2)基于Web和核心词表的分词歧义(覆盖型和交集型)穷尽式调研。 跨领域的通用分词歧义表 (3)构造各专业领域的基本词表 (4)基于Web和专业领域核心词表的分词歧义(覆盖型和交集型)穷尽式调研。 各领域的常用分词歧义表 (5)有选择、可信的汉语自动分词策略 对敏感字串,化实体的recognition为范围的detection。对“雷区”,可以甚至不分词 (6)加强对字串统计性质的研究 (7)分词算法的研究 (8)非技术因素:促进大规模语言计算资源共享平台与机制的建设。加强公共评测。

Thanks! 相关的重要研究任务 注意: (1)TB级corpus的性质与GB级corpus的性质可能会有质的差别。 (2)与ontology的关系 (3)与文本自动分类的关系 (4)研究在互联网环境下自动发现词与词之间关系的算法,构造覆盖互联网的汉语语义词网。 (5)将自然语言处理、OCR、语音识别等技术融合于基于内容的图像、视像处理研究中,以显著提高图像和视像的智能化处理能力。 困惑与呼吁:973 – NSFC面上项目 科学研究上的浮躁 “宁静致远” Thanks!