汉语自动分词— 中文信息处理的一项战略任务 孙茂松 清华大学智能技术与系统国家重点实验室 2004年7月 复旦大学
一个老生常谈、老掉牙的问题? 最简单的语言计算任务,最有可能实用,同时市场呼声最高。 近几年已经取得了长足进步:以北大《人民日报》语料库(或类似语料库)为训练集。
Text-to-Speech Synthesis 例:Impact on Text-to-Speech Conversion Bell Labs Mandarin Text-to-Speech Synthesis http://www.bell-labs.com/project/tts/mandarin-gb.html Segmentation Ambiguity: 项目的 项目/的: de 项/目的: di project/of classifier/objective 我是这个项目的负责人。 I am the leader of this project. 他将向英王陛下政府提出与上述各项目的相配合的任何政策。 He will propose to the British government any policy to meet the above objectives.
例:Impact on Text-to-Speech Conversion Bell Labs Mandarin Text-to-Speech Synthesis 我的老板查建泰不同意他弟弟查建国先生的看法。 Zha Zha(Cha) My boss Zha Jian-Tai did not agree to the opinion of his younger brother, Mr Zha Jian-Guo. 华国锋曾任中华人民共和国国务院总理。 Hua4 Ceng(Zeng) Hua1 Hua Guo-Feng is the former premier of the People’s Republic of China.
ICTCLAS Output 我是这个项目的负责人。 我/r 是/v 这个/r 项目/n 的/u 负责人/n 。/w 他将向英王陛下政府提出与上述各项目的相配合的任何政策。 他/r 将/d 向/p 英/j 王/n 陛下/n 政府/n 提出/v 与/p 上述/b 各/r 项目/n 的/u 相/d 配合/v 的/u 任何/r 政策/n 。/w
ICTCLAS Output 我的老板查建泰不同意他弟弟查建国先生的看法。 我/r 的/u 老板/n 查建泰/nr 不/d 同意/v 他/r 弟弟/n 查建国/nr 先生/n 的/u 看法/n 。/w 华国锋曾任中华人民共和国国务院总理。 华/nr 国锋/nr 曾/d 任/v 中华人民共和国/ns 国务院/nt 总理/n 。/w
例:Impact on MT: Chinese to English MT http://www.transtar.com.cn/transtar/chinese/netbar/onlinetrans.asp 我看见邓小平同江泽民打招呼。 Transtar: I see that Deng Xiao-Ping greets with Jiang Ze-Min. 我看见周星驰同张学友打招呼。 Transtar: I see week star Chi open together study friend greet.
从中文搜索引擎反映出来的分词问题
从中文搜索引擎反映出来的分词问题
从图象搜索引擎反映出来的分词问题
从图象搜索引擎反映出来的分词问题
从图象搜索引擎反映出来的分词问题
走向Web: 对分词系统性能的粗略考察 豫园是著名的江南古典园林,全国重点文物保护单位。 豫园始建于明嘉靖年间,有明代四川布政使潘允端所建,至今已有400多年的历史。1853年上海小刀会起义时,豫园点春堂曾作为起义军的城北指挥部,现堂内陈列着当年小刀会的武器、自铸的钱币,以及发布的文告等文物。解放后政府对豫园进行了大规模的修缮,1961年正式对外开放。 1987年重建东部,恢复百余年前故景风姿,新旧诸景相映互彰,融为一体,古园更臻完美,实为游乐观瞻之极佳去处。现占地30余亩,全园擅江南园林之胜,有萃秀堂、仰山堂、三穗堂、玉华堂、点春堂、万花楼、会景楼、快楼、鱼乐榭、大假山等40多处胜景。其中点春堂为1853年上海小刀会起义的指挥部。“玉华堂”前的“玉玲珑”假山石是与苏州留园的“瑞云峰”、杭州花圃的“皱云峰”齐名的江南园林三大奇石之一。 豫园新开设了一个藏有千奇石雕的展馆——石头城,其观赏价值和人文价值受到中外游客的青睐。该馆规模之大,奇石之多,为世人罕见。
走向Web: 对分词系统性能的粗略考察
走向Web: 对分词系统性能的粗略考察 专名识别出错最多:点/t 春堂/nr、快/a 楼/n、玉/n 玲珑/an、皱/v 云/vg 峰/ng、奇石/nr、…… 通用词表不够完善:布/n 政/ng 使/v、小刀/n 会/v 组合歧义:三大/j 交集歧义:假山/n 石/ng 词性标注:自/p 铸/v 的/u 钱币/n 构词联想能力差:故/dg 景/vg,古/tg 园/ng
走向Web: 对分词系统性能的粗略考察 金茂大厦位于上海浦东新区陆家嘴金融贸易区黄金地段,与著名的外滩风景区隔江相望。金茂大厦由中国上海对外贸易中心股份有限公司投资建造、管理,美国芝加哥SOM建筑事务所设计。 甫入金茂,气势恢弘的"世界十大名楼集锦"印入眼帘,它展示着20世纪人类建筑史上最伟大的奇迹;搭乘2倍于直升机爬升速度的观光电梯直达顶层,令人感受到前所未有的锋速体验;从这个全上海独一无二的视角远眺,旅游者更能窥见浪漫的云海戏珠,感慨百年外滩的沧桑烟云,尽览堪称世纪经典的世纪大道全貌……;如果从观光层内俯瞰酒店中庭,这高152米,直径27米,比拥有世界最高中庭的圣彼得大教堂更高更宏伟的中庭共享空间,更是让人感到极目眩晕。乘着盎然的游兴,人们还可以在这340多米的高空,世界最高的邮政所给亲人朋友寄一张精美的明信片,送出这来自云间、最浪漫的祝福。
走向Web: 对分词系统性能的粗略考察
走向Web: 对分词系统性能的粗略考察(专业领域) 做空依据: 第一:上行量能不足,市场心态谨慎。大盘连续四个交易日在1440点附近横盘蓄势,由于经历长期惨跌,大盘在中期筑底方面必然有一个逐步企稳的过程,而不可能在无重大利好的情况下,出现短期的大幅拉升,应而在30日线压制下横盘筑底,将是短期大盘走势的主基调。同时从量能方面来看,大盘自7月1日长阳拉升后,此后便一直出现一个缩量盘整的过程,显示投资者追涨信心不足,在市场无强势热点和强势板块领引的情况下,大盘要在短期内突破30日线善有难度。
走向Web: 对分词系统性能的粗略考察(专业领域)
走向Web: 对分词系统性能的粗略考察(专业领域)
基本结论:现有的汉语自动分词系统远不能覆盖Web! 必要性:克服制约中文信息处理发展的最大瓶颈(英语文本的信息处理天然地就在词平面上。而汉语文本起步是在字平面上,落后英文一个层次。这一个层次的差异是本质上的、全局性的,如果解决不好,中文信息处理将在整体上永远困顿于低水平,无法向高级形态发展)。 可能性:难度极大!可能跨越吗? 越来越强大、准确的分词能力(但不可能达到理想境界) + 字 需要新思维 基本基调:面向Web, 基于Web。 “大规模”重新定义:TB级的Corpus
相关的重要研究任务 (1)核心词表(通用词表):尽快形成共识(国家标准) (2)基于Web和核心词表的分词歧义(覆盖型和交集型)穷尽式调研。 跨领域的通用分词歧义表 (3)构造各专业领域的基本词表 (4)基于Web和专业领域核心词表的分词歧义(覆盖型和交集型)穷尽式调研。 各领域的常用分词歧义表 (5)有选择、可信的汉语自动分词策略 对敏感字串,化实体的recognition为范围的detection。对“雷区”,可以甚至不分词 (6)加强对字串统计性质的研究 (7)分词算法的研究 (8)非技术因素:促进大规模语言计算资源共享平台与机制的建设。加强公共评测。
Thanks! 相关的重要研究任务 注意: (1)TB级corpus的性质与GB级corpus的性质可能会有质的差别。 (2)与ontology的关系 (3)与文本自动分类的关系 (4)研究在互联网环境下自动发现词与词之间关系的算法,构造覆盖互联网的汉语语义词网。 (5)将自然语言处理、OCR、语音识别等技术融合于基于内容的图像、视像处理研究中,以显著提高图像和视像的智能化处理能力。 困惑与呼吁:973 – NSFC面上项目 科学研究上的浮躁 “宁静致远” Thanks!