赵铁军 哈尔滨工业大学计算机学院 语言技术研究中心 2004年7月12日·复旦大学 文本信息结构化与可视化研究 赵铁军 哈尔滨工业大学计算机学院 语言技术研究中心 2004年7月12日·复旦大学
提纲 计算机理解自然语言的表现方式 文本信息结构化的若干研究 结构化与图形化 分层次结构化的理解系统 网页链接结构可视化 汉语动词次范畴化框架自动分析 跨语言结构转换—基于实例机器翻译
计算机理解自然语言的表现方式 人对自然语言的理解 计算机对自然语言的理解 行为反应 语言能力:问答/文摘/复述/翻译… … 显式或隐式地表达出语言的结构和意义:心理学家的看法—人的理解过程是从词的序列中建构起具有层次安排的命题 计算机对自然语言的理解 面向应用的NLP—上述2 对自然语言的多层次分析—上述3:自然语言的结构化表示
计算机理解自然语言的表现方式 多层次的语言结构表示—语言理解系统 文本的结构化:面向不同应用有不同的结构化形式 文本 分句 词法分析/分词 词性标注 短语级分析 句法分析(功能) 语义分析 语篇分析 理解 一种语言 另一种语言 跨语言处理 单语处理 语篇结构/命题网络 语义结构 … … 句法及句法功能结构 短语结构 词性序列 标准化词序列 句子序列 自然形态 摘句式文摘 部分结构分析 名实体识别 词/词性序列 文本的结构化:面向不同应用有不同的结构化形式
计算机理解自然语言的表现方式 自然语言的可视化或图形化:另外一种理解方式 图像理解—自然语言化文本理解—图形化 故事理解动画 对语言信息处理结果的一些简单而实用的图形化:词或短语识别结果的反显 / 句法结构树形图 / 依存关系图 / 评分结果的直方图… … 强调视觉效果,增强技术可信性又增加趣味性
文本信息结构化的若干研究(1) 网页链接结构可视化 研究背景:挖掘特定专业领域(IT)网页信息关联—结构的可视化,富士通研究开发中心有限公司委托研究项目 研究意义:互联网获取相关信息数据库 / 相关信息跟踪
网页链接结构可视化 网页实例: 2002秋季英特尔信息技术峰会主体演讲介绍 http://www.sina.com.cn 2002年10月29日 18:37 新浪科技 主体演讲: 10月31日星期四上午 A:开幕致词 演讲人: Jason Chen 职位:英特尔公司副总裁、英特尔公司亚太区总裁 … … … … 相关链接 2002秋季英特尔信息技术峰会技术讲座介绍(2002/10/29 18:24) 英特尔通过纳米技术扩展摩尔定律(2002/10/29 17:41) 英特尔将至强™处理器频率提升至2.80 GHZ(2002/10/29 17:36) 英特尔:计算和通信融合是企业竞争优势的关键(2002/10/29 17:29) 英特尔推出新技术和基础模块以解决存储难题(2002/10/29 17:27) … … … …
网页链接结构可视化 可视化效果
网页链接结构可视化 关键技术—信息抽取模板 例如:产品模板 产品名称 产品所属公司名称 产品所属类别 产品相关的事件(如:推出、投放) 事件发生地点 事件发生时间 … … 其他如:财务模板/人物模板/技术模板… …
网页链接结构可视化 关键技术—特征词识别/二元关系确定 if [PN]{verbin}[Com][Post] then Pn-In:PN; 特征词表 名实体关系识别规则 类别权重 规则形式(从训练语料中自动获取) if [PN]{verbin}[Com][Post] then Pn-In:PN; Cur-Com:Com; Cur-Post:Post;
网页链接结构可视化 结果示例 中国联通董事长变更 杨贤足去职王建宙接任 Pn-In:王建宙 Cur-Com:中国联通 Cur-Post:董事长 Pn-out:杨贤足 Pre-Com:中国联通 Pre-Post:董事长
文本信息结构化的若干研究(2) 汉语动词次范畴化框架自动分析 研究背景:国家自然科学基金项目(60373101) 研究目标:建立汉语动词次范畴化词汇知识库,服务于汉语文本信息自动处理技术的需要—文本信息结构化的一个层次 汉语动词次范畴化框架(SCF)形式化描写:五元组=<V, TA, NA, PA, CL> 其中V谓语动词集合 / TA论元类型集合(11种)/ NA相应谓语动词支配论元个数 / PA相应论元在SCF中的相对位置 / CL广义句法形态常量(“着了过”等6个)
汉语动词次范畴化框架自动分析 实现过程:获取→应用 获取过程 学习SCF预设集合:43000简单句(词典例句+人民日报语料),1774动词→非完整句法分析→生成原始SCF预设集合→统计过滤→获得SCF预设集合并计算相应概率分布 / 结果138个SCF框架 从大规模真实文本中自动获取汉语动词SCF:6个月人民日报语料库,3558动词→句法分析结果为输入→错误校正→模式提取→SCF生成→假设检验
汉语动词次范畴化框架自动分析 大规模自动获取结果 该结果可以和英语同类研究最好结果相比 英语53%~65% 本研究53%~56% 检验方法 评价指标 零检验 BHT检验 ML0.001 检验 ML0.005 ML0.008 ML0.01 Precision 37.43% 50% 39.2% 40.3% 58.2% 60.6% Recall 85.9% 57.2% 83.33% 54.5% 51.3% F-measure 52.14 53.36 53.83 54.33 56.3 55.56 该结果可以和英语同类研究最好结果相比 英语53%~65% 本研究53%~56%
汉语动词次范畴化框架自动分析 成果:SCF知识库,动词总数=3502 SCF数目 1 2 3 4 5 6 7 8 9 10 11 12 13 14 动词个数 32 120 211 321 440 442 408 335 274 216 180 126 92 15 16 17 18 19 20 21 22 23 24 25 26 28 30 84 55 40
汉语动词次范畴化框架自动分析
汉语动词次范畴化框架自动分析 应用:SCF分析过程 / 输入=句法分析器输出,输出=句子SCF框架 示例 我们/r 要/vz 坚持/vg 解放/vg 思想/ng AP[实事求是/i 的/usde ]BNP[思想/ng 路线/ng ]。/ 坚持: r vz vg vg ng AP BNP 坚持: NP v VP VO[花/vg BNP[BMP[二\百\/m 元/q ]人民币/ng ]]便/c 能/vz VO[欣赏/vg BNT[这里/s 一/m 年/q ]]的/usde 双/m 休/vg 日/q NP[下午/t 的/usde 歌剧/ng ]表演/vg 。/ 花: VO vg BNP c vz VO vg BNT usde m vg q NP vg 花: NP v NP VP
汉语动词次范畴化框架自动分析 应用检验(初步):提高汉语句法分析精度,短语级精确率提高了5.36%,召回率提高了7.1%,句子级精确率和召回率提高了8.04% 今后工作改进:通过语义回退,取得自动获取SCF的更高精确率
文本信息结构化的若干研究(3) 跨语言结构转换—基于实例机器翻译 研究背景:科技部政府间国际科技合作项目(CI-2003-03),与爱尔兰都柏林城市大学合作 研究目标:面向奥运会服务的汉英-英汉翻译系统,重点领域—体育、餐饮、交通、旅游 资源支持:国家863计划项目子课题(面向奥运智能信息服务的平行语料加工),汉英日三语句对数70万
跨语言结构转换—基于实例机器翻译 系统实现 Bilingual corpus Sent_align Input Word_align Auto KA Input Word_align Examp Sel Examp_extrac Examp base Trans module Trans Sel Surface Gen Output
跨语言结构转换—基于实例机器翻译 转换基础:大于词的结构对齐=汉英双语词汇对齐+双语词汇扩展片断对齐 扩展片断示例:原子—词汇对齐 / 平行扩展—(ab-AB) (bc-BC) (bcd-BCD) (cd-CD) (de-DE) / 非平行扩展—(fghi-FGHI)
跨语言结构转换—基于实例机器翻译 翻译过程: 源语言片断匹配—实例选择 目标语言片断匹配—译文选择
跨语言结构转换—基于实例机器翻译 翻译结果评测—汉英翻译 NIST 2004 MT Evaluation (大规模语料训练) BLEU4:0.1023(区分大小写) NIST5:5.5672(区分大小写) / 5.8331(不区分大小写) 采用面向质量的数据训练策略后,分数提高:对齐质量=2*对齐词数/(汉语词数+英语词数) NIST5:6.34(不区分大小写) NIST5:6.5982(订正输出格式错误以后)
谢谢各位!