赵铁军 哈尔滨工业大学计算机学院 语言技术研究中心 2004年7月12日·复旦大学

Slides:



Advertisements
Similar presentations
天然 養生 樂活 年貨集錦 田森館 - 艾草之家. ‧環保健康生活小常識 : 日常使用的家中日用品,包含各種各樣的化學物質,這些化學物質,有些頗具 毒性,有些雖然沒有急毒性,但暴露日久卻會造成慢性中毒,導致健康受損, 甚至致命。 環境荷爾蒙會影響人類或其他生物的生殖能力與發育,其中一類的「壬基酚 (
Advertisements

“ 十五 ” 国家级规划教材 新世纪全国高等中医院校规划教材 中 医 妇 科 学 总 论 主讲人 李朝平.
稳恒磁场习题课. 类比总结 1. 产生 静止电荷运动电荷 2. 被作用 电荷 与电荷运动 状态无关 只对运动电荷作用 3. 表观 性质 力力  作功 力力 4. 基本物 理量 5. 基本 定理 基本 性质 表一 场的产生与性质静电场稳恒磁场.
大教育家孔子 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。 2011 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。
第七章 溶液. 剛加入時振蕩靜置 粉筆粉 + 水 粉筆粉沉降到試 管底部,混合物 分為上下兩層。 振蕩後,液 體出現渾濁。 靜置後混 合物再次 分為上下 兩層。 植物油 + 水 植物油出現在水 層之上,混合物 分上下兩層。 振蕩後,液 體出現渾濁。 靜置後混 合物再次 分為上下 兩層。 實驗一 第一節.
第五章 企业所得税、个人所得税.
九十五年國文科命題知能 研習分享.
第29讲 通过激素的调节.
生物学 新课标(SK).
古诗鉴赏 (常用答题方法 ).
2013届高考复习方案(第一轮) 专题课件.
答:由内分泌器官(或细胞)分泌的化学物质进行调节,这就是激素调节。
人民教育出版社义务教育新课程标准 实验教科书《数学》九年级上册第25章 回顾与思考 授课教师:临潼区陕缝学校 徐联君.
财经法规与会计职业道德 与教材配套的应试指导,基于教材进行归纳总结“考什么”“怎么考”“怎么练”.
考点二 政治文明 ——英法美代议制民主的确立.
第三课 氓.
第二章 复式记账原理*** 主要内容、重点难点: 1.会计要素与会计等式*** 2.会计科目与账户*** 3. 借贷记账法***
台中縣立大里高中 理化科實習教師 曹佑民 老師
梦想的力量 博湖一小 赵秀珍. 梦想的力量 博湖一小 赵秀珍 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。 瑞恩的梦想是什么?他是怎样实现自己的梦想的? 梦想的力量是什么? 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。
第十章 肌肉活动的神经控制 第一节 神经系统概述 第二节 运动的神经控制 [复习思考题] 神经组织 神经传导的一般特征 神经元间的信息传递
中醫理論與芳香療法2 居家精油.
第六章 其他税收法律制度.
2、加一笔成新字 一 →二 二 →三、干、工 十 →土、士 口 →日、中 日 →目、白、田 月 →用 目 →自 木 →禾、本 大 →天、太、犬 人 →大、个 了 →子.
常州市戚墅堰实验中学 虞超群 执教 《诗经》选读 卫风·氓.
《成人健康护理学》的 教学组织与实施 何平先.
愛情直播不NG -破解戀愛迷思 嘉南藥理科技大學 學生輔導中心.
氧气的制法 装置 原理 练习 随堂检测.
四组制作: 许顺楠、姬少丽、李澎、刘伏、 徐娅丽、李頔
文明史观 文明史观,通常被称为文明史研究范式,是研究历史的一种理论模式。人类社会发展史,从本质上说就是人类文明演进的历史。
1、分别用双手在本上写下自己的名字 2、双手交叉
贴近教学 服务师生 方便老师.
南美洲 吉林省延吉一高中 韩贵新.
案例分析题 主讲蔡影.
將軍澳循道衛理小學 申請中一自行分配學位 家長晚會
1.6 中国人口迁移.
字母可表示: 人名 字母可表示: 地方 字母可表示: 数 (1)阿Q和小D看《阿P的故事》, Q 、D、P各表示什么?
2007年11月考试相关工作安排 各考试点、培训中心和广大应考人员:
限时综合强化训练 限时综合强化训练.
主题一 主题二 模块小结与测评 主题三 考点一 主题四 考点二 主题五 考点三 主题六 考点四 命题热点聚焦 考点五 模块综合检测 考点六.
分式的乘除(1) 周良中学 贾文荣.
第四章 制造业企业 主要经济业务核算.
成长体会 ---原杭州市惠兴中学 现富阳市永兴学校 孙迪如.
《思想品德》七年级下册 教材、教法与评价的交流 金 利 2006年1月10日.
复 习 纲 要.
机 械 加 工 工 艺 贵航高级技工学校 朱晓萍.
§7-5 循环过程 卡诺循环 1. 循环过程: 循环过程:系统经过一系列状态变化过程以后, 又回到原来状态的过程。
请同学们思考下列问题:.
歌咏对象是谁? 1)志洁行廉,爱国忠君真气节; 辞微旨远,经天纬地大诗篇。 2)翁去八百载,醉乡犹在; 山行六七里,亭影不孤。 3)刚直不阿,留得正气冲霄汉; 幽愁发愤,著成信史照尘寰。 4)世上疮痍,诗中圣哲; 人间疾苦,笔底波澜。 屈原 欧阳修 司马迁 杜甫.
项羽之死 司马迁.
日常管理方法培训 东莞华强三洋电子有限公司注塑部 2008年08月29日.
必修三 第一章 人体的内环境与稳态.
第一章 神话.
第6讲 近代中国的新方向—— 五四运动至新中国成立.
发展心理学 王 荣 山.
— —1998年全世界诺贝尔获奖者集会巴黎时的宣言
重点字词: 1、吾党之小子狂简 3、暴虎冯河 5、无所取材! 6、予所否者,天厌之 8、子哭之恸.
第十课 创新意识与社会进步 1.辩证的否定观:辩证否定、形而上学的否定观
课标版 政治 第一课 美好生活的向导.
动物激素的调节及其在农业生产中的应用(B级)
马克思主义基本原理概论 第三章 人类社会及其发展规律.
《美国的两党制》选考复习 温州第二高级中学 俞优红 2018年6月14日 1.
第七章 财务报告 主讲老师:王琼 上周知识回顾.
变 阻 器 常州市北郊初级中学 陆 俊.
第五章 相交线与平行线 三线八角.
基础会计.
國民年金 np97006.
孔融《与曹操论盛孝章书》.
說話的藝術 香港仔工業學校 盧仲衡老師.
第2节 大气的热力状况 基础知识回顾 重点难点诠释 经典例题赏析.
中级会计实务 ——第一章 总论 主讲:孙文静
Presentation transcript:

赵铁军 哈尔滨工业大学计算机学院 语言技术研究中心 2004年7月12日·复旦大学 文本信息结构化与可视化研究 赵铁军 哈尔滨工业大学计算机学院 语言技术研究中心 2004年7月12日·复旦大学

提纲 计算机理解自然语言的表现方式 文本信息结构化的若干研究 结构化与图形化 分层次结构化的理解系统 网页链接结构可视化 汉语动词次范畴化框架自动分析 跨语言结构转换—基于实例机器翻译

计算机理解自然语言的表现方式 人对自然语言的理解 计算机对自然语言的理解 行为反应 语言能力:问答/文摘/复述/翻译… … 显式或隐式地表达出语言的结构和意义:心理学家的看法—人的理解过程是从词的序列中建构起具有层次安排的命题 计算机对自然语言的理解 面向应用的NLP—上述2 对自然语言的多层次分析—上述3:自然语言的结构化表示

计算机理解自然语言的表现方式 多层次的语言结构表示—语言理解系统 文本的结构化:面向不同应用有不同的结构化形式 文本 分句 词法分析/分词 词性标注 短语级分析 句法分析(功能) 语义分析 语篇分析 理解 一种语言 另一种语言 跨语言处理 单语处理 语篇结构/命题网络 语义结构 … … 句法及句法功能结构 短语结构 词性序列 标准化词序列 句子序列 自然形态 摘句式文摘 部分结构分析 名实体识别 词/词性序列 文本的结构化:面向不同应用有不同的结构化形式

计算机理解自然语言的表现方式 自然语言的可视化或图形化:另外一种理解方式 图像理解—自然语言化文本理解—图形化 故事理解动画 对语言信息处理结果的一些简单而实用的图形化:词或短语识别结果的反显 / 句法结构树形图 / 依存关系图 / 评分结果的直方图… … 强调视觉效果,增强技术可信性又增加趣味性

文本信息结构化的若干研究(1) 网页链接结构可视化 研究背景:挖掘特定专业领域(IT)网页信息关联—结构的可视化,富士通研究开发中心有限公司委托研究项目 研究意义:互联网获取相关信息数据库 / 相关信息跟踪

网页链接结构可视化 网页实例: 2002秋季英特尔信息技术峰会主体演讲介绍 http://www.sina.com.cn 2002年10月29日 18:37 新浪科技 主体演讲:   10月31日星期四上午   A:开幕致词 演讲人: Jason Chen   职位:英特尔公司副总裁、英特尔公司亚太区总裁 … … … … 相关链接 2002秋季英特尔信息技术峰会技术讲座介绍(2002/10/29 18:24) 英特尔通过纳米技术扩展摩尔定律(2002/10/29 17:41) 英特尔将至强™处理器频率提升至2.80 GHZ(2002/10/29 17:36) 英特尔:计算和通信融合是企业竞争优势的关键(2002/10/29 17:29) 英特尔推出新技术和基础模块以解决存储难题(2002/10/29 17:27) … … … …

网页链接结构可视化 可视化效果

网页链接结构可视化 关键技术—信息抽取模板 例如:产品模板 产品名称 产品所属公司名称 产品所属类别 产品相关的事件(如:推出、投放) 事件发生地点 事件发生时间 … … 其他如:财务模板/人物模板/技术模板… …

网页链接结构可视化 关键技术—特征词识别/二元关系确定 if [PN]{verbin}[Com][Post] then Pn-In:PN; 特征词表 名实体关系识别规则 类别权重 规则形式(从训练语料中自动获取) if [PN]{verbin}[Com][Post] then Pn-In:PN; Cur-Com:Com; Cur-Post:Post;

网页链接结构可视化 结果示例 中国联通董事长变更 杨贤足去职王建宙接任 Pn-In:王建宙 Cur-Com:中国联通 Cur-Post:董事长 Pn-out:杨贤足 Pre-Com:中国联通 Pre-Post:董事长

文本信息结构化的若干研究(2) 汉语动词次范畴化框架自动分析 研究背景:国家自然科学基金项目(60373101) 研究目标:建立汉语动词次范畴化词汇知识库,服务于汉语文本信息自动处理技术的需要—文本信息结构化的一个层次 汉语动词次范畴化框架(SCF)形式化描写:五元组=<V, TA, NA, PA, CL> 其中V谓语动词集合 / TA论元类型集合(11种)/ NA相应谓语动词支配论元个数 / PA相应论元在SCF中的相对位置 / CL广义句法形态常量(“着了过”等6个)

汉语动词次范畴化框架自动分析 实现过程:获取→应用 获取过程 学习SCF预设集合:43000简单句(词典例句+人民日报语料),1774动词→非完整句法分析→生成原始SCF预设集合→统计过滤→获得SCF预设集合并计算相应概率分布 / 结果138个SCF框架 从大规模真实文本中自动获取汉语动词SCF:6个月人民日报语料库,3558动词→句法分析结果为输入→错误校正→模式提取→SCF生成→假设检验

汉语动词次范畴化框架自动分析 大规模自动获取结果 该结果可以和英语同类研究最好结果相比 英语53%~65% 本研究53%~56% 检验方法 评价指标 零检验 BHT检验 ML0.001 检验 ML0.005 ML0.008 ML0.01 Precision 37.43% 50% 39.2% 40.3% 58.2% 60.6% Recall 85.9% 57.2% 83.33% 54.5% 51.3% F-measure 52.14 53.36 53.83 54.33 56.3 55.56 该结果可以和英语同类研究最好结果相比 英语53%~65% 本研究53%~56%

汉语动词次范畴化框架自动分析 成果:SCF知识库,动词总数=3502 SCF数目 1 2 3 4 5 6 7 8 9 10 11 12 13 14 动词个数 32 120 211 321 440 442 408 335 274 216 180 126 92 15 16 17 18 19 20 21 22 23 24 25 26 28 30 84 55 40

汉语动词次范畴化框架自动分析

汉语动词次范畴化框架自动分析 应用:SCF分析过程 / 输入=句法分析器输出,输出=句子SCF框架 示例 我们/r 要/vz 坚持/vg 解放/vg 思想/ng AP[实事求是/i 的/usde ]BNP[思想/ng 路线/ng ]。/ 坚持: r vz vg vg ng AP BNP 坚持: NP v VP VO[花/vg BNP[BMP[二\百\/m 元/q ]人民币/ng ]]便/c 能/vz VO[欣赏/vg BNT[这里/s 一/m 年/q ]]的/usde 双/m 休/vg 日/q NP[下午/t 的/usde 歌剧/ng ]表演/vg 。/ 花: VO vg BNP c vz VO vg BNT usde m vg q NP vg 花: NP v NP VP

汉语动词次范畴化框架自动分析 应用检验(初步):提高汉语句法分析精度,短语级精确率提高了5.36%,召回率提高了7.1%,句子级精确率和召回率提高了8.04% 今后工作改进:通过语义回退,取得自动获取SCF的更高精确率

文本信息结构化的若干研究(3) 跨语言结构转换—基于实例机器翻译 研究背景:科技部政府间国际科技合作项目(CI-2003-03),与爱尔兰都柏林城市大学合作 研究目标:面向奥运会服务的汉英-英汉翻译系统,重点领域—体育、餐饮、交通、旅游 资源支持:国家863计划项目子课题(面向奥运智能信息服务的平行语料加工),汉英日三语句对数70万

跨语言结构转换—基于实例机器翻译 系统实现 Bilingual corpus Sent_align Input Word_align Auto KA Input Word_align Examp Sel Examp_extrac Examp base Trans module Trans Sel Surface Gen Output

跨语言结构转换—基于实例机器翻译 转换基础:大于词的结构对齐=汉英双语词汇对齐+双语词汇扩展片断对齐 扩展片断示例:原子—词汇对齐 / 平行扩展—(ab-AB) (bc-BC) (bcd-BCD) (cd-CD) (de-DE) / 非平行扩展—(fghi-FGHI)

跨语言结构转换—基于实例机器翻译 翻译过程: 源语言片断匹配—实例选择 目标语言片断匹配—译文选择

跨语言结构转换—基于实例机器翻译 翻译结果评测—汉英翻译 NIST 2004 MT Evaluation (大规模语料训练) BLEU4:0.1023(区分大小写) NIST5:5.5672(区分大小写) / 5.8331(不区分大小写) 采用面向质量的数据训练策略后,分数提高:对齐质量=2*对齐词数/(汉语词数+英语词数) NIST5:6.34(不区分大小写) NIST5:6.5982(订正输出格式错误以后)

谢谢各位!