汉英机器翻译中的知识库系统建设 刘化冰 国家知识产权局知识产权出版社

Slides:



Advertisements
Similar presentations
青少年儿童常见伤害的预防. 伤害的定义 伤害是指各种物理性、化学性或生物性 事件而导致人体发生暂时或永久性损 伤、死亡和残疾的一类疾病的总称。
Advertisements

四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
1 网络工程专业 Major of Network Engineering 2009 HeFei 网络工程专业介绍 钟伯成 合肥学院 计算机科学与技术系
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
谷韦欣TM 医用高分子夹板 谷韦乐TM 医 用 固 定 板
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
熟悉以下网站: 中国知识产权局 中国专利信息网
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
第九章 認識勞退新制及因應之道 大葉大學 助理教授 邱祈豪.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
比亚迪集成创新模式探究 深圳大学2010届本科毕业论文答辩 姓名:卓华毅 专业:工商管理 学号: 指导老师:刘莉
如何撰写青年基金申请书 报 告 人: 吴 金 随.
点击输 入标题 点击输入说明性文字.
國際志工海外僑校服務 越南 國立臺中教育大學 2010年國際志工團隊.
痰 饮.
學分抵免原則及 學分抵免線上操作說明會.
教 学 查 房 黄宗海 南方医科大学第二临床医学院 外科学教研室.
评 建 工 作 安 排.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
首都体育学院 武术与表演学院 张长念 太极拳技击运用之擒拿 首都体育学院 武术与表演学院 张长念
大学生利用图书馆资源情况调研 西电图书馆 刘汝翠
现行英语中考考试内容与形式的利与弊 黑龙江省教育学院 于 钢 2016, 07,黄山.
第5讲:比较安全学的创建 吴 超 教授 (O)
彰化縣西勢國小備課工作坊 新生入學的班級經營 主講:黃盈禎
重庆市西永组团K标准分区基本情况介绍.
西貢區歷史文化 清水灣 鍾礎營,楊柳鈞,林顥霖, 譚咏欣,陳昭龍.
所得稅扣繳法令與實務 財政部北區國稅局桃園分局 102年12月19日 1 1.
角 色 造 型 第四章 欧式卡通造型 主讲:李娜.
走进校园流行 高二15班政治组 指导老师:曾森治老师.
中信信诚-淮安项目.
外科护理学 沧州医学高等专科学校.
第九章 建设中国特色社会主义政治.
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
基于规则抽取的 时间表达式识别.
《知网2000座谈会》发言 董振东 董强 Tel: (8610) Tel: (8610)
解密亚洲专利信息 Martine Massiera Global Sales Manager 全球销售经理
2019/4/16 关注NE官方微信,获取更多服务.
内容营销.
2019/4/26 关注NE官方微信,获取更多服务.
双语例句搜索 句库+巨酷 Web: Beijing 2008.
Adj + Noun映射到知识库中的classes
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
Presentation transcript:

汉英机器翻译中的知识库系统建设 刘化冰 国家知识产权局知识产权出版社 liuhuabing@cnipr.com http://english.cnipr.com 2008.11

我们的梦想 真正的“傻瓜式”专利检索,跨越一切语言障碍

专利信息技术的新发展 机器翻译 跨语言检索 语义检索 亚洲语言 欧洲语言 专利信息技术在中国的新发展 汉英专利机器翻译系统于2008年开通。 基于词典的中国专利跨语言检索已 经实现,用户可以使用英文关键词检 索中国专利全文。 专利语义检索的原型系统已经出现。 知识产权出版社

汉英机器翻译面临的问题 不断提高翻译质量 RBMT or SBMT or ?? 原文分析的优化 可信度评价 面对未来挑战,知识库建设是未来发展的重要基础。

机器翻译中的知识库建设 海量双语语料库 术语库& 双语词典 翻译模板库 翻译记忆 术语抽取 统计机器翻译 科技术语翻译 原文分析 可信度评估 基于特定语法规则的翻译

海量双语语料库 目标 超过四千万的句对齐语料库 资源 大约40万件同族专利 专利名称,文摘 非专利名称,文摘 数据标准 XML格式

构建双语语料库的工作流程 语料采集 原始数据 数据加工 加工完成数据 语料库组织管理 双语语料库 索引 格式、噪音处理 数据清理、标注 自动对齐 加工完成数据 对齐检查 语料库组织管理 双语语料库 索引

术语库 & 双语词典库 现有词典的问题 目标 方法 词汇量有限,特别是短语 缺少相关性因子 从专利文献中提取更多的科技术语和短语(现档和过档) 方法 新词发现 相关性分析 翻译等价物挖掘

新词发现和相关性分析 文本输入 人工检查 频度统计 同义词分析 相关度分析 现有词典过滤 术语库 新词挖掘 增加领域信息 分词引擎 A (原始文献, 双语语料库) 分词引擎 A 分词引擎 B 分词引擎 C 按照最大长度提取术语和词组 人工检查 频度统计 同义词分析 相关度分析 现有词典过滤 术语库 新词挖掘 增加领域信息

翻译等价物挖掘 术语库 翻译等价物挖掘 人工检查和翻译 网上检索 从语料库抽取 吸引 attract vt. 自动构词 <TM>无线通信网</TM>上提供实时<TM>分组话音</TM>和<TM>数据服务</TM>的方法和装置 METHOD AND APPARATUS FOR PROVIDING REAL-TIME <TM> PACKETIZED VOICE </TM> AND <TM> DATA SERVICES </TM> OVER A <TM> WIRELESS COMMUNICATION NETWORK </TM> Existing Dictionary 无线通信网 wireless communication network 数据服务 data service Candidate 分组话音 packetized voice 吸引 attract vt. 可被吸引的 attractable adj. 保存 preserve vt. 可保存的 preservable adj. 调整 v. n. 装置 n. 调整装置 ving+n Adjusting Device 声码器 Google VoIP语音编码器- Voip 技术应用- IXPUB技术博客- Powered by X-Space 声码器(vocoder)不会再生原始波形。这组编码器会提取一组参数,这组参数被送到接收端,用来导出 ... 根据合同,该公司帮助翻译国家安全局所截获的情报中的一些信息。 CNKI vocoder(187) sounder(3) speech vocoder(6) Iciba 【计】 vocoder 【化】 vocoder

翻译模板库 应该理解,下面的描述只是本发明的原理的示范,不应该被认为是缩小了遵循的权利要求。 一种A,由B和C组成,其特征在于 因此本发明目的是在于覆盖落入本发明的权利要求以及它们的等价内容的范围内的修改和变化。 因此,本发明旨在覆盖在所附权利要求等的范围内提供的本发明的修改和变化。 以下本发明优选实施例的描述实质上仅为示例作用,并不用于限制本发明及其应用或使用。 本公开不应限于 因此,本公开不应限于采用的光学元件类型。 本发明不受到将微观结构_30_制作在透明材料中的特殊的结构或方法的限制,而且也不受到将这些结构最初制作在主基体或次基体中的特殊过程所限制。 因此,本发明的精神和范围应广义理解且仅由附属权利要求而不是由前面的说明书限定。 因此,本发明打算仅受限至由后附权利要求书及可应用规程的规则和原理所要求的程度。 因此本发明的实施方案和实例只是说明性的而不是限制性的,本发明的范围由下面的权利要求给出而不是前面的描述给出,在权利要求的范围之内的所有变化都属于本发明。 在权利要求的范围之内的所有变化都属于本发明。 一种A,由B和C组成,其特征在于 A kind of A, composed of B and C, characterized in that / characterized by 一种A,包括/包括有B和C, 其中: A kind of A, including/comprising B and C, wherein: 一种A,其具有一带B的C, A kind of A, having a C with B 一种A,包括一用于V+N的B, A kind of A, including a B used for V-ing the N. 根据权利要求X所述的A,其特征在于, A as stated in Claim X, characterized in that / characterized by 根据权利要求X的A,其特征在于所述B为一+ADJ+的+C, A according to the Claim X, characterized in that B is the C that…… 如前述权利要求中任一项所述的A,其特征在于, A stated in any aforesaid claim, characterized by,

机器翻译流程中的知识库系统 …………… IPC-driven Dictionary Conversion Grammar Analysis Syntax Analysis TM SBMT RBMT Syntax Analysis Structure Selection Phrase Analysis Parallel Corpus Rule & Template Base Terminology Selection Pre-processing Part-of-speech Tagging Format conversion Dictionary 1 Dictionary 2 Dictionary 3 Dictionary 4 Morphology Analysis …………… Patent Input Output IPC-driven Dictionary

自动可信度评估 匹配率 模板匹配 语料库匹配 原文分析 缺失片段 歧义分析 译文分析 句法和语法分析

知识库在专利检索中的应用 跨语言检索 语义检索 相关性匹配 概念挖掘 相关性分析 照明设备=lighting element Related concept 照明设备、照明装置、照明仪器…… lighting element; lighting device; lighting equipment; lighting set…… 机器翻译: 自然语言处理;词法;语言模型;目标语言;语言规则;机器翻译系统;源语言;对句;译文; 词法;自然语言; 语言现象;汉语文本; 语言同义;语料库;语料库数据 computational linguistics;natural language;web search;data engineering; first international workshop;knowledge discovery;theory of computing;artificial intelligence; theoretical framework;machine learning;understand;explain;latent semantic;feature map

Thank You !