Presentation is loading. Please wait.

Presentation is loading. Please wait.

汉英机器翻译中的知识库系统建设 刘化冰 国家知识产权局知识产权出版社

Similar presentations


Presentation on theme: "汉英机器翻译中的知识库系统建设 刘化冰 国家知识产权局知识产权出版社"— Presentation transcript:

1 汉英机器翻译中的知识库系统建设 刘化冰 国家知识产权局知识产权出版社 liuhuabing@cnipr.com

2 我们的梦想 真正的“傻瓜式”专利检索,跨越一切语言障碍

3 专利信息技术的新发展 机器翻译 跨语言检索 语义检索 亚洲语言 欧洲语言 专利信息技术在中国的新发展 汉英专利机器翻译系统于2008年开通。
基于词典的中国专利跨语言检索已 经实现,用户可以使用英文关键词检 索中国专利全文。 专利语义检索的原型系统已经出现。 知识产权出版社

4 汉英机器翻译面临的问题 不断提高翻译质量 RBMT or SBMT or ?? 原文分析的优化 可信度评价
面对未来挑战,知识库建设是未来发展的重要基础。

5 机器翻译中的知识库建设 海量双语语料库 术语库& 双语词典 翻译模板库 翻译记忆 术语抽取 统计机器翻译 科技术语翻译 原文分析 可信度评估
基于特定语法规则的翻译

6 海量双语语料库 目标 超过四千万的句对齐语料库 资源 大约40万件同族专利 专利名称,文摘 非专利名称,文摘 数据标准 XML格式

7 构建双语语料库的工作流程 语料采集 原始数据 数据加工 加工完成数据 语料库组织管理 双语语料库 索引 格式、噪音处理 数据清理、标注
自动对齐 加工完成数据 对齐检查 语料库组织管理 双语语料库 索引

8 术语库 & 双语词典库 现有词典的问题 目标 方法 词汇量有限,特别是短语 缺少相关性因子
从专利文献中提取更多的科技术语和短语(现档和过档) 方法 新词发现 相关性分析 翻译等价物挖掘

9 新词发现和相关性分析 文本输入 人工检查 频度统计 同义词分析 相关度分析 现有词典过滤 术语库 新词挖掘 增加领域信息 分词引擎 A
(原始文献, 双语语料库) 分词引擎 A 分词引擎 B 分词引擎 C 按照最大长度提取术语和词组 人工检查 频度统计 同义词分析 相关度分析 现有词典过滤 术语库 新词挖掘 增加领域信息

10 翻译等价物挖掘 术语库 翻译等价物挖掘 人工检查和翻译 网上检索 从语料库抽取 吸引 attract vt.
自动构词 <TM>无线通信网</TM>上提供实时<TM>分组话音</TM>和<TM>数据服务</TM>的方法和装置 METHOD AND APPARATUS FOR PROVIDING REAL-TIME <TM> PACKETIZED VOICE </TM> AND <TM> DATA SERVICES </TM> OVER A <TM> WIRELESS COMMUNICATION NETWORK </TM> Existing Dictionary 无线通信网 wireless communication network 数据服务 data service Candidate 分组话音 packetized voice 吸引 attract vt. 可被吸引的 attractable adj. 保存 preserve vt. 可保存的 preservable adj. 调整 v. n. 装置 n. 调整装置 ving+n Adjusting Device 声码器 Google VoIP语音编码器- Voip 技术应用- IXPUB技术博客- Powered by X-Space 声码器(vocoder)不会再生原始波形。这组编码器会提取一组参数,这组参数被送到接收端,用来导出 ... 根据合同,该公司帮助翻译国家安全局所截获的情报中的一些信息。 CNKI vocoder(187) sounder(3) speech vocoder(6) Iciba 【计】 vocoder 【化】 vocoder

11 翻译模板库 应该理解,下面的描述只是本发明的原理的示范,不应该被认为是缩小了遵循的权利要求。 一种A,由B和C组成,其特征在于
因此本发明目的是在于覆盖落入本发明的权利要求以及它们的等价内容的范围内的修改和变化。 因此,本发明旨在覆盖在所附权利要求等的范围内提供的本发明的修改和变化。 以下本发明优选实施例的描述实质上仅为示例作用,并不用于限制本发明及其应用或使用。 本公开不应限于 因此,本公开不应限于采用的光学元件类型。 本发明不受到将微观结构_30_制作在透明材料中的特殊的结构或方法的限制,而且也不受到将这些结构最初制作在主基体或次基体中的特殊过程所限制。 因此,本发明的精神和范围应广义理解且仅由附属权利要求而不是由前面的说明书限定。 因此,本发明打算仅受限至由后附权利要求书及可应用规程的规则和原理所要求的程度。 因此本发明的实施方案和实例只是说明性的而不是限制性的,本发明的范围由下面的权利要求给出而不是前面的描述给出,在权利要求的范围之内的所有变化都属于本发明。 在权利要求的范围之内的所有变化都属于本发明。 一种A,由B和C组成,其特征在于 A kind of A, composed of B and C, characterized in that / characterized by 一种A,包括/包括有B和C, 其中: A kind of A, including/comprising B and C, wherein: 一种A,其具有一带B的C, A kind of A, having a C with B 一种A,包括一用于V+N的B, A kind of A, including a B used for V-ing the N. 根据权利要求X所述的A,其特征在于, A as stated in Claim X, characterized in that / characterized by 根据权利要求X的A,其特征在于所述B为一+ADJ+的+C, A according to the Claim X, characterized in that B is the C that…… 如前述权利要求中任一项所述的A,其特征在于, A stated in any aforesaid claim, characterized by,

12 机器翻译流程中的知识库系统 …………… IPC-driven Dictionary Conversion Grammar Analysis
Syntax Analysis TM SBMT RBMT Syntax Analysis Structure Selection Phrase Analysis Parallel Corpus Rule & Template Base Terminology Selection Pre-processing Part-of-speech Tagging Format conversion Dictionary 1 Dictionary 2 Dictionary 3 Dictionary 4 Morphology Analysis …………… Patent Input Output IPC-driven Dictionary

13 自动可信度评估 匹配率 模板匹配 语料库匹配 原文分析 缺失片段 歧义分析 译文分析 句法和语法分析

14 知识库在专利检索中的应用 跨语言检索 语义检索 相关性匹配 概念挖掘 相关性分析 照明设备=lighting element
Related concept 照明设备、照明装置、照明仪器…… lighting element; lighting device; lighting equipment; lighting set…… 机器翻译: 自然语言处理;词法;语言模型;目标语言;语言规则;机器翻译系统;源语言;对句;译文; 词法;自然语言; 语言现象;汉语文本; 语言同义;语料库;语料库数据 computational linguistics;natural language;web search;data engineering; first international workshop;knowledge discovery;theory of computing;artificial intelligence; theoretical framework;machine learning;understand;explain;latent semantic;feature map

15 Thank You !


Download ppt "汉英机器翻译中的知识库系统建设 刘化冰 国家知识产权局知识产权出版社"

Similar presentations


Ads by Google