Presentation is loading. Please wait.

Presentation is loading. Please wait.

基于规则的英汉翻译技术报告 景元 西安汇申软件有限公司 西安 7100075 E-mail:freeartsoft@126.com.

Similar presentations


Presentation on theme: "基于规则的英汉翻译技术报告 景元 西安汇申软件有限公司 西安 7100075 E-mail:freeartsoft@126.com."— Presentation transcript:

1 基于规则的英汉翻译技术报告 景元 西安汇申软件有限公司 西安

2 1 背景情况 FreeartTrans英汉全文翻译系统是由西安汇申软件有限公司 自主投资研发的基于规则的英汉全文全自动精确翻译软件。 基于规则的机器翻译系统就是对语言语句的词法、语法、 语义和句法进行分析、判断和取舍,然后重新排列组合, 生成等价的目标语言。本系统是根据全新的机器翻译理论 (MT)建立起的“翻译仿生学”模型,依托本公司独创的 “成分识别系统”和“综合立体释义选择系统”在机器翻 译过程中尽可能地模拟人类的翻译行为,从而大幅度提高 机器翻译的准确率。 FreeartTrans参加了本次第四届全国机器翻译研讨会 (CWMT2008)英汉新闻领域机器翻译评测项目。

3 2 系统结构 FreeartTrans从结构上分搜索引擎、成分识别、释义选择三 个大部分。

4 2.1 搜索引擎 搜索引擎首先对要翻译的英文资料标点符号等纠错,保留 格式后,分成单句。分句中还要处理直接引语和缩写识别 等问题。Say、think、shout、muse、clamor、clamour、 state、announce、declare、assert、respond、return、 continue、greet、exclaim、remark、whisper、order、call、 suggest、advise、urge、cry、answer、add、reply、 acknowledge、retort、quiz、complain、query、demand、 inquire、counsel、proclaim、cheer、hail、mumble、mutter、 murmur、utter、laugh、smile、answer、argue、report、 persuade、go on等引导的直接引语需要对引号内的句子分 句,如果有主谓语倒置的情况还需要对主谓语还原。

5 如:“People have a variety of emotion,” argues Harvard, “Some people handle anger well but can‘t handle fear. So each emotion has to be viewed differently.”需要还原成Harvard argues ,“People have a variety of emotion,Some people handle anger well but can’t handle fear. So each emotion has to be viewed differently.”。型如U.S.、Mr.、 写从形式上会对分句产成干扰,对缩写的识别可以消除这 一问题。 搜索引擎完成了搜索句中每个单词的词性,释义,合成词 识别、数词识别,时间年月识别,固定表达等识别,短语、 模式、规则等的搜索匹配。搜索引擎是句子翻译的起点, 同时贯穿释义选择的整个过程。搜索引擎首先建立每个单 词的词性、属性、文体属性、语义属性等信息,为成分识 别和释义选择提供服务,在释义选择的过程中搜索引擎需 要针对一些短语、模式或规则进行关联搜索匹配,提供翻 译的服务。

6 2.2成分识别 成分识别的工作过程就是利用在数据库中的上千个属性和 定义对英语进行解析的过程。这个解析的过程是 FreeartTrans最核心的部分,需要解析出所有的词性、底层 短语、底层短语内成分、所有一级成分(就是能够在主句 中担任成分的成分)、所有的从句等。分析出的结果还要 进行各自环节的进一步处理,比如识别出一个短语后,要 对短语内所有成分进行分析;比如识别出一个一级成分后, 要对这个成分进行翻译方案确定和翻译定位,同时还要对 这个一级成分中所有的内成分进行处理等。 成分识别的目的就是要让机器“看懂”英语,通过英语的 最小的要素一步一步地分析出一级成分来。这个过程需要 解决很多语言多重理解、多词性词的处理和语义歧义等问 题。英语句子解析完毕后,整个句子的整体工作就已经完 成了大半。

7 2.2.1底层短语识别 在词库详尽的词性、属性基础上实现了语法意义上短语的 识别。底层短语需要识别出12种不同的短语来,同时要对 这些短语进行解析和翻译定位。 短语的类别包括:名词短语、介词短语、代词短语、数词 短语、形容词短语、副词短语、动词短语、不定式短语、 ing分词短语、ed分词短语、从句引导词、并列连词 短语识别需要在一般陈述句的基础上进行识别。英语句子 的多样性会对短语识别的结果产生影响。为了避免影响需 要处理一些特殊情况,我们引进了省略还原、句型转化等 机制。如’s、’d的省略,动词不定式符号to的省略等语 言现象,需要先还原正常表达形式,再进行识别。

8 The boy’s looking at the tall tree
The boy’s looking at the tall tree.需要还原成The boy is looking at the tall tree. He’s finished the work.需要还原成He has finished the work. The boy’s book is lost.需要将boy’s识别成所属格。 He'd finished.需要还原成He had finished. I'd like to have a cup of tea with you on this Sunday.需要还原 成I would like to have a cup of tea with you on this Sunday.

9 He found a way to take an udder cell and make it grow into a new cloned lamb.需要还原成He found a way to take an udder cell and make it to grow into a new cloned lamb. 一般疑问句,可以先还原成陈述句,并给出翻译模式,句 尾加“吗”。 Do you think the proposal is acceptable?可以还原成you think the proposal is acceptable? Is the station clock accurate?可以还原成the station clock is accurate? 常见需要转换的句型有疑问句(包括一般疑问句、反义疑 问句、特殊疑问句、倒装句、强调句等)。

10 为了降低单词多词性的干扰和利用不同短语类型的分类识别, 短语识别采用从句子的最后一个单词向前推进,从而识别短语 的类别。如果短语的最后一个的单词具有唯一的词性,短语的 类型相对确定;如果短语的最后一个的单词词性不确定,需要 结合前后环境进行多词性单词的识别,从而确定短语最后一个 单词的词性。 对于短语前面修饰成分的识别,合并成一个短语。确定短语最 后一个单词的词性后,根据短语最后一个单词的词性不同,分 为不同类型短语,进行短语前面修饰成分的识别,最终将相关 联的单词组合成一个短语。 如An advantage of using the solar energy is that it won't create any pollution.短语识别的结果为:An advantage是名词短语、of using是介词短语、the solar energy是名词短语、is是谓语短语、 that是从句引导词、it是代词短语、will not create是谓语短语、 any pollution是名词短语、.是标点。

11 2.2.3一级成分识别 一级成分识别需要在短语合并的基础上识别句子的主语、谓语、 宾语、表语、状语等语法成分。最终需要识别出的一级成分有39 种:1)句首连词、2)谓语前独立成分、3)语前状语、4)主语、 5)主语同位语、6)谓语前主语补足语、7)主语后状语、8)形 式主语it、 9)谓语中状语、10)谓语中否定副词、11)谓语 中情态动词、助动词、12)谓语、13)系动词、14)谓语后单一 状语、15)宾语前状语、16)单一宾语、17)形式宾语it、18) 间接宾语、19)直接宾语、20)真正宾语、21)宾语后状语、22) 宾语补足语、23)单一宾语同位语、24)表语前状语、25)表语、 26)表语后状语、27)表语同位语、28)谓语后真正主语、29) 谓语后主语补足语、30)被动语态by主语、31)间接宾语同位语、 32)直接宾语同位语、33)谓语后独立成分、34)谓语前状语从 句、35)谓语后状语从句、36)主句从句、37)宾语从句、38) 表语从句、39)同位语从句

12 短语识别的基础上进行短语的合并 短语合并是为了解决短语的修饰关系与句子的结构问题, 短语合并后的层次关系描述了句子的结构。名词短语后的 介词短语如果是修饰名词短语做后定语,从修饰关系来判 断应该将短语合并,同时给出短语的成分,这样便于对合 并后的短语给出翻译模式。通常情况下不定式、ing分词、 ed分词后面可以带自己的宾语、状语等,对这些成分也需 要进行短语的合并。从句中可能有自己的主、谓、宾结构, 同时从句也是主句的一个成分,如宾语从句中,整个从句 是主句的宾语,状语从句中,整个从句是主句的状语。为 了实现句子的层次结构,也需要对短语进行合并。

13 短语合并基础上识别 合并后短语的一级成分 短语的一级成分即句子的主语、谓语、宾语、表语、状语 等语法成分。一级成分识别是分层次实现的,对于从句也 需要进行一级成分的识别。不定式、ing分词、ed分词可以 带自己的宾语、状语等,对这些成分也需要进行一级成分 识别。一级成分识别首先需要确定短语合并的位置(相对 谓语的位置),然后根据短语合并的类型进行一级成分识 别。 如:An advantage of using the solar energy is that it won't create any pollution.一级成分识别后的结构:

14 An advantage 是名词短语---主语
---of using---是介词短语 ------of using---是介词短语 ------the solar energy---是名词短语 the solar energy---是名词短语 is 是谓语短语---谓语 ---is---是谓语短语

15 that 是从句引导词---表语从句 ---that---是从句引导词 ---it---是代词短语 ------it---是代词短语 ---will not create---是谓语短语 ------will not create---是谓语短语 ---any pollution---是名词短语 ------any pollution---是名词短语 . 是标点--- 是标点

16 2.3 释义选择 释义选择是在一级成分识别后的基础上按短语类型分层次 进行的。

17 2.3.1 翻译模式 翻译模式在对短语中每个单词的内成分识别、短语的一级成分 识别的基础上给出的。名词短语需要识别限定词、前定语、中 心名词等(如An advantage的内成分识别结果:An(限定词) advantage(中心名词)(数:单数)---中心名词不并列---限定词不 并行---前定语数量:0)。根据每个单词的词性给出翻译模式。 An advantage of using the solar energy是一个合并后的名词短语。 of using the solar energy是一个合并后的介词短语。the solar energy是一个名词短语做介宾using的宾语。of using the solar energy翻译成“使用太阳能”。我们给出后定语的翻译模式, 翻译到修饰的名词短语中心词前。a(一)+advantage的量词(种) +of using the solar energy做后定语的翻译(使用太阳能的)+ advantage(优势)。最终我们得到了An advantage of using the solar energy的翻译:一种使用太阳能的优势。谓语短语需要给 出谓语中情态动词、谓语中否定副词、谓语中副词、谓语中助 动词等的翻译模式。

18 2.3.2 释义选择库 释义选择库针对单词的释义选择问题、短语的释义选择问题、短语之间的释 义选择问题,提供了比较全面的释义选择解决方案。释义选择库包括短语库、 谓语模式库、非谓语模式库、名词多释义库、形容词多释义库、副词多释义 库等数据库,解决释义选择的问题。 谓语模式:Students all put their hands to prepare for the test.其中put是谓语, their hands是宾语,给出put + 宾语中心词是hand + 不定式短语的翻译模式 “着手+不定式的翻译”。谓语模式匹配基于成分匹配,很大程度避免了模式 过大引起的错误匹配问题。 短语模式释义选择:The place distant from noise is my paradise.其中Distant是形 容词短语,from noise是介词短语。我们给出形容词distant + from开始的介词 短语的翻译模式“远离+介词宾语的翻译+的”,我们就得到了distant from noise的翻译“远离噪音的”。 多释义:The sea is asleep.其中asleep修饰的中心词是water、wave、river、lake、 sea等单词时,释义为“静止”。The level of carbon dioxide is high in this city. 表示溶液、液体、化学元素等的名词(语义属性给出)的单词修饰level时, 释义为“含量”。

19 2.3.3 翻译顺序 合并后短语内部的翻译顺序问题主要是通过翻译模式来解 决。如名词短语加后定语的翻译模式,会将后定语翻译在 名词短语的中心名词前。合并后短语之间的翻译顺序问题 主要是通过前面提到的39种一级成分来对短语翻译定位。

20 3 数据 目前FreeartTrans系统拥有36万单词库、48万短语库(主要 是名词短语)、20万动词模式、3.6万短语模式(包括名 词模式、介词模式、副词模式、形容词模式、限定词模 式)、1万非默认释义(包括名词非默认释义、副词非默 认释义、介词非默认释义、形容词非默认释义)。 单词库提供单词的词性、属性、文体属性和名词的语 义属性。可以通过属性、文体属性、语义属性来确定单词 的不同释义。属性、文体属性、语意属性同时也为成分识 别和释义选择的规则制定提供支持。跳转属性还可以从单 词的变体查到单词原形的信息。

21 4 实验及总结 本次测试在Microsoft Windows XP Professional操作系统中, Intel (R) Core (TM)1 Duo CPU E GHz条件下运行1 个小时27分46秒。针对新闻领域采取的一些解决方案。如 report、say等常伴随主语倒置。如"We've been inscribing new sites for 30 years," says Morris of the NPS.在短语识别, 主谓语匹配的情况下做短语顺序的调整成:Morris of the NPS says, "We've been inscribing new sites for 30 years". 基于规则的机器翻译系统能够较好的解决句子的结构问题。 但是规则的制定、语料的扩充非常繁重。人工完成的释义 选择库在实际翻译过程中的匹配率比较低,对翻译质量的 提高还有比较大的限制。进一步完善规则、扩充语料库是 我们需要不断努力的目标。基于规则的机器翻译系统在释 义选择上借鉴基于统计的的机器翻译的一些方法是我们研 发的一个方向。

22 Thanks 西安汇申软件有限公司


Download ppt "基于规则的英汉翻译技术报告 景元 西安汇申软件有限公司 西安 7100075 E-mail:freeartsoft@126.com."

Similar presentations


Ads by Google