大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所

Slides:



Advertisements
Similar presentations
簡介 …………………………p.1 健康新天地 ………………….p.2 小食餐單 …………………….p.3 士多啤梨 蘋果 之營養 p.4 蕃茄 葡萄之營養 p.5 鮮奶的益處 ………………….p.6 有關圖片...…………………..p.7 總結.
Advertisements

中医特色疗法及其在临床 中的应用 静乐县中医院 主治中医师 曹怀奎. 中药熏洗疗法是根据中医辨证论治的原则,依据疾 病治疗的需要,选配一定的中药组成熏蒸方剂,将中药 煎液趁热在皮肤或患处进行熏蒸、熏洗,而达到治疗效 果,是一种祖国医学最常用的传统外治方法。
毛周角化症的植物护理. 引 言 —— 本课题的必要性和可信度  目前 美容市场常用毛周角化症的护理方法:自行使 用去角质沐浴用品,像是磨砂膏、去角质刷、丝瓜 布等等。适度的去角质有一定的帮助,但过头就会 造成皮肤的伤害。过度的摩擦不只会使皮肤受伤, 还会使角质层变得更厚。  我们小组设计了一套天然植物的毛周角化症护理,
鼻后孔阻塞综合征 程靖 1 、吴小海 2 1. 广东药学院附属第一医院(临床医学院) 耳鼻咽喉科学教研室 广州 广东药学院附属第二医院耳鼻咽喉科.
项目一:准备出库 出入库作业实务. 学习目标 1 .掌握出库的基本要求 2 .理解货物出库的依据和基本方法 3 .明确出库的作业流程 4 .能按要求完成货物出库前的准备工作 ,能计算出库货物的仓容,安排调配装 卸机具 5 .会填写各种出库单证 6 .掌握货物出库的各种方式.
张 猛,陕西安康人。 振东健康培训经理。 曾任教育培训师、保健品营销主管等职务。 从事中药保健养生护理用品研发工作 3 年,带领团 队完成 4 项课题 10 个产品的研发工作.
第三节 特殊饮食的护理 一、鼻饲法 目的 准备 操作步骤 注意事项 鼻饲法是将导管经鼻腔 插入胃内,从管内注入 流质食物、营养液、水 分和药物的方法。
小儿脑性瘫痪 广州中医药大学第二临床医学院 针灸教研室 樊莉. 概述 定义:指由于大脑在尚未成熟阶段受到损 伤所导致的运动障碍和姿势障碍,可伴有 智力低下、惊厥、听觉与视觉障碍、学习 困难等。是一种非进行性中枢性运动功能 障碍。 发病率为 1.3% ,男多于女。 属中医 “ 五软 ” 、 “ 五迟.
科学就医健康教育核心信息 健康中国行·科学就医 一、倡导科学就医 二、遵从分级诊疗 三、定期健康体检 四、鼓励预约挂号 五、就医注意事项
2013执业医师考试辅导 —卫生法规.
生物学 新课标(SK).
★中国近代史: 1840年————1949年 鸦片战争 新中国诞生 ★历史线索: 1、资本主义列强对中国的侵略 2、中国人民的反抗和探索:
小荳荳-義大利麵 組員: 顏瑄誼.林欣嫻.李昱暄.黃珮瑜.潘錡..
第二节 散剂的特点及制备 散剂:系指药物或与适宜的辅料经粉碎、均 匀混合制成的干燥粉末状制剂,分为 口服散剂和局部用散剂。 特点 :①起效快 ②相对比较稳定 ③制法简 单 ④应用方式灵活 ⑤不宜制成散剂 的药物.
第五章 话语的语用意义(上) 主讲人:周明强.
成为顾客贴心、老板放心的金牌服务人员 ——顾客服务案例培训
中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月
机器翻译原理与方法 第三讲 基于词的统计机器翻译方法
熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5
关 爱 老 人 关 爱 健 康 第八章 老年人呼吸系统的变化及护理.
春季是细菌、病毒繁殖滋生的旺季,肝脏具有解毒、排 毒的功能,负担最重,而且由于人们肝气升发,也会引起旧 病复发,如春季肝火上升,会使虚弱的肺阴更虚,故肺结核 病会乘虚而入。中医认为,春在人体主肝,而肝气自然旺于 春季。如果春季养生不当,便易伤肝气。为适应季节气候的 变化,保持人体健康,在饮食调理上应当注意养肝为先。
最新消息插播! 意見反應: 我是貴校學生的家長,請問貴校該給工讀生的薪水何時才肯發呢?現在已經是十一月中了,九月十月的薪水還沒入帳我們不知道是卡在哪個環節,但貴校是否知道有多少同學需要這筆錢去過生活、繳納房租? …………………………………………………….? 請各位報帳同仁、專兼任助理們務必養成平時定期清帳的習慣,不要等到年終或結案前才開始緊張。
CWMT’08统计机器翻译研讨会自动化所技术报告
吸烟有害健康 课题调查报告 无锡市新安中学初三(4)班.
融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所
校园信息管理系统 河北科技大学网络中心 2000/4/10.
红花酒精湿敷 用于乳腺癌术后皮瓣坏死的新进展.
口服给药术 南通大学护理学院基础护理教研室.
主办:泰兴市质量强市领导小组办公室 承办:泰 兴 市 市 场 监 督 管 理 局.
第三章 田径运动员选材 集宁师范学院 体育系 宋小凤.
卓越校長的前瞻與新思維教育 謝傳崇 國立新竹教育大學教育學系.
实验四 果蝇培养、麻醉及雌雄鉴别 一 实验目的
第4章 种群和群落.
學校:光春國中 班級:七年三班 製作團隊: 顏序芳 李邰岳 謝宜軒
猪生产与综合实训 授课教师:徐元青 联系电话:
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
产后出血 定义:胎儿娩出后24小时内阴道出血≥500ml,称产后出血。 一、病因
第二章 人体的营养 第一节 食物中的营养物质. 第二章 人体的营养 第一节 食物中的营养物质.
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
中醫療法解決失眠問題 指導老師: 林儒禮 報告人:呂佳祐 謝宜璟
嘉義市100學年度特色學校計畫審查- 樂活地球村
血液循环的意义:在人的体内循环流动的血液,可以把营养物质输送到全身各处,并将人体内的废物收集起来,排出体外。促进人的新陈代谢。
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
第一节 食物 一、食物中含有多种营养成分.
双创工作从娃娃抓起——信息通信科普深入校园
碳水化合物、蛋白质、脂肪、无机盐、维生素、水
第1章 大家都来学化学 化学·新课标(KY).
课件 第 三 单 元 物质构成的奥秘 课 题 1 分子和原子(1) 华池县五蛟初中 张诚
《生活与哲学》第一轮复习 第七课唯物辩证法的联系观.
港口股份有限公司东源分公司 降本增效 部门:机械队流机二班 发言人:程广州.
中国科学院计算技术研究所CWMT 2008评测技术报告
基于规则抽取的 时间表达式识别.
碳汇资本在旅游融资中的应用研究 阚如良 梅雪 孔婷 经济与管理学院旅游管理系
项目五 价格策划.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
第八章 运动和力 第1节 牛顿第一定律和惯性 (第2课时  惯性).
2019/4/20 关注NE官方微信,获取更多服务.
张大鲲 孙乐 李文波 中国科学院软件研究所 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
2019/4/26 关注NE官方微信,获取更多服务.
微信商城系统操作说明 色卡会智能门店.
任务2.3 平板菌落计数.
从茶叶中提取咖啡因.
2013年广州军区医疗机构 医用耗材及检验试剂集中招标采购
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
手机淘宝“变形”产品—微淘 操作流程指南 (内测版).
多姿多彩的世界.
三、 动量和角动量 1 、 质点动量定理 动量 冲量.
Presentation transcript:

张大鲲 孙乐 中国科学院软件研究所 dakun04@iscas.ac.cn

大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测

概述 训练语料受限的汉英机器翻译 基于短语的统计机器翻译系统 4元语言模型 3元大小写敏感语言模型进行大小写还原 利用规则对数字进行处理

系统流程 GIZA++ 双向词对齐 短语抽取 5个概率 平行语料 全部小写化 数词识别 与替换 4元 语言模型 Beam 搜索 解码 训练 预处理 GIZA++ 双向词对齐 短语抽取 5个概率 平行语料 全部小写化 数词识别 与替换 4元 语言模型 后处理 Beam 搜索 解码 3元大小写敏感 语言模型 数词翻译 替换 翻译输出

特征 短语翻译概率 词汇化概率 反向短语翻译概率 反向词汇化概率 短语惩罚概率(2.718) 词语惩罚(目标语言句子长度) 目标语言模型,4元

预处理和后处理 中文语料中的英文和英文语料全部小写 中文全角字符转换为半角 数字单独处理 ABC123→ ABC123 Stanford Chinese Word Segmenter分词 数字单独处理

训练语料 短语数量:1600万 来源 数据提供 单位 数据文件 类型 句对数目 (约) 厦门大学英汉电影字幕平行语料库 厦门大学 电影 17万 哈工大信息检索组英汉句子级对齐语料库 哈工大检索 综合 10万 ChineseLDC(资源编号:CLDC-LAC-2003-006)汉英/汉日双语语料库(汉英部分) 北京大学 20万 哈工大机器翻译组英汉句子级对齐语料库 哈工大机译 5万 ChineseLDC(资源编号:CLDC-LAC-2003-004)中英句子级对齐双语语料库 计算所、自动化所 30万 合计 82万 短语数量:1600万

开发集调整参数 489句 4个参考答案 BLEU = 0.1039 参数 WP PT -0.2659 0.0449 0.1009 0.0321 0.0433 -0.2747 DW LW ML LD MS TL 0.0949 0.1433 7 4 100 20 WP – 词语惩罚 PT – 翻译模型概率(包括词汇化概率和短语惩罚) DW – 调序的权重 LW – 语言模型权重 ML – 最大的短语长度 LD – 调序的限制范围 MS – 栈大小 TL – 允许的最多翻译候选项 489句 4个参考答案 BLEU = 0.1039

测试结果 ID BLEU4 NIST5 GTM mWER mPER ICT 受限语料 ISCAS 0.1838 6.8184 0.6596 0.7884 0.5676 0.2752 最好结果 0.2264 7.6426 0.7128 0.7307 0.5164 0.3352 非受限语料 0.2809 7.5235 0.7238 0.6824 0.5050 0.3805

系统融合 主要方法 (Rosti et al. 2007) 句子级融合 短语级融合 词级融合 重评分,输出最好的句子 构造新的短语表,计算概率,重新解码 词级融合 词对齐,形成词图,最优路径

系统融合

重评分 统计在候选翻译中出现的所有n-gram个数 计算每个句子中命中的个数 n=7 权重,利用开发集训练

测试 使用提供的10个单位提交的17个系统的翻译结果(没有使用系统U14的结果) ID BLEU4 NIST5 GTM mWER mPER ICT ISCAS 0.2509 8.1013 0.7196 0.7154 0.5005 0.3336 最好结果 0.2944 7.7501 0.7319 0.6761 0.4972 0.3920

总结 汉英新闻领域翻译评测 系统融合评测 训练语料受限 基于短语的翻译系统 句子级的融合方法 利用n-gram进行重评分 4元语言模型 利用规则对数字进行处理 系统融合评测 句子级的融合方法 利用n-gram进行重评分

谢谢! Thanks!