翻譯、機器翻譯的重要性 歷史上 - 翻譯是文化與文化的對話 希臘羅馬典籍的翻譯(文藝復興時期) 印度佛經的漢譯與和譯(理學的興起)

Slides:



Advertisements
Similar presentations
新目标初中英语 七年级下册. Unit 8 I’d like some noodles. Section B Period Two.
Advertisements

高考英语阅读分析 —— 七选五. 题型解读: 试题模式: 给出一篇缺少 5 个句子的文章, 对应有七个选项,要求同学们根据文章结构、 内容,选出正确的句子,填入相应的空白处。 考查重点: 主要考查考生对文章的整体内容 和结构以及上下文逻辑意义的理解和掌握。 (考试说明) 选项特点: 主旨概括句(文章整体内容)
高考英语短文改错 试题解析 内蒙古师范大学外国语学院 方芳 2011 年 3 月. 一、短文改错设疑方式 此 题要求改正所给短文中的错误。对标有 题号的每一行做出判断: 1) 如无错误,在该行右边横线上画一个 ( );如有错误(每行只有一个错误), 则按下列情况改正:
中考英语补全对话、 书面表达命题与备考 宝鸡市教育局教研室 任军利
专题八 书面表达.
当代中国流行文化与对外汉语教学 Contemporary Chinese Popular Culture and Teaching Chinese as a Foreign Language Yuhong Sun 孙玉红.
原著:N. Gregory Mankiw 編譯:王銘正 製作:王銘正 馬惠茹
中美清洁能源中心清洁煤联盟知识产权负责人 Director of the CERC-ACTC IP Group
龙仙第二中学 许 娜. Aims and language points: Teaching aims (教学目标) 1. 能够用不同的形容词表达自己的爱好。 2. 能够掌握更多的电影和电视节目名称。 Language points (语言点) 1. 要求掌握以下句式: 1 ) --- What do.
雅思大作文的结构 Presented by: 总统秘书王富贵.
Module 1 My classmates.
第二部分 高频话题写作指导 八年级(上) Units 8-10.
摘要的开头: The passage mainly tells us sth.
P42) be dying to do渴望做某事 L2) hear from sb 收到某人来信
Unit 11 I like the Spring Festival best
Unit 5 What do they do? (Period 4).
专题讲座 武强中学外语组 制作:刘瑞红.
Module 7 Computers 第2课时.
牛津版 八年级 (8A) Unit 5 Reading 3.
WRITNG Welcome to enjoy English..
Unit 5.
Unit 3 Families Celebrate Together Lesson 22 Presents from Canada!
Module 5 Shopping 第2课时.
Module 5.
统计机器翻译简介 刘群
[Add name of presenter and organization]
学练优英语教学课件 八年级(上) it! for Go
加州州立大学系统 California State University System
中国公私合作伙伴关系(PPP )现状 Disclaimer:
Write a letter in a proper format
我祝願你足夠 背景音樂-星空下的小喇叭【電影:亂世忠魂】 AUTO.
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
Guide to Freshman Life Prepared by Sam Wu.
Friendship Bouquet 友谊之花 Music: Nightengale Serenade
Unit 7 What’s the highest mountain in the world?
LCCC 2018 Spring Festival April 28, 2018.
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi
英语表示人体部位的词 Body Parts in English 温州中学 张怡.
雞同鴨講 (The Tower of Babel)
---八上新教材分析 青岛三十九中学 孙晓霞
基于课程标准的校本课程教学研究 乐清中学 赵海霞.
《跨境电商沟通与客服》 公司简介 Company Profile.
創意佈道法簡介 田森傑 牧師主講.
Single’s Day.
My Internet Friend 名詞子句寫作.
Review Final Chinese 2-Chapter 6~10-1
解读设题意图,探究阅读策略 年高考试卷题型(阅读理解)分析及对策
如何增加对欧贸易出口 中国制造展销中心(英国)有限公司 首席执行官 理查德·赛斯
IBM SWG Overall Introduction
動詞如何轉換成名詞 黃勇仁.
UNIT 3.
英语教学课件 九年级全.
中央社新聞— <LTTC:台灣學生英語聽說提升 讀寫相對下降>
Presentation 约翰316演示 John 3 : 16
Area of interaction focus
高考应试作文写作训练 5. 正反观点对比.
定语从句 ●关系词的意义及作用 : 定语从句一般都紧跟在它所修饰名词后面,所以如果在名词或代词后面出现一个从句,根据它与前面名词或代词的逻辑关系来判断是否是定语从句。
冀教版 九年级  Look into Science!.
冀教版 九年级 Lesson 20: Say It in Five.
Unit 1 My Day 五年级.
A Presentation By: Mike Sharobim Pictures By: Unknown source
Further Development Translation 来自 创思英语 Grammar.
自主练悟 ①(2017·桂林市联考)To them, life is a competition — they have to do _______ (good) than their peers to be happy. ②(2017·菏泽市模拟)People who forgive.
Views on the News 不同的观点 选自《多维阅读第11级》.
Why do you like pandas? Section B 1a-2c.
Sun-Star第六届全国青少年英语口语大赛 全国总决赛 2015年2月 北京
A Presentation By: Mike Sharobim Pictures By: Unknown source
以分为镜知对错 以卷为鉴晓得失 —邯郸市一模得与失
Reflections on life 生命的倒影.
Book 5 Unit 1 單字文法講義.
Presentation transcript:

自由軟體引爆機器翻譯2.0 馴服電腦做翻譯的故事50年-1954-2006 2006年4月27日 週四 下午 2:00-3:30 主講人:張 俊 盛 清華大學資訊系教授 政治大學 資訊科學系

翻譯、機器翻譯的重要性 歷史上 - 翻譯是文化與文化的對話 希臘羅馬典籍的翻譯(文藝復興時期) 印度佛經的漢譯與和譯(理學的興起) 經濟面上 - 全球每年花費100億美元在翻譯上 此時此地 - 台灣每年出版的翻譯書多於創作書 政府推動國際化與雙與生活環境 在網路上克服語言的障礙-跨語言搜尋 科學研究上 探索兩大問題:語言分析、語言生成的計算模型

偉大的發明常源自戰爭與情報的需求 畫出蒙那莉莎的微笑的達文西,也留下很多戰爭機器的設計手稿 文藝復興時期,也是大小戰爭不斷的時期

機器翻譯1.0與2.0 1947 華倫威佛(Warren Weaver) 在一封致 Wiener的信中,提出用 電腦、密碼學、通訊理論做機器翻譯的構想( 1939-1945 二戰時期, 主持戰時的研究部門OSR的應用數學部,熟悉電腦、密碼學、通訊理 論的發展) 1954 竇佘特發表 Georgetown-IBM機器翻譯系統(戰時曾任艾森豪的 翻譯官、駐戴高樂政府的聯絡官,後來進入CIA的前身OSS工作) 1970s Georgetown-IBM發展成Systran系統 1988 IBM 布朗提出「雜訊通道」的統計式機器翻譯模型 1997 Systran系統上網,叫做 Babel Fish 1999 約翰霍普金斯大學機器翻譯工作坊,奈特領導發展發表 Egypt 、 Giza++ 自由軟體,提供統計式機器翻譯的發展工具 進入 MT 2.0 2001 恐怖攻擊事件 911 把MT推上反恐作戰的最前線 2006 Google Translate 統計式機器翻譯上線

史上第一個機器翻譯系統展示 華生 竇佘特 賀德 1954年,Hurd, Dostert, Watson一起在紐約市發表喬治城大學 的俄英機器翻譯系統(IBM 701系統),有250單字和6條文法 規則 紐約時報、新聞周刊等預測全自動高品質的機器翻譯即將出現 科學研究在通俗媒體上發表,通常有誇大之嫌

1954最好的電腦 IBM 701 對不起沒有滑鼠和螢幕 資料來源:John Hutchins, The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954

2006的機器翻譯Google Translate http://translate.google.com/translate_t 不是Systran系統+Google界面 是Google自行開發的統計式機器翻譯系統

細說重頭:翻譯金字塔 原文意義 譯文意義 原文文法 譯文文法 原文詞彙 譯文詞彙 雙語對照辭典 Add line demarcation I will be talking today about a new approach to MT that addresses the issue of resource asymmetry (or when resources on one side are less than other side) The approach is called generation heavy MT.. The baisc intuition is…lang learning Contributions of research include (in addition to approach (first bullet) …tools. System built Eval of system ------ In MT , we talk about symmtry of resources… (pyramid) -> the level of depth (wrds syntx lex prag.etc)  divergences ->goals :roibustness (implementational, genre), correctness( accuracy, fluency, clarity, grammaticality), retargetability, reusability ->approaches – symbolic -> lcs, systran -> statistical approaches need it too(put waves…) ibm models ->hybrids -> halogen+ ….ghmt : asymmetry Why parse, 原文文法 譯文文法 原文詞彙 譯文詞彙 雙語對照辭典

由翻譯金字塔看路線之爭 有爭議 - 文法與統計路線之爭 辭彙翻譯:走金字塔的底部 文法結構:走金字塔的下腹部 語意分析:走上金字塔的頂端,(高處不甚寒,曲高和寡) 無爭議 -資料越多越好 雙語語料庫最好 兩個單語語料庫也行(單語語料不虞匱乏)

機器翻譯的兩大要素語兩大做法 雙語對照辭典 原文、譯文、對照文法 如何編輯辭典、撰寫文法? 一部辭典一套文法,就足以應付? 不同需求(領域、文體、目的)需要不同的辭典、文法? 語言千變萬化,人工編輯抑或機器學習? (文法守護神-法國畫家La Hyre繪) 雙語對照辭典 原文、譯文、對照文法

新與舊研究者湧入機器翻譯研究 Dekai Wu (HKUST) Philipp Koehn (MIT) Dekang Lin (Alberta/Google) Josef Och (Google) Hang Li (Microsoft) Chin-Yew Lin (USC) Bonnie Dorr (Maryland) KL Kwok (Queens/NY) Nizar Habash (Maryland) Eliot Machlovitch (Montreal) M. Simard (Montreal) Ph. Lanlais (Montreal) J.C. Wu (Tsing Hua) Many many more …

Dekai Wu: brought structure to SMT(結構 ) Kevin Knight: Even more structure(更多結 構) Philipp Koehn: Phrase is it(片語) Dekang Lin: Dependency grammar( Minipar) Franz Josef Och: IBM models for everyone (SMT) Hang Li focuses on word translation (單字翻 譯) Chin-Yew Lin: Auto Eval is the key (自動評 估) JC Wu: Translation = Search(翻譯即是網 路搜尋) Dorr, Habash = Generation Heavy (譯文比 較重要) Eliot Machlovitch: Machine Aided Translation (機器輔助翻譯) Chin-Yew Lin: Auto Eval is the key (自動評 估最關鍵) JC Wu: translation = search(翻譯即是網路 搜尋) Machlovitch = translation aids (輔助翻譯就 好了) Jason Chang = 翻譯拿來幫助學英語 Computer Assisted Language Learning and Bilingual Corpora

輔助翻譯的新貌 Termight: 貝爾實驗室(未公開) Transsearch: 蒙特婁大學(免費轉收費) TotalRecall: 清華大學(免費)

輔助翻譯的新貌 蒙特婁大學:TransSearch

輔助翻譯的新貌 清華大學:TotalRecall 雙語查詢、雙語呈現 凸顯、整理、摘要原文詞彙與翻譯 多重雙語語料庫 光華、美國知音、香港立法局 (進行中)大英百科、聯合國、空中英語教室 Google式的查詢與呈現、分頁 超連結到全文 全文逐句對照

用搜尋來作翻譯: Wu (NTHU); Kwok (Queens) 網路即是語料庫的做法對專名、音譯、術語特別有效 專有名詞的翻譯 “A Tale of Two Cities” – 雙城記 vs. 兩個城市的一個故事 “The Science of Words” – 詞的學問 vs. 字的科學 音譯 Bill Gates 比爾蓋茲 術語與縮寫 “hard currency ” 強勢貨幣;”IVR” 互動語音反應系統

…中華人民共和國 克林頓. (Clinton, Bill; 1946- ). 1946 … ... 4.柯林頓準則(Clinton Doctrine). 1994年5月6日, … …克林頓·裏斯(Clinton Reiss)上士也是如此… …採用先進的核磁共振( NMR)儀器,歷經15天27000餘次的累加 … …而且尚未發現其對人體造成傷害。核磁共振(NMR) 的研究最早是由史丹佛大學的 … …說明有關核磁共振儀(NMR) 的原理和儀器, 教學 … …NMR Community - 介紹磁核共振(NMR)的理論,研究報告及專家論壇。

自助式的網路機器翻譯 打英文術語 查詢華文網頁 檢查STIB之前的翻譯 最佳翻譯策略 ─ 西瓜偎大邊

Web 2.0 時代自己動手做翻譯系統 上網下載自由軟體(Egypt GenPar) 句子對齊、辭彙對齊、統計工具、語言模型、解碼器 找雙語語料庫 句子對齊 辭彙對齊 統計辭彙翻譯機率表(辭典) 統計辭彙到辭彙的接續機率表(文法) 將辭典與文法倒入解碼器 成功了!

句子對齊的例子 However, on the other hand, they have turned a deaf ear to the solemn promise by the Chinese Government to protect the high degree of autonomy in Hong Kong, and they also have ignored or interpreted the SBJD and the Basic Law the way they please. These people like to put on a show and damage the reputation of Hong Kong. It is certainly a commercial strategy of Chinese state enterprises to invest in these franchised businesses that yield handsome profits. It is never my wish to see Hong Kong turning from an economy manipulated and monopolized by British private capital to one manipulated and monopolized by Chinese state capital. Chinese state enterprises invest in franchised enterprises in Hong Kong with the consent of the Hong Kong Government. 在這後過渡期中,一些人口口聲聲要港人治港,但另一方面卻對中國政府保障香港高度自治的莊嚴承諾置若罔聞,對《中英聯合聲明》、對《基本法》漠視不理,或妄加詮釋。這些人樂於“做show”、樂於“唱衰香港”,投資在這些龐大盈利的專利性香港行業,當然有其商業性策略的一面,我絕不希望見到香港會由一個被“英國私人壟斷資本”所控制的經濟體系,轉為由“中國國家壟斷資本”所控制。中國國家級企業投資在香港有專利性企業,這是得到香港政府的同意。

電腦如何對齊句子和辭彙己動手做翻譯系統 句子和翻譯的長度的統計 辭彙和翻譯一起出現的次數的統計 辭彙和翻譯一起出現的位置的統計 先亂猜再逐漸修正 完全沒有人工介入

Google Translate 好不好用? Google Translate 免費、免安裝 第一個對外公開的統計式機器翻譯服務 大體上是用大量香港立法局的新聞、會議語料庫發展出來的 翻譯品質呢? 我們本來要用Google Translate 來舉一些翻譯的不好的例子 但是翻譯出來的結果大致上比 Systran 改善許多 freedom of speech / gross domestic product / shatin / dehui street / exercise of sovereignty / space program / executive yuan / ministry of economic affairs ==> 言论自由/国内生产总值/沙田/德惠街/行使主权/空间规划/行政院/经济事 务部 ==> Expression / GDP / Sha Tin / 2,400 Street / sovereignty / space planning / Executive Yuan / Ministry of Economic Affairs 言論自由/國內生產毛額/沙田/德惠街/行使主權/太空計畫/行政院/經濟部 ==>

Google Translate句子翻譯實例 he exerted great influence on the matter. The government has exerted great influence on TV programs in China. 他造成了很大的影响问题. 政府施加了很大的影响,中国的电视节目. That is why I want to get them back before 1997 and we will continue in the Administration to work as hard as we can on the issue. 这就是为什么我想让他们回来,1997年以前,我们将继续向政府尽最大努力达致这 个目的. 因此,我希望在一九九七年前,將他們全部遣返,而政府當局亦會繼續盡最大 努力達致這個目的。

如果台北市政府用Google Translate site:english.taipei.gov.tw/web/upload 為了提供您在臺北生活的生活輔導及諮詢服務,我們 特別製作了這張宣導單,以介紹臺北市政 府針對外籍及大陸配偶所提供的生活輔導政策, 希望能協助您早日適應在臺灣的生活,與國人 共創幸福美滿的家庭! To provide you living life in Taipei counselling and advisory services, we produced this special Zhangxuan-Shan, Taipei City government to introduce foreign and mainland spouses to provide policy guidance life to help you adapt to the early life in Taiwan, together with our happy family! We have created this pamphlet to inform you about our lifestyle consultation and guidance services in Taipei, and to provide an introduction to the foreign and mainland Chinese spouse lifestyle guidance policies provided by Taipei City Government. We hope that it will help you in your adjustment to life in Taiwan, and in finding happiness and contentment here amongst our many residents.

台灣的特殊需求 國際接軌,政府極力推動雙語生活環境, 各種官方文件、便民措施,大學內提供給國際學生的資料,都需要翻譯 此外,台灣的電子辭典產業須引入機器翻譯技術讓辭典機蛻變為真正的 翻譯機 出版界發行大量翻譯作品,如能藉由機器翻譯的技術 網路上自動自發的翻譯社群,如中文維基百科、MIT開放式課程中文版 ,也都需要機器翻譯以提高翻譯效率

打造台灣機器翻譯的共同引擎 Google Translate 不能滿足特定的需求 機器翻譯的發展還有很大的空間 其實一體適用的機器翻譯並不存在,大家的翻譯需求差異很大 應該仿傚美國的推動方式,組織聯盟合力開發一個機器翻譯的核心工具 以自由軟體模式散佈,就可節約初期重複的投資 各應用單位,可以視其各自的需求,加以客製化,以求達到最佳的效果