Download presentation
Presentation is loading. Please wait.
1
自由軟體引爆機器翻譯2.0 馴服電腦做翻譯的故事50年-1954-2006 2006年4月27日 週四 下午 2:00-3:30 主講人:張 俊 盛 清華大學資訊系教授 政治大學 資訊科學系
2
翻譯、機器翻譯的重要性 歷史上 - 翻譯是文化與文化的對話 希臘羅馬典籍的翻譯(文藝復興時期) 印度佛經的漢譯與和譯(理學的興起)
經濟面上 - 全球每年花費100億美元在翻譯上 此時此地 - 台灣每年出版的翻譯書多於創作書 政府推動國際化與雙與生活環境 在網路上克服語言的障礙-跨語言搜尋 科學研究上 探索兩大問題:語言分析、語言生成的計算模型
3
偉大的發明常源自戰爭與情報的需求 畫出蒙那莉莎的微笑的達文西,也留下很多戰爭機器的設計手稿 文藝復興時期,也是大小戰爭不斷的時期
4
機器翻譯1.0與2.0 1947 華倫威佛(Warren Weaver) 在一封致 Wiener的信中,提出用 電腦、密碼學、通訊理論做機器翻譯的構想( 二戰時期, 主持戰時的研究部門OSR的應用數學部,熟悉電腦、密碼學、通訊理 論的發展) 1954 竇佘特發表 Georgetown-IBM機器翻譯系統(戰時曾任艾森豪的 翻譯官、駐戴高樂政府的聯絡官,後來進入CIA的前身OSS工作) 1970s Georgetown-IBM發展成Systran系統 1988 IBM 布朗提出「雜訊通道」的統計式機器翻譯模型 1997 Systran系統上網,叫做 Babel Fish 1999 約翰霍普金斯大學機器翻譯工作坊,奈特領導發展發表 Egypt 、 Giza++ 自由軟體,提供統計式機器翻譯的發展工具 進入 MT 2.0 2001 恐怖攻擊事件 911 把MT推上反恐作戰的最前線 2006 Google Translate 統計式機器翻譯上線
5
史上第一個機器翻譯系統展示 華生 竇佘特 賀德
1954年,Hurd, Dostert, Watson一起在紐約市發表喬治城大學 的俄英機器翻譯系統(IBM 701系統),有250單字和6條文法 規則 紐約時報、新聞周刊等預測全自動高品質的機器翻譯即將出現 科學研究在通俗媒體上發表,通常有誇大之嫌
6
1954最好的電腦 IBM 701 對不起沒有滑鼠和螢幕 資料來源:John Hutchins, The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954
7
2006的機器翻譯Google Translate
不是Systran系統+Google界面 是Google自行開發的統計式機器翻譯系統
8
細說重頭:翻譯金字塔 原文意義 譯文意義 原文文法 譯文文法 原文詞彙 譯文詞彙 雙語對照辭典 Add line demarcation
I will be talking today about a new approach to MT that addresses the issue of resource asymmetry (or when resources on one side are less than other side) The approach is called generation heavy MT.. The baisc intuition is…lang learning Contributions of research include (in addition to approach (first bullet) …tools. System built Eval of system ------ In MT , we talk about symmtry of resources… (pyramid) -> the level of depth (wrds syntx lex prag.etc) divergences ->goals :roibustness (implementational, genre), correctness( accuracy, fluency, clarity, grammaticality), retargetability, reusability ->approaches – symbolic -> lcs, systran -> statistical approaches need it too(put waves…) ibm models ->hybrids -> halogen+ ….ghmt : asymmetry Why parse, 原文文法 譯文文法 原文詞彙 譯文詞彙 雙語對照辭典
9
由翻譯金字塔看路線之爭 有爭議 - 文法與統計路線之爭 辭彙翻譯:走金字塔的底部 文法結構:走金字塔的下腹部
語意分析:走上金字塔的頂端,(高處不甚寒,曲高和寡) 無爭議 -資料越多越好 雙語語料庫最好 兩個單語語料庫也行(單語語料不虞匱乏)
10
機器翻譯的兩大要素語兩大做法 雙語對照辭典 原文、譯文、對照文法 如何編輯辭典、撰寫文法? 一部辭典一套文法,就足以應付?
不同需求(領域、文體、目的)需要不同的辭典、文法? 語言千變萬化,人工編輯抑或機器學習? (文法守護神-法國畫家La Hyre繪) 雙語對照辭典 原文、譯文、對照文法
11
新與舊研究者湧入機器翻譯研究 Dekai Wu (HKUST) Philipp Koehn (MIT)
Dekang Lin (Alberta/Google) Josef Och (Google) Hang Li (Microsoft) Chin-Yew Lin (USC) Bonnie Dorr (Maryland) KL Kwok (Queens/NY) Nizar Habash (Maryland) Eliot Machlovitch (Montreal) M. Simard (Montreal) Ph. Lanlais (Montreal) J.C. Wu (Tsing Hua) Many many more …
12
Dekai Wu: brought structure to SMT(結構 )
Kevin Knight: Even more structure(更多結 構) Philipp Koehn: Phrase is it(片語) Dekang Lin: Dependency grammar( Minipar) Franz Josef Och: IBM models for everyone (SMT) Hang Li focuses on word translation (單字翻 譯) Chin-Yew Lin: Auto Eval is the key (自動評 估) JC Wu: Translation = Search(翻譯即是網 路搜尋) Dorr, Habash = Generation Heavy (譯文比 較重要) Eliot Machlovitch: Machine Aided Translation (機器輔助翻譯) Chin-Yew Lin: Auto Eval is the key (自動評 估最關鍵) JC Wu: translation = search(翻譯即是網路 搜尋) Machlovitch = translation aids (輔助翻譯就 好了) Jason Chang = 翻譯拿來幫助學英語 Computer Assisted Language Learning and Bilingual Corpora
13
輔助翻譯的新貌 Termight: 貝爾實驗室(未公開) Transsearch: 蒙特婁大學(免費轉收費)
TotalRecall: 清華大學(免費)
14
輔助翻譯的新貌 蒙特婁大學:TransSearch
16
輔助翻譯的新貌 清華大學:TotalRecall
雙語查詢、雙語呈現 凸顯、整理、摘要原文詞彙與翻譯 多重雙語語料庫 光華、美國知音、香港立法局 (進行中)大英百科、聯合國、空中英語教室 Google式的查詢與呈現、分頁 超連結到全文 全文逐句對照
17
用搜尋來作翻譯: Wu (NTHU); Kwok (Queens)
網路即是語料庫的做法對專名、音譯、術語特別有效 專有名詞的翻譯 “A Tale of Two Cities” – 雙城記 vs. 兩個城市的一個故事 “The Science of Words” – 詞的學問 vs. 字的科學 音譯 Bill Gates 比爾蓋茲 術語與縮寫 “hard currency ” 強勢貨幣;”IVR” 互動語音反應系統
18
…中華人民共和國 克林頓. (Clinton, Bill; 1946- ). 1946 …
... 4.柯林頓準則(Clinton Doctrine). 1994年5月6日, … …克林頓·裏斯(Clinton Reiss)上士也是如此… …採用先進的核磁共振( NMR)儀器,歷經15天27000餘次的累加 … …而且尚未發現其對人體造成傷害。核磁共振(NMR) 的研究最早是由史丹佛大學的 … …說明有關核磁共振儀(NMR) 的原理和儀器, 教學 … …NMR Community - 介紹磁核共振(NMR)的理論,研究報告及專家論壇。
19
自助式的網路機器翻譯 打英文術語 查詢華文網頁 檢查STIB之前的翻譯 最佳翻譯策略 ─ 西瓜偎大邊
20
Web 2.0 時代自己動手做翻譯系統 上網下載自由軟體(Egypt GenPar) 句子對齊、辭彙對齊、統計工具、語言模型、解碼器
找雙語語料庫 句子對齊 辭彙對齊 統計辭彙翻譯機率表(辭典) 統計辭彙到辭彙的接續機率表(文法) 將辭典與文法倒入解碼器 成功了!
21
句子對齊的例子 However, on the other hand, they have turned a deaf ear to the solemn promise by the Chinese Government to protect the high degree of autonomy in Hong Kong, and they also have ignored or interpreted the SBJD and the Basic Law the way they please. These people like to put on a show and damage the reputation of Hong Kong. It is certainly a commercial strategy of Chinese state enterprises to invest in these franchised businesses that yield handsome profits. It is never my wish to see Hong Kong turning from an economy manipulated and monopolized by British private capital to one manipulated and monopolized by Chinese state capital. Chinese state enterprises invest in franchised enterprises in Hong Kong with the consent of the Hong Kong Government. 在這後過渡期中,一些人口口聲聲要港人治港,但另一方面卻對中國政府保障香港高度自治的莊嚴承諾置若罔聞,對《中英聯合聲明》、對《基本法》漠視不理,或妄加詮釋。這些人樂於“做show”、樂於“唱衰香港”,投資在這些龐大盈利的專利性香港行業,當然有其商業性策略的一面,我絕不希望見到香港會由一個被“英國私人壟斷資本”所控制的經濟體系,轉為由“中國國家壟斷資本”所控制。中國國家級企業投資在香港有專利性企業,這是得到香港政府的同意。
22
電腦如何對齊句子和辭彙己動手做翻譯系統 句子和翻譯的長度的統計 辭彙和翻譯一起出現的次數的統計 辭彙和翻譯一起出現的位置的統計
先亂猜再逐漸修正 完全沒有人工介入
23
Google Translate 好不好用? Google Translate 免費、免安裝 第一個對外公開的統計式機器翻譯服務
大體上是用大量香港立法局的新聞、會議語料庫發展出來的 翻譯品質呢? 我們本來要用Google Translate 來舉一些翻譯的不好的例子 但是翻譯出來的結果大致上比 Systran 改善許多 freedom of speech / gross domestic product / shatin / dehui street / exercise of sovereignty / space program / executive yuan / ministry of economic affairs ==> 言论自由/国内生产总值/沙田/德惠街/行使主权/空间规划/行政院/经济事 务部 ==> Expression / GDP / Sha Tin / 2,400 Street / sovereignty / space planning / Executive Yuan / Ministry of Economic Affairs 言論自由/國內生產毛額/沙田/德惠街/行使主權/太空計畫/行政院/經濟部 ==>
24
Google Translate句子翻譯實例
he exerted great influence on the matter. The government has exerted great influence on TV programs in China. 他造成了很大的影响问题. 政府施加了很大的影响,中国的电视节目. That is why I want to get them back before 1997 and we will continue in the Administration to work as hard as we can on the issue. 这就是为什么我想让他们回来,1997年以前,我们将继续向政府尽最大努力达致这 个目的. 因此,我希望在一九九七年前,將他們全部遣返,而政府當局亦會繼續盡最大 努力達致這個目的。
25
如果台北市政府用Google Translate
site:english.taipei.gov.tw/web/upload 為了提供您在臺北生活的生活輔導及諮詢服務,我們 特別製作了這張宣導單,以介紹臺北市政 府針對外籍及大陸配偶所提供的生活輔導政策, 希望能協助您早日適應在臺灣的生活,與國人 共創幸福美滿的家庭! To provide you living life in Taipei counselling and advisory services, we produced this special Zhangxuan-Shan, Taipei City government to introduce foreign and mainland spouses to provide policy guidance life to help you adapt to the early life in Taiwan, together with our happy family! We have created this pamphlet to inform you about our lifestyle consultation and guidance services in Taipei, and to provide an introduction to the foreign and mainland Chinese spouse lifestyle guidance policies provided by Taipei City Government. We hope that it will help you in your adjustment to life in Taiwan, and in finding happiness and contentment here amongst our many residents.
26
台灣的特殊需求 國際接軌,政府極力推動雙語生活環境, 各種官方文件、便民措施,大學內提供給國際學生的資料,都需要翻譯
此外,台灣的電子辭典產業須引入機器翻譯技術讓辭典機蛻變為真正的 翻譯機 出版界發行大量翻譯作品,如能藉由機器翻譯的技術 網路上自動自發的翻譯社群,如中文維基百科、MIT開放式課程中文版 ,也都需要機器翻譯以提高翻譯效率
27
打造台灣機器翻譯的共同引擎 Google Translate 不能滿足特定的需求 機器翻譯的發展還有很大的空間
其實一體適用的機器翻譯並不存在,大家的翻譯需求差異很大 應該仿傚美國的推動方式,組織聯盟合力開發一個機器翻譯的核心工具 以自由軟體模式散佈,就可節約初期重複的投資 各應用單位,可以視其各自的需求,加以客製化,以求達到最佳的效果
Similar presentations