Download presentation
Presentation is loading. Please wait.
1
計算語言學的工具資源與應用 高照明 台大外文系
2
中文計算語言學資源與工具 語料庫 分詞程式 語法剖析程式 詞彙知識庫 語音辨識與語音合成 機器翻譯
3
語料庫 中文語料庫 中英雙語語料庫 標記詞義的語料庫 語法結構樹庫 標記語意角色的語料庫
4
基於語料庫的外語學習 優點1:語言真實的使用情形 優點2:可以客觀計算出最常用的詞彙,句型,搭配語,甚至詞義
方法:學習者觀察語料,歸納規則,驗證假設,修改假設 可能的問題:一般的語料庫都是書面語,內容太難,不適合初學者及中等程度者
5
中文語料庫 中研院現代漢語平衡語料庫(最早的中文平衡語料庫,具有分詞,及詞性標記,具有先進的檢索介面,共有500萬詞) Chinese Giga Word:目前最大的中文語料庫,需搭配檢索程式,需購買 目前仍然缺乏大規模的中文口語語料庫 具有標記詞義的小型語料庫正在進行當中
6
Chinese Sketch Engine http://www.sketchengine.co.uk/
輸入一個詞,可以快速顯示跟這個詞具有語法依存關係的搭配語(collocation),例如:修飾語與被修飾語,主詞與動詞,動詞與受詞等。 輸入兩個近義詞,可以顯示這兩個詞共有或獨有的搭配語。
7
中英雙語語料庫 清大數位學習國家型計畫 Candle Project
開發中英雙語前後文檢索程式 (bilinugal concordancer),可以中文或英文檢索。 適合作為外籍人士學習華語,或國人學習英語。 是對比語言學的寶庫。
8
中文分詞程式 中研院線上分詞程式 http://ckipsvr.iis.sinica.edu.tw/
可以辨識專有名詞及構詞律產生的辭典未收錄詞 正確率相當高 可以輔助外籍人士學習中文 可以作為電腦輔助教學的工具
9
語法結構樹庫 中研院中文句結構樹資料庫 Sinica Chinese Treebank S(agent:NP(Head:Nab:媽媽)|Head:VC31:買|aspect:Di:了|theme:NP(quantifier:Neqa:一些|property:Nab:竹|Head:Nab:筷子)) 賓州大學Chinese Treebank
10
中研院語法結構樹的特點:標記語法結構及語意角色
11
語法結構樹庫的應用 應用1:可以用來計算常用句型,詞組結構律 應用2:可以導出中文的剖析器 中研院線上中文剖析器
12
中文語法剖析程式 中研院線上語法剖析程式 http://parser.iis.sinica.edu.tw/
Stanford Parser Stanford Parser線上剖析程式
13
Stanford Parser (ROOT (IP (NP (NR 猴子)) (VP (VV 喜欢) (IP (VP (VV 吃) (NP (NR 香蕉))))) (PU 。))) 特點:可以得到語法依存關係 nsubj(喜欢-2, 猴子-1) ccomp(喜欢-2, 吃-3) dobj(吃-3, 香蕉-4)
14
結合語意與語法的剖析器 採購人員 與 採購武器 兩者的結構有何不同? 利用中研院語法樹庫所發展而成的程式
採購人員 與 採購武器 兩者的結構有何不同? 利用中研院語法樹庫所發展而成的程式
15
標記語意角色的語料庫 中研院語法結構樹庫 Sinica Chinese Treebank 裡面也有標示語意角色
賓州大學Chinese Popbank 應用:可以作為閱讀理解的材料,適合出Who, What, How, Why, When, Where 這類型的問題。
16
中研院語料庫,詞頻及相關資源 中研院語言所正在建構多媒體口語語料庫
17
辭典 教育部國語會辭典 同義詞詞林 分類辭典 搭配語辭典
18
分類辭典 詞:醫生 Class: 人體•醫藥衛生 [C] :: 醫療•藥物 [C210] :: 醫務人員 [C223]
產婆 大夫 護士 軍醫 郎中 儒醫 神醫 世醫 收生婆 獸醫 牙醫 醫生 醫師 醫士 庸醫 助產士
19
教育部國語辭典 詞:鶼鰈情深 解釋:比喻夫婦愛情深厚,相處融洽。 例: 那對夫妻鶼鰈情深,為眾人所稱羨
20
教育部國語辭典 詞:得意 解釋:如其心意而有所成就或引以自豪 解釋:心情酣適 同義詞:稱心 自滿 躊躇滿志 風光 高興 得志 滿意 滿足
反義詞:失意 失望
21
教育部國語辭典 http://140.111.34.46/dict/ 可以近似自然語言查詢,連同解釋一起查詢,例如:輸入夫妻感情,可得到
【百年偕老】 【琴瑟和諧】 【瑟調琴弄】 【比翼雙飛】 【恩斷義絕】 【恩斷意絕】 【瑟弄琴調】 【琴瑟相調】 【百年好合】 【偷腥】 【琴瑟和好】 【一夜夫妻百日恩】
22
詞彙知識庫 中研院中文詞知識庫:記載八萬多目詞的注音,語法,論元結構,及語意。
知網Hownet: 中英雙語的詞彙知識庫。以抽象的語義特徵(義元)來定義詞彙的意義。除了詞性及英文翻譯之外還可以得到近義詞,上下位詞,部分與全體關係,事件,及語意角色。 廣義知網知識本體架構
23
中研院詞知識庫 詞:豐富 注音: ㄈㄥ ㄈㄨˋ 拼音: feng1 fu4 語義特徵: +events 詞性: VH16
注音: ㄈㄥ ㄈㄨˋ 拼音: feng1 fu4 語義特徵: +events 詞性: VH16 論元結構: theme, causer
24
中研院知識庫 詞:醫生 注音:ㄧ ㄕㄥ 拼音:yi1 sheng1 語義特徵:+mankind 詞性:Nab
25
Hownet 詞:醫生 英文翻譯:doctor, physician, surgeon
{human|人:HostOf={Occupation|職位},domain={medical|醫},{doctor|醫治:agent={~}}} 應用:利用Hownet找出語意相關的詞
26
中研院中英雙語知識詞網 將中文對應到英文知識庫及本體論Wordnet及SUMO
27
語音辨識與語音合成 語音辨識 IBM Via Voice 語音合成 AT&T Natural Voice
28
機器翻譯 Google Translate 利用全球資訊網中的多國語資料,統計演算法及語法剖析器等自然語言處理工具所設計出來的多國語言翻譯引擎,沒有包含任何人建構的翻譯規則 我們利用統計式機器翻譯軟體moses 發展的小型的雛形系統
29
計算語言學在E-learning的應用 利用語音辨識技術判斷發音是否正確 自動出題 自動修正錯字 文章自動評分
Similar presentations