Presentation is loading. Please wait.

Presentation is loading. Please wait.

Tâi-gú gú-liāu-khò. gú-giân-ha̍k kang-chok-hong

Similar presentations


Presentation on theme: "Tâi-gú gú-liāu-khò. gú-giân-ha̍k kang-chok-hong"— Presentation transcript:

1 Tâi-gú gú-liāu-khò. gú-giân-ha̍k kang-chok-hong
台語語料庫語言學工作坊 楊允言 Iûⁿ Ún-giân 台中教育大學台灣語文學系 助理教授 Gu-liau-khoo 2010 語言學卓越營 2010/7/23

2 Tai-kong 報告大綱 說明 羅馬字字型/輸入法 字/辭典 詞頻統計資料 語詞檢索系統

3 Tai-kong 報告大綱-2 斷詞 詞類標記 書寫系統轉換 應用:電腦講台語 語料資源

4 說明 假使有chah[帶]電腦來,請那上課那操作
Soat-bêng 假使有chah[帶]電腦來,請那上課那操作 講義有上網 Google查詢「楊允言」 好手氣作品演講 Yahoo查詢tī [在]第二個 說明

5 說明-2 Soat-bêng Taiwan 68.01% 15.0M Singapore 27.04% 1.2M Malaysia
9.98% 2.7M Brunei 3.59% 12.1K China 1.98% 25.7M Thailand 1.71% 1.1M Philippines 0.70% 0.6M Indonesia 0.57% 0.7M 說明-2 資料來源:M. Paul Lewis(ed.) Ethnologue : Languages of the world (16th ed.). SIL International

6 Soat-bêng 說明-3 閩南語 語言人口數:47M 世界排名第24名 漢字書寫kah羅馬字書寫互相幫贊

7 說明-4 閩語/閩南語? 廈門話(Amoy)、台灣土語、福建話、台語、閩南語(國民政府) 、福佬話(客家人)、… 約有20種稱呼
Soat-bêng 閩語/閩南語? 廈門話(Amoy)、台灣土語、福建話、台語、閩南語(國民政府) 、福佬話(客家人)、… 約有20種稱呼 一個語言,各自表述? 民間慣稱「台語」 說明-4

8 說明-5 台語tī台灣ê處境 強勢族群、弱勢語言 錯誤ê語言政策(獨尊華語) 錯誤ê語言使用觀念(母語厝內講tō好、大人遷就囡仔)
Soat-bêng 台語tī台灣ê處境 強勢族群、弱勢語言 錯誤ê語言政策(獨尊華語) 錯誤ê語言使用觀念(母語厝內講tō好、大人遷就囡仔) 語詞流失、新語詞補充 說明-5

9

10

11

12

13

14 LMJ ji-heng 羅馬字字型 台語羅馬字,有ê符號是兩個character鬥做伙ê (符合Unicode規範),chia ê符號,假使無適當ê字型,有時仔會出現一個四角格仔,無法度正常顯示。

15 LMJ ji-heng 羅馬字字型-2 Tī Windows 7作業系統,已經完全無問題,總是較早期ê作業系統所提供ê字型大部分攏無支援Unicode規範(兩字鬥做伙)

16 LMJ ji-heng 羅馬字字型-3 Windows XP 作業系統,會使選用 Lucida Sans Unicode字型,台羅無問題,白話字差一個符號(o.)(Combining Dot Above Right,2004年納入Unicode)

17 羅馬字字型-4 Taigi Unicode http://iug.csie.dahan.edu.tw/twu.ttf
LMJ ji-heng 羅馬字字型-4 Taigi Unicode Charis SIL Doulos SIL Gentium DejaVu

18 輸入法 信望愛台語客語輸入法 http://taigi.fhl.net/TaigiIME/ 有32 bits kah 64 bits版
Su-jip-hoat 輸入法 信望愛台語客語輸入法 有32 bits kah 64 bits版 漢羅/全羅, 台羅/白話字 雙音節(kah以上)ê語詞,m̄免輸入聲調kah連字符 自定詞庫

19 輸入法-2 教育部臺灣閩南語漢字輸入法 http://140.111.56.95/hanji/MOE_TBHS_2.0.exe
Su-jip-hoat 輸入法-2 教育部臺灣閩南語漢字輸入法 Taiwanese package(羅馬字) TaigiLMJ101 Transliterator (Firefox add-on)

20 字/辭典 台華辭典 http://iug.csie.dahan.edu.tw/q/q.asp Ji/su-tian 6萬外個詞條,漳州腔為主
提供羅馬字含糊查詢,輸入"hoe-chhia",會chhē出"hoe-chhia (花車)"、"hóe/hé-chhia (火車)"、"hòe/hè-chhia (貨車)"、"hóe/hé-chhiah (火鍘)“ 會當kā辭典khǹg tī Blog邊a欄位 字/辭典

21 字/辭典-2 台日大辭典台語譯本http://taigi.fhl.net/dict/ Ji/su-tian 9萬外個詞條,泉州腔為主
林俊育2002年開始整理,台文詞條改做漢羅,日文解說翻寫做台文,蔡哲民開發系統 後來kah中研院語言所合作,提供原圖掃瞄 字/辭典-2

22 字/辭典-3 教育部台灣閩南語常用詞辭典 http://twblg.dict.edu.tw/tw/index.htm Ji/su-tian
1萬外個詞條,第1份官方辭典 漢字用字遵照教育部的規範 台語詞條,華語解說

23 字/辭典-4 甘字典 http://taigi.fhl.net/dick/ Ji/su-tian 廈門音新字典 台語音節,華語解說
2009年上線,台語信望愛網站提供 介面kah台日大辭典台語譯本類似,精差資料無仝

24 Sû-pîn 詞頻統計資料 台語文詞頻統計 國科會計畫的結案報告資料,包括漢羅台語文(400外萬詞,word tokens)kah全羅台語文語料(240外萬詞),有詞頻、互訊息、相關度ê資料

25 詞頻統計資料-2 互訊息(Mutual Information) 0 無關係(獨立事件) > 0 愈有關係 < 0 愈無關係
Sû-pîn 詞頻統計資料-2 互訊息(Mutual Information) 0 無關係(獨立事件) > 0 愈有關係 < 0 愈無關係 MI(AB) = - log P(A) P(B) P(AB)

26 詞頻統計資料-3 相關度(Correlation) 數字愈大,愈有關係 n(n11×n22 -n12×n21 )2 CR(AB) =
Sû-pîn 詞頻統計資料-3 相關度(Correlation) 數字愈大,愈有關係 CR(AB) = n(n11×n22 -n12×n21 )2 n1*× n2*× n*1× n*2

27 詞頻統計資料-4 因為無人工校對,mā無POS (part-of-speech)資料,MI kah Cor 品質並無好
Sû-pîn 詞頻統計資料-4 因為無人工校對,mā無POS (part-of-speech)資料,MI kah Cor 品質並無好 台語平均詞長:1.4 vs 華語 1.6 (CKIP)、2.0 (香港)

28 詞頻統計資料-5 教育部台灣閩南語字詞頻http://203.64.42.97
Sû-pîn 詞頻統計資料-5 教育部台灣閩南語字詞頻 官方第1份詞頻統計資料,語料分教材、口傳文學、創作文學3大類,140外萬詞 thang利用羅馬字kā無仝漢字寫法khǹg做伙

29 語詞檢索 Corcordancer、 KWIC (KeyWord In Context)
Kiám-sek 語詞檢索 Corcordancer、 KWIC (KeyWord In Context) 台語文語詞檢索系統 漢羅(5.8M+)/羅馬字(3.4M+) Syl.

30 語詞檢索-2 教育部台灣閩南語字詞頻 http://203.64.42.97/ 文本lóng chhoân 2種文字型式
Kiám-sek 語詞檢索-2 教育部台灣閩南語字詞頻 文本lóng chhoân 2種文字型式 會當查詢重疊型式ê語詞 漢字造字利用中研院缺字系統 會當羅馬字、漢羅 頂下對照看 Firefox需要add-on (HTML Ruby)

31 斷詞 台語文斷詞系統 http://poj.likulaw.info/hanlo_hunsu.php
Tng-su 斷詞 台語文斷詞系統 利用台華辭典,採用逆向最大比對法(Backward Maximum Matching Algorithm) 提供使用者詞庫,增加斷詞結果ê正確率

32 斷詞-2 Backward Maximal Matching (BMM) vs FMM
Tng-su 斷詞-2 Backward Maximal Matching (BMM) vs FMM Ùi聖經看台語語詞變化 BMM : Ùi#聖經#看#台語#語詞#變化 FMM : Ùi#聖經#看台#語#語詞#變化

33 斷詞-3 Q1:台語ê分詞規範? Q2 : 遵照台語分詞規範ê辭典? Tng-su
臺灣閩南語羅馬字拼音方案連字符使用規則 kah華語無啥仝款 : 數字、人名、… Q2 : 遵照台語分詞規範ê辭典? 辭典內底ê詞條有ê是詞組

34 詞類標記 台語文詞類標記 http://iug.csie.dahan.edu.tw/TGB/tagging/tagging.asp
Tagging 台語文詞類標記 華語詞類標記 無台語文人工標記詞類資料 kā每一個台語詞翻做華文(一對多),揀出上適當ê,chhē出這個華語詞所有可能ê詞類標記 用MEMM 揀出上適當ê詞類 詞類集採用中研院46個簡化詞類

35 Tagging

36 Tagging 詞類標記-3 實例 ... Sió-mōe thiaⁿ chè ōe chiū chhe lâng khì kúi-nā kok sì-kè bā ... ... 小妹聽chè 話就差人去幾若國四界bā ...

37 Tagging 詞類標記-4 利用程式kā詞隨個對齊 小妹[Sió-mōe] 聽[thiaⁿ] chè[chè] 話[ōe] 就[chiū ] 差[chhe] 人[lâng] 去[khì] 幾若[kúi-nā] 國[kok] 四界[sì-kè] bā [bā]

38 詞類標記-5 查台華辭典,加入華語詞 Tagging
小妹[Sió-mōe]{小妹;妹子;妹妹} 聽[thiaⁿ]{聽} chè[chè]{#制;祭;詐;債;製;際;濟} 話[ōe]{話;話語} 就[chiū ]{就} 差[chhe]{打發;指派;差} 人[lâng]{人;人們} 去[khì]{去;掉} 幾若[kúi-nā]{好幾} 國[kok]{國} 四界[sì-kè]{四下裡;四處;到處;在在;處處} bā[bā]{找;物色;剛好;密;密合;覓;緊;親密}

39 詞類標記-6 以HMM挑適當ê華語詞 Tagging
小妹[Sió-mōe]{小妹;妹子;妹妹}<妹妹> 聽[thiaⁿ]{聽}<聽> chè[chè]{#制;祭;詐;債;製;際;濟}<際> 話[ōe]{話;話語}<話> 就[chiū ]{就}<就> 差[chhe]{打發;指派;差}<差> 人[lâng]{人;人們}<人> 去[khì]{去;掉}<去> 幾若[kúi-nā ]{好幾}<好幾> 國[kok]{國}<國> 四界[sì-kè]{四下裡;四處;到處;在在;處處}<到處> bā [bā ]{找;物色;剛好;密;密合;覓;緊;親密}<找>

40 詞類標記-7 以MEMM揀出詞類標記 Tagging
小妹[Sió-mōe] <妹妹>(Na) 聽[thiaⁿ] <聽>(VE) chè[chè] <際>(Nd) 話[ōe] <話>(Na) 就[chiū] <就>(D) 差[chhe] <差>(VH) 人[lâng] <人>(Na) 去[khì] <去>(VCL) 幾若[kúi-nā] <好幾> (Neu) 國[kok] <國>(Na) 四界[sì-kè] <到處>(D) bā[bā] <找>(VC)

41 書寫系統轉換 華台轉換 http://taigi.fhl.net/ht/ choan-oann
台語信望愛提供,主要是利用辭典詞條來轉換,所以並無調整語詞順序,總是是一個好用ê工具,尤其是對一個初初beh開始試寫台語文ê人,會當協助避免用字無一致ê問題。

42 書寫系統轉換-2 全羅轉漢羅 http://taigi.fhl.net/hanlo/
choan-oann 書寫系統轉換-2 全羅轉漢羅 漢羅轉全羅 台語信望愛提供,主要利用辭典資料做轉換

43 書寫系統轉換-3 全羅漢羅轉換 http://203.64.42.97/cl2hl/choan-lai-choan-khi.php
choan-oann 書寫系統轉換-3 全羅漢羅轉換 背後利用語料庫ê統計資料 透過字典、辭典kā所有可能ê候選字詞chhē出來,利用統計(Mutual Information)來決定beh揀tó一個。

44 電腦講台語 台語羅馬字發音試驗系統http://iug.csie.dahan.edu.tw/tts/tts.asp kong-oe
規則變調 eg: 清清 隨前變調 eg:來看你 輕聲 eg:陳先生 再變調 eg: 去台南 á[仔]前變調 eg:簿仔 三連音變調 eg:寒寒寒 升調 eg: khăn-páng[看板]

45 電腦講台語-2 kong-oe 台華辭典(60K詞目)對應到華語詞 中研院詞庫小組80K詞目ê詞類標記
仝音詞,選查詢詞頻上koân ê eg : kā[把] (1211) vs 咬(294) 詞類ambiguity暫時無處理 詞類標記包括:A形容詞、C連接詞、D副詞、G後置詞、I感嘆詞、M特別標記、N名詞、P介詞、R代名詞、V動詞、S時間詞、T語助詞 疊詞當做形容詞,其它未知詞當做名詞

46 電腦講台語-3 kong-oe 變調規則:20條 音節層次 eg: beh[欲]m̄管是m̄是語詞ê一部份(可比「kiông-beh強[欲]」),lóng標記做再變調 語詞層次 eg: che[這]、he[那],標記做本調

47 電腦講台語-4 kong-oe 詞類層次 eg:詞類N(名詞),後壁ê詞類若是A(形容詞)、D(副詞)、P(介詞)、R(代名詞)抑是V(動詞),這個名詞詞尾音節標記做本調 句型層次 eg: ē...bē會...袂ê句型出現時(bē出現tī句尾,句中出現ē ),將bē標記做輕聲

48 語料資源 chu-goân (國科會數位典藏)台灣白話字文獻館 (台文館)台語文數位典藏資料庫 台語信望愛 台語文記憶 (台文館)白話字數位典藏博物館

49 語料資源-2 chu-goân 台語線頂聖經 http://taigi.fhl.net/list.html
Wikipedia台語版 台語百科 (文建會)台灣民間文學館 台語網

50 Kèng-chhiáⁿ Chí-kàu 敬 請 指 教 ungian at gmail
Kóng Tâi-gú


Download ppt "Tâi-gú gú-liāu-khò. gú-giân-ha̍k kang-chok-hong"

Similar presentations


Ads by Google