Tâi-gú gú-liāu-khò. gú-giân-ha̍k kang-chok-hong 台語語料庫語言學工作坊 楊允言 Iûⁿ Ún-giân 台中教育大學台灣語文學系 助理教授 Gu-liau-khoo 2010 語言學卓越營 2010/7/23
Tai-kong 報告大綱 說明 羅馬字字型/輸入法 字/辭典 詞頻統計資料 語詞檢索系統
Tai-kong 報告大綱-2 斷詞 詞類標記 書寫系統轉換 應用:電腦講台語 語料資源
說明 假使有chah[帶]電腦來,請那上課那操作 Soat-bêng 假使有chah[帶]電腦來,請那上課那操作 講義有上網 Google查詢「楊允言」 好手氣作品演講 Yahoo查詢tī [在]第二個 說明
說明-2 Soat-bêng Taiwan 68.01% 15.0M Singapore 27.04% 1.2M Malaysia 9.98% 2.7M Brunei 3.59% 12.1K China 1.98% 25.7M Thailand 1.71% 1.1M Philippines 0.70% 0.6M Indonesia 0.57% 0.7M 說明-2 資料來源:M. Paul Lewis(ed.). 2009. Ethnologue : Languages of the world (16th ed.). SIL International
Soat-bêng 說明-3 閩南語 語言人口數:47M 世界排名第24名 漢字書寫kah羅馬字書寫互相幫贊
說明-4 閩語/閩南語? 廈門話(Amoy)、台灣土語、福建話、台語、閩南語(國民政府) 、福佬話(客家人)、… 約有20種稱呼 Soat-bêng 閩語/閩南語? 廈門話(Amoy)、台灣土語、福建話、台語、閩南語(國民政府) 、福佬話(客家人)、… 約有20種稱呼 一個語言,各自表述? 民間慣稱「台語」 說明-4
說明-5 台語tī台灣ê處境 強勢族群、弱勢語言 錯誤ê語言政策(獨尊華語) 錯誤ê語言使用觀念(母語厝內講tō好、大人遷就囡仔) Soat-bêng 台語tī台灣ê處境 強勢族群、弱勢語言 錯誤ê語言政策(獨尊華語) 錯誤ê語言使用觀念(母語厝內講tō好、大人遷就囡仔) 語詞流失、新語詞補充 說明-5
LMJ ji-heng 羅馬字字型 台語羅馬字,有ê符號是兩個character鬥做伙ê (符合Unicode規範),chia ê符號,假使無適當ê字型,有時仔會出現一個四角格仔,無法度正常顯示。
LMJ ji-heng 羅馬字字型-2 Tī Windows 7作業系統,已經完全無問題,總是較早期ê作業系統所提供ê字型大部分攏無支援Unicode規範(兩字鬥做伙)
LMJ ji-heng 羅馬字字型-3 Windows XP 作業系統,會使選用 Lucida Sans Unicode字型,台羅無問題,白話字差一個符號(o.)(Combining Dot Above Right,2004年納入Unicode)
羅馬字字型-4 Taigi Unicode http://iug.csie.dahan.edu.tw/twu.ttf LMJ ji-heng 羅馬字字型-4 Taigi Unicode http://iug.csie.dahan.edu.tw/twu.ttf Charis SIL http://scripts.sil.org/CharisSIL_download Doulos SIL http://scripts.sil.org/DoulosSIL_download Gentium http://scripts.sil.org/gentium_download DejaVu http://dejavu-fonts.org/wiki/index.php?title=Download
輸入法 信望愛台語客語輸入法 http://taigi.fhl.net/TaigiIME/ 有32 bits kah 64 bits版 Su-jip-hoat 輸入法 信望愛台語客語輸入法 http://taigi.fhl.net/TaigiIME/ 有32 bits kah 64 bits版 漢羅/全羅, 台羅/白話字 雙音節(kah以上)ê語詞,m̄免輸入聲調kah連字符 自定詞庫
輸入法-2 教育部臺灣閩南語漢字輸入法 http://140.111.56.95/hanji/MOE_TBHS_2.0.exe Su-jip-hoat 輸入法-2 教育部臺灣閩南語漢字輸入法 http://140.111.56.95/hanji/MOE_TBHS_2.0.exe Taiwanese package(羅馬字) http://tailo.fhl.net/TP/ TaigiLMJ101 http://khai.mtwww.mt.au.edu.tw/ezcatfiles/b077/img/img/775/TaigiLMJ101SB.htm Transliterator (Firefox add-on) http://addons.mozilla.org/zh-TW/firefox/addon/883/
字/辭典 台華辭典 http://iug.csie.dahan.edu.tw/q/q.asp Ji/su-tian 6萬外個詞條,漳州腔為主 提供羅馬字含糊查詢,輸入"hoe-chhia",會chhē出"hoe-chhia (花車)"、"hóe/hé-chhia (火車)"、"hòe/hè-chhia (貨車)"、"hóe/hé-chhiah (火鍘)“ 會當kā辭典khǹg tī Blog邊a欄位 http://iug.csie.dahan.edu.tw/TG/CK/chhahkiann.asp 字/辭典
字/辭典-2 台日大辭典台語譯本http://taigi.fhl.net/dict/ Ji/su-tian 9萬外個詞條,泉州腔為主 林俊育2002年開始整理,台文詞條改做漢羅,日文解說翻寫做台文,蔡哲民開發系統 後來kah中研院語言所合作,提供原圖掃瞄 字/辭典-2
字/辭典-3 教育部台灣閩南語常用詞辭典 http://twblg.dict.edu.tw/tw/index.htm Ji/su-tian 1萬外個詞條,第1份官方辭典 漢字用字遵照教育部的規範 台語詞條,華語解說
字/辭典-4 甘字典 http://taigi.fhl.net/dick/ Ji/su-tian 廈門音新字典 台語音節,華語解說 2009年上線,台語信望愛網站提供 介面kah台日大辭典台語譯本類似,精差資料無仝
Sû-pîn 詞頻統計資料 台語文詞頻統計 http://iug.csie.dahan.edu.tw/giankiu/keoe/KKH/guliau-supin/guliau-supin.asp 國科會計畫的結案報告資料,包括漢羅台語文(400外萬詞,word tokens)kah全羅台語文語料(240外萬詞),有詞頻、互訊息、相關度ê資料
詞頻統計資料-2 互訊息(Mutual Information) 0 無關係(獨立事件) > 0 愈有關係 < 0 愈無關係 Sû-pîn 詞頻統計資料-2 互訊息(Mutual Information) 0 無關係(獨立事件) > 0 愈有關係 < 0 愈無關係 MI(AB) = - log P(A) P(B) P(AB)
詞頻統計資料-3 相關度(Correlation) 數字愈大,愈有關係 n(n11×n22 -n12×n21 )2 CR(AB) = Sû-pîn 詞頻統計資料-3 相關度(Correlation) 數字愈大,愈有關係 CR(AB) = n(n11×n22 -n12×n21 )2 n1*× n2*× n*1× n*2
詞頻統計資料-4 因為無人工校對,mā無POS (part-of-speech)資料,MI kah Cor 品質並無好 Sû-pîn 詞頻統計資料-4 因為無人工校對,mā無POS (part-of-speech)資料,MI kah Cor 品質並無好 台語平均詞長:1.4 vs 華語 1.6 (CKIP)、2.0 (香港)
詞頻統計資料-5 教育部台灣閩南語字詞頻http://203.64.42.97 Sû-pîn 詞頻統計資料-5 教育部台灣閩南語字詞頻http://203.64.42.97 官方第1份詞頻統計資料,語料分教材、口傳文學、創作文學3大類,140外萬詞 thang利用羅馬字kā無仝漢字寫法khǹg做伙
語詞檢索 Corcordancer、 KWIC (KeyWord In Context) Kiám-sek 語詞檢索 Corcordancer、 KWIC (KeyWord In Context) 台語文語詞檢索系統 http://iug.csie.dahan.edu.tw/TG/concordance/ 漢羅(5.8M+)/羅馬字(3.4M+) Syl.
語詞檢索-2 教育部台灣閩南語字詞頻 http://203.64.42.97/ 文本lóng chhoân 2種文字型式 Kiám-sek 語詞檢索-2 教育部台灣閩南語字詞頻 http://203.64.42.97/ 文本lóng chhoân 2種文字型式 會當查詢重疊型式ê語詞 漢字造字利用中研院缺字系統 會當羅馬字、漢羅 頂下對照看 Firefox需要add-on (HTML Ruby) https://addons.mozilla.org/zh-TW/firefox/addon/6812/
斷詞 台語文斷詞系統 http://poj.likulaw.info/hanlo_hunsu.php Tng-su 斷詞 台語文斷詞系統 http://poj.likulaw.info/hanlo_hunsu.php 利用台華辭典,採用逆向最大比對法(Backward Maximum Matching Algorithm) 提供使用者詞庫,增加斷詞結果ê正確率
斷詞-2 Backward Maximal Matching (BMM) vs FMM Tng-su 斷詞-2 Backward Maximal Matching (BMM) vs FMM Ùi聖經看台語語詞變化 BMM : Ùi#聖經#看#台語#語詞#變化 FMM : Ùi#聖經#看台#語#語詞#變化
斷詞-3 Q1:台語ê分詞規範? Q2 : 遵照台語分詞規範ê辭典? Tng-su 臺灣閩南語羅馬字拼音方案連字符使用規則http://www.edu.tw/files/site_content/M0001/lanrule.pdf kah華語無啥仝款 : 數字、人名、… Q2 : 遵照台語分詞規範ê辭典? 辭典內底ê詞條有ê是詞組
詞類標記 台語文詞類標記 http://iug.csie.dahan.edu.tw/TGB/tagging/tagging.asp Tagging 台語文詞類標記 http://iug.csie.dahan.edu.tw/TGB/tagging/tagging.asp 華語詞類標記 http://ckipsvr.iis.sinica.edu.tw/ 無台語文人工標記詞類資料 kā每一個台語詞翻做華文(一對多),揀出上適當ê,chhē出這個華語詞所有可能ê詞類標記 用MEMM 揀出上適當ê詞類 詞類集採用中研院46個簡化詞類
Tagging
Tagging 詞類標記-3 實例 ... Sió-mōe thiaⁿ chè ōe chiū chhe lâng khì kúi-nā kok sì-kè bā ... ... 小妹聽chè 話就差人去幾若國四界bā ...
Tagging 詞類標記-4 利用程式kā詞隨個對齊 小妹[Sió-mōe] 聽[thiaⁿ] chè[chè] 話[ōe] 就[chiū ] 差[chhe] 人[lâng] 去[khì] 幾若[kúi-nā] 國[kok] 四界[sì-kè] bā [bā]
詞類標記-5 查台華辭典,加入華語詞 Tagging 小妹[Sió-mōe]{小妹;妹子;妹妹} 聽[thiaⁿ]{聽} chè[chè]{#制;祭;詐;債;製;際;濟} 話[ōe]{話;話語} 就[chiū ]{就} 差[chhe]{打發;指派;差} 人[lâng]{人;人們} 去[khì]{去;掉} 幾若[kúi-nā]{好幾} 國[kok]{國} 四界[sì-kè]{四下裡;四處;到處;在在;處處} bā[bā]{找;物色;剛好;密;密合;覓;緊;親密}
詞類標記-6 以HMM挑適當ê華語詞 Tagging 小妹[Sió-mōe]{小妹;妹子;妹妹}<妹妹> 聽[thiaⁿ]{聽}<聽> chè[chè]{#制;祭;詐;債;製;際;濟}<際> 話[ōe]{話;話語}<話> 就[chiū ]{就}<就> 差[chhe]{打發;指派;差}<差> 人[lâng]{人;人們}<人> 去[khì]{去;掉}<去> 幾若[kúi-nā ]{好幾}<好幾> 國[kok]{國}<國> 四界[sì-kè]{四下裡;四處;到處;在在;處處}<到處> bā [bā ]{找;物色;剛好;密;密合;覓;緊;親密}<找>
詞類標記-7 以MEMM揀出詞類標記 Tagging 小妹[Sió-mōe] <妹妹>(Na) 聽[thiaⁿ] <聽>(VE) chè[chè] <際>(Nd) 話[ōe] <話>(Na) 就[chiū] <就>(D) 差[chhe] <差>(VH) 人[lâng] <人>(Na) 去[khì] <去>(VCL) 幾若[kúi-nā] <好幾> (Neu) 國[kok] <國>(Na) 四界[sì-kè] <到處>(D) bā[bā] <找>(VC)
書寫系統轉換 華台轉換 http://taigi.fhl.net/ht/ choan-oann 台語信望愛提供,主要是利用辭典詞條來轉換,所以並無調整語詞順序,總是是一個好用ê工具,尤其是對一個初初beh開始試寫台語文ê人,會當協助避免用字無一致ê問題。
書寫系統轉換-2 全羅轉漢羅 http://taigi.fhl.net/hanlo/ choan-oann 書寫系統轉換-2 全羅轉漢羅 http://taigi.fhl.net/hanlo/ 漢羅轉全羅 http://taigi.fhl.net/lohan/ 台語信望愛提供,主要利用辭典資料做轉換
書寫系統轉換-3 全羅漢羅轉換 http://203.64.42.97/cl2hl/choan-lai-choan-khi.php choan-oann 書寫系統轉換-3 全羅漢羅轉換 http://203.64.42.97/cl2hl/choan-lai-choan-khi.php 背後利用語料庫ê統計資料 透過字典、辭典kā所有可能ê候選字詞chhē出來,利用統計(Mutual Information)來決定beh揀tó一個。
電腦講台語 台語羅馬字發音試驗系統http://iug.csie.dahan.edu.tw/tts/tts.asp kong-oe 規則變調 eg: 清清 隨前變調 eg:來看你 輕聲 eg:陳先生 再變調 eg: 去台南 á[仔]前變調 eg:簿仔 三連音變調 eg:寒寒寒 升調 eg: khăn-páng[看板]
電腦講台語-2 kong-oe 台華辭典(60K詞目)對應到華語詞 中研院詞庫小組80K詞目ê詞類標記 仝音詞,選查詢詞頻上koân ê eg : kā[把] (1211) vs 咬(294) 詞類ambiguity暫時無處理 詞類標記包括:A形容詞、C連接詞、D副詞、G後置詞、I感嘆詞、M特別標記、N名詞、P介詞、R代名詞、V動詞、S時間詞、T語助詞 疊詞當做形容詞,其它未知詞當做名詞
電腦講台語-3 kong-oe 變調規則:20條 音節層次 eg: beh[欲]m̄管是m̄是語詞ê一部份(可比「kiông-beh強[欲]」),lóng標記做再變調 語詞層次 eg: che[這]、he[那],標記做本調
電腦講台語-4 kong-oe 詞類層次 eg:詞類N(名詞),後壁ê詞類若是A(形容詞)、D(副詞)、P(介詞)、R(代名詞)抑是V(動詞),這個名詞詞尾音節標記做本調 句型層次 eg: ē...bē會...袂ê句型出現時(bē出現tī句尾,句中出現ē ),將bē標記做輕聲
語料資源 chu-goân (國科會數位典藏)台灣白話字文獻館http://www.tcll.ntnu.edu.tw/pojbh/script/index.php (台文館)台語文數位典藏資料庫 http://iug.csie.dahan.edu.tw/nmtl/dadwt/index.htm 台語信望愛 http://taigi.fhl.net/ 台語文記憶 http://iug.csie.dahan.edu.tw/memory/TGB/mowt.asp (台文館)白話字數位典藏博物館 http://203.64.42.97/taibunkoan/bang-cham/
語料資源-2 chu-goân 台語線頂聖經 http://taigi.fhl.net/list.html Wikipedia台語版 http://zh-min-nan.wikipedia.org/wiki/ 台語百科 http://taigi-pahkho.wikia.com/ (文建會)台灣民間文學館 http://cls.hs.yzu.edu.tw/tfl/ 台語網 http://groups.google.com/group/taigu?hl=zh-TW
Kèng-chhiáⁿ Chí-kàu 敬 請 指 教 ungian at gmail Kóng Tâi-gú