非監督式學習於中文電視新聞 自動轉寫之初步應用 郭人瑋 蔡文鴻 陳柏琳 國立台灣師範大學資訊工程研究所 各位 老師、同學 大家好 我是師大資工所 郭人瑋 要為大家介紹的主題是「非監督式學習於中文電視新聞自動寫之初步應用」
序論 動機 解決方法:非監督式學習 日常生活中能取得的多媒體影音資訊愈來愈多,但若要在新領域上建立新的語音辨識系統,人工轉寫往往曠日費時 利用現有的語音辨識系統自動轉寫多媒體影音資訊,並使用發音確認技術加以篩選 非監督式學習 非監督式聲學模型訓練 非監督式聲學模型調適 非監督式語言模型調適 非監督式學習之流程與技術 日常生活中能取得的多媒體影音資訊愈來愈多,但若要在新領域上建立新的語音辨識系統,人工轉寫往往曠日費時,於是我們提出非監督式學習的方法來解決此問題。 我們以現有的語音辨識系統為多媒體影音資訊作辨識並產生自動轉寫,再利用發音確認技術篩選可靠的片段,供訓練使用。 我們先來介紹本研究所使用的語音辨識系統,點選。 非監督式學習可分為三個部份: 第一、非監督式聲學模型訓練 使用發音確認技術為自動轉寫挑選較正確的語料片段、以供聲學模型訓練。 第二、非監督式聲學模型調適 傳統的非監督式聲學模型調適只使用辨識結果的第一名詞序列來作為正確的轉寫, 但辨識中的錯誤往往降低了聲學模型調適的成效, 於是我們使用了詞圖中的資訊使聲學模型調適更具強健性。 第三、非監督式語言模型調適 我們使用自動轉寫及領域內的文字語料來作語言模型調適。 我們來看看非監督式學習的流程及使用的技術 點選
師大資工所新聞語音辨識系統 大詞彙連續語音辨識 詞彙樹搜尋 詞圖搜尋 結合聲學模型與語言模型 (Bigram or Trigram)進行 詞彙樹動態規劃搜尋,使用語言模型前看、聲學前看及光束剪栽等技術,產生最佳詞句與詞圖 使用約72,000個1~10字詞 詞圖搜尋 使用更高階語言模型(Trigram or Fourgram),在詞圖上重新進行一次動態規劃搜尋,找出最佳的詞句 供作非監督式學習 本研究所使用的語音辨識器為大詞彙連續語音辨識器 所使用的詞典為72000個1-10字詞,其中有7000個單字詞 大致上可分成兩個階段 第一階段為詞彙樹搜尋 使用較低階的語言模型進行詞彙樹動態規劃搜尋,並使用語言模型前看、聲學前看及光束剪栽等技術,產生最佳詞句與詞圖 第二階段為詞圖搜尋 使用更高階的語言模型,為詞圖再進行一次動態規劃搜尋,找出最佳的詞句 第一階段產生的詞圖,也將供非監督式學習之用
詞圖 圖一、詞彙樹搜尋所產生的詞圖 不斷 太多 兩人 豪雨 台東 不斷 SIL 無端 台東 兩人 濕疹 台中 失蹤 妙語 不斷 兩任 無端 陶藝 良心 失寵 太重 無端 兩任 這是一個詞圖的範例,每個詞段代表一個詞,包含起始及結束時間,對應的語句為「豪雨不斷,台東兩人失踨」 點選 圖一、詞彙樹搜尋所產生的詞圖
非監督式學習之流程 語音輸入 自動轉寫 新聞語料 文字語料 前端處理 非監督式 詞典 聲學模型訓練 詞彙樹 詞圖 語言模型 搜尋 聲學 人工轉寫 新聞語料 詞圖搜尋 非監督式 語言模型調適 非監督式 聲學模型調適
非監督式學習技術 詞事後機率 詞聲學信心 詞信心度評估 發音確認技術 非監督式 聲學模型調適 非監督式 聲學模型訓練 非監督式 語言模型調適
詞事後機率 信心度比例係數 介於0與1之間,表示對聯合機率施以壓縮, 使候選詞間的事後機率差異變小 某一詞段的事後機率,為所有通過此詞段的完整路徑的事後機率加總 但根據觀察,第一名詞序列的事後機率往往很大,為了要縮短詞序列間事後機率的差距, 我們引入信心度比例係數。 點選 其中a為信心度比例係數,介於0與1之間,表示對聯合機率施以壓縮,使詞序列間的事後機率差異縮小。 當a等於1時,則表示不予以壓縮; a等於0時,則詞序列的事後機率為均勻機率(Uniform Probability)。 點選 信心度比例係數 介於0與1之間,表示對聯合機率施以壓縮, 使候選詞間的事後機率差異變小
詞聲學信心 台東(ta a_i du ueng) ta a_i du ueng sic_a sic_o sil 在某一詞段內,我們可切出其子詞(subword,initial,final)的時間邊界, 對某一子詞,我們計算(其聲學分數)與(其他子詞聲學分數中最高者)的比值 經過sigmoid function之後,取其平均來當作詞聲學信心 點選
詞信心度評估 為「詞事後機率」與「詞聲學信心」之權重和 而詞信心度評估為「詞事後機率」與「詞聲學信心」的權重和, 「詞聲學信心」 包含局部(local)的資訊 而「詞事後機率」則包含整句(global)的資訊 其中C1與C2為權重參數,在以下進行的實驗中,c1及c2均設為0.5。 點選
發音確認 根據詞信心度評估決定某語句是否成為非監督式訓練的語料 發音確認可視為一個決斷函數V,根據平均候選詞信心度評估,來決定辨識產生的第一名詞序列W是否能成為訓練語料。其中Thr為篩選的基準閥值。 點選
非監督式聲學模型調適 本研究中初步以MLLR作為聲學模型調適方法 傳統非監督式聲學模型調適(Top1_MLLR) 以第一名詞序列作為聲學模型調適之依據 本研究使用的聲學模型調適(WG_MLLR) 詞圖上之詞段均可用來作為聲學模型調適之依據,不同詞段有不同權重之貢獻 能有效提昇系統的聲學模型調適成效 傳統的非監督式聲學模型調適只使用辨識結果的第一名詞序列來作為正確的轉寫, 但辨識中的錯誤往往降低了聲學模型調適的成效, 於是我們使用了詞圖中的資訊使聲學模型調適更具強健性。 我們嘗試使用詞信心度評估為詞圖上的詞段進行加權,使得每一個詞段依其信心度評估分數對模型調適都有不同程度的貢獻。
非監督式聲學模型調適 作法 進行詞彙樹複製搜尋,產生詞圖 計算詞圖上每一詞段之信心度評估 對於每一詞段執行HMM層次的Forward-Backward演算法計算其佔有機率,並以此詞段之信心度評估作加權 收集所有詞段統計資訊,進行MLLR聲學模型調適 進行詞彙樹搜尋產生詞圖 為每一詞段計算信心度評估 對每一詞段進行HMM層次的Forward-Backward演算法,並計算高斯層次的佔有機率,並以此詞段的信心度評估來作加權 收集所有統計資訊,進行聲學模型調適
實驗環境設定與語料 聲學參數 初始聲學模型 初始語言模型 公視新聞語料(MATBN) 39維梅爾倒頻譜特徵(MFCC) 1998至1999年間,4小時廣播新聞語料 151個INITIAL-FINAL聲學模型 初始語言模型 2000及2001年中央社新聞(LDC Gigaword Corpus) 約有162M中文字 公視新聞語料(MATBN) 中研院資訊所口語小組與公視合作完成 大致分成內場主播、外場記者及外場受訪者三部份 所有的語料都經由人工切割為一則一則的新聞語音檔,每一則新聞均由一個主播所播報,性別上男女都有。某些檔案因錄音的關係,含有相當大的背景雜訊。這些廣播新聞語料有對應的正確人工轉寫。 電視新聞語料則全為公視新聞語料(MATBN),為中央研究院資訊所口語小組耗時三年與公共電視台合作錄製完成,預計將收錄200小時的廣播新聞,所有的新聞語料都有正確的人工轉寫以及其它的標註資訊(如:停頓、語助詞、呼吸、強調語氣、反覆、不適當的發音),所有的人工轉寫與標註均使用DGA&LDC的轉寫器(Transcriber)來完成。每天的新聞約含有二十多則報導,每則報導為一完整主題。除了語音資料,文字語料在其它應用上也有很大的價值(如資訊檢索、主題偵測與文章分段)。公視新聞語料大致上可分內場及外場兩個部份,內場部分主要為主播(Studio Anchors)的語料,外場部分主要為記者(Field Reporters)與受訪者(Interviewees)的語料。經由統計,2002與2003年釋出的120小時的語料內,共含五位主播,其中以「葉明蘭」主播的語料佔絕大多數,使得要在內場中定義出一套較具代表性的訓練及測試語料,顯得有些困難,希望未來能經由國內各相關研究機構及人士的集思廣益與討論,為這套資訊豐富的新聞語料,定義出有實驗價值的訓練及測試語料,作為技術開發的比較平台。我們由MATBN2002與MATBN2003兩套語料中選擇了內場約16小時的語料作為本實驗的語料(NTNU_SA-2)[21],包含了約15小時的內場主播語料供訓練與約44分鐘(0.74小時)的測試語料,統計資料如表一及表二所示。訓練語料中,佔有85%語料的主播葉明蘭,也是測試語料內唯一的語者,使得本實驗之聲學模型有著語者相依(Speaker-dependent)的缺失,但本論文強調於完全非監督模式下進行學習,包含聲學模型訓練、聲學模型調適及語言模型調適,相較於初始系統,辨識率上仍有明顯的進步。
實驗環境設定 非監督式聲學模型訓練語料 訓練語料 (主播部分) 總時間 (小時) 句數 (句) 含有背景音樂句數(句) 平均長度 (秒/句) 佔比例 (%) 性別 林建成 1.47 422 118 12.53 9.71 男 馬紹 0.13 35 9 13.30 0.86 葉明蘭 12.98 2,860 802 16.34 85.85 女 洪蕙竹 0.48 127 49 13.66 3.19 蘇怡如 0.06 17 12 12.58 0.39 總計 15.12 3,461 990 - 100.00 2男3女 平均 28.60% 15.73
實驗環境設定 測試語料 測試語料 (主播部分) 總時間 (小時) 句數 (句) 含有背景音樂句數(句) 平均長度 (秒/句) 佔比例 (%) 性別 葉明蘭 0.74 163 42 16.28 100.00 女 總計 - 1女 平均 25.77% (2002.8.6~2002.9.26)
非監督式聲學模型調適基礎實驗結果 計算候選詞事後機率時所用的語言模型階層 Zerogram Unigram Bigram Trigram 字錯誤率(%) 無 27.67 - Top1_MLLR 25.93 1 28.39 28.00 26.12 25.80 1/4 28.08 27.45 25.92 25.69 1/8 27.85 26.96 25.95 1/12 27.62 26.78 25.49 25.37 1/16 27.70 26.81 25.54 25.26 1/20 27.59 26.56 25.73 25.14 1/24 27.53 26.32 25.82 25.38 1/28 27.49 26.58 25.51 我們比較「計算候選詞事後機率時所用的語言模型階層」 Zerogram為不使用語言模型 左邊第一欄為改變信心度比例係數的值 使用詞圖資訊與不同信心度比例係數
非監督式聲學模型訓練實驗結果 字錯誤率(%) (相對字錯誤率減少百分比(%)) [詞圖錯誤率(%)] 無聲學模型調適 Top1_MLLR WG_MLLR(1/16) 原來四小時訓練之聲學模型 27.67 25.93 25.26 3.80小時(Thr=0.9) 21.37 21.00 20.97 11.57小時(Thr=0.8) 20.09 [11.15] 20.00 (0.45) 19.56 (2.64) 13.30小時(Thr=0.7) 20.25 20.01 19.71 13.61小時(Thr=0.6) 20.18 19.94 19.59 13.67小時(Thr=0.5) 20.21 19.69 13.70小時(Thr=0.0) 20.32 20.07 19.76 15.12小時(監督式訓練) 16.26 16.29 16.47 16.02* (1.47) 非監督式聲學模型訓練在使用不同基準閥值下的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值,MLLR(CM)為引入信心度評估的MLLR調適,信心度比例係數在此設為1/16。同一列中,MLLR括弧內的數據為相對於無聲學模型調適時字錯誤率減少百分比。最後一列的「監督式訓練」為對照組。 *:比例係數為1/4 *比例係數為1/4
非監督式語言模型調適實驗結果 聲學模型 調適語料字數 字錯誤率(%)(加入WG_MLLR(1/12)之字錯誤率) 無語言模型調適 語言模型插補 詞頻數混合 3.80小時(Thr=0.9) 66,540 21.37 21.85 21.08 11.57小時(Thr=0.8) 209,489 20.09 19.97(19.81) 19.74(19.54) 13.30小時(Thr=0.7) 242,630 20.25 20.06 20.27 13.61小時(Thr=0.6) 248,701 20.18 20.04 13.67小時(Thr=0.5) 249,880 20.21 20.05 20.23 13.70小時(Thr=0.0) 250,640 20.32 20.02 自動轉寫用於語言模型調適的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值,括弧內之數據為相對於無語言模型調適之字錯誤率減少百分比。 信心度比例係數為1/12
領域內之語言模型調適實驗 以公視新聞網站(http://www.pts.org.tw)收集的新聞報導字幕(closed captions)作為語言模型調適文字語料 PTS_LM_1 包含2001及2002整年的新聞報導字幕 稱作Bias Language Model Adaptation PTS_LM_2 僅包含2001整年及2002年1~7月的新聞報導字幕
領域內之語言模型調適實驗結果 非監督式訓練之聲學模型( Thr=0.8 ) 字錯誤率(%) 無聲學模型調適 Top1_MLLR WG_MLLR(1/12) 無語言模型調適 20.09 20.00 19.64 PTS_LM_1(語言模型插補) 12.35 12.13 12.09 PTS_LM_1(詞頻數混合) 11.94 11.87 12.04 PTS_LM_2(語言模型插補) 18.97 18.75 18.63 PTS_LM_2(詞頻數混合) 20.01 19.75 19.42 監督式訓練之聲學模型 字錯誤率(%) 無聲學模型調適 Top1_MLLR WG_MLLR(1/4) 無語言模型調適 16.26 16.29 16.02 PTS_LM_1(語言模型插補) 7.46 7.32 7.33 PTS_LM_1(詞頻數混合) 7.47 7.39 7.41 PTS_LM_2(語言模型插補) 15.08 14.93 14.92 PTS_LM_2(詞頻數混合) 15.94 15.72 15.60 領域內語言模型調適的語音辨識結果。MLLR(CM)為引入信心度評估的MLLR調適,信心度比例係數在此設為1/16。 正改為1/12
背景音樂的影響 聲學模型 字錯誤率(%) 無聲學模型調適 Top1_MLLR WG_MLLR 不含背景音樂(初始模型) 24.50 22.68 22.00 含有背景音樂(初始模型) 65.18 62.19 61.70 不含背景音樂(非監督式Thr=0.8) 16.43 16.38 16.18 含有背景音樂(非監督式Thr=0.8) 61.01 60.41 57.35 不含背景音樂(監督式) 13.78 13.82 13.61 含有背景音樂(監督式) 44.03 43.93 42.94
實驗摘要 Baseline 初始聲學模型27.67%字錯誤圍 +非監督式聲學模型訓練(Thr=0.8) +非監督式語言模型調適(詞頻數混合) 20.09%字錯誤率(27.39%) +非監督式語言模型調適(詞頻數混合) 19.74%字錯誤率(1.26%) +非監督式聲學模型調適(WG_MLLR_1/12) 19.54%字錯誤率(0.72%) Total 29.38%錯誤率減少百分比
Automatically Transcribed PDA-based新聞檢索系統 Client Server Multi-scale Indexing Word-level Indexing Features PDA Client Mandarin LVCSR Server Inverted Files Multi-scale Indexer Syllable-level Indexing Features Information Retrieval Server Audio Streaming Server Automatically Transcribed Broadcast News Corpus
結論與未來展望 結論 未來展望 使用發音確認技術 詞圖上的聲學模型調適 非監督式語言模型調適 鑑別性(e.g.MMI,MPE)非監督式聲學模型訓練 使用詞圖資訊於語言模型調適 發音確認能有效地挑選較為可靠的語料來進行訓練,節省大量的人力進行人工轉寫,使龐大的語料能被運用。 詞圖上的資訊能應用在非監督式聲學模型調適上,不再只侷限於Top1辨識的路徑,使模型調適更具強健性。 自動轉寫用於語言模型調適能解決新聞辨識主題和語言內容多變的問題 由於資料稀疏,使得字錯誤率的進步並不大。但由於詞圖上含有大量的資訊,我們甚至可根據詞圖上的信心度評估為每一個候選詞的詞頻作加權,俾使詞圖上的候選詞均能對語言模型調適有所貢獻。
敬請指教