非監督式學習於中文電視新聞自動轉寫之初步應用

Slides:

Advertisements

Similar presentations

變數與函數大綱 : 對應關係函數函數值顧震宇台灣數位學習科技股份有限公司. 對應關係蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元顧震宇老師台灣數位學習科技股份有限公司變數與函數下表是早餐店價格表的一部分：蛋餅飯糰土司漢堡咖啡奶茶.

Advertisements

Rosetta Stone Version 3 學生端使用說明

MATLAB 程式設計時間量測清大資工系多媒體資訊檢索實驗室.

實驗計畫資料分析作業解答何正斌國立屏東科技大學工業管理系.

亞洲大學的數位學習資源與應用鍾仁宗老師 101年12月4日.

JDK 安裝教學 (for Win7) Soochow University

青蛙物種聲紋辨識系統參賽學生:李建德、陳家正指導教授:陳文平教授農委會林業試驗所六龜研究中心高雄應用科技大學電機工程系

使用VHDL設計—4位元位移器通訊一甲 B 楊穎穆.

R教學安裝RStudio 羅琪老師.

ASP.NET基本設計與操作建國科技大學資管系饒瑞佶 2007年.

安裝JDK 安裝Eclipse Eclipse 中文化

Text To Speech (TTS, 文字轉語音) 靜宜大學資管系楊子青

TCP/IP介紹講師:陳育良 2018/12/28.

OpenID與WordPress使用說明

Android App簡介及 App Inventor 2體驗靜宜大學資管系楊子青

第二章 SPSS的使用 2.1 啟動SPSS系統 2.2 結束SPSS系統 2.3 資料分析之相關檔案 2.4 如何使用SPSS軟體.

視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生：顏羽君

TTS (文字轉語音) Roger Jang (張智星)

CH03　資訊管理的智慧觀點：技術篇.

Chap3 Linked List 鏈結串列.

指導老師：蘇明俊老師組長：潘翠娥組員：張惠雅葉麗華

第一章直角坐標系 1－1　數系的發展.

大數據與我 4A 陳駿榜.

網路程式設計期末project B 張芸菱.

古今地圖比對國立彰化高中102年高瞻計畫空間資訊專題課程.

第一章直角坐標系 1-3　函數圖形.

混音實作高雄市新民國小林佳宏

虛擬傢俱館指導老師：高玉芬老師組員： B 黃琪芳 B 蔡宜眞 B 林政緯

有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析

CH05. 選擇敘述.

田口方法應用於語音辨識報告者:李建德.

挑戰C++程式語言 ──第8章進一步談字元與字串

最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究

共源極頻率響應科系:通訊工程學系執導老師:王志湖學號:B 姓名:何信賢.

智慧型環境系統實驗室生態工程環境評估決策分析人工智慧資訊系統永續發展

對數能量特徵正規化於語音辨識之進一步研究

Text To Speech (TTS, 文字轉語音) 靜宜大學資管系楊子青

指導教授陳柏琳博士研究生朱紋儀報告者汪逸婷 Lab meeting 2012/02/08

電子期刊使用統計 CONCERT 2002 meeting November 13-14, 2002 羅宙康 Springer-Verlag

DRC with Calibre 課程名稱:VLSI 報告人:黃家洋日期: 改版(蔡秉均) 1.

(Mobile User music–Sharing Innovation Center)

取得與安裝TIDE 從TIBBO網站取得TIDE

Text To Speech (TTS, 文字轉語音)、讀簡訊靜宜大學資管系楊子青

MiRanda Java Interface v1.0的使用方法

PowerPoint 操作介紹 106 計算機概論

國立台灣師範大學資訊工程研究所語音實驗室研究簡介

楊志強博士國立台北教育大學系教育統計學楊志強博士國立台北教育大學系

師大 KSP 操作手冊.

使用VHDL設計-8x3編碼電路通訊一甲 B 楊穎穆.

國立台灣大學關懷弱勢族群電腦課程 By 資訊工程黃振修

第十二章離散小波轉換之相關浮水印技術.

語音訊號的特徵向量張智星多媒體資訊檢索實驗室清華大學資訊工程系.

介紹Saas 以Office 365為例組員: 資工四乙何孟修資工四乙黃泓勝.

程式語言與邏輯：主題示範報告人：國立台灣師大附中李啟龍老師學年度資訊科技概論研習.

第一章直角坐標系 1－3　函數及其圖形.

安裝JDK 配置windows win7 環境變數

非負矩陣分解法介紹報告者:李建德.

Activity的生命週期：播放音樂與影片靜宜大學資管系楊子青

教育類相關資料庫.

一可靠度問題.

第四組停車場搜尋系統第四組溫允中陳欣暉蕭積遠李雅俐.

單元三：敘述統計內容：＊統計量的計算＊直方圖的繪製.

青蛙物種辨識系統聲紋行政院農業委員會林業試驗所-六龜研究中心國立高雄應用科技大學指導教授:陳文平教授

NFC (近場通訊， Near Field Communication) 靜宜大學資管系楊子青

Chapter 4 Multi-Threads (多執行緒).

Chapter 16 動態規劃.

醫療影像圖檔處理與投影顯示 Project L 指導教授：東吳大學資訊科學系副教授鄭為民老師組員 Java 3D組 - 郭慈芬、李亭瑩

社會領域教學相關網路資源介紹.

Presentation transcript:

非監督式學習於中文電視新聞自動轉寫之初步應用郭人瑋蔡文鴻陳柏琳國立台灣師範大學資訊工程研究所各位老師、同學大家好我是師大資工所郭人瑋要為大家介紹的主題是「非監督式學習於中文電視新聞自動寫之初步應用」

序論動機解決方法:非監督式學習日常生活中能取得的多媒體影音資訊愈來愈多，但若要在新領域上建立新的語音辨識系統，人工轉寫往往曠日費時利用現有的語音辨識系統自動轉寫多媒體影音資訊，並使用發音確認技術加以篩選非監督式學習非監督式聲學模型訓練非監督式聲學模型調適非監督式語言模型調適非監督式學習之流程與技術日常生活中能取得的多媒體影音資訊愈來愈多，但若要在新領域上建立新的語音辨識系統，人工轉寫往往曠日費時，於是我們提出非監督式學習的方法來解決此問題。我們以現有的語音辨識系統為多媒體影音資訊作辨識並產生自動轉寫，再利用發音確認技術篩選可靠的片段，供訓練使用。我們先來介紹本研究所使用的語音辨識系統，點選。非監督式學習可分為三個部份：第一、非監督式聲學模型訓練使用發音確認技術為自動轉寫挑選較正確的語料片段、以供聲學模型訓練。第二、非監督式聲學模型調適傳統的非監督式聲學模型調適只使用辨識結果的第一名詞序列來作為正確的轉寫，但辨識中的錯誤往往降低了聲學模型調適的成效，於是我們使用了詞圖中的資訊使聲學模型調適更具強健性。第三、非監督式語言模型調適我們使用自動轉寫及領域內的文字語料來作語言模型調適。我們來看看非監督式學習的流程及使用的技術點選

師大資工所新聞語音辨識系統大詞彙連續語音辨識詞彙樹搜尋詞圖搜尋結合聲學模型與語言模型 (Bigram or Trigram)進行詞彙樹動態規劃搜尋，使用語言模型前看、聲學前看及光束剪栽等技術，產生最佳詞句與詞圖使用約72,000個1~10字詞詞圖搜尋使用更高階語言模型(Trigram or Fourgram)，在詞圖上重新進行一次動態規劃搜尋，找出最佳的詞句供作非監督式學習本研究所使用的語音辨識器為大詞彙連續語音辨識器所使用的詞典為72000個1-10字詞，其中有7000個單字詞大致上可分成兩個階段第一階段為詞彙樹搜尋使用較低階的語言模型進行詞彙樹動態規劃搜尋，並使用語言模型前看、聲學前看及光束剪栽等技術，產生最佳詞句與詞圖第二階段為詞圖搜尋使用更高階的語言模型，為詞圖再進行一次動態規劃搜尋，找出最佳的詞句第一階段產生的詞圖，也將供非監督式學習之用

詞圖圖一、詞彙樹搜尋所產生的詞圖不斷太多兩人豪雨台東不斷 SIL 無端台東兩人濕疹台中失蹤妙語不斷兩任無端陶藝良心失寵太重無端兩任這是一個詞圖的範例，每個詞段代表一個詞，包含起始及結束時間，對應的語句為「豪雨不斷，台東兩人失踨」點選圖一、詞彙樹搜尋所產生的詞圖

非監督式學習之流程語音輸入自動轉寫新聞語料文字語料前端處理非監督式詞典聲學模型訓練詞彙樹詞圖語言模型搜尋聲學人工轉寫新聞語料詞圖搜尋非監督式語言模型調適非監督式聲學模型調適

非監督式學習技術詞事後機率詞聲學信心詞信心度評估發音確認技術非監督式聲學模型調適非監督式聲學模型訓練非監督式語言模型調適

詞事後機率信心度比例係數介於0與1之間，表示對聯合機率施以壓縮，使候選詞間的事後機率差異變小某一詞段的事後機率，為所有通過此詞段的完整路徑的事後機率加總但根據觀察，第一名詞序列的事後機率往往很大，為了要縮短詞序列間事後機率的差距，我們引入信心度比例係數。點選其中a為信心度比例係數，介於0與1之間，表示對聯合機率施以壓縮，使詞序列間的事後機率差異縮小。當a等於1時，則表示不予以壓縮； a等於0時，則詞序列的事後機率為均勻機率(Uniform Probability)。點選信心度比例係數介於0與1之間，表示對聯合機率施以壓縮，使候選詞間的事後機率差異變小

詞聲學信心台東(ta a_i du ueng) ta a_i du ueng sic_a sic_o sil 在某一詞段內，我們可切出其子詞(subword,initial,final)的時間邊界，對某一子詞，我們計算(其聲學分數)與(其他子詞聲學分數中最高者)的比值經過sigmoid function之後，取其平均來當作詞聲學信心點選

詞信心度評估為「詞事後機率」與「詞聲學信心」之權重和而詞信心度評估為「詞事後機率」與「詞聲學信心」的權重和，「詞聲學信心」包含局部(local)的資訊而「詞事後機率」則包含整句(global)的資訊其中C1與C2為權重參數，在以下進行的實驗中，c1及c2均設為0.5。點選

發音確認根據詞信心度評估決定某語句是否成為非監督式訓練的語料發音確認可視為一個決斷函數V，根據平均候選詞信心度評估，來決定辨識產生的第一名詞序列W是否能成為訓練語料。其中Thr為篩選的基準閥值。點選

非監督式聲學模型調適本研究中初步以MLLR作為聲學模型調適方法傳統非監督式聲學模型調適(Top1_MLLR) 以第一名詞序列作為聲學模型調適之依據本研究使用的聲學模型調適(WG_MLLR) 詞圖上之詞段均可用來作為聲學模型調適之依據，不同詞段有不同權重之貢獻能有效提昇系統的聲學模型調適成效傳統的非監督式聲學模型調適只使用辨識結果的第一名詞序列來作為正確的轉寫，但辨識中的錯誤往往降低了聲學模型調適的成效，於是我們使用了詞圖中的資訊使聲學模型調適更具強健性。我們嘗試使用詞信心度評估為詞圖上的詞段進行加權，使得每一個詞段依其信心度評估分數對模型調適都有不同程度的貢獻。

非監督式聲學模型調適作法進行詞彙樹複製搜尋，產生詞圖計算詞圖上每一詞段之信心度評估對於每一詞段執行HMM層次的Forward-Backward演算法計算其佔有機率，並以此詞段之信心度評估作加權收集所有詞段統計資訊，進行MLLR聲學模型調適進行詞彙樹搜尋產生詞圖為每一詞段計算信心度評估對每一詞段進行HMM層次的Forward-Backward演算法，並計算高斯層次的佔有機率，並以此詞段的信心度評估來作加權收集所有統計資訊，進行聲學模型調適

實驗環境設定與語料聲學參數初始聲學模型初始語言模型公視新聞語料(MATBN) 39維梅爾倒頻譜特徵(MFCC) 1998至1999年間，4小時廣播新聞語料 151個INITIAL-FINAL聲學模型初始語言模型 2000及2001年中央社新聞(LDC Gigaword Corpus) 約有162M中文字公視新聞語料(MATBN) 中研院資訊所口語小組與公視合作完成大致分成內場主播、外場記者及外場受訪者三部份所有的語料都經由人工切割為一則一則的新聞語音檔，每一則新聞均由一個主播所播報，性別上男女都有。某些檔案因錄音的關係，含有相當大的背景雜訊。這些廣播新聞語料有對應的正確人工轉寫。電視新聞語料則全為公視新聞語料(MATBN)，為中央研究院資訊所口語小組耗時三年與公共電視台合作錄製完成，預計將收錄200小時的廣播新聞，所有的新聞語料都有正確的人工轉寫以及其它的標註資訊(如：停頓、語助詞、呼吸、強調語氣、反覆、不適當的發音)，所有的人工轉寫與標註均使用DGA&LDC的轉寫器(Transcriber)來完成。每天的新聞約含有二十多則報導，每則報導為一完整主題。除了語音資料，文字語料在其它應用上也有很大的價值(如資訊檢索、主題偵測與文章分段)。公視新聞語料大致上可分內場及外場兩個部份，內場部分主要為主播(Studio Anchors)的語料，外場部分主要為記者(Field Reporters)與受訪者(Interviewees)的語料。經由統計，2002與2003年釋出的120小時的語料內，共含五位主播，其中以「葉明蘭」主播的語料佔絕大多數，使得要在內場中定義出一套較具代表性的訓練及測試語料，顯得有些困難，希望未來能經由國內各相關研究機構及人士的集思廣益與討論，為這套資訊豐富的新聞語料，定義出有實驗價值的訓練及測試語料，作為技術開發的比較平台。我們由MATBN2002與MATBN2003兩套語料中選擇了內場約16小時的語料作為本實驗的語料(NTNU_SA-2)[21]，包含了約15小時的內場主播語料供訓練與約44分鐘(0.74小時)的測試語料，統計資料如表一及表二所示。訓練語料中，佔有85%語料的主播葉明蘭，也是測試語料內唯一的語者，使得本實驗之聲學模型有著語者相依(Speaker-dependent)的缺失，但本論文強調於完全非監督模式下進行學習，包含聲學模型訓練、聲學模型調適及語言模型調適，相較於初始系統，辨識率上仍有明顯的進步。

實驗環境設定非監督式聲學模型訓練語料訓練語料 (主播部分) 總時間 (小時) 句數 (句) 含有背景音樂句數(句) 平均長度 (秒/句) 佔比例 (%) 性別林建成 1.47 422 118 12.53 9.71 男馬紹 0.13 35 9 13.30 0.86 葉明蘭 12.98 2,860 802 16.34 85.85 女洪蕙竹 0.48 127 49 13.66 3.19 蘇怡如 0.06 17 12 12.58 0.39 總計 15.12 3,461 990 - 100.00 2男3女平均 28.60% 15.73

實驗環境設定測試語料測試語料 (主播部分) 總時間 (小時) 句數 (句) 含有背景音樂句數(句) 平均長度 (秒/句) 佔比例 (%) 性別葉明蘭 0.74 163 42 16.28 100.00 女總計 - 1女平均 25.77% (2002.8.6~2002.9.26)

非監督式聲學模型調適基礎實驗結果計算候選詞事後機率時所用的語言模型階層 Zerogram Unigram Bigram Trigram 字錯誤率(%) 無 27.67 - Top1_MLLR 25.93 1 28.39 28.00 26.12 25.80 1/4 28.08 27.45 25.92 25.69 1/8 27.85 26.96 25.95 1/12 27.62 26.78 25.49 25.37 1/16 27.70 26.81 25.54 25.26 1/20 27.59 26.56 25.73 25.14 1/24 27.53 26.32 25.82 25.38 1/28 27.49 26.58 25.51 我們比較「計算候選詞事後機率時所用的語言模型階層」 Zerogram為不使用語言模型左邊第一欄為改變信心度比例係數的值使用詞圖資訊與不同信心度比例係數

非監督式聲學模型訓練實驗結果字錯誤率(%) (相對字錯誤率減少百分比(%)) [詞圖錯誤率(%)] 無聲學模型調適 Top1_MLLR WG_MLLR(1/16) 原來四小時訓練之聲學模型 27.67 25.93 25.26 3.80小時(Thr=0.9) 21.37 21.00 20.97 11.57小時(Thr=0.8) 20.09 [11.15] 20.00 (0.45) 19.56 (2.64) 13.30小時(Thr=0.7) 20.25 20.01 19.71 13.61小時(Thr=0.6) 20.18 19.94 19.59 13.67小時(Thr=0.5) 20.21 19.69 13.70小時(Thr=0.0) 20.32 20.07 19.76 15.12小時(監督式訓練) 16.26 16.29 16.47 16.02* (1.47) 非監督式聲學模型訓練在使用不同基準閥值下的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值，MLLR(CM)為引入信心度評估的MLLR調適，信心度比例係數在此設為1/16。同一列中，MLLR括弧內的數據為相對於無聲學模型調適時字錯誤率減少百分比。最後一列的「監督式訓練」為對照組。 *:比例係數為1/4 *比例係數為1/4

非監督式語言模型調適實驗結果聲學模型調適語料字數字錯誤率(%)(加入WG_MLLR(1/12)之字錯誤率) 無語言模型調適語言模型插補詞頻數混合 3.80小時(Thr=0.9) 66,540 21.37 21.85 21.08 11.57小時(Thr=0.8) 209,489 20.09 19.97(19.81) 19.74(19.54) 13.30小時(Thr=0.7) 242,630 20.25 20.06 20.27 13.61小時(Thr=0.6) 248,701 20.18 20.04 13.67小時(Thr=0.5) 249,880 20.21 20.05 20.23 13.70小時(Thr=0.0) 250,640 20.32 20.02 自動轉寫用於語言模型調適的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值，括弧內之數據為相對於無語言模型調適之字錯誤率減少百分比。信心度比例係數為1/12

領域內之語言模型調適實驗以公視新聞網站(http://www.pts.org.tw)收集的新聞報導字幕(closed captions)作為語言模型調適文字語料 PTS_LM_1 包含2001及2002整年的新聞報導字幕稱作Bias Language Model Adaptation PTS_LM_2 僅包含2001整年及2002年1~7月的新聞報導字幕

領域內之語言模型調適實驗結果非監督式訓練之聲學模型( Thr=0.8 ) 字錯誤率(%) 無聲學模型調適 Top1_MLLR WG_MLLR(1/12) 無語言模型調適 20.09 20.00 19.64 PTS_LM_1(語言模型插補) 12.35 12.13 12.09 PTS_LM_1(詞頻數混合) 11.94 11.87 12.04 PTS_LM_2(語言模型插補) 18.97 18.75 18.63 PTS_LM_2(詞頻數混合) 20.01 19.75 19.42 監督式訓練之聲學模型字錯誤率(%) 無聲學模型調適 Top1_MLLR WG_MLLR(1/4) 無語言模型調適 16.26 16.29 16.02 PTS_LM_1(語言模型插補) 7.46 7.32 7.33 PTS_LM_1(詞頻數混合) 7.47 7.39 7.41 PTS_LM_2(語言模型插補) 15.08 14.93 14.92 PTS_LM_2(詞頻數混合) 15.94 15.72 15.60 領域內語言模型調適的語音辨識結果。MLLR(CM)為引入信心度評估的MLLR調適，信心度比例係數在此設為1/16。正改為1/12

背景音樂的影響聲學模型字錯誤率(%) 無聲學模型調適 Top1_MLLR WG_MLLR 不含背景音樂(初始模型) 24.50 22.68 22.00 含有背景音樂(初始模型) 65.18 62.19 61.70 不含背景音樂(非監督式Thr=0.8) 16.43 16.38 16.18 含有背景音樂(非監督式Thr=0.8) 61.01 60.41 57.35 不含背景音樂(監督式) 13.78 13.82 13.61 含有背景音樂(監督式) 44.03 43.93 42.94

實驗摘要 Baseline 初始聲學模型27.67%字錯誤圍 +非監督式聲學模型訓練(Thr=0.8) +非監督式語言模型調適(詞頻數混合) 20.09%字錯誤率(27.39%) +非監督式語言模型調適(詞頻數混合) 19.74%字錯誤率(1.26%) +非監督式聲學模型調適(WG_MLLR_1/12) 19.54%字錯誤率(0.72%) Total 29.38%錯誤率減少百分比

Automatically Transcribed PDA-based新聞檢索系統 Client Server Multi-scale Indexing Word-level Indexing Features PDA Client Mandarin LVCSR Server Inverted Files Multi-scale Indexer Syllable-level Indexing Features Information Retrieval Server Audio Streaming Server Automatically Transcribed Broadcast News Corpus

結論與未來展望結論未來展望使用發音確認技術詞圖上的聲學模型調適非監督式語言模型調適鑑別性(e.g.MMI,MPE)非監督式聲學模型訓練使用詞圖資訊於語言模型調適發音確認能有效地挑選較為可靠的語料來進行訓練，節省大量的人力進行人工轉寫，使龐大的語料能被運用。詞圖上的資訊能應用在非監督式聲學模型調適上，不再只侷限於Top1辨識的路徑，使模型調適更具強健性。自動轉寫用於語言模型調適能解決新聞辨識主題和語言內容多變的問題由於資料稀疏，使得字錯誤率的進步並不大。但由於詞圖上含有大量的資訊，我們甚至可根據詞圖上的信心度評估為每一個候選詞的詞頻作加權，俾使詞圖上的候選詞均能對語言模型調適有所貢獻。

敬請指教