非監督式學習於中文電視新聞 自動轉寫之初步應用

Slides:



Advertisements
Similar presentations
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
Advertisements

Rosetta Stone Version 3 學生端使用說明
MATLAB 程式設計 時間量測 清大資工系 多媒體資訊檢索實驗室.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
亞洲大學的數位學習資源與應用 鍾仁宗老師 101年12月4日.
JDK 安裝教學 (for Win7) Soochow University
青蛙物種聲紋辨識系統 參賽學生:李建德、陳家正 指導教授:陳文平 教授 農委會林業試驗所六龜研究中心 高雄應用科技大學電機工程系
使用VHDL設計—4位元位移器 通訊一甲 B 楊穎穆.
R教學 安裝RStudio 羅琪老師.
ASP.NET基本設計與操作 建國科技大學 資管系 饒瑞佶 2007年.
安裝JDK 安裝Eclipse Eclipse 中文化
Text To Speech (TTS, 文字轉語音) 靜宜大學資管系 楊子青
TCP/IP介紹 講師:陳育良 2018/12/28.
OpenID與WordPress使用說明
Android App簡介及 App Inventor 2體驗 靜宜大學資管系 楊子青
第二章 SPSS的使用 2.1 啟動SPSS系統 2.2 結束SPSS系統 2.3 資料分析之相關檔案 2.4 如何使用SPSS軟體.
視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生:顏羽君
TTS (文字轉語音) Roger Jang (張智星)
CH03 資訊管理的智慧觀點:技術篇.
Chap3 Linked List 鏈結串列.
指導老師: 蘇明俊 老師 組長:潘翠娥 組員:張惠雅 葉麗華
第一章 直角坐標系 1-1 數系的發展.
大數據與我 4A 陳駿榜.
網路程式設計期末project B 張芸菱.
古今地圖比對 國立彰化高中102年高瞻計畫空間資訊專題課程.
第一章 直角坐標系 1-3 函數圖形.
混音實作 高雄市新民國小 林佳宏
虛擬傢俱館 指導老師: 高玉芬 老師 組員: B 黃琪芳 B 蔡宜眞 B 林政緯
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
CH05. 選擇敘述.
期末考.
田口方法應用於語音辨識 報告者:李建德.
挑戰C++程式語言 ──第8章 進一步談字元與字串
最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究
共源極頻率響應 科系:通訊工程學系 執導老師:王志湖 學號:B 姓名:何信賢.
智 慧 型 環 境 系 統 實 驗 室 生態工程 環境評估 決策分析 人工智慧 資訊系統 永續發展
對數能量特徵正規化於語音辨識之進一步研究
Text To Speech (TTS, 文字轉語音) 靜宜大學資管系 楊子青
指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08
電子期刊使用統計 CONCERT 2002 meeting November 13-14, 2002 羅宙康 Springer-Verlag
DRC with Calibre 課程名稱:VLSI 報告人:黃家洋 日期: 改版(蔡秉均) 1.
(Mobile User music–Sharing Innovation Center)
取得與安裝TIDE 從TIBBO網站取得TIDE
Text To Speech (TTS, 文字轉 語音)、讀簡訊 靜宜大學資管系 楊子青
MiRanda Java Interface v1.0的使用方法
PowerPoint 操作介紹 106 計算機概論
國立台灣師範大學資訊工程研究所 語音實驗室研究簡介
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
師大 KSP 操作手冊.
使用VHDL設計-8x3編碼電路 通訊一甲 B 楊穎穆.
國立台灣大學 關懷弱勢族群電腦課程 By 資訊工程 黃振修
第十二章 離散小波轉換之相關浮水印技術.
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
花王集團.
介紹Saas 以Office 365為例 組員: 資工四乙何孟修 資工四乙 黃泓勝.
程式語言與邏輯:主題示範 報告人:國立台灣師大附中 李啟龍 老師 學年度資訊科技概論研習.
第一章 直角坐標系 1-3 函數及其圖形.
安裝JDK 配置windows win7 環境變數
非負矩陣分解法介紹 報告者:李建德.
Activity的生命週期: 播放音樂與影片 靜宜大學資管系 楊子青
教育類相關資料庫.
一 可靠度問題.
第四組 停車場搜尋系統 第四組 溫允中 陳欣暉 蕭積遠 李雅俐.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
青 蛙 物 種 辨識系統 聲紋 行政院農業委員會林業試驗所-六龜研究中心 國立高雄應用科技大學 指導教授:陳文平 教授
NFC (近場通訊, Near Field Communication) 靜宜大學資管系 楊子青
Chapter 4 Multi-Threads (多執行緒).
Chapter 16 動態規劃.
醫療影像圖檔處理與投影顯示 Project L 指導教授: 東吳大學資訊科學系副教授 鄭為民老師 組員 Java 3D組 - 郭慈芬、李亭瑩
社會領域教學 相關網路資源介紹.
Presentation transcript:

非監督式學習於中文電視新聞 自動轉寫之初步應用 郭人瑋 蔡文鴻 陳柏琳 國立台灣師範大學資訊工程研究所 各位 老師、同學 大家好 我是師大資工所 郭人瑋 要為大家介紹的主題是「非監督式學習於中文電視新聞自動寫之初步應用」

序論 動機 解決方法:非監督式學習 日常生活中能取得的多媒體影音資訊愈來愈多,但若要在新領域上建立新的語音辨識系統,人工轉寫往往曠日費時 利用現有的語音辨識系統自動轉寫多媒體影音資訊,並使用發音確認技術加以篩選 非監督式學習 非監督式聲學模型訓練 非監督式聲學模型調適 非監督式語言模型調適 非監督式學習之流程與技術 日常生活中能取得的多媒體影音資訊愈來愈多,但若要在新領域上建立新的語音辨識系統,人工轉寫往往曠日費時,於是我們提出非監督式學習的方法來解決此問題。 我們以現有的語音辨識系統為多媒體影音資訊作辨識並產生自動轉寫,再利用發音確認技術篩選可靠的片段,供訓練使用。 我們先來介紹本研究所使用的語音辨識系統,點選。 非監督式學習可分為三個部份: 第一、非監督式聲學模型訓練 使用發音確認技術為自動轉寫挑選較正確的語料片段、以供聲學模型訓練。 第二、非監督式聲學模型調適 傳統的非監督式聲學模型調適只使用辨識結果的第一名詞序列來作為正確的轉寫, 但辨識中的錯誤往往降低了聲學模型調適的成效, 於是我們使用了詞圖中的資訊使聲學模型調適更具強健性。 第三、非監督式語言模型調適 我們使用自動轉寫及領域內的文字語料來作語言模型調適。 我們來看看非監督式學習的流程及使用的技術 點選

師大資工所新聞語音辨識系統 大詞彙連續語音辨識 詞彙樹搜尋 詞圖搜尋 結合聲學模型與語言模型 (Bigram or Trigram)進行 詞彙樹動態規劃搜尋,使用語言模型前看、聲學前看及光束剪栽等技術,產生最佳詞句與詞圖 使用約72,000個1~10字詞 詞圖搜尋 使用更高階語言模型(Trigram or Fourgram),在詞圖上重新進行一次動態規劃搜尋,找出最佳的詞句 供作非監督式學習 本研究所使用的語音辨識器為大詞彙連續語音辨識器 所使用的詞典為72000個1-10字詞,其中有7000個單字詞 大致上可分成兩個階段 第一階段為詞彙樹搜尋 使用較低階的語言模型進行詞彙樹動態規劃搜尋,並使用語言模型前看、聲學前看及光束剪栽等技術,產生最佳詞句與詞圖 第二階段為詞圖搜尋 使用更高階的語言模型,為詞圖再進行一次動態規劃搜尋,找出最佳的詞句 第一階段產生的詞圖,也將供非監督式學習之用

詞圖 圖一、詞彙樹搜尋所產生的詞圖 不斷 太多 兩人 豪雨 台東 不斷 SIL 無端 台東 兩人 濕疹 台中 失蹤 妙語 不斷 兩任 無端 陶藝 良心 失寵 太重 無端 兩任 這是一個詞圖的範例,每個詞段代表一個詞,包含起始及結束時間,對應的語句為「豪雨不斷,台東兩人失踨」 點選 圖一、詞彙樹搜尋所產生的詞圖

非監督式學習之流程 語音輸入 自動轉寫 新聞語料 文字語料 前端處理 非監督式 詞典 聲學模型訓練 詞彙樹 詞圖 語言模型 搜尋 聲學 人工轉寫 新聞語料 詞圖搜尋 非監督式 語言模型調適 非監督式 聲學模型調適

非監督式學習技術 詞事後機率 詞聲學信心 詞信心度評估 發音確認技術 非監督式 聲學模型調適 非監督式 聲學模型訓練 非監督式 語言模型調適

詞事後機率 信心度比例係數 介於0與1之間,表示對聯合機率施以壓縮, 使候選詞間的事後機率差異變小 某一詞段的事後機率,為所有通過此詞段的完整路徑的事後機率加總 但根據觀察,第一名詞序列的事後機率往往很大,為了要縮短詞序列間事後機率的差距, 我們引入信心度比例係數。 點選 其中a為信心度比例係數,介於0與1之間,表示對聯合機率施以壓縮,使詞序列間的事後機率差異縮小。 當a等於1時,則表示不予以壓縮; a等於0時,則詞序列的事後機率為均勻機率(Uniform Probability)。 點選 信心度比例係數 介於0與1之間,表示對聯合機率施以壓縮, 使候選詞間的事後機率差異變小

詞聲學信心 台東(ta a_i du ueng) ta a_i du ueng sic_a sic_o sil 在某一詞段內,我們可切出其子詞(subword,initial,final)的時間邊界, 對某一子詞,我們計算(其聲學分數)與(其他子詞聲學分數中最高者)的比值 經過sigmoid function之後,取其平均來當作詞聲學信心 點選

詞信心度評估 為「詞事後機率」與「詞聲學信心」之權重和 而詞信心度評估為「詞事後機率」與「詞聲學信心」的權重和, 「詞聲學信心」 包含局部(local)的資訊 而「詞事後機率」則包含整句(global)的資訊 其中C1與C2為權重參數,在以下進行的實驗中,c1及c2均設為0.5。 點選

發音確認 根據詞信心度評估決定某語句是否成為非監督式訓練的語料 發音確認可視為一個決斷函數V,根據平均候選詞信心度評估,來決定辨識產生的第一名詞序列W是否能成為訓練語料。其中Thr為篩選的基準閥值。 點選

非監督式聲學模型調適 本研究中初步以MLLR作為聲學模型調適方法 傳統非監督式聲學模型調適(Top1_MLLR) 以第一名詞序列作為聲學模型調適之依據 本研究使用的聲學模型調適(WG_MLLR) 詞圖上之詞段均可用來作為聲學模型調適之依據,不同詞段有不同權重之貢獻 能有效提昇系統的聲學模型調適成效 傳統的非監督式聲學模型調適只使用辨識結果的第一名詞序列來作為正確的轉寫, 但辨識中的錯誤往往降低了聲學模型調適的成效, 於是我們使用了詞圖中的資訊使聲學模型調適更具強健性。 我們嘗試使用詞信心度評估為詞圖上的詞段進行加權,使得每一個詞段依其信心度評估分數對模型調適都有不同程度的貢獻。

非監督式聲學模型調適 作法 進行詞彙樹複製搜尋,產生詞圖 計算詞圖上每一詞段之信心度評估 對於每一詞段執行HMM層次的Forward-Backward演算法計算其佔有機率,並以此詞段之信心度評估作加權 收集所有詞段統計資訊,進行MLLR聲學模型調適 進行詞彙樹搜尋產生詞圖 為每一詞段計算信心度評估 對每一詞段進行HMM層次的Forward-Backward演算法,並計算高斯層次的佔有機率,並以此詞段的信心度評估來作加權 收集所有統計資訊,進行聲學模型調適

實驗環境設定與語料 聲學參數 初始聲學模型 初始語言模型 公視新聞語料(MATBN) 39維梅爾倒頻譜特徵(MFCC) 1998至1999年間,4小時廣播新聞語料 151個INITIAL-FINAL聲學模型 初始語言模型 2000及2001年中央社新聞(LDC Gigaword Corpus) 約有162M中文字 公視新聞語料(MATBN) 中研院資訊所口語小組與公視合作完成 大致分成內場主播、外場記者及外場受訪者三部份 所有的語料都經由人工切割為一則一則的新聞語音檔,每一則新聞均由一個主播所播報,性別上男女都有。某些檔案因錄音的關係,含有相當大的背景雜訊。這些廣播新聞語料有對應的正確人工轉寫。 電視新聞語料則全為公視新聞語料(MATBN),為中央研究院資訊所口語小組耗時三年與公共電視台合作錄製完成,預計將收錄200小時的廣播新聞,所有的新聞語料都有正確的人工轉寫以及其它的標註資訊(如:停頓、語助詞、呼吸、強調語氣、反覆、不適當的發音),所有的人工轉寫與標註均使用DGA&LDC的轉寫器(Transcriber)來完成。每天的新聞約含有二十多則報導,每則報導為一完整主題。除了語音資料,文字語料在其它應用上也有很大的價值(如資訊檢索、主題偵測與文章分段)。公視新聞語料大致上可分內場及外場兩個部份,內場部分主要為主播(Studio Anchors)的語料,外場部分主要為記者(Field Reporters)與受訪者(Interviewees)的語料。經由統計,2002與2003年釋出的120小時的語料內,共含五位主播,其中以「葉明蘭」主播的語料佔絕大多數,使得要在內場中定義出一套較具代表性的訓練及測試語料,顯得有些困難,希望未來能經由國內各相關研究機構及人士的集思廣益與討論,為這套資訊豐富的新聞語料,定義出有實驗價值的訓練及測試語料,作為技術開發的比較平台。我們由MATBN2002與MATBN2003兩套語料中選擇了內場約16小時的語料作為本實驗的語料(NTNU_SA-2)[21],包含了約15小時的內場主播語料供訓練與約44分鐘(0.74小時)的測試語料,統計資料如表一及表二所示。訓練語料中,佔有85%語料的主播葉明蘭,也是測試語料內唯一的語者,使得本實驗之聲學模型有著語者相依(Speaker-dependent)的缺失,但本論文強調於完全非監督模式下進行學習,包含聲學模型訓練、聲學模型調適及語言模型調適,相較於初始系統,辨識率上仍有明顯的進步。

實驗環境設定 非監督式聲學模型訓練語料 訓練語料 (主播部分) 總時間 (小時) 句數 (句) 含有背景音樂句數(句) 平均長度 (秒/句) 佔比例 (%) 性別 林建成 1.47 422 118 12.53 9.71 男 馬紹 0.13 35 9 13.30 0.86 葉明蘭 12.98 2,860 802 16.34 85.85 女 洪蕙竹 0.48 127 49 13.66 3.19 蘇怡如 0.06 17 12 12.58 0.39 總計 15.12 3,461 990 - 100.00 2男3女 平均 28.60% 15.73

實驗環境設定 測試語料 測試語料 (主播部分) 總時間 (小時) 句數 (句) 含有背景音樂句數(句) 平均長度 (秒/句) 佔比例 (%) 性別 葉明蘭 0.74 163 42 16.28 100.00 女 總計 - 1女 平均 25.77% (2002.8.6~2002.9.26)

非監督式聲學模型調適基礎實驗結果 計算候選詞事後機率時所用的語言模型階層 Zerogram Unigram Bigram Trigram 字錯誤率(%) 無 27.67 - Top1_MLLR 25.93 1 28.39 28.00 26.12 25.80 1/4 28.08 27.45 25.92 25.69 1/8 27.85 26.96 25.95 1/12 27.62 26.78 25.49 25.37 1/16 27.70 26.81 25.54 25.26 1/20 27.59 26.56 25.73 25.14 1/24 27.53 26.32 25.82 25.38 1/28 27.49 26.58 25.51 我們比較「計算候選詞事後機率時所用的語言模型階層」 Zerogram為不使用語言模型 左邊第一欄為改變信心度比例係數的值 使用詞圖資訊與不同信心度比例係數

非監督式聲學模型訓練實驗結果 字錯誤率(%) (相對字錯誤率減少百分比(%)) [詞圖錯誤率(%)] 無聲學模型調適 Top1_MLLR WG_MLLR(1/16) 原來四小時訓練之聲學模型 27.67 25.93 25.26 3.80小時(Thr=0.9) 21.37 21.00 20.97 11.57小時(Thr=0.8) 20.09 [11.15] 20.00 (0.45) 19.56 (2.64) 13.30小時(Thr=0.7) 20.25 20.01 19.71 13.61小時(Thr=0.6) 20.18 19.94 19.59 13.67小時(Thr=0.5) 20.21 19.69 13.70小時(Thr=0.0) 20.32 20.07 19.76 15.12小時(監督式訓練) 16.26 16.29 16.47 16.02* (1.47) 非監督式聲學模型訓練在使用不同基準閥值下的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值,MLLR(CM)為引入信心度評估的MLLR調適,信心度比例係數在此設為1/16。同一列中,MLLR括弧內的數據為相對於無聲學模型調適時字錯誤率減少百分比。最後一列的「監督式訓練」為對照組。 *:比例係數為1/4 *比例係數為1/4

非監督式語言模型調適實驗結果 聲學模型 調適語料字數 字錯誤率(%)(加入WG_MLLR(1/12)之字錯誤率) 無語言模型調適 語言模型插補 詞頻數混合 3.80小時(Thr=0.9) 66,540 21.37 21.85 21.08 11.57小時(Thr=0.8) 209,489 20.09 19.97(19.81) 19.74(19.54) 13.30小時(Thr=0.7) 242,630 20.25 20.06 20.27 13.61小時(Thr=0.6) 248,701 20.18 20.04 13.67小時(Thr=0.5) 249,880 20.21 20.05 20.23 13.70小時(Thr=0.0) 250,640 20.32 20.02 自動轉寫用於語言模型調適的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值,括弧內之數據為相對於無語言模型調適之字錯誤率減少百分比。 信心度比例係數為1/12

領域內之語言模型調適實驗 以公視新聞網站(http://www.pts.org.tw)收集的新聞報導字幕(closed captions)作為語言模型調適文字語料 PTS_LM_1 包含2001及2002整年的新聞報導字幕 稱作Bias Language Model Adaptation PTS_LM_2 僅包含2001整年及2002年1~7月的新聞報導字幕

領域內之語言模型調適實驗結果 非監督式訓練之聲學模型( Thr=0.8 ) 字錯誤率(%) 無聲學模型調適 Top1_MLLR WG_MLLR(1/12) 無語言模型調適 20.09 20.00 19.64 PTS_LM_1(語言模型插補) 12.35 12.13 12.09 PTS_LM_1(詞頻數混合) 11.94 11.87 12.04 PTS_LM_2(語言模型插補) 18.97 18.75 18.63 PTS_LM_2(詞頻數混合) 20.01 19.75 19.42 監督式訓練之聲學模型 字錯誤率(%) 無聲學模型調適 Top1_MLLR WG_MLLR(1/4) 無語言模型調適 16.26 16.29 16.02 PTS_LM_1(語言模型插補) 7.46 7.32 7.33 PTS_LM_1(詞頻數混合) 7.47 7.39 7.41 PTS_LM_2(語言模型插補) 15.08 14.93 14.92 PTS_LM_2(詞頻數混合) 15.94 15.72 15.60 領域內語言模型調適的語音辨識結果。MLLR(CM)為引入信心度評估的MLLR調適,信心度比例係數在此設為1/16。 正改為1/12

背景音樂的影響 聲學模型 字錯誤率(%) 無聲學模型調適 Top1_MLLR WG_MLLR 不含背景音樂(初始模型) 24.50 22.68 22.00 含有背景音樂(初始模型) 65.18 62.19 61.70 不含背景音樂(非監督式Thr=0.8) 16.43 16.38 16.18 含有背景音樂(非監督式Thr=0.8) 61.01 60.41 57.35 不含背景音樂(監督式) 13.78 13.82 13.61 含有背景音樂(監督式) 44.03 43.93 42.94

實驗摘要 Baseline 初始聲學模型27.67%字錯誤圍 +非監督式聲學模型訓練(Thr=0.8) +非監督式語言模型調適(詞頻數混合) 20.09%字錯誤率(27.39%) +非監督式語言模型調適(詞頻數混合) 19.74%字錯誤率(1.26%) +非監督式聲學模型調適(WG_MLLR_1/12) 19.54%字錯誤率(0.72%) Total 29.38%錯誤率減少百分比

Automatically Transcribed PDA-based新聞檢索系統 Client Server Multi-scale Indexing Word-level Indexing Features PDA Client Mandarin LVCSR Server Inverted Files Multi-scale Indexer Syllable-level Indexing Features Information Retrieval Server Audio Streaming Server Automatically Transcribed Broadcast News Corpus

結論與未來展望 結論 未來展望 使用發音確認技術 詞圖上的聲學模型調適 非監督式語言模型調適 鑑別性(e.g.MMI,MPE)非監督式聲學模型訓練 使用詞圖資訊於語言模型調適 發音確認能有效地挑選較為可靠的語料來進行訓練,節省大量的人力進行人工轉寫,使龐大的語料能被運用。 詞圖上的資訊能應用在非監督式聲學模型調適上,不再只侷限於Top1辨識的路徑,使模型調適更具強健性。 自動轉寫用於語言模型調適能解決新聞辨識主題和語言內容多變的問題 由於資料稀疏,使得字錯誤率的進步並不大。但由於詞圖上含有大量的資訊,我們甚至可根據詞圖上的信心度評估為每一個候選詞的詞頻作加權,俾使詞圖上的候選詞均能對語言模型調適有所貢獻。

敬請指教