人機介面 Character Recognition 文字辨識 開課單位 授課教師
文字辨識處理項目 種類 印刷體 手寫體 方法 線上立即辨識 非即時辨識
印刷體 透過電腦等數位產品產生的字型 優點 同種字型有一定的規律 較工整、美觀 缺點 種類過多 需有特定工具,便利性不足
手寫體 經由手使用滑鼠、繪圖筆、文具等方式產生的文字 優點 可自行變化 有筆就可產生 缺點 文字位置及大小較不固定 寫法不同造成辨識困難
線上立即辨識 通常用於手機或平板電腦上 為邊寫邊辨識 優點 缺點 輸入直覺,符合平日習慣 每筆畫皆會判斷一次 可利用的資訊較多,辨識容易 需在特定區域輸入 一次僅能輸入一個字
非即時辨識 通常用於手機或電腦等具有相機功能的裝置上,非邊寫邊辨識 優點 缺點 隨拍即用 一次辨識很多字 可擴充多種應用 準確率較低 必須有裝置搭配
文字辨識系統分類 光學文字辨識系統(Optical Character Recognition) 處理掃描後文件資料的圖檔,對圖檔上的印刷體、手寫體等進行辨識並分析文件內容的系統 智慧型字元辨識系統(Intelligent Character Recognition) 針對手寫辨識,處理不同字型及書寫風格,此外在辨識時系統也會繼續學習已增加自己的準確率
應用實例概觀 由於線上立即辨識是記錄一筆一畫以及書寫的文字結構資訊,因此手寫體通常搭配線上立即辨識作為一套系統 手寫體也會搭配非即時辨識,但由於字體較無完整結構比例,因此辨識難度會增加 印刷體則搭配非即時辨識作為一套系統
應用實例:n詞酷 屬於手寫體結合線上立即辨識類 結合翻譯功能
應用實例:iacces 屬於手寫體結合線上立即辨識類 應用於iPhone,iPod touch,iPad
應用實例:World dictionary 屬於印刷體結合非即時辨識類 結合翻譯功能並立即顯示在畫面上 可翻譯多種語言
應用實例:Pleco 屬於印刷體結合非即時辨識類 結合翻譯功能及字典功能
應用實例:Orderfood 屬於印刷體結合非即時辨識類 應用於食物招牌辨識
應用實例:蒙恬名片王 屬於印刷體結合非即時辨識類 有直接掃描名片及利用拍照分析等應用
光學文字辨識技術流程 Preprocessing Segmentation Image Input System Use Recognition Feature Extraction
光學文字辨識技術解析 影像輸入(Image Input) 利用手機相機拍攝或電腦視訊攝影機拍攝照片 或使用數位相機拍照後輸入
光學文字辨識技術解析 前處理(Preprocessing) 進行文字區域的選擇 將來源影像非文字部分過濾,移除雜訊 常使用基本方法如:灰階後二質化、中值濾波等等
光學文字辨識技術解析 文字切割(Segmentation) 將經過前處理後的文字影像句子分解成單一字的圖像 圖像輸入 二值化後的圖像 單一字影像
光學文字辨識技術解析 特徵值存取(Feature Extraction) 對每一個單一字影像分別進行特徵值擷取 重要的計算資訊 文字的架構、外型或像素的方向等 30°
光學文字辨識技術解析 文字辨識(Recognition) 使用特徵值的結果作為分類依據 一般使用機器學習演算法 線性分類器(linear classifiers),類神經網路(neural networks),支援向量機(SVM)等等… 不同的演算法會有不同的辨識率,需多嘗試
開發工具: Tesseract OCR (一) 開放原始碼的光學文字辨識軟體 支援30種以上的文字/語言 能分析整頁文件資料,支援垂直書寫辨識 輸入資料須為未經壓縮的標籤圖像文件格式圖檔(TIFF),背景必須是白色的,但文字則可以是任意色彩
開發工具: Tesseract OCR (二) 分類原理:將字元的邊緣取多邊形逼近,並使用多邊形的水平軸位置、垂直軸位置、方向及長度四維向量作為其特徵值
開發工具: Tesseract OCR (三) 辨識原理:利用先前所獲得的特徵值與已經建立好的文字模型進行比對已取得文字內容
開發工具: Tesseract OCR(四) 成果範例 We‘ve already sorted through the specs, and laid our hands on its rather sexy frame, now Fujifilm'soffering up a more palatable price tag than we expected for its throwback X10 shooter. Startingsometime in early October, the X100's more affordable little brother will set nostalgic point-and-shooters back $599.99 — about $100 bones less than the estimated $715 to $860 ballpark we threw outback in September. If you'll recall, the X10 packs a 12 megapixel EXR CMOS sensor, f/2-2.8, 28-112mmmanual zoom lens, up to 12,800 ISO sensitivity, 1080p video, an optical viewfinder, and pop-up flash. Noword yet on a final release date. Full PR after the break.
References http://en.wikipedia.org/wiki/Optical_character_recognition http://code.google.com/p/tesseract-ocr/ HuayuNavi: A Mobile Chinese Learning Application Based on Intelligent Character Recognition, Jen-Ho Kuo, Cheng-Ming Huang, Wen-Hung Liao and Chun-Chieh Huang, Proceedings of the 6th International Conference on E-Learning and Games (Edutainment 2011), Sep. 2011.