Download presentation
Presentation is loading. Please wait.
1
USACO _-|| 陆嘉辉 7.17
2
光学字符识别 陆嘉辉 7.17
3
Optical Character Recognition
将手写扫描图像或打印/印刷文本图像, 通过机械或电子学上的方法,转换成机 器编码的或是计算机可读的文本的技术 属于模式识别、人工智能和计算机视觉 的一个领域 缩写为OCR Optical Character Recognition
4
发展历史 Gustav Tauschek, 1929 Emanuel Goldberg, 1931 Ray Kurzweil, 1974,
Kurzweil Computer Products, Inc WebOCR, 2000s 发展历史
5
OCR (光学字符识别) OWR (光学单词识别) ICR (智能字符识别) IWR (智能单词识别) OCR的分类
6
纠偏 去噪点 二值化 去噪音线 版面分析 单词检测 字符分割 比例模式化 OCR预处理
7
灰度化 R(x,y),G(x,y),B(x,y) G = I = ( R + G + B )/ 3 (HSI)
G = Y = 0.299R G B (YIQ) G = min { R , G , B } 灰度化
8
一般24位RGB图像的灰度图是8位256个 灰度级的,如果把这个灰度级减少到1 位2个灰度级,就得到一副二值图,二 值图像中的数据全部是0或1。
二值化
9
等距分割 积分投影分割 提取连通分量 主要难题:字符粘连 字符分割
10
模式识别 特征提取 自适应字符识别(二次识别) 字典改进 “近邻”分析 语法 字符识别
11
早期估计为81%-99% 一个字符微小的不准确率会大幅降低 单词的正确识别率 准确率
12
校对与纠错 版面还原 后处理
13
定制的OCR 牌照,身份证 盲人 读地图 验证码识别 OCR应用
14
现有软件 汉王 紫光 OmniPage Tesseract ExperVision TypeReader & RTK
ABBYY FineReader AnyDoc Software LEADTOOLS CuneiForm Asprise OCR SDK SimpleOCR Dyanmsoft OCR SDK Microsoft Office OneNote 2007 MeOCR Screenworm en.wikipedia.org/wiki/Comparison_of_optical_character_ recognition_software 现有软件
15
强制优化输入 外包 reCAPTCHA 改进算法之外……
16
http://www.cnblogs.com/chaosimple/archive/2013/0 7/18/3197720.html
opencv/ 冯建强,刘文波,于盛林. 《基于灰度积分投影的人眼定 位》 计算机仿真22.4 (2005): 荆涛,王仲. 《光学字符识别技术与展望》 计算机工 程 29.2 (2003): 1-2. Eikvil, Line. "Optical Character Recognition." citeseer. ist. psu. edu/ html (1993). 因华.《特殊印刷体粘连字符切分方法研究》2005 Wikipedia Reference
Similar presentations