2 数字出版技术国家重点实验室(北大方正集团有限公司) 基于笔端形状相似性的汉字字体识别 王晓1,2,吕肖庆1,2,汤帜1,2 1 北京大学计算机科学技术研究所 2 数字出版技术国家重点实验室(北大方正集团有限公司) E-mail:Lvxiaoqing@pku.edu.cn
提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结
背景及研究现状 字体识别 文档电子化 新需求 光学字符识别(OCR) 版面分析、理解、恢复 厂商希望保护版权 设计师和用户“按形找字” 大规模集合上的字体识别
背景及研究现状 相关概念 输入 输出 文本块图像 单字图像 字体属性 字体名称:如方正剪纸、方正水黑 样式:正规、粗体、倾斜、粗斜等 早期的研究主要关注图像检索地准确性
背景及研究现状 字体识别方法的分类 基于文本块 基于单字符 文本相关 / 文本无关 基于文本块 / 基于单字 Gabor变换 笔画分布 小波变换 笔画模板 特征点 在基于文本块的字体识别方面,Yong等[3]采用Gabor滤波器提取字体特征,然后对其进行全局纹理分析,取得了较高的识别率。其后学者们[4-9]对此类方法做出改进,取得了新的进展。杨志华等[14,15]提出了一种基于经验模式分解(Empirical Mode Decomposition,EMD)的中文字体识别方法,该方法同样针对文本块进行识别。这种方法选择5个基本笔画特征来描述中文字体。对每一个给定的文本块计算笔画特征序列并且使用EMD进行分析,产生一个低维特征向量。最后,采用最小距离分类器识别字体。 基于单字符进行字体识别的代表方法是陈力等[10, 11] 提出的基于小波变换的方法。这种方法首先通过小波变换从字符图像中提取大量的小波特征,然后使用线性鉴别分析技术(Linear Discriminant Analysis,LDA) 选择与字体信息相关的特征,最后使用一种改进的二次鉴别函数(Modified Quadratic Discriminant Function,MQDF)分类器进行字体识别。其他使用小波方法进行字体识别的研究工作包括[12, 13]。Sun[16]利用汉字的笔画结构进行字体识别。这种方法自动提取单个字符的笔画部分,称为笔画模板(Stroke template)。相同字体的笔画模板被存储在字体数据库中。对于新输入的字符,将其笔画模板与字体数据库中的笔画模板一一比对,最后使用贝叶斯分类器决定最有可能的字体分类。王恺等[17]使用一种基于特征点的个体分析法来解决汉字字体识别问题。
背景及研究现状 字体与笔端相似性 性能,第二,是否提高了检索的速度,能够支持大规模数据量的图像检索。影响第二个性能的关键因素是索引的结构设计。 结合特征介绍已有的一些索引结构
背景及研究现状 字体识别流程 多个汉字图像 字体特征笔端集合 待识别的单字图像 笔端提取 笔端描述 计算聚类中心 笔端与特征笔端间的相似度 字体识别结果
提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结
笔端提取 笔端 笔画的起始与收尾 占笔画一定比例 点笔画和某些转折 如何精确计算 笔画起始与收尾 截断位置 截断方式
笔端提取 笔画模板 (前人工作) 希望笔端 与形状相关的阈值
笔端提取 笔端与骨架的关系 笔端起始点 骨架端点 笔端截断点 骨架分叉点 借助骨架实现截取笔端的计算
笔端提取 借助骨架会有什么问题?
笔端提取 分叉与毛刺问题
笔端提取 笔画长宽比问题
笔端提取 动态计算长宽比(Stroke Aspect Ratio,SAR) (a) (b)
笔端提取 取SAR=1时的截取效果
提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结
笔端形状描述 笔端描述子的构造 基于基于多尺度曲率直方图的傅里叶描述子 … … MFDCH取曲率直方图的低频部分
笔端形状描述
提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结
采用欧式距离计算特征相似度 采用支持向量机(SVM)进行训练与识别 字体相似性度量 采用欧式距离计算特征相似度 采用支持向量机(SVM)进行训练与识别 特征笔端的提取
提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结
实验与分析 常用字体数据集 参数设置 宋体、仿宋、黑体、楷体、隶书 正规、粗体、倾斜、粗斜 字号:18 扫描分辨率:1200dpi sar: 1 SDST 5个尺度,每个尺度100维
实验与分析 常用字体集合测试结果 五种方式划分测试集 识别方法 测试文本块数 文本块含字符数 平均识别率(%) 测试一 基于笔端 200 1 识别方法 测试文本块数 文本块含字符数 平均识别率(%) 测试一 基于笔端 200 1 74.96 测试二 100 2 87.23 测试三 50 4 95.05 测试四 40 5 95.75 测试五 20 10 98.88 对比方法 基于笔画模版 20-30 98.75
实验与分析 扩展字体数据集 参数设置 23种字体 字号:初号 保存清晰度:600dpi sar: 1 SDST 5个尺度,每个尺度100维 特征笔端数量:50
实验与分析 整体 识别率 88.49% 字体 识别率 宋体 99.67 仿宋 98.67 黑体 95.33 楷体 98.00 幼圆 隶书 73.67 华文新魏 64.00 方正胖娃 81.00 方正剪纸 71.33 方正少儿 97.33 方正水黑 80.33 方正北魏楷书 方正超粗黑简 83.33 方正古隶 79.00 方正琥珀 87.33 方正华隶 90.00 方正铁筋隶书 95.67 方正雅艺 方正姚体 92.67 方正毡笔黑 89.33 方正大标宋 88.00 方正粗倩 88.33 方正美黑 87.00 整体 识别率 88.49%
总结与展望 字体特征 较大规模字体集合 未来研究方向 较少的特征笔端表示字体 与人们视觉感知接近的笔端结构 有较好的识别效果 小字号的轮廓获取 加入笔画宽度的分布
谢谢! Email:Lvxiaoqing@pku.edu.cn