2 数字出版技术国家重点实验室(北大方正集团有限公司)

Slides:



Advertisements
Similar presentations
第十八章 判别分析 Discriminant Analysis. Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant.
Advertisements

咨询热线: >> 沈阳地铁媒体介绍 沈阳地铁一号线走向、重点区域 从开发区到抚顺的地铁一号线是沈阳乃至东北启动建设的第一条地下铁道工程。这条东西交通地下 大动脉,位于城区东西方向的主轴线上,横跨市内五区(铁西、和平、沈河、大东、东陵),连接 沈阳经济开发区、铁西工业区和沈阳站、太原街商业区、中街商业区等客流集散地区,具有重要的.
伽博 Dennis Gabor — — 全息照相 发明者. 个人简介 Dennis Gabor1900 年 6 月 5 日出生于匈牙利的首都布达佩斯。英国籍的匈牙利物理学 家,英国皇家学会、英国电力工程研究所和物理学研究所的研究员,曾经获得大 英帝国的司令员勋章。 1918.
中央研究院歷史語言所藏民族學調查標本 、照片與檔案數位化流程簡介 中央研究院國家典藏數位化計畫分項四 主持人王明珂.
环境与健康 青岛台东六路小学 徐亮.
Starbucks 組員: 60522石佩仙 60523胡蜜芬 60525鄭湘陵 60527羅婉菱.
启明阅读棒+启明学堂APP 【启明计划】 ——让盲人也能平等地提升自我 创意人姓名:郭嘉莹、段羽虹 学校及院系:武汉大学 信息管理学院
中国知网数据库出版超市 资源内容及平台演示报告 2008年9月.
第十一章 商业银行资产负债管理策略.
莊子的逍遙無待之道.
中小学生学籍信息管理系统 数据采集.
南台科技大學 萬金生教授 九十八年六月十二日
SARS 5年5班 01胡家毓 09薛世詣.
振興醫療財團法人振興醫院 神經內科 中風中心 尹居浩
审计学原理课件 江苏省淮阴商业学校 财贸系会计教研室 沈 扬.
林红状 TEL: 特藏资源检索、服务及数字化建设 林红状 TEL:
停连 重音.
面向日中邦交正常化40周年、 进一步深化“战略互惠关系”的 6个倡议(情况说明书)
实践周散文鉴赏与分析 第一小组 组长:蔡玉娟 组员:蔡恒儿 陈佩琳 陈芸 李国茹 杨茹 叶美燕 张凤云
大学物理实验绪论(一) 中国科技大学 天文与应用物理系 轩植华.
全区档案业务培训班 2014年3月.
全息照相 李强强.
三级物理实验 全 息 术 全息光栅、 体积全息(白光全息) 三维全息、像面全息.
秦兵马俑 Qin Bing Ma Yong 主办:焦溪中心小学 主编:刘寒晔 2006年2月22日
多媒体创作系统分为 素材库 编辑 播放 多媒体开发工具类型 1、基于时间 2、基于图标 3、基于页或卡片 4、基于传统程序语言.
CADAL二期技术工作进展 CADAL项目管理中心 魏宝刚
2 遺傳.
新北市政府第二代公文自動化系統 建置推廣暨維運服務委外案 文書人員-二代公文共同課程
PPT模板下载: 电子文件归档及管理.
公文/檔案管理作業流程 簡 報 總務處 文書組 報告人:田至琴 9 7 年3 月7 日 1 1.
《漳州物业管理规定》解读 漳州市物业管理站 2013年4月.
01 WINTER Template 港九街坊婦女會孫方中小學 年度 午膳安排.
项目九 实现任务自动化   如果有大批量的图片需要做统一处理,比如将照片裁剪成统一大小的尺寸或者加水印之类,它们的处理模式是相同的,手动操作的话实在是费力又费时间,需要重操作很多次,这时可以使用photoshop的批处理功能来实现。当然前提是要进行统一的动作时才能应用批处理的哦。 动作是用于记录图像命令的工具,使用动作可以将用户对图像所做的操作步骤记录在动作面板中,当用户需要重复使用该步骤时,只需播放该动作即可。
全国中小学生学籍信息管理系统 数据采集培训 青海省教育厅信息中心 2013年4月16日.
2011中山市工业设计大赛 活动介绍 中山市工业设计大赛组委会.
屬於 的 9 4 暑 期 國 文 課 夏日派對!.
PowerPoint Template 工业企业成本费用调查 管委会经济发展处 郭烨炜
第五章 客户开发与文化适应 【学习目的与要求】 1.了解商务交际活动中客户开发环节 的两种重要方式——电话洽谈和信函;
升學應選擇符合自己性向、興趣或能力的學校就 讀,有五專、高職、高中、綜合高中或進修學校, 可要多花些時間了解一下哦!
WINTER 104學年度 特教業務承辦人研習 Template 特教法規及人事相關規定(含在家教育) 教育局特殊教育科 林慧雯科員
第十二章 证券投资技巧 知识要求 通过本章学习,进一步掌握选时的技巧,掌握常见的证券投资技巧方法,学会在证券投资实战中控制风险的方法。  
PowerPoint Template 工业财务状况表 (非成本费用调查单位填报)
XI. Hilbert Huang Transform (HHT)
第十三章、委外申請步驟.
信息的加工之字处理复习.
Chp7:非参数估计 CDF估计 点估计 区间估计 统计函数估计.
第四章 古籍文本的采集 扫描技术. 第四章 古籍文本的采集 扫描技术 扫描仪 扫描仪是电脑的一种输入设备,它根据光电转换原理将图片、照片、胶片以及文稿资料等书面材料或实物的外观扫描后输入到电脑。 扫描仪作为光电、机械一体化的高科技产品,自问世以来以其独特的数字化“图像”采集能力,低廉的价格以及优良的性能,得到了迅速的发展和广泛的普及。
陸、會計作業 線上管理系統說明 會計室系統管理師 施堯賓
第四章 数据库技术 课后作业. 第四章 数据库技术 课后作业 课后作业 课件 书上 1.常见的数据库系统及其开发工具 2.简述数据仓库技术(也可参考教材248) 1.阅读 第六章、第九章第1节 2.超文本(150) 3.常见流媒体文件格式(156) 4.列举图形文件格式(159-) 5.多媒体数据库的关键技术(239)
柯 維 盈 製 作 (中研院史語所拓片與古文書數位典藏計畫助理)
测光红移估测中的数据挖掘技术和大数据应用
臺中市/南投縣數位機會中心輔導團隊 顧客關係管理系統
吉星数码扫描仪 JET-DBG658产品培训.
第 4 课 亚洲封建国家的建立 第 二 单元.
記帳士考試會計輔導 指導教授: 游 美 老師.
总体特征数的估计.
遊戲互動設計 數位遊戲設計達人講座 授課講義.
国家职业资格全国统一鉴定管理系统 照片采集标准及操作规程 河南凯若管理培训中心 河南华盛职业培训学校 孙爱芳 制作.
臺北市光仁小學 106學年度下學期班親會 二年愛班 鄭雅文老師 歡迎您的蒞臨與指教.
設計者:高雄市國教輔導團健康與體育學習領域輔導員龍炳峰
基于最大margin的决策树归纳 李 宁.
依据美国的政体,指出美国减税法案须经国会通过的原因。(2分)
人事業務績效報告分享 報告人:南屯區大墩國小 徐湘雲.
网络营销管理及市场机会探讨 冯英健 2005年4月9日 首页.
HHT 2009/01/19 showmin.
数据挖掘导论 福建医科大学 郑伟成.
產品彩色圖片1~2張 圖片解析度300dpi 海報上請勿標示 指導老師或實驗室名稱
第15章 创建样板图 在新建工程图时,总要进行大量的设置工作,包括图层、线型、颜色设置、文字样式设置、标注样式设置等,如果每次新建图样时,都要如此设置确实很麻烦。为了提高绘图效率,使图样标准化,应该创建个人样板图,当要绘制图样时,只需调用样板图即可。 2019/8/31.
開學注意事項 主講人 林佳箴.
Presentation transcript:

2 数字出版技术国家重点实验室(北大方正集团有限公司) 基于笔端形状相似性的汉字字体识别 王晓1,2,吕肖庆1,2,汤帜1,2 1 北京大学计算机科学技术研究所 2 数字出版技术国家重点实验室(北大方正集团有限公司) E-mail:Lvxiaoqing@pku.edu.cn

提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结

背景及研究现状 字体识别 文档电子化 新需求 光学字符识别(OCR) 版面分析、理解、恢复 厂商希望保护版权 设计师和用户“按形找字” 大规模集合上的字体识别

背景及研究现状 相关概念 输入 输出 文本块图像 单字图像 字体属性 字体名称:如方正剪纸、方正水黑 样式:正规、粗体、倾斜、粗斜等 早期的研究主要关注图像检索地准确性

背景及研究现状 字体识别方法的分类 基于文本块 基于单字符 文本相关 / 文本无关 基于文本块 / 基于单字 Gabor变换 笔画分布 小波变换 笔画模板 特征点 在基于文本块的字体识别方面,Yong等[3]采用Gabor滤波器提取字体特征,然后对其进行全局纹理分析,取得了较高的识别率。其后学者们[4-9]对此类方法做出改进,取得了新的进展。杨志华等[14,15]提出了一种基于经验模式分解(Empirical Mode Decomposition,EMD)的中文字体识别方法,该方法同样针对文本块进行识别。这种方法选择5个基本笔画特征来描述中文字体。对每一个给定的文本块计算笔画特征序列并且使用EMD进行分析,产生一个低维特征向量。最后,采用最小距离分类器识别字体。 基于单字符进行字体识别的代表方法是陈力等[10, 11] 提出的基于小波变换的方法。这种方法首先通过小波变换从字符图像中提取大量的小波特征,然后使用线性鉴别分析技术(Linear Discriminant Analysis,LDA) 选择与字体信息相关的特征,最后使用一种改进的二次鉴别函数(Modified Quadratic Discriminant Function,MQDF)分类器进行字体识别。其他使用小波方法进行字体识别的研究工作包括[12, 13]。Sun[16]利用汉字的笔画结构进行字体识别。这种方法自动提取单个字符的笔画部分,称为笔画模板(Stroke template)。相同字体的笔画模板被存储在字体数据库中。对于新输入的字符,将其笔画模板与字体数据库中的笔画模板一一比对,最后使用贝叶斯分类器决定最有可能的字体分类。王恺等[17]使用一种基于特征点的个体分析法来解决汉字字体识别问题。

背景及研究现状 字体与笔端相似性 性能,第二,是否提高了检索的速度,能够支持大规模数据量的图像检索。影响第二个性能的关键因素是索引的结构设计。 结合特征介绍已有的一些索引结构

背景及研究现状 字体识别流程 多个汉字图像 字体特征笔端集合 待识别的单字图像 笔端提取 笔端描述 计算聚类中心 笔端与特征笔端间的相似度 字体识别结果

提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结

笔端提取 笔端 笔画的起始与收尾 占笔画一定比例 点笔画和某些转折 如何精确计算 笔画起始与收尾 截断位置 截断方式

笔端提取 笔画模板 (前人工作) 希望笔端     与形状相关的阈值  

笔端提取 笔端与骨架的关系 笔端起始点 骨架端点 笔端截断点 骨架分叉点 借助骨架实现截取笔端的计算

笔端提取 借助骨架会有什么问题?

笔端提取 分叉与毛刺问题

笔端提取 笔画长宽比问题

笔端提取 动态计算长宽比(Stroke Aspect Ratio,SAR)     (a) (b)      

笔端提取 取SAR=1时的截取效果

提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结

笔端形状描述 笔端描述子的构造 基于基于多尺度曲率直方图的傅里叶描述子         …   …   MFDCH取曲率直方图的低频部分  

笔端形状描述  

提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结

采用欧式距离计算特征相似度 采用支持向量机(SVM)进行训练与识别 字体相似性度量 采用欧式距离计算特征相似度 采用支持向量机(SVM)进行训练与识别   特征笔端的提取

提纲 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结

实验与分析 常用字体数据集 参数设置 宋体、仿宋、黑体、楷体、隶书 正规、粗体、倾斜、粗斜 字号:18 扫描分辨率:1200dpi sar: 1 SDST 5个尺度,每个尺度100维

实验与分析 常用字体集合测试结果 五种方式划分测试集 识别方法 测试文本块数 文本块含字符数 平均识别率(%) 测试一 基于笔端 200 1   识别方法 测试文本块数 文本块含字符数 平均识别率(%) 测试一 基于笔端 200 1 74.96 测试二 100 2 87.23 测试三 50 4 95.05 测试四 40 5 95.75 测试五 20 10 98.88 对比方法 基于笔画模版 20-30 98.75

实验与分析 扩展字体数据集 参数设置 23种字体 字号:初号 保存清晰度:600dpi sar: 1 SDST 5个尺度,每个尺度100维 特征笔端数量:50

实验与分析 整体 识别率 88.49% 字体 识别率 宋体 99.67 仿宋 98.67 黑体 95.33 楷体 98.00 幼圆 隶书 73.67 华文新魏 64.00 方正胖娃 81.00 方正剪纸 71.33 方正少儿 97.33 方正水黑 80.33 方正北魏楷书 方正超粗黑简 83.33 方正古隶 79.00 方正琥珀 87.33 方正华隶 90.00 方正铁筋隶书 95.67 方正雅艺 方正姚体 92.67 方正毡笔黑 89.33 方正大标宋 88.00 方正粗倩 88.33 方正美黑 87.00   整体 识别率 88.49%

总结与展望 字体特征 较大规模字体集合 未来研究方向 较少的特征笔端表示字体 与人们视觉感知接近的笔端结构 有较好的识别效果 小字号的轮廓获取 加入笔画宽度的分布

谢谢! Email:Lvxiaoqing@pku.edu.cn