2 数字出版技术国家重点实验室(北大方正集团有限公司)

Slides:

Advertisements

Similar presentations

第十八章判别分析 Discriminant Analysis. Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant.

Advertisements

咨询热线： >> 沈阳地铁媒体介绍沈阳地铁一号线走向、重点区域从开发区到抚顺的地铁一号线是沈阳乃至东北启动建设的第一条地下铁道工程。这条东西交通地下大动脉，位于城区东西方向的主轴线上，横跨市内五区（铁西、和平、沈河、大东、东陵），连接沈阳经济开发区、铁西工业区和沈阳站、太原街商业区、中街商业区等客流集散地区，具有重要的.

伽博 Dennis Gabor — — 全息照相发明者. 个人简介 Dennis Gabor1900 年 6 月 5 日出生于匈牙利的首都布达佩斯。英国籍的匈牙利物理学家，英国皇家学会、英国电力工程研究所和物理学研究所的研究员，曾经获得大英帝国的司令员勋章。 1918.

中央研究院歷史語言所藏民族學調查標本、照片與檔案數位化流程簡介中央研究院國家典藏數位化計畫分項四主持人王明珂.

环境与健康青岛台东六路小学徐亮.

Starbucks 組員: 60522石佩仙 60523胡蜜芬 60525鄭湘陵 60527羅婉菱.

启明阅读棒+启明学堂APP 【启明计划】 ——让盲人也能平等地提升自我创意人姓名：郭嘉莹、段羽虹学校及院系：武汉大学信息管理学院

中国知网数据库出版超市资源内容及平台演示报告 2008年9月.

第十一章商业银行资产负债管理策略.

莊子的逍遙無待之道.

中小学生学籍信息管理系统数据采集.

南台科技大學萬金生教授九十八年六月十二日

SARS 5年5班 01胡家毓 09薛世詣.

振興醫療財團法人振興醫院神經內科中風中心尹居浩

审计学原理课件江苏省淮阴商业学校财贸系会计教研室沈扬.

林红状 TEL: 特藏资源检索、服务及数字化建设林红状 TEL:

面向日中邦交正常化40周年、进一步深化“战略互惠关系”的 6个倡议（情况说明书）

实践周散文鉴赏与分析第一小组组长：蔡玉娟组员：蔡恒儿陈佩琳陈芸李国茹杨茹叶美燕张凤云

大学物理实验绪论（一）中国科技大学天文与应用物理系轩植华.

全区档案业务培训班 2014年3月.

全息照相李强强.

三级物理实验全息术全息光栅、体积全息（白光全息）三维全息、像面全息.

秦兵马俑 Qin Bing Ma Yong 主办：焦溪中心小学主编：刘寒晔 2006年2月22日

多媒体创作系统分为素材库编辑播放多媒体开发工具类型 1、基于时间 2、基于图标 3、基于页或卡片 4、基于传统程序语言.

CADAL二期技术工作进展 CADAL项目管理中心魏宝刚

新北市政府第二代公文自動化系統建置推廣暨維運服務委外案文書人員-二代公文共同課程

PPT模板下载：电子文件归档及管理.

公文/檔案管理作業流程簡報總務處文書組報告人：田至琴 9 7 年3 月7 日 1 1.

《漳州物业管理规定》解读漳州市物业管理站 2013年4月.

01 WINTER Template 港九街坊婦女會孫方中小學年度午膳安排.

项目九实现任务自动化　　如果有大批量的图片需要做统一处理，比如将照片裁剪成统一大小的尺寸或者加水印之类，它们的处理模式是相同的，手动操作的话实在是费力又费时间，需要重操作很多次，这时可以使用photoshop的批处理功能来实现。当然前提是要进行统一的动作时才能应用批处理的哦。动作是用于记录图像命令的工具，使用动作可以将用户对图像所做的操作步骤记录在动作面板中，当用户需要重复使用该步骤时，只需播放该动作即可。

全国中小学生学籍信息管理系统数据采集培训青海省教育厅信息中心 2013年4月16日.

2011中山市工业设计大赛活动介绍中山市工业设计大赛组委会.

屬於的 9 4 暑期國文課夏日派對！.

PowerPoint Template 工业企业成本费用调查管委会经济发展处郭烨炜

第五章客户开发与文化适应【学习目的与要求】 1.了解商务交际活动中客户开发环节的两种重要方式——电话洽谈和信函；

升學應選擇符合自己性向、興趣或能力的學校就讀，有五專、高職、高中、綜合高中或進修學校，可要多花些時間了解一下哦！

WINTER 104學年度特教業務承辦人研習 Template 特教法規及人事相關規定(含在家教育) 教育局特殊教育科林慧雯科員

第十二章证券投资技巧知识要求通过本章学习，进一步掌握选时的技巧，掌握常见的证券投资技巧方法，学会在证券投资实战中控制风险的方法。

PowerPoint Template 工业财务状况表（非成本费用调查单位填报)

XI. Hilbert Huang Transform (HHT)

第十三章、委外申請步驟.

信息的加工之字处理复习.

Chp7：非参数估计 CDF估计点估计区间估计统计函数估计.

第四章古籍文本的采集扫描技术. 第四章古籍文本的采集扫描技术扫描仪扫描仪是电脑的一种输入设备，它根据光电转换原理将图片、照片、胶片以及文稿资料等书面材料或实物的外观扫描后输入到电脑。扫描仪作为光电、机械一体化的高科技产品，自问世以来以其独特的数字化“图像”采集能力，低廉的价格以及优良的性能，得到了迅速的发展和广泛的普及。

陸、會計作業線上管理系統說明會計室系統管理師施堯賓

第四章数据库技术课后作业. 第四章数据库技术课后作业课后作业课件书上 1.常见的数据库系统及其开发工具 2.简述数据仓库技术（也可参考教材248） 1.阅读第六章、第九章第1节 2.超文本(150) 3.常见流媒体文件格式(156) 4.列举图形文件格式(159-) 5.多媒体数据库的关键技术(239)

柯維盈製作（中研院史語所拓片與古文書數位典藏計畫助理）

测光红移估测中的数据挖掘技术和大数据应用

臺中市/南投縣數位機會中心輔導團隊顧客關係管理系統

吉星数码扫描仪 JET-DBG658产品培训.

第 4 课亚洲封建国家的建立第二单元.

記帳士考試會計輔導指導教授：游美老師.

总体特征数的估计.

遊戲互動設計數位遊戲設計達人講座授課講義.

国家职业资格全国统一鉴定管理系统照片采集标准及操作规程河南凯若管理培训中心河南华盛职业培训学校孙爱芳制作.

臺北市光仁小學 106學年度下學期班親會二年愛班鄭雅文老師歡迎您的蒞臨與指教.

設計者：高雄市國教輔導團健康與體育學習領域輔導員龍炳峰

基于最大margin的决策树归纳李宁.

依据美国的政体，指出美国减税法案须经国会通过的原因。（2分）

人事業務績效報告分享報告人:南屯區大墩國小徐湘雲.

网络营销管理及市场机会探讨冯英健 2005年4月9日首页.

HHT 2009/01/19 showmin.

数据挖掘导论福建医科大学郑伟成.

產品彩色圖片1~2張圖片解析度300dpi 海報上請勿標示指導老師或實驗室名稱

第15章创建样板图在新建工程图时，总要进行大量的设置工作，包括图层、线型、颜色设置、文字样式设置、标注样式设置等，如果每次新建图样时，都要如此设置确实很麻烦。为了提高绘图效率，使图样标准化，应该创建个人样板图，当要绘制图样时，只需调用样板图即可。 2019/8/31.

開學注意事項主講人林佳箴.

Presentation transcript:

2 数字出版技术国家重点实验室(北大方正集团有限公司) 基于笔端形状相似性的汉字字体识别王晓1,2，吕肖庆1,2，汤帜1,2 1 北京大学计算机科学技术研究所 2 数字出版技术国家重点实验室(北大方正集团有限公司) E-mail：Lvxiaoqing@pku.edu.cn

提纲背景及研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结

背景及研究现状字体识别文档电子化新需求光学字符识别（OCR）版面分析、理解、恢复厂商希望保护版权设计师和用户“按形找字” 大规模集合上的字体识别

背景及研究现状相关概念输入输出文本块图像单字图像字体属性字体名称：如方正剪纸、方正水黑样式：正规、粗体、倾斜、粗斜等早期的研究主要关注图像检索地准确性

背景及研究现状字体识别方法的分类基于文本块基于单字符文本相关 / 文本无关基于文本块 / 基于单字 Gabor变换笔画分布小波变换笔画模板特征点在基于文本块的字体识别方面，Yong等[3]采用Gabor滤波器提取字体特征，然后对其进行全局纹理分析，取得了较高的识别率。其后学者们[4-9]对此类方法做出改进，取得了新的进展。杨志华等[14，15]提出了一种基于经验模式分解（Empirical Mode Decomposition，EMD）的中文字体识别方法，该方法同样针对文本块进行识别。这种方法选择5个基本笔画特征来描述中文字体。对每一个给定的文本块计算笔画特征序列并且使用EMD进行分析，产生一个低维特征向量。最后，采用最小距离分类器识别字体。基于单字符进行字体识别的代表方法是陈力等[10, 11] 提出的基于小波变换的方法。这种方法首先通过小波变换从字符图像中提取大量的小波特征，然后使用线性鉴别分析技术(Linear Discriminant Analysis，LDA) 选择与字体信息相关的特征，最后使用一种改进的二次鉴别函数（Modified Quadratic Discriminant Function，MQDF）分类器进行字体识别。其他使用小波方法进行字体识别的研究工作包括[12, 13]。Sun[16]利用汉字的笔画结构进行字体识别。这种方法自动提取单个字符的笔画部分，称为笔画模板（Stroke template）。相同字体的笔画模板被存储在字体数据库中。对于新输入的字符，将其笔画模板与字体数据库中的笔画模板一一比对，最后使用贝叶斯分类器决定最有可能的字体分类。王恺等[17]使用一种基于特征点的个体分析法来解决汉字字体识别问题。

背景及研究现状字体与笔端相似性性能，第二，是否提高了检索的速度，能够支持大规模数据量的图像检索。影响第二个性能的关键因素是索引的结构设计。结合特征介绍已有的一些索引结构

背景及研究现状字体识别流程多个汉字图像字体特征笔端集合待识别的单字图像笔端提取笔端描述计算聚类中心笔端与特征笔端间的相似度字体识别结果

提纲背景及研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结

笔端提取笔端笔画的起始与收尾占笔画一定比例点笔画和某些转折如何精确计算笔画起始与收尾截断位置截断方式

笔端提取笔画模板（前人工作）希望笔端与形状相关的阈值

笔端提取笔端与骨架的关系笔端起始点骨架端点笔端截断点骨架分叉点借助骨架实现截取笔端的计算

笔端提取借助骨架会有什么问题？

笔端提取分叉与毛刺问题

笔端提取笔画长宽比问题

笔端提取动态计算长宽比（Stroke Aspect Ratio，SAR） (a) (b)

笔端提取取SAR=1时的截取效果

提纲背景及研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结

笔端形状描述笔端描述子的构造基于基于多尺度曲率直方图的傅里叶描述子 … … MFDCH取曲率直方图的低频部分

笔端形状描述

提纲背景及研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结

采用欧式距离计算特征相似度采用支持向量机（SVM）进行训练与识别字体相似性度量采用欧式距离计算特征相似度采用支持向量机（SVM）进行训练与识别特征笔端的提取

提纲背景及研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结

实验与分析常用字体数据集参数设置宋体、仿宋、黑体、楷体、隶书正规、粗体、倾斜、粗斜字号：18 扫描分辨率：1200dpi sar: 1 SDST 5个尺度，每个尺度100维

实验与分析常用字体集合测试结果五种方式划分测试集识别方法测试文本块数文本块含字符数平均识别率（%）测试一基于笔端 200 1 识别方法测试文本块数文本块含字符数平均识别率（%）测试一基于笔端 200 1 74.96 测试二 100 2 87.23 测试三 50 4 95.05 测试四 40 5 95.75 测试五 20 10 98.88 对比方法基于笔画模版 20-30 98.75

实验与分析扩展字体数据集参数设置 23种字体字号：初号保存清晰度：600dpi sar: 1 SDST 5个尺度，每个尺度100维特征笔端数量：50

实验与分析整体识别率 88.49% 字体识别率宋体 99.67 仿宋 98.67 黑体 95.33 楷体 98.00 幼圆隶书 73.67 华文新魏 64.00 方正胖娃 81.00 方正剪纸 71.33 方正少儿 97.33 方正水黑 80.33 方正北魏楷书方正超粗黑简 83.33 方正古隶 79.00 方正琥珀 87.33 方正华隶 90.00 方正铁筋隶书 95.67 方正雅艺方正姚体 92.67 方正毡笔黑 89.33 方正大标宋 88.00 方正粗倩 88.33 方正美黑 87.00 整体识别率 88.49%

总结与展望字体特征较大规模字体集合未来研究方向较少的特征笔端表示字体与人们视觉感知接近的笔端结构有较好的识别效果小字号的轮廓获取加入笔画宽度的分布

谢谢！ Email：Lvxiaoqing@pku.edu.cn