作者:栗青生 熊晶 吴琴霞 杨玉星 单位:安阳师范学院 联系方式:aylqs@163.com 2018/12/4 基于特征加权的汉字点笔画生成研究 作者:栗青生 熊晶 吴琴霞 杨玉星 单位:安阳师范学院 联系方式:aylqs@163.com Nlp&CC2013 中国重庆
主要内容 1.汉字字形自动生成研究现状 2.汉字字形描述和笔画生成 3.汉字的特征点及权值 4.汉字笔画的生成算法 5.结束语
2018/12/4 字库生成过程 字稿设计 扫描处理 数字化拟合 修字 质检 完成字库 商品化 和测试 汉子设计复杂、字体制作困难
2018/12/4 以字库生成为目的的汉字生成 和英文字库比较,汉字数量大,字库设计比较难。因此,使用不同的部件拼字、或者使用笔画变形、或者通过改变笔画的粗细等来生成汉字,但到快速开发新字库的目的。 汉子字体不超过500种,英文近千种 自动化生成汉字字库是一项长期而艰巨的工作。中文信息处理截至到今天已经有三十年左右的发展历史了,使用计算机自动生成汉字字形始终是人们的一个梦想。
部件拼字法 美国伯利克大学的CDL 用部件或笔画去描述汉字的组成。不超过50个笔划类型的笔划集就足以构造几乎所有现行印刷体汉字,目前CDL已能对超过4万个汉字的描述,这包括所有基本多文种平面(BMP)汉字和超过1万两千个扩展集(EXT-B)汉字。
部件拼字法 香港浸会大学的Han Glyph,实现了用四十多个部件组成常用汉字
2018/12/4 笔画变形法 【参考文献2】张明敏 【参考文献3】字形衍生 系列字生成法
传统方法的不足 1.对部件和笔画的依赖性大。 2.生成字形的变化空间不大。 3.缺少对笔画结构的控制,后期仍需要人力去修改。
基于笔元的字形生成方法 汉字进一步抽象的探讨 轮廓抽象为骨架,骨架能否抽象为点? 笔元描述方法——一种点到点的描述方法 2018/12/4 汉子整字描述 汉子字形的部件和笔画描述 汉子字形的笔端描述
汉字字形点到点的描述 Nlp&CC2013 中国重庆
汉字点到点描述的几何基础 v1 v3 v4 v2 v5 v6 v11 v13 v12 v15 v14 v10 v9 v8 v7 v16
笔元的变换是字形生成的关键
笔元变换的数学基础
汉子字形的特征点 字形特征点:汉子字形的特征点T是汉字书写过程中3类端点集合(开始点(Ds),过程点(Dz),结束点(De)) 每一个笔画可以描述为 T(Ds,Dz1,Dz2,….Dzn,De)
字形特征点的权值 字形特征点的权值,由汉字的特征点在书写或形成过程的特征点的名称编号n、书写方向r、空间位置q和状态s等四个部分组成。Dj(n,r,q,s) 特征向量:V1V2为特征点V1和V2的特征向量。
权向量 权向量:是字形生成过程中,根据生成的需要在特征向量之外定义的向量。权向量的始点位于V1和V2组成的直线上,分别向V1V2两边延伸。 2018/12/4 权向量 权向量:是字形生成过程中,根据生成的需要在特征向量之外定义的向量。权向量的始点位于V1和V2组成的直线上,分别向V1V2两边延伸。 权向量决定笔画的轮廓和形状。 Nlp&CC2013 中国重庆
定比分点法:为表示特征点位置的变化,以动点m为分界点的前后两部分分线段长度的比值来表示特征点位置变化状态。
特征函数的构建 2018/12/4 笔 元 特征点 特征点数n 特征表达式Q 横 V1 V2 2 {(V1,(0, V2)} 竖 笔 元 特征点 特征点数n 特征表达式Q 横 V1 V2 2 {(V1,(0, V2)} 竖 {(V1,(270, V2)} 撇 V1 V2 … Vi i {(V1,( T(t)1,,(V2,( T(t)2,,V3… )))} 捺 V1 V2 … Vi 点 {(V1,( T(t)1, V2)} 折 定比分度,第i个笔元两侧的两个权限向量的模。Q(t)是mri与mri+1两个权向量与特征向量vivi+1的夹角
简单的点笔画的生成算法(以点笔画为例) 算法步骤: Step 1: 设定V1 (x1,y1)为笔画的始点, V2(x2,y2)为笔画的终点; Step 2: 调用相应的GDI绘图指令或选定特定的数字墨水绘制技术; Step 3: 设定起始点、结束点的状态; Step 4: 设定线的粗细; Step 5: 计算T(t)1值; Step 6: 根据T(t)1值,从V1向V2画线;
基于B样条曲线的点笔画的生成 由于Bezier曲线受到曲线顶点的影响,使得对曲线进行局部修改非常困难,而在汉字生成过程中,对曲线的局部修改是随时要进行的,因此我们选择使用B样条曲线来生成, 根据B样条曲线的分段特性,一个笔画的轮廓可用多条B样条曲线来生成,参照权向量的定义,本算法采用5条二次B样条曲线来生成一个点笔画的轮廓,
关键算法步骤 特征函数的初始化。创建五个特征点对象 T1, T2, T3, T4, T5表示绘制5条二次B样条曲线的控制点;一个double类型的变量 k1表示特征向量的斜率。一个 float类型变量 a 表示V1 V2的定比分点,另外四个float类型变量k2,k3分别表示两个权向量与特征向量的夹角,b,c表示两个权向量的模。
生成样例 不同比值下点的生成。
实验 对比
谢谢 Nlp&CC2013 中国重庆