CADAL制作标准及常见问题 主讲人:高静
课程大纲 一、DC著录标准及常见问题 二、扫描制作标准及常见问题 三、图像处理制作标准及常见问题 四、目录制作标准及常见问题 五、质检标准及常见问题 六、生产质量管理 附:CADAL生产规范的补充说明
一、 DC制作标准 详见:普通中文图书著录细则 注:查重表格中的索书号字段需要录入到DC内的Subject(关键词)
DC常见问题 1.文字录入错误,漏录、错字 ; 2.内容张冠李戴; 3.元素修饰词未填,如编、著、译等; 4.内容录入不够完整,如内容描述、关键词、关联等; 5.日期录入格式错误; 6.出版地缺省; 7.资源标识符未录全。
二、扫描制作标准 1.命名 2.分辩率 3.清晰度 4.图像内容
二、扫描制作标准 1.命名 扫描图像必须与原页面一一对应,不得出现颠倒、缺页、重页或错页情况。图像按流水顺序以tiff格式保存,文件名自00000001.tif依次排布。即schema name为########。扫描的图像文件名必须是8位。 注:页码不连续的以缺页代替。
二、扫描制作标准 2.分辨率 扫描分辨率标准为600dpi二值,二值TIFF图像采用CCITT4压缩格式,图像格式为tif; 有灰度插图的页面和彩色页面分辨率标准为600dpi ,图像格式为jpg; 对于普通图书,彩色封面、封面折页、封底折页、不含照片的彩色插页和灰度插图的页面,均采用600dpi 256级灰度扫描;对于含有人头照片、风景照的彩色插页及对于图像有特殊要求的(如广告),采用600dpi 真彩色扫描。
二、扫描制作标准 3.清晰度 扫描图像字迹清晰、颜色真实,不宜过浅或过深,并且不得出现字迹笔画残缺或字迹笔画叠合而影响阅读的情况,即使原书本存在锈斑变质、颜色过浅或深浅不一致,也应保证扫描图像可读。 对于古籍,因书本颜色泛黄,纸张诱斑变质、颜色过浓或深浅不一致现象极严重,扫描员必须反复调试扫描参数,兼顾页面整体效果,尽量做到扫描图像基本可读。由于书本页太薄或颜色过浓,扫描时会倒映反面文字,其文字上的污点无法去污,但需保证正文文字能看清楚。 扫描留下的黑迹宽度不得超过0.5厘米,并且指印和黑线不能覆盖或影响书本正文内容。
扫描的页面内容基本居中显示,不可出现明显偏左或偏右的现象。 页号、页眉、页脚信息完整; 二、扫描制作标准 4.完整性 扫描的页面内容基本居中显示,不可出现明显偏左或偏右的现象。 页号、页眉、页脚信息完整; 图像内容与书本页面完全对应,不得出现书页内容残缺或将旁边页面信息扫入本页的现象; 普通图书的书脊 不予扫描,为了保证书本的完整性,要求书本所有页面从封面到封底按本身的顺序扫描,包括书本里的空白页; 对于古籍,因书本普遍极为陈旧,页面纸张十分脆弱,很多书本页面破碎不全,扫描无法将内容扫全,但图像内容必须保证书本原貌,与书本页面完全对应,不得出现原书页内容残缺或将旁边页面信息扫入本页的现象; 古籍书本全部都是线装订形式,有些书本装订线覆盖了部分页面内容,如书不允许拆装的情况下,扫描应在尽可能不损坏书本的前提下,尽量将页面有用内容扫描下来。
扫描常见问题 1.分辨率设置错误; 2.图像格式错误,灰度图扫成了黑白TIF图; 3.参数设置不准确,文字过淡或过浓; 4.页面内容不全、曝光、扭曲; 5.扫描缺页、多页、重页;
1.忠于原图,保留有价值的信息 三、CADAL图像处理的质量标准 图像处理后必须保证图像信息与原书本内容完全一致,不得删除页面任何有用信息,包括正文内容、页眉、页脚、页号、手写注释和印鉴等(图书馆藏书章除外);
2.保证质量,去除扫描痕迹 三、CADAL图像处理的质量标准 所有扫描留下的黑线、指印或阴影都必须清除干净; 图像页面整体倾斜不得超过1度,不得出现图像一部分扭曲影响阅读的现象。书本页面存在部分倾斜,以页面中的文字纠正为准。
对装订线较近的书本或较厚书本,边角的几个字会产生扭曲现像,但需保证正文文字能看清楚; 三、CADAL图像处理的质量标准 3.特殊情况 对装订线较近的书本或较厚书本,边角的几个字会产生扭曲现像,但需保证正文文字能看清楚; 由于书本印刷质量或纸张质量等造成的页面上有零星的污点,如果在页面视图下看不清楚,或该污点嵌在文本行中无法清除,可以不做处理; 古籍书本普遍陈旧泛黄、纸张诱斑变质且过薄,造成页面上麻子污点和反面倒映文字污点零零星星比较多,如果在页面视图下看不清楚,或该污点嵌在文本行中无法清除,可以不做处理。
4.转换DJVU格式 三、CADAL图像处理的质量标准 所有TIFF图像都必须采用识别及转换DJVU工具经过识别,然后转换为300dpi的双层DJVU格式。(识别及转换DJVU工具不够稳定,偶尔会出现某些页面无法识别的现象,对于软件无法识别的页面可以采取DJVU Pro或TIF TO DJVU工具直接转换为300dpi的DVJU格式)处理后的图像保存于PTIFF目录。
图像处理常见问题 1.页面内容倾斜、不居中; 2.去污过度,页面文字被去除; 3.段落之间的空白处污点未去除干净; 4.页面漏去; 5.页面未按阅读方向旋转; 5.Otiff和ptiff文件夹个数不一致。
四、目录制作标准 1.录入格式 例: 第一篇综合 2 00000017 第一章行政区划情况 2 00000017 第一节基本情况 3 00000018 内容导向 封面 1 书名页 2 第一行为一级目录顶格,二级目录空一个半角空格,三级目录空二个半角空格。前一个数字为这条目录对应的本书的实际页码,后一数字为这条目录对应扫描图像的文件名; 内容导向的内容有:目录中录入的其他信息,包括封面、书名页、目录、内容提要、前言、参考书目、附录、感谢、题页、题跋、引语、绪言、贡献、索引、注释、术语表、版权表格清单、插图清单等正文前后的内容,必须根据书本录入相关信息,并且标引到相应页面。“封面”后的数字为扫描图像的文件名。
2.录入规范 四、目录制作标准 (1)所有目录首先要保证文字的正确率。选择比较好的识别工具。 (2)一级目录应顶格排,二级目录空一个半角空格,三级目录空二个半角空格; (3)文件输入的格式为“章节内容 页码 文件名”,每个字段之间用“空格”隔开,录入的目录标题项都必须输入相应页码,如果书本欠缺页码,或书本目录页码标识错误,都必须根据书本实际情况,查找正确页码,进行录入。 (4)在目录标题内容中如果出现空格,则输入时一律用字符“\ ”代替。 (5)录入方式标准:所有英文字符、标点符号、数字字符和一些特殊符号都在全角方式下录入。
目录制作常见问题 1.文字错误率较高; 2.目录层次结构错误; 3.目录导航链接错误,注意插页问题; 4.目录漏入; 5.内容导向录入不完整;
五、质检标准 1.质检标准详见上面的一至四点。 2.保证成品的完整性。一本成品电子书包含以下4个文件: meta(dc.xml、a.opf、catalog.xml) otiff (图像质检以后的数据) ptiff(为双层的DJVU数据) Oebbrowser.html
五、质检标准 3.保证质检步骤,以免有漏检项。 (1)检查成品是否包含上面的4个文件夹。 (2)核对otiff和ptiff的个数是否相同。 (3)打开oebbrowser.html,左侧目录树状栏分别列出了以下数据信息: 元数据信息:检查是否录入正确、是否有漏项; 目录信息:检查链接是否正确、检查是否有漏链、错链; 其它信息,即内容导向,检查是否有漏链、错链。 检查中发现错误的,打开OEB制作工具进行相应的修改。
质检常见问题 1.文件列表未生成,不能浏览下一页,不能跳页; 2.无法浏览电子书。需要设置正确的浏览环境,安装DJVU插件,遵守文件命名规则; 3.点击目录出现脚本错误。目录标题中出现半角的双引号或者单引号。
六、生产质量管理-ISO9001质量控制体系 1.数字化过程的监控 2.产成品的监控 3.建立独立的质量控制部门——质检部
六、生产质量管理 数字化过程的监控 1.强化对操作员的规范培训 2.操作员自我检查 3.后道工序对前道工序成果的检查 a.图像处理检查扫描结果 b.目录录入人员检查图像缺漏或多页情况 4.管理人员和质检部的巡检
六、生产质量管理 产成品的监控 1.电子书封装后专门的质检工序(全检) 2.提交前的终检(抽检)
六、生产质量管理 建立质量控制部门-质检部 a.新人培训,质量跟踪 b.在线巡检,抽查 c.巡检报告,错误分析 d.终检 附:CADAL项目生产规范的补充说明
谢 谢 !