Download presentation
Presentation is loading. Please wait.
Published byMarie-Françoise Vinet Modified 6年之前
2
第四章 古籍文本的采集 扫描技术
3
扫描仪 扫描仪是电脑的一种输入设备,它根据光电转换原理将图片、照片、胶片以及文稿资料等书面材料或实物的外观扫描后输入到电脑。
扫描仪作为光电、机械一体化的高科技产品,自问世以来以其独特的数字化“图像”采集能力,低廉的价格以及优良的性能,得到了迅速的发展和广泛的普及。 扫描仪已成为继键盘、鼠标之后的第三件最主要的计算机输入设备。 输入设备:输入设备可以将外部信息(如文字、数字、声音、图像、程序、指令等)转变为数据输入到计算机中
4
扫描仪的组成结构 从外型上看,扫描仪的整体感觉十分简洁、紧凑,但其内部结构却相当复杂:不仅有复杂的电子线路控制,而且还包含精密的光学成像器件,以及设计精巧的机械传动装置。它们的巧妙结合构成了扫描仪独特的工作方式。
5
扫描仪的组成结构
6
扫描仪的组成结构 1.上盖 2.原稿台 3.光学成像部分 4.光电转换部分 5.机械传动装置
7
上盖 上盖主要是将要扫描的原稿压紧,以防止扫描灯光线泄露。
目前随着三维实物扫描功能的逐渐普及,为了能够更加方便、更高质量地扫描三维实物,许多扫描仪在上盖的设计上都“绞尽脑汁” 。
8
原稿台 原稿台主要是用来放置扫描原稿的地方,中间为透明玻璃,称为稿台玻璃。
稿台玻璃的损坏会影响扫描仪内部的其他器件(如成像部件),尤其是稿台玻璃的破损会使灰尘及杂质直接侵入扫描仪内部,使扫描品质下降,严重时会造成扫描仪的损坏。
9
光学成像部分 光学成像部分俗称扫描头,即图像信息读取部分,是扫描仪的核心部件。包括部件:灯管、反光镜、镜头以及电荷藕合器件(CCD)。
10
光电转换部分 光电转换部分是指扫描仪内部的主板,虽然扫描仪的光电转换部分主板就这么一小块,但它却是扫描仪的心脏。主要完成光信号的处理,以及控制各部件协调一致地工作。
11
机械传动装置 机械传动部分主要包括步进电机、驱动皮带、滑动导轨和齿轮组如图。
12
扫描仪的工作原理 扫描仪的原理就跟我们平时照镜子一样,当它扫描图像时,光线从物体反射回来,通过透镜射进感光元件,将光线转换成模拟信号,再将模拟电压信号转换为数字信号,最后传输到计算机里。
13
扫描仪的分类 扫描仪有很多种,按不同的标准可分成不同的类型
按扫描原理分:以CCD为核心的平板式扫描仪、手持式扫描仪、光电倍增管为核心的滚筒式扫描仪 按扫描图像幅面的大小分:小幅面的手持式扫描仪、中等幅面的台式扫描仪、大幅面的工程图扫描仪 按扫描图稿的介质分:反射式(纸材料)扫描仪、透射式(胶片)扫描仪、可扫反射稿又可扫透射稿多用途扫描仪 按用途分:用于各种图稿输入的通用型扫描仪、用于特殊图像输入的专用型扫描仪、加条码读入器、卡片阅读机等等。
14
各类扫描仪 手持式扫描仪 诞生于1987年,手持式扫描仪扫描幅面窄,难于操作和捕获精确图像,扫描效果也差。96年后相继停产。 馈纸式扫描仪
诞生于20世纪90年代初,随着平板式扫描仪价格的下降,这类产品也于1997年后退出了历史舞台。 鼓式扫描仪 又称滚筒式扫描仪,在专业印刷排版领域应用最广泛,其感光器件是光电倍增管,性能远远高于CCD类扫描仪。 平板式扫描仪 又称平台式扫描仪,这种扫描仪诞生于1984年,是目前办公用扫描仪的主流产品,扫描幅面一般为A4或者A3 大幅面扫描仪 一般指扫描幅面为A1、A0幅面的扫描仪,又称工程图纸扫描仪。 底片扫描仪 又称胶片扫描仪,英寸甚至更大,光学分辨率一般可以达到2700dpi的水平,更高精度的产品则属于专业级产品。
15
各类扫描仪的特点 笔式扫描仪 外形与一支笔相似,扫描宽度约四号汉字大小,使用时贴在纸上一行一行的扫描,主要用于文字识别。 条码扫描仪
又称为条码阅读器,其中一种与笔式扫描仪外形相似,主要用于条码的扫描识别,不能用来扫描文字和图像。 实物扫描仪 其结构原理类似于数码相机,它拥有支架和扫描平台,分辨率远远高于市场上常见的数码相机,只能拍摄静态物体,扫描一幅图像所花费的时间与扫描仪相当。 3D扫描仪 结构原理也与传统的扫描仪完全不同,生成的文件是能够精确描述物体三维结构的一系列坐标数据,输入3DMAX中即可完整地还原出物体的3D模型,无彩色和黑白之分。
16
各类扫描仪
17
各类扫描仪
18
各类扫描仪
19
扫描仪的连接 扫描仪与计算机之间采用的接口类型 EPP接口。
20
扫描仪的分类 2、SCSI接口。SCSI接口的扫描仪需要一块SCSI卡将扫描仪与计算机相连接(所需的SCSI卡一般在扫描仪中自带)
优点是传输速度较快,扫描质量高; 缺点是需要开机箱安装一块SCSI卡,要占用一个ISA或PCI槽以及相应的中断,安装相对复杂,有可能和其他配件发生冲突。
21
扫描仪的分类 3、USB接口。现在普遍采用的接口形式,现在的主板都带有USB接口。
优点是速度较EPP快,可带电插拔,即插即用,较新的USB扫描仪可直接由USB口取电,无须另加电源。
22
扫描仪的技术指标 1、扫描精度 就是我们常说的分辨率,是衡量一台扫描仪档次高低的重要参数,它所体现的是扫描仪在扫描时所能达到的精细程度。
扫描精度通常以DPI(分辨率)表示,DPI值越大,则扫描仪扫描的图象越精细。 扫描分辨率分为光学分辨率和最大分辨率两类,前者是硬件形式的,后者是软件形式的。 光学分辨率是指扫描仪的光学系统可以采集的实际信息量,也就是扫描仪的感光元件--CCD的分辨率。它的表示方式是用垂直分辨率和水平分辨率相乘表示。 DPI(dot per inch)意思是每英寸的象素点数。
23
扫描仪的技术指标 2、色彩位数 色彩位数表明了扫描仪在识别色彩方面的能力和能够描述的颜色范围,它决定了颜色还原的真实程度,色彩位数越大,扫描的效果越好、越逼真,扫描过程中的失真就越少。从24位(bit)到48位不等,它决定了颜色还原的真实程度。24位的色深就是通常所说的“真彩色”。 3、灰度级 扫描仪的灰度级水平反映了扫描时提供由暗到亮层次范围的能力,具体说就是扫描仪从纯黑到纯白之间平滑过渡的能力。灰度级位数越大,相对来说扫描结果的层次就越丰富、效果越好。常见有8、10、12位(bit)3种灰阶度。
24
扫描仪的技术指标 感光元件是扫描图像的拾取设备,相当于人的眼球,其重要性不言而喻.
目前扫描仪所使用的感光器件有三种:光电倍增管,电荷偶合器(CCD),接触式感光器件(CIS或LIDE)。 CCD(Charge Coupled Device,电荷耦合器件):是一种半导体芯片。使用CCD作为感光元件的扫描仪,需要通过由一系列透镜、反射镜等组成的光学系统将图像传送到CCD芯片上,所以体积一般较大。分辨率可以达到300 ~1200 或更高. CIS(Contact Image Sensor,接触式传感器件):是一种光电转换器件,它采用一列内置的LED发光二极管照明,直接接触在原稿表面读取图像数据。采用CIS技术的扫描仪没有附加的光学部件,移动部分又轻又小,整个扫描仪可以做得非常轻薄。分辨率为300 ~600.
25
扫描仪的技术指标 4、扫描幅面。是指扫描仪所能扫描的范围,也就是纸张的大小,一般有A4、A4+、A3等。
5、兼容性。几乎所有的扫描仪都可用于PC,很多SCSI和USB扫描仪标明兼容MAC(苹果)。 6、系统环境。扫描仪工作是需要驱动程序的,这些驱动程序能在哪些系统下使用,比如WIN98、WIN2000、WINNT、XP等,另外有些SCSI和USB扫描仪还有FOR MAC (苹果)OS的驱动。
26
扫描仪品牌
28
古籍专用扫描仪——零边距扫描仪
29
古籍专用扫描仪——零边距扫描仪
30
扫描仪的应用 光学字符识别 (OCR)
31
内 容 提 要 一、OCR 简介 二、OCR 的基本原理和工作流程 三、清华 TH-OCR XP 软件的使用 四、进行文字识别时的注意事项
32
一、OCR 简介 OCR是“光学字符识别”(Optical Character Recognition)的英文缩写。扫描仪等光学输入设备可以将各种报刊、书籍、文稿、票据及其它印刷品的文字转化为图像信息,它要依赖扫描仪等硬件。而利用OCR文字识别技术却可以将图像信息转化为可以进行编辑的文字,是一种计算机输入技术,主要是通过软件实现。 OCR文字识别软件是与扫描仪配套的主要软件,属于非键盘输入范畴。近几年随着扫描仪逐渐普及和OCR技术的日趋完善,OCR己成为大多数扫描仪用户的得力助手,扫描仪厂商现在已把专业的OCR软件搭配自己生产的扫描仪出售。 中文OCR是针对汉字信息高速输入计算机的问题,致力于解决困扰汉字使用者低速信息输入与高速信息处理的矛盾,从而提高整个计算机系统的效率,比手工输入要快几十倍。此时,用户只需要用扫描仪将整页的文本或图像扫描输入到计算机,OCR软件就会自动产生可以编辑的文本文件。
33
二、OCR 的基本原理和工作流程 (一) OCR 的基本原理
简单地说,就是通过扫描仪将一份文稿的图像输入给计算机(或者说是计算机通过扫描仪获取图像),然后由OCR软件取出每个文字的图像,并将其转换成文字的编码。其具体工作过程是,计算机OCR软件接受文稿的数字图像,然后利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件格式。其中文字识别是OCR的核心技术。
34
二、OCR 的基本原理和工作流程 (二) OCR 的工作流程
35
三、常用OCR 软件 常用的OCR软件 尚书OCR 方正OCR 紫光OCR 汉王OCR
36
四 、清华 TH-OCR XP 软件的使用 (一)OCR 软件简介
现在几乎所有的平板式扫描仪都捆绑了OCR 软件,多数机型的随机软件中不仅有中文版OCR 还有英文版OCR,其实大部分中文版OCR 都兼有识别英文的功能。目前市场比较成熟的中文版OCR 软件有清华文通、尚书、蒙恬、汉王等。这里以清华TH-OCR XP为例,介绍OCR软件的使用。 清华TH-OCR XP 能够适应超过一百种Windows字体,识别全部简体国标一二级6763个字符,繁体13000多字符。在文档识别过程中,对于每个区域可以设定不同的字体,例如一篇文档中的大段英文可以设为英文识别,以提高识别率。TH-OCR XP 支持多任务,可以在识别一篇文章的同时扫描或编辑其它文档。
37
四 、清华 TH-OCR XP 软件的使用 (二)清华 TH-OCR XP 软件的安装
在所购买紫光扫描仪的随机光盘中,有清华 TH-OCR XP 的安装程序。打开相应的文件夹,双击 setup.exe 文件开始安装,首先进行语言设置,如下图所示(实际安装)。
38
四 、清华 TH-OCR XP 软件的使用 (三)清华 TH-OCR XP 的窗口
清华TH-OCR XP的窗口如其他Windows程序窗口一样,简洁明快、布局合理、容易上手。窗口分为标题栏、菜单栏、工具栏、工程管理区、图像和识别操作区、状态栏,如下图所示(结合实际窗口介绍)。
39
四 、清华 TH-OCR XP 软件的使用 (四)清华 TH-OCR XP 软件使用的基本流程
完整的文字识别操作过程包括:设置、扫描、版面处理、识别、编辑修改、输出六个基本步骤,如下图所示。
40
四 、清华 TH-OCR XP 软件的使用 (五)实际使用清华 TH-OCR XP 软件(处理几个文件)
说明:为了方便,这里使用已经扫描好的图片供OCR 。实际操作时,也可以在OCR软件中扫描文稿并直接加载扫描获得的图片,然后进行识别。 1 .打开清华 TH-OCR XP 软件,并装入要识别的图片(或通过扫描获得)。 2 .进行版面处理,包括倾斜校正、版面处理等。 3 .进行识别。 4 .后处理。 5 .导出。
41
四 、进行文字识别时的注意事项 在使用OCR软件进行文字识别时,必须认真学习OCR有关知识和理论,特别是系统设置、版面处理和编辑修改的理解和具体操作,并结合实践不断积累经验,摸索出切实可行的解决方案。下面是一些有价值的提示,要认真理解和体会。 1.在扫描仪中一定要放正原稿,不能位置倾斜,否则扫描出来的原稿也会是倾斜的,从而造成OCR软件无法正确识别。另外,在放置扫描原稿时,把扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真。 2.选择适当的分辨力也是很重要的,一般来说,使用200~300dpi的分辨力进行扫描比较合适,如果分辨力太高也没有太大意义,只会增加扫描时间和文件的大小。 3.在扫描识别报纸或其他半透明文稿时,背面的文字透过纸张混淆文字字形,对识别会造成很大的障碍。遇到该类扫描,可以在扫描原稿的背面附盖一张黑纸,并增加扫描对比度,即可减少背面模糊字体的影响,提高识别正确率。
42
四 、进行文字识别时的注意事项 4.对扫描后生成的图像,用图像处理软件擦掉图像污点,包括原来版面中的不需要识别的插图、分隔线等,使文字图像中除了文字没有一点多余的东西,这可以大提高识别率并减少识别后的修改工作。 5.版面分析。如果需要识别的原稿包含多种字号、多种字体的文字、多个文本区块、图文混排等复杂版面,就需要进行版面分析,将要识别的内容划分为一个块,这样OCR软件才能正确识别。 6.多页批识别功能 。若需识别的文章有多页组成,使用OCR的批量识别功能十分方便。首先将多页文件以TIF的格式按页面顺序依次扫描后存盘。而后再打开它们,一次性进行批量识别,好处是速度快,效率高。一般来说,批量识别的文件版面不要太过复杂,文件页数也要根据计算机配置适量控制。另外,在进行大批量文稿扫描时,必须对原稿进行测试,找到最佳的阀值百分比。
43
数字图像的文件格式 JPEG(JPG)格式
JPEG格式文件采用的是“有损压缩”编码格式,其压缩率是图像格式中较高的一种,一般可将图像压缩为原大小的十分之一而看不出明显差异。也正是由于JPEG格式可以进行大幅度的压缩,使得它方便储存、通过网络进行传送,得到了广泛的应用。主要用于图像浏览和制作网页。
44
数字图像的文件格式 GIF格式 最多只能用256色来表现物体,对于色彩复杂的物体它就力不从心,正因为此,它的文件比较小,适合网络传输,在通信行业和HTML网页制作中应用较多。而且它还可以用来制作动画。
45
数字图像的文件格式 BMP格式 是微软公司为Windows环境设置的标准图像格式,在Windows环境下运行的所有图像处理软件都支持这种格式。采用“无损失压缩”的编码格式,既节省了存储空间又不产生失真,但在打开文件时将会花费较长的时间,不利于网络传输。
46
数字图像的文件格式 TIF格式 这是现阶段印刷行业使用最广泛的文件格式。TIFF格式可包含压缩和非压缩图像数据,如使用无损压缩方法LZW来压缩文件,图像的数据不会减少,即信息在处理过程中不会损失,能够产生大约2:1的压缩比,可将原稿文件消减到一半左右。
47
数字化和多媒体技术 --图像处理部分
48
基本操作——认识PHOTOSHOP
49
本 章 结 束
Similar presentations