第四章 古籍文本的采集 扫描技术. 第四章 古籍文本的采集 扫描技术 扫描仪 扫描仪是电脑的一种输入设备,它根据光电转换原理将图片、照片、胶片以及文稿资料等书面材料或实物的外观扫描后输入到电脑。 扫描仪作为光电、机械一体化的高科技产品,自问世以来以其独特的数字化“图像”采集能力,低廉的价格以及优良的性能,得到了迅速的发展和广泛的普及。

Slides:



Advertisements
Similar presentations
Wiimote 製作簡易電子白板 吳鳳技術學院 電算中心 蕭紋旭 組長. 硬體設備  電腦 ( 班級電腦或筆電 ) 。  投影機:盡量購買具有『短焦』功能,可減少強光直接進 入老師眼中。教室內因亮度過亮,所以建議購買 2000 流 明以上,則可避免在夏天必須拉窗簾才可看清投影內容。 購買時,一定要現場看過展示效果才來決定是否合用,不.
Advertisements

学年度工作总结 —— 上海建桥学院 —— 上海建桥学院 实验室与资产管理处 实验室与资产管理处.
多媒体技术 广东技术师范学院工业中心 陈华竣 : Tel : 多媒体计算机系统.
中央研究院歷史語言所藏民族學調查標本 、照片與檔案數位化流程簡介 中央研究院國家典藏數位化計畫分項四 主持人王明珂.
《数字图形图像设计》 PHOTOSHOP软件介绍
第1章 PhotoshopCS3 基本知识.
第三章 图像处理技术 第三章 多媒体图像处理技术.
第二章 数字图像媒体.
龙宇工作室
研究生繳交電子論文說明 分機 版.
全区档案业务培训班 2014年3月.
市 场 营 销 学 精品课程 孙金霞 山西财贸职业技术学院.
不会宽容人的人, 是不配受到别人的宽容的。 贝尔奈.
复习回顾 a a×a a×a×a a a×a×a= a×a= 1.如图,边长为a厘米的正方形的面积 为 平方厘米。
AI 图像传感器.
第 9 章 多媒體.
省科技业务管理阳光再造行动介绍及2014年广东省、广州市项目申报预备会
未来几大热门行业 管理咨询师   理由:管理咨询师针对企业运用管理学的原理,进行从战略策划到战术运用的系列顾问活动,包括对企业CIS、人力资源、流程再造、组织结构设计、营销等方面进行策划并指导实施。专家指出,我国目前管理咨询专业人才严重短缺。在未来10年中,我国管理咨询业的需求将以每年10倍的速度增加,到2010年中国管理咨询行业的有效需求总额将达到100亿美元。管理咨询师年薪大约在10万到60万元人民币不等。
第九章 應用軟體 對於一般使用者而言,應用軟體才是完成工作的最直接利器,隨著越來越多程式設計師及軟體資訊公司的投入,應用軟體的種類也越來越多,在本章中,我們將介紹許多目前市面上常見的應用軟體。
第五章 非人員解說.
PPT模板下载: 电子文件归档及管理.
第一章 Photoshop CS4概述.
认识Photoshop 电教组 欧阳涛.
數碼影像導論 2007年3月16日.
听完介绍,请你描述一下脑海中的凤城河 新课导入 请你听一段声音:《美在凤城河》
多媒體簡報與製作研習課程 影像處理 2017年4月8日星期六.
欢迎学习Photoshop CS基础教程 目 录 第9章:综合实例 第8章:ImageReady 第7章:滤镜的使用 第6章:通道和蒙版
數位照相原理 授課老師:黃俊能.
Photoshop简介 Photoshop是美国Adobe公司开发的数字图像处理软件,是世界上第一流的图像设计与制作工具。
第6章 電腦科技的相關應用─影像處理 6-1 影像處理的基本知識 6-2 PhotoImpact 的基本操作 6-3 影像編輯技巧
第9章 平面图像处理基础 9.1 平面图像处理基本概念 9.2 Photoshop基础操作.
档案 纸质档案数字化 昌平区档案局 业务指导二科 范 蕾.
色彩基本認識 2010 年 9 月 Hsiu-fen Wang
自由軟體應用--圖檔瘦身術 蘇裕隆 2008/11/26 於 旗津國小.
有关摄影 ---- 刘晓建 2010/1/7.
数字图像处理 刘伯强 山东大学生物医学工程.
边做边学—Photoshop cs4 图像制作案例教程
3-1 想做出甚麼樣的網站 現在您對網站、網頁已經有基本的概念了,不過要實際開始製作網站,還需要經過規劃的過程。本章中尚未開始動手設計網頁,而先來學習建立網站的重要觀念也就是網站的規劃與設定,首先您必須先對自己要建立的網站有基本的架構,才能動手建立網站,做好後續網頁設計的工作。可別看這個過程,這是能不能建構出一個好網站的重要關鍵,也是設計網站人員必須用心思考、規劃的部分。
12-1 多媒體 12-2 電腦視覺 12-3 人工智慧 12-4 資料壓縮 12-5 計算理論
非常好色軟體應用研習 數立科技推廣組 2009/02/17.
RefWorks 簡單、易學、受歡迎的… 線上書目管理工具 漢珍公司 沈妙其 (02) ext224.
Windows XP 使用與設定 (進階班) 淡江大學資訊中心教學支援組 劉育辰.
Photoshop CS5 五.影像的儲存、輸出與列印
档案数字化基本程序与要求 档案数字化概述 纸质档案的数字化 照片档案的数字化 录音档案的数字化 录像档案的数字化 实物数字化
数字图像处理(2) 图像文件格式 东北林业大学信息学院 任洪娥
2 数字图像基础 赵国庆 博士 北京师范大学教育技术学院
第1章 图像处理基本知识 本章简介: 本章将主要介绍图像处理的基础知识,包括位图与矢量图、图像尺寸与分辨率、文件常用格式、图像色彩模式等。通过对本章的学习,可以快速掌握这些基础知识,有助于更快、更准确地处理图像。
12-1 多媒體 12-2 電腦視覺 12-3 人工智慧 12-4 資料壓縮 12-5 計算理論
第二章 多媒体的硬件和 软件环境的建立 返回.
柯 維 盈 製 作 (中研院史語所拓片與古文書數位典藏計畫助理)
認識影像的形式 認識影像的擷取環境 認識影像的儲存格式 學習影像的處理工具 建立影像處理的能力
自由軟體在校園之應用 《XnView的認識與教學應用》
第12章 多媒體 12-1多媒體應用軟體 12-2 電腦視覺 12-3 資料壓縮.
色彩基本認識 2006 年 10 月 Hsiu-fen Wang.
影像處理.
Photoshop(cs2)基础课程 主讲:郝同宝.
芃芃森林幼稚園 魔法資訊列車 JA-CHEN.COM.TW.
计算机组装、维修及 实训教程 第17章 微机软件的安装与设置 2019年4月11日星期四.
第 5 章 加 入 圖 片.
12-1 多媒體 12-2 電腦視覺 12-3 人工智慧 12-4 資料壓縮 12-5 計算理論
第十九章 数字化图像的输出与使用.
12-1 多媒體 12-2 電腦視覺 12-3 人工智慧 12-4 資料壓縮 12-5 計算理論
国家职业资格全国统一鉴定管理系统 照片采集标准及操作规程 河南凯若管理培训中心 河南华盛职业培训学校 孙爱芳 制作.
信息技术会考第四套 ——东营市一中内部使用.
第二章 数字化摄影基础知识.
计 算 机 应 用 基 础 潍坊学院 计算机工程学院 主讲人 王鑫.
多媒體網頁 授課教師:葉生正教授.
2015 我爱永志我的家 摄影作品征集活动 2015年08月.
§12-5 同方向同频率两个简谐振动的合成 一. 同方向同频率的简谐振动的合成 1. 分振动 : 2. 合振动 : 解析法
Photo Cap是數位照片的最佳幫手,也是100%免費的軟體Photo Cap既操作間單又實用, Photo Cap不僅僅是相片處理軟體,更是製造每個家庭和樂氣氛的好幫手。 Photo Cap的使命是帶給每個家庭美好的回憶,所有功能都非常實用,尤其是有小孩的爸爸媽媽,更是不可錯過喔。
Presentation transcript:

第四章 古籍文本的采集 扫描技术

扫描仪 扫描仪是电脑的一种输入设备,它根据光电转换原理将图片、照片、胶片以及文稿资料等书面材料或实物的外观扫描后输入到电脑。 扫描仪作为光电、机械一体化的高科技产品,自问世以来以其独特的数字化“图像”采集能力,低廉的价格以及优良的性能,得到了迅速的发展和广泛的普及。 扫描仪已成为继键盘、鼠标之后的第三件最主要的计算机输入设备。 输入设备:输入设备可以将外部信息(如文字、数字、声音、图像、程序、指令等)转变为数据输入到计算机中

扫描仪的组成结构 从外型上看,扫描仪的整体感觉十分简洁、紧凑,但其内部结构却相当复杂:不仅有复杂的电子线路控制,而且还包含精密的光学成像器件,以及设计精巧的机械传动装置。它们的巧妙结合构成了扫描仪独特的工作方式。

扫描仪的组成结构

扫描仪的组成结构 1.上盖 2.原稿台 3.光学成像部分 4.光电转换部分 5.机械传动装置

上盖 上盖主要是将要扫描的原稿压紧,以防止扫描灯光线泄露。 目前随着三维实物扫描功能的逐渐普及,为了能够更加方便、更高质量地扫描三维实物,许多扫描仪在上盖的设计上都“绞尽脑汁” 。

原稿台 原稿台主要是用来放置扫描原稿的地方,中间为透明玻璃,称为稿台玻璃。 稿台玻璃的损坏会影响扫描仪内部的其他器件(如成像部件),尤其是稿台玻璃的破损会使灰尘及杂质直接侵入扫描仪内部,使扫描品质下降,严重时会造成扫描仪的损坏。

光学成像部分 光学成像部分俗称扫描头,即图像信息读取部分,是扫描仪的核心部件。包括部件:灯管、反光镜、镜头以及电荷藕合器件(CCD)。

光电转换部分 光电转换部分是指扫描仪内部的主板,虽然扫描仪的光电转换部分主板就这么一小块,但它却是扫描仪的心脏。主要完成光信号的处理,以及控制各部件协调一致地工作。

机械传动装置 机械传动部分主要包括步进电机、驱动皮带、滑动导轨和齿轮组如图。

扫描仪的工作原理 扫描仪的原理就跟我们平时照镜子一样,当它扫描图像时,光线从物体反射回来,通过透镜射进感光元件,将光线转换成模拟信号,再将模拟电压信号转换为数字信号,最后传输到计算机里。

扫描仪的分类 扫描仪有很多种,按不同的标准可分成不同的类型 按扫描原理分:以CCD为核心的平板式扫描仪、手持式扫描仪、光电倍增管为核心的滚筒式扫描仪 按扫描图像幅面的大小分:小幅面的手持式扫描仪、中等幅面的台式扫描仪、大幅面的工程图扫描仪 按扫描图稿的介质分:反射式(纸材料)扫描仪、透射式(胶片)扫描仪、可扫反射稿又可扫透射稿多用途扫描仪 按用途分:用于各种图稿输入的通用型扫描仪、用于特殊图像输入的专用型扫描仪、加条码读入器、卡片阅读机等等。

各类扫描仪 手持式扫描仪 诞生于1987年,手持式扫描仪扫描幅面窄,难于操作和捕获精确图像,扫描效果也差。96年后相继停产。 馈纸式扫描仪 诞生于20世纪90年代初,随着平板式扫描仪价格的下降,这类产品也于1997年后退出了历史舞台。 鼓式扫描仪 又称滚筒式扫描仪,在专业印刷排版领域应用最广泛,其感光器件是光电倍增管,性能远远高于CCD类扫描仪。 平板式扫描仪 又称平台式扫描仪,这种扫描仪诞生于1984年,是目前办公用扫描仪的主流产品,扫描幅面一般为A4或者A3 大幅面扫描仪 一般指扫描幅面为A1、A0幅面的扫描仪,又称工程图纸扫描仪。 底片扫描仪 又称胶片扫描仪,英寸甚至更大,光学分辨率一般可以达到2700dpi的水平,更高精度的产品则属于专业级产品。

各类扫描仪的特点 笔式扫描仪 外形与一支笔相似,扫描宽度约四号汉字大小,使用时贴在纸上一行一行的扫描,主要用于文字识别。 条码扫描仪 又称为条码阅读器,其中一种与笔式扫描仪外形相似,主要用于条码的扫描识别,不能用来扫描文字和图像。 实物扫描仪 其结构原理类似于数码相机,它拥有支架和扫描平台,分辨率远远高于市场上常见的数码相机,只能拍摄静态物体,扫描一幅图像所花费的时间与扫描仪相当。 3D扫描仪 结构原理也与传统的扫描仪完全不同,生成的文件是能够精确描述物体三维结构的一系列坐标数据,输入3DMAX中即可完整地还原出物体的3D模型,无彩色和黑白之分。

各类扫描仪

各类扫描仪

各类扫描仪

扫描仪的连接 扫描仪与计算机之间采用的接口类型 EPP接口。

扫描仪的分类 2、SCSI接口。SCSI接口的扫描仪需要一块SCSI卡将扫描仪与计算机相连接(所需的SCSI卡一般在扫描仪中自带) 优点是传输速度较快,扫描质量高; 缺点是需要开机箱安装一块SCSI卡,要占用一个ISA或PCI槽以及相应的中断,安装相对复杂,有可能和其他配件发生冲突。

扫描仪的分类 3、USB接口。现在普遍采用的接口形式,现在的主板都带有USB接口。 优点是速度较EPP快,可带电插拔,即插即用,较新的USB扫描仪可直接由USB口取电,无须另加电源。

扫描仪的技术指标 1、扫描精度 就是我们常说的分辨率,是衡量一台扫描仪档次高低的重要参数,它所体现的是扫描仪在扫描时所能达到的精细程度。 扫描精度通常以DPI(分辨率)表示,DPI值越大,则扫描仪扫描的图象越精细。 扫描分辨率分为光学分辨率和最大分辨率两类,前者是硬件形式的,后者是软件形式的。 光学分辨率是指扫描仪的光学系统可以采集的实际信息量,也就是扫描仪的感光元件--CCD的分辨率。它的表示方式是用垂直分辨率和水平分辨率相乘表示。 DPI(dot per inch)意思是每英寸的象素点数。

扫描仪的技术指标 2、色彩位数 色彩位数表明了扫描仪在识别色彩方面的能力和能够描述的颜色范围,它决定了颜色还原的真实程度,色彩位数越大,扫描的效果越好、越逼真,扫描过程中的失真就越少。从24位(bit)到48位不等,它决定了颜色还原的真实程度。24位的色深就是通常所说的“真彩色”。 3、灰度级 扫描仪的灰度级水平反映了扫描时提供由暗到亮层次范围的能力,具体说就是扫描仪从纯黑到纯白之间平滑过渡的能力。灰度级位数越大,相对来说扫描结果的层次就越丰富、效果越好。常见有8、10、12位(bit)3种灰阶度。

扫描仪的技术指标 感光元件是扫描图像的拾取设备,相当于人的眼球,其重要性不言而喻. 目前扫描仪所使用的感光器件有三种:光电倍增管,电荷偶合器(CCD),接触式感光器件(CIS或LIDE)。 CCD(Charge Coupled Device,电荷耦合器件):是一种半导体芯片。使用CCD作为感光元件的扫描仪,需要通过由一系列透镜、反射镜等组成的光学系统将图像传送到CCD芯片上,所以体积一般较大。分辨率可以达到300 ~1200 或更高. CIS(Contact Image Sensor,接触式传感器件):是一种光电转换器件,它采用一列内置的LED发光二极管照明,直接接触在原稿表面读取图像数据。采用CIS技术的扫描仪没有附加的光学部件,移动部分又轻又小,整个扫描仪可以做得非常轻薄。分辨率为300 ~600.

扫描仪的技术指标 4、扫描幅面。是指扫描仪所能扫描的范围,也就是纸张的大小,一般有A4、A4+、A3等。 5、兼容性。几乎所有的扫描仪都可用于PC,很多SCSI和USB扫描仪标明兼容MAC(苹果)。 6、系统环境。扫描仪工作是需要驱动程序的,这些驱动程序能在哪些系统下使用,比如WIN98、WIN2000、WINNT、XP等,另外有些SCSI和USB扫描仪还有FOR MAC (苹果)OS的驱动。

扫描仪品牌

古籍专用扫描仪——零边距扫描仪

古籍专用扫描仪——零边距扫描仪

扫描仪的应用 光学字符识别 (OCR)

内 容 提 要 一、OCR 简介 二、OCR 的基本原理和工作流程 三、清华 TH-OCR XP 软件的使用 四、进行文字识别时的注意事项

一、OCR 简介 OCR是“光学字符识别”(Optical Character Recognition)的英文缩写。扫描仪等光学输入设备可以将各种报刊、书籍、文稿、票据及其它印刷品的文字转化为图像信息,它要依赖扫描仪等硬件。而利用OCR文字识别技术却可以将图像信息转化为可以进行编辑的文字,是一种计算机输入技术,主要是通过软件实现。 OCR文字识别软件是与扫描仪配套的主要软件,属于非键盘输入范畴。近几年随着扫描仪逐渐普及和OCR技术的日趋完善,OCR己成为大多数扫描仪用户的得力助手,扫描仪厂商现在已把专业的OCR软件搭配自己生产的扫描仪出售。 中文OCR是针对汉字信息高速输入计算机的问题,致力于解决困扰汉字使用者低速信息输入与高速信息处理的矛盾,从而提高整个计算机系统的效率,比手工输入要快几十倍。此时,用户只需要用扫描仪将整页的文本或图像扫描输入到计算机,OCR软件就会自动产生可以编辑的文本文件。

二、OCR 的基本原理和工作流程 (一) OCR 的基本原理 简单地说,就是通过扫描仪将一份文稿的图像输入给计算机(或者说是计算机通过扫描仪获取图像),然后由OCR软件取出每个文字的图像,并将其转换成文字的编码。其具体工作过程是,计算机OCR软件接受文稿的数字图像,然后利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件格式。其中文字识别是OCR的核心技术。

二、OCR 的基本原理和工作流程 (二) OCR 的工作流程

三、常用OCR 软件 常用的OCR软件 尚书OCR 方正OCR 紫光OCR 汉王OCR

四 、清华 TH-OCR XP 软件的使用 (一)OCR 软件简介 现在几乎所有的平板式扫描仪都捆绑了OCR 软件,多数机型的随机软件中不仅有中文版OCR 还有英文版OCR,其实大部分中文版OCR 都兼有识别英文的功能。目前市场比较成熟的中文版OCR 软件有清华文通、尚书、蒙恬、汉王等。这里以清华TH-OCR XP为例,介绍OCR软件的使用。 清华TH-OCR XP 能够适应超过一百种Windows字体,识别全部简体国标一二级6763个字符,繁体13000多字符。在文档识别过程中,对于每个区域可以设定不同的字体,例如一篇文档中的大段英文可以设为英文识别,以提高识别率。TH-OCR XP 支持多任务,可以在识别一篇文章的同时扫描或编辑其它文档。

四 、清华 TH-OCR XP 软件的使用 (二)清华 TH-OCR XP 软件的安装 在所购买紫光扫描仪的随机光盘中,有清华 TH-OCR XP 的安装程序。打开相应的文件夹,双击 setup.exe 文件开始安装,首先进行语言设置,如下图所示(实际安装)。

四 、清华 TH-OCR XP 软件的使用 (三)清华 TH-OCR XP 的窗口 清华TH-OCR XP的窗口如其他Windows程序窗口一样,简洁明快、布局合理、容易上手。窗口分为标题栏、菜单栏、工具栏、工程管理区、图像和识别操作区、状态栏,如下图所示(结合实际窗口介绍)。

四 、清华 TH-OCR XP 软件的使用 (四)清华 TH-OCR XP 软件使用的基本流程 完整的文字识别操作过程包括:设置、扫描、版面处理、识别、编辑修改、输出六个基本步骤,如下图所示。

四 、清华 TH-OCR XP 软件的使用 (五)实际使用清华 TH-OCR XP 软件(处理几个文件) 说明:为了方便,这里使用已经扫描好的图片供OCR 。实际操作时,也可以在OCR软件中扫描文稿并直接加载扫描获得的图片,然后进行识别。 1 .打开清华 TH-OCR XP 软件,并装入要识别的图片(或通过扫描获得)。 2 .进行版面处理,包括倾斜校正、版面处理等。 3 .进行识别。 4 .后处理。 5 .导出。

四 、进行文字识别时的注意事项 在使用OCR软件进行文字识别时,必须认真学习OCR有关知识和理论,特别是系统设置、版面处理和编辑修改的理解和具体操作,并结合实践不断积累经验,摸索出切实可行的解决方案。下面是一些有价值的提示,要认真理解和体会。 1.在扫描仪中一定要放正原稿,不能位置倾斜,否则扫描出来的原稿也会是倾斜的,从而造成OCR软件无法正确识别。另外,在放置扫描原稿时,把扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真。 2.选择适当的分辨力也是很重要的,一般来说,使用200~300dpi的分辨力进行扫描比较合适,如果分辨力太高也没有太大意义,只会增加扫描时间和文件的大小。 3.在扫描识别报纸或其他半透明文稿时,背面的文字透过纸张混淆文字字形,对识别会造成很大的障碍。遇到该类扫描,可以在扫描原稿的背面附盖一张黑纸,并增加扫描对比度,即可减少背面模糊字体的影响,提高识别正确率。

四 、进行文字识别时的注意事项 4.对扫描后生成的图像,用图像处理软件擦掉图像污点,包括原来版面中的不需要识别的插图、分隔线等,使文字图像中除了文字没有一点多余的东西,这可以大提高识别率并减少识别后的修改工作。 5.版面分析。如果需要识别的原稿包含多种字号、多种字体的文字、多个文本区块、图文混排等复杂版面,就需要进行版面分析,将要识别的内容划分为一个块,这样OCR软件才能正确识别。 6.多页批识别功能 。若需识别的文章有多页组成,使用OCR的批量识别功能十分方便。首先将多页文件以TIF的格式按页面顺序依次扫描后存盘。而后再打开它们,一次性进行批量识别,好处是速度快,效率高。一般来说,批量识别的文件版面不要太过复杂,文件页数也要根据计算机配置适量控制。另外,在进行大批量文稿扫描时,必须对原稿进行测试,找到最佳的阀值百分比。

数字图像的文件格式 JPEG(JPG)格式 JPEG格式文件采用的是“有损压缩”编码格式,其压缩率是图像格式中较高的一种,一般可将图像压缩为原大小的十分之一而看不出明显差异。也正是由于JPEG格式可以进行大幅度的压缩,使得它方便储存、通过网络进行传送,得到了广泛的应用。主要用于图像浏览和制作网页。

数字图像的文件格式 GIF格式 最多只能用256色来表现物体,对于色彩复杂的物体它就力不从心,正因为此,它的文件比较小,适合网络传输,在通信行业和HTML网页制作中应用较多。而且它还可以用来制作动画。

数字图像的文件格式 BMP格式 是微软公司为Windows环境设置的标准图像格式,在Windows环境下运行的所有图像处理软件都支持这种格式。采用“无损失压缩”的编码格式,既节省了存储空间又不产生失真,但在打开文件时将会花费较长的时间,不利于网络传输。

数字图像的文件格式 TIF格式 这是现阶段印刷行业使用最广泛的文件格式。TIFF格式可包含压缩和非压缩图像数据,如使用无损压缩方法LZW来压缩文件,图像的数据不会减少,即信息在处理过程中不会损失,能够产生大约2:1的压缩比,可将原稿文件消减到一半左右。

数字化和多媒体技术 --图像处理部分

基本操作——认识PHOTOSHOP

本 章 结 束