Download presentation
Presentation is loading. Please wait.
1
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
第5章 数字媒体及应用 5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
2
5.1 文本与文本处理 5.1.1 字符的编码 5.1.2 文本准备 5.1.3 文本的分类与表示 5.1.4 文本编辑、排版与处理*
5.1 文本与文本处理 字符的编码 文本准备 文本的分类与表示 文本编辑、排版与处理* 文本的展现
3
5.1.1 字符编码
4
西文字符的编码——ASCII码 西文字符由拉丁字母、数字、标点符号以及一些特殊符号所组成 ASCII码是西文字符在计算机中的常用编码方案
美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码): ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符
5
标准ASCII字符集及其码表 0 1 2 3 4 5 6 7 8 9 A B C D E F 1 2 3 4 5 6 7 1 0 0
b6 b5 b4 b3 b2 b1 b0 1 2 3 4 5 6 7 A B C D E F b6b5b4 b3b2b1b0
6
汉字如何编码? 汉字的特点 如何编码? 数量大;多个国家和地区使用;字形复杂,同音字多 确定收入多少字、哪些字?
汉字在字符集中的应怎样排序? 确定使用的代码结构和代码空间
7
常用的汉字编码字符集 国家标准GB2312 汉字扩充规范 GBK 国家标准GB18030
台湾地区的标准汉字字符集CNS (BIG 5,俗称“大五码”) 日本工业标准汉字字符集JIS X 韩国国家标准汉字字符集KSC
8
GB2312汉字编码字符集 1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980 GB2312字符集由三个部分构成:
一级汉字 (3755个) 二级汉字 (3008个) (扩充使用) 字母、数字和各种符号 ……………… 1 94 2 3 位号 …… …… 9 16 55 56 87 区 号 (按汉语拼音排列) (按偏旁部首排列) 共6763个汉字和682个符号,每个汉字或符号都有一个确定位置,该位置的区号和位号就是这个汉字的“区位码” 拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个 (注:区位码仅用于在键盘上输入汉字)
9
GB2312汉字的编码 GB2312汉字的机内码 每一个GB2312汉字使用16位(2个字节)表示 每个字节的最高位均为“1” 输入码
字形码
10
汉字区位码——机内码转换 例子 本1730 学4907 (1)区位码先转换成十六进制数表示
(2)(区位码的十六进制表示)+A0A0H=机内码 ; 例子 本1730 学4907
11
几种汉字编码的对比 GB 18030 编码保持向下兼容 27484汉字 GB2312 GBK UCS-2 (Unicode) 编码 不兼容!
FF 00 FF 21003汉字 6763汉字 GB2312 27484汉字 GB18030 标准名称 GB2312 GBK GB 18030 UCS-2 (Unicode) 字符集 6763个汉字(简体字) 21003个汉字(包括GB2312汉字在内) 27 000多汉字(包括GBK汉字和CJK及其扩充中的汉字) 包含10万字符,其中的汉字与GB18030相同 编码方法 双字节存储和表示,每个字节的最高位均为“1” 双字节存储和表示,第1个字节的最高位必为“1” 部分双字节、部分4字节表示 UTF-8单字节可变长编码 UTF-16双字节可变长编码 兼容性 编码 不兼容! 编码保持向下兼容
12
文本准备 ——文稿如何输入计算机
13
文字符号输入计算机的方法 (1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等
字符信息的输入 人工输入 自动识别输入 键盘输入 (1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法
14
文字符号输入计算机的方法 优点: 不足: 自然,流畅 小型化,适合移动计算 识别速度和正确性还需提高 书写要求还要降低 字符信息的输入
键盘输入 联机手写输入 自动识别输入 字符信息的输入 人工输入 优点: 自然,流畅 小型化,适合移动计算 不足: 识别速度和正确性还需提高 书写要求还要降低
15
文字符号输入计算机的方法 优点: 自然,方便,适合移动计算 不足: 对说话人、说话方式、说话内容的适应能力要大大增强
键盘输入 联机手写输入 语音输入 自动识别输入 字符信息的输入 人工输入 优点: 自然,方便,适合移动计算 不足: 对说话人、说话方式、说话内容的适应能力要大大增强 识别速度和正确性还需大大提高
16
文字符号输入计算机的方法 数字文本 纸介质文本 文本的映象 扫描仪 OCR (image) 识别率已达到98% 功能: 简、繁体字混合识别
中文、西文混合识别 文字、表格混合识别 智能校对功能 印刷体识别 键盘输入 联机手写输入 语音输入 自动识别输入 字符信息的输入 人工输入 扫描仪 OCR 数字文本 纸介质文本 文本的映象 (image)
17
文字符号输入计算机的方法 技术上非常困难,还无法实用 目前准备先突破工整的楷书手写体的识别! 印刷体识别 手写体识别 键盘输入 联机手写输入
语音输入 自动识别输入 字符信息的输入 人工输入 技术上非常困难,还无法实用 目前准备先突破工整的楷书手写体的识别!
18
文本的分类与表示
19
简单文本(纯文本 ) 没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是 .txt
由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息 举例: 本 书 由 南 京 大 学 出 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 版 社 ( P u b l i s h i n g B0 E6 C9 E C E 67 H o u s e o f N a n j i n F F E E 6A E g U n i v e r s i t y ) 出 版 E B3 F6 B0 E6 文本的内容 文本在计算机中的表示
20
丰富格式文本 有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”
21
超文本 若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本” A B C D E F G H a1 a2 b2
文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频 超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等 “超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分
22
文本的展现(输出)
23
文本的展现(输出) 使用的软件:文本阅读器/文本浏览器 文本展现的过程: 嵌入在文本编辑(处理)软件中,如微软的Word,
独立的软件:如Adobe公司的Acrobat Reader,微软公司的IE等 文本展现的过程: 对文本的格式描述进行解释 生成文字和图表的映像(bitmap) 传送到显示器或打印机输出
24
字形的描述 2种不同的字形描述方法: 轮廓点 点阵描述 轮廓描述 直线 二次曲线
Similar presentations