Presentation is loading. Please wait.

Presentation is loading. Please wait.

计算机发展早期主要用于科学计算,现在计算机在日常生活的应用主要是处理非数值信息,那计算机如何表示以及处理非数值信息的?

Similar presentations


Presentation on theme: "计算机发展早期主要用于科学计算,现在计算机在日常生活的应用主要是处理非数值信息,那计算机如何表示以及处理非数值信息的?"— Presentation transcript:

1 计算机发展早期主要用于科学计算,现在计算机在日常生活的应用主要是处理非数值信息,那计算机如何表示以及处理非数值信息的?
新课导入 计算机发展早期主要用于科学计算,现在计算机在日常生活的应用主要是处理非数值信息,那计算机如何表示以及处理非数值信息的?

2 第4章 数字媒体及应用 4.1 数字文本 4.2 数字图像 4.3 数字声音 4.4 数字视频

3 4.1.1 字符的编码 4.1.3 文本的分类 4.1.2 文本准备 4.1.4 文本编辑和处理 4.1.5 文本展现
4.1 文本 字符的编码 文本的分类 文本准备 文本编辑和处理 文本展现

4 计算机文字处理过程 文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体
文本由一系列 “字符”(character)组成,每个字符均使用二进制编码表示 文本在计算机中的处理过程是: 文本处理 (文本处理软件) (3) (文本编辑器) 文本编辑与排版 格式化的电子文本 (2) 文本准备 电子文本 (1) (文字与图表 的输入) 文本存储 与传输 (4) (存档/通信软件) 文本展现 (文本阅读器) (5)

5 字符的编码

6 字符、字符集及其码表 文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等
字符集:一组特定字符的集合 不同的字符集包含的字符数目与内容不同,如: 中文字符集、西文字符集、日文字符集等 字符的编码: 字符集中每个字符都使用二进位表示,称为该字符的编码 不同的字符其编码各不相同 字符集中所有字符的编码的一览表,称为该字符集的码表

7 西文字符的编码——ASCII码 西文是由拉丁字母、数字、标点符号以及一些特殊符号所组成
美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码): ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符

8 课堂练习 1、最常用的西文字符集是ASCII字符集,其中ASCII是American Standard Code for Information Interchange的缩写,对应的中文全称为 。 2、在计算机中,一般使用一个 来存放一个ASCII码。 美国标准信息交换码;字节;内码;像素;分色

9 标准ASCII字符集及其码表 0 1 2 3 4 5 6 7 8 9 A B C D E F 1 2 3 4 5 6 7 1 0 0
b6 b5 b4 b3 b2 b1 b0 1 2 3 4 5 6 7 A B C D E F b6b5b4 b3b2b1b0

10 课堂练习 1、大写英文字母C的十进制ASCII码值为67,则小写英文字母d的ASCII值为 。 A、70 B、68 C、101 D、100
C; D; A

11 汉字如何编码? 汉字的特点 数量大;多个国家和地区使用;字形复杂,同音字多,异体字多 如何编码? 确定收入多少字、哪些字?
汉字在字符集中的排序方式 确定使用的代码结构和代码空间

12 常用的汉字编码字符集 国家标准GB2312 汉字扩充规范 GBK 国家标准GB18030
台湾地区的标准汉字字符集CNS (BIG 5,俗称“大五码”) 日本工业标准汉字字符集JIS X 韩国国家标准汉字字符集KSC

13 GB2312汉字编码字符集 1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980 GB2312字符集由三个部分构成:
一级汉字 (3755个) 二级汉字 (3008个) (扩充使用) 字母、数字和各种符号 ……………… 1 94 2 3 位号 …… …… 9 16 55 56 87 区 号 (按汉语拼音排列) (按偏旁部首排列) 共6763个汉字和682个符号,每个汉字或符号都有一个确定位置,该位置的区号和位号就是这个汉字的“区位码” 拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个 (注:区位码仅用于在键盘上输入汉字)

14 GB2312汉字的编码 每一个GB2312汉字使用16位(2个字节)表示 每个字节的最高位均为“1” 在16位代码空间中的码位分布:
1 第 2字节 E A FE 00 81 A1 FE GB2312 图形符号 汉字代码空间 (6763个汉字) B0 F7 16位的代码空间共有216 =65536个码位 A1A1= ,这为汉字内码,从国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。如:“保”字的国标码为3123H,它是经过下面的转换得到的:1703D→1103H+2020H→3123H。 国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,如“保”字,国标码为31H和23H,而西文字符“1”和“#”的SCII也为31H和23H,现假如内存中有两个字节为31H和23H,;这到底是一个汉字,还是两个西文字符“1”;和“#”?于是就出现了二义性,显然,国标码是不可能在计算机内部直接采用的,于是,;汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,如:由上面我们知道,“保”字的国标码为3123H,前字节为 B,后字节为 B,高位改1为 B和 B 即为B1A3H,因此,字的机内码就是B1A3H;。 显然,汉字机内码的每个字节都大于128,这就解决了与西文字符的ASCII码冲突的问题。 如上所述,汉字输入码、区位码、;国标码与机内码都是汉字的编码形式,它们之间有着千丝万缕的联系,但其间的区别也是不容忽视的 汉字的国标码=汉字的区位码十进制转换为十六进制,再加上2020H。 汉字的机内码=汉字的国标码(十六进制)+8080H 简单的方法: 先将区位码的高位和低位,变成16进制。 加 2020H 就是国标码;再加 8080H 就是机内码。 从区位码到机内码,也就是直接加A0A0H,就可以了。 如某汉字的区位码是5448,54化成16进制是36,48化成16进制是30 合起来是3630H,加A0A0H,结果是D6D0H,所以其机内码是D6D0。

15 课堂练习 1、汉字从键盘录入到存储在计算机中,涉及汉字输入码和 汉字 两种编码。 美国标准信息交换码;字节;内码;像素;分色

16 GB2312汉字编码的不足之处 GB2312汉字字数太少,无法满足一些特殊应用的需要: 人名、地名; 古籍整理、古典文献研究。 没有繁体字
编码效率不高: ( )/65536 与ASCII码不兼容

17 (2)GBK汉字内码扩充规范 : 与GB2312国标汉字字符集及其内码保持兼容 组成:21003个汉字,883个图形符号 GBK字符集中的每个字符都采用双字节表示

18 (3) GB18030 为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国发布GB18030汉字编码国家标准。 GB18030编码方案: 单字节编码(128个)表示ASCII字符 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符

19 几种汉字编码的对比 GB 18030 编码保持向下兼容 27484汉字 GB2312 GBK 字符集 6763个汉字 (简体字)
FF 00 FF 20902汉字 6763汉字 GB2312 27484汉字 GB18030 标准名称 GB2312 GBK GB 18030 字符集 6763个汉字 (简体字) 21003个汉字 (包括GB2312汉字在内) 27 000多汉字 (包括GBK汉字和CJK及其扩充中的汉字) 编码方法 双字节存储和表示,每个字节的最高位均为“1” 双字节存储和表示,第1个字节的最高位必为“1” 部分双字节、部分4字节表示 兼容性 编码保持向下兼容

20 课堂练习 1、下面是关于我国汉字编码标准的叙述,其中正确的是 。 A、我国最新发布的也是收字最多的汉字编码国家标准是Unicode B、无论采用哪一种汉字编码标准,汉字在计算机系统内均采用双字节表示 C、在最新的汉字编码国家标准中,同一个汉字的不同字形(如简体和繁体)在计算机中的内码不同 D、GB 2312—80编码与我国台湾地区发布和使用的BIG 5兼容 C; D; A

21 文本准备 ——文稿如何输入计算机

22 文字符号输入计算机的方法 印刷体识别 手写体识别 键盘输入 联机手写输入 语音输入 自动识别输入 字符信息的输入 人工输入

23 汉字的键盘输入 汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码”
优秀的汉字键盘输入编码应具有的特点: 易学习、易记忆 效率高(平均击键次数较少) 重码少 容量大(可输入的汉字字数多)

24 汉字键盘输入方法的比较 类型 原理 举例 优点 缺点 数字 编码 使用一串数字来表示汉字 电报码 区位码 仅使用10个数字键 难记忆 字音
把汉语的拼音作为汉字的输入编码 智能ABC 微软拼音 简单易学,适合于非专业人员 重码多 字形 按照汉字结构及其切分规则作为编码依据 五笔字形 重码少、输入速度较快,适合于专业录入员、打字员使用 编码规则不易掌握 手写汉字识别速度:每秒12字以上。可识别字数:符合GBK和国标GB18030要求,可识别简体字、繁体字、异体字、英文、数字、日文假名及各种符号近三万字。正识率:工整字95%;自由字90% 使用语音输入文本的系统也叫做“听写机”或“语音打字机”,最高目标:非特定人大词汇量的连续语音识别技术 汉字OCR识别率已达到98%,专业使用应达到0.0x %数量级。其他功能:简、繁体字混合识别;中文、西文混合识别;文字、表格混合识别 脱机手写汉字识别现状:先突破工整的楷书手写体识别

25 文本的分类

26 简单文本(纯文本 ) 不能插入图片、表格,也不能建立超链接,其文件后缀名是 .txt
由一串字符编码所组成,几乎不包含任何其他的格式信息和结构信息 举例: 本 书 由 南 京 大 学 出 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 版 社 ( P u b l i s h i n g B0 E6 C9 E C E 67 H o u s e o f N a n j i n F F E E 6A E g U n i v e r s i t y ) 出 版 E B3 F6 B0 E6 文本的内容 文本在计算机中的表示

27 本书由南京大学出版社(Publishing House of Nanjing University)出版
丰富格式文本 有字体字号等属性变化,设置了段落和页面排版格式的文本称为“丰富格式文本” 除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。 举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中 本书由南京大学出版社(Publishing House of Nanjing University)出版 使用HTML语言描述为: <p align="center"><font face="黑体">本书由南京大学出版社</font><font face="Arial Black">(Publishing House of Nanjing University)</font><font face="黑体">出版</font></p> 用一对< >指出的是标记,如<font face=“黑体”> 和 </font>等,用于说明排版的格式和文字属性,它们不属于正文内容 正文内容

28 超文本 若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本” A B C D E F G H a1 a2 b2
文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频 超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等 “超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分

29 4.1.4 文本的编辑与处理

30 1、文本编辑(text editing) 目的:确保文本内容正确无误
操作:对字、词、句和段落进行添加、删除、修改等操作(主要是解决文本外观问题) MS Word的功能: 在文本的任何位置都可以插入新的文字 从文本的任何位置都可以删除不需要的文字 将一段文字从一处移动到另一处 将一段文字从一处复制到另一处 在文本中自动查找指定的词语 用一个词语自动替换文本中指定的词语

31 文本排版(格式化) 目的:使文本清晰、美观、便于阅读 操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次:
对字符格式进行设置 对段落格式进行设置 对文档页面进行格式设置

32 2、文本处理 字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换 词语排序,词语错误检测,文句语法检查
对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理(不是解决文本外观问题) 文本处理内容: 字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换 词语排序,词语错误检测,文句语法检查 自动分词,词性标注,词义辨识,大陆/台湾术语转换 关键词提取,文摘自动生成,文本分类 文本检索(关键词检索、全文检索),文本过滤 文语转换(语音合成),文种转换(机器翻译) 篇章理解,自动问答,自动写作等 文本压缩,文本加密,文本著作权保护

33 文本的展现(输出)

34 文本的展现(输出) 目的:阅读、浏览或打印文本 使用的软件:文本阅读器/文本浏览器 文本展现的过程:
嵌入在文本编辑(处理)软件中,如微软的Word, 独立的软件:如Adobe公司的Acrobat Reader,微软公司的IE等 文本展现的过程: 对文本的格式描述进行解释 生成文字和图表的映像(bitmap) 传送到显示器或打印机输出

35 附:输出过程中字形的生成 过程: 2种不同的字库: 点阵描述 轮廓描述 先根据字符的字体确定相应的字库(font),
再按照该字符的代码从字库中取出该字符的形状描述信息 然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换 最后将变换得到的字形放置在页面的指定位置处 2种不同的字库: 轮廓点 点阵描述 轮廓描述 直线 二次曲线


Download ppt "计算机发展早期主要用于科学计算,现在计算机在日常生活的应用主要是处理非数值信息,那计算机如何表示以及处理非数值信息的?"

Similar presentations


Ads by Google