大学计算机基础 二、信息的表示与存储
2.4 非数值数据的表示与存储 主要内容 1.字符编码 2.汉字编码 3.多媒体信息表示
1.字符编码(ASCII码) (American Standard Code for Information Interchange) 128个常用字符,用7位二进制编码,最高位为0,从0到127 控制字符34个:0~32,127; 普通字符:94个。 例如:“a”字符的编码为110 0001,61H,对应的十进制数是97; 空格 20H 32 ‘0’~‘9’ 30H~39H 48~57 ‘A’~‘Z’ 41H~5AH 65~90 ‘a’~‘z’ 61H~7AH 97~122 如同学校用学号唯一表示每个学生,学校的招生规模决定了学号的位数。
如同学校用学号唯一表示每个学生,学校的招生规模决定了学号的位数。
2.汉字编码 每个汉字字形码在汉字字库中的相对位移地址 拼音 五笔等 汉字在机器内部的表示形式,是内部存储,处理,传输汉字的代码,两个字节表示一个汉字。 为了区分西文字符的机内码,每个字节的最高位设为1. GB2312-1980标准汉字字符集,规定在不同的汉字系统中进行汉字交换时使用的编码,简称国标码,两个字节。
(1) 汉字输入码 ① 数字编码: 用4位数字代表一个汉字,如国标区位码、电报码等。 GB2312标准将6763个汉字和700多个符号分成94个区,每个区存放94个汉字和符号。无重码,但是记忆困难。 如:大 2083 工 2504 十进制 ② 拼音编码: 以汉语拼音为基础的输入法,常用有智能ABC、微软拼音、紫光、全拼、搜狗等。(简单易学,重码,拼音为基础) ③ 字形编码: 以汉字的形状确定的编码,如五笔字型、表形输入法。(无重码,快,专业人员)
(2)汉字国标码 为了在计算机中使用汉字,1981年,国家标准局公布了GB2312-80标准汉字字符集,规定了在不同的汉字系统中进行汉字交换时使用的编码,简称国标码。 汉字国标码(GB2312-80)也称汉字交换码, 共收录7445个汉字符号。能表示6763个常用汉字和一些符号。 每个汉字用两个字节、以16进制表示。 汉字分成94个区,每个区存放94个汉字或符号。由区号和位号构成区位码。区位码加上32就构成国标码。 计算机是如何区分字符与汉字的编码呢?
汉字机内码是汉字在机器内部的表示形式,是计算机内部存储、处理、传输汉字的代码。 (3)汉字机内码 汉字机内码是汉字在机器内部的表示形式,是计算机内部存储、处理、传输汉字的代码。 为区别ASCII码,机内码采用将汉字国标码的每个字节的最高位设为1,形成了在计算机内部用来进行汉字存储、运算的编码。 以汉字“大”为例,国标码为34 73H, 二进制: 0011 0100 0111 0011 国标码 二进制: 1011 0100 1111 0011 机内码 B 4 F 3 34 73H+80 80H=B4 F3H,得到机内码为B4F3H 国标码转换为机内码:国标码+8080H=机内码
汉字 区位码 国标码 汉字机内码 大 2083 3473(00110100 01110011)B (10110100 11110011)B 工 2504 1904(00011001 00000100)B (10011001 10000100)B 计算机处理字符数据时,当遇到最高位为1的字节,便将该字节连同其后续最高位为1的另一个字节看做一个汉字;当遇到最高位为0时,则可看做一个ASCII码西文字符,这样就实现了汉字、西文字符的共存和区分。
(4)汉字字形码 汉字的字形码通常有两种表示方式,即点阵和矢量表示方式。 用点阵表示字形时,字形码指的是这个汉字字形点阵的代码。
点阵表示:用点阵表示的码,是汉字的输出形式。它把汉字排成点阵 常用16×16、24×24、32×32、48×48或更高二进制位来存储。 一个16*16点阵的汉字字形占用32个字节,24*24要占用72个字节。 编码、存储方式简单、无需转换直接输出 这类点阵字库汉字最大的缺点是不能放大,一旦放大后就会发现文字边缘的锯齿。 ASCII码的字母存储的也是字母的图片,编码与点阵图片一一对应,需要时调用这个图片,就可以显示对应的字符。
矢量表示:该方式存储的是描述汉字字形的轮廓特征。 矢量方式与点阵相反,矢量字库保存的是对每一个汉字的描述信息,比如一个笔划的起始、终止坐标,半径、弧度等等。需要时,通过计算机的计算,由汉字字形描述程序生成所需大小和形状的汉字点阵。 矢量表示方式可以得到高质量的汉字输出,与最终文字显示的大小和分辨率无关。放大后,不会变形。 Unicode 国际标准编码标准:为了规范编码,采用双字节编码统一表示世界上的主要文字。
键盘输入与屏幕显示
3.多媒体信息表示 多媒体信息是指以文字、声音、图形、图像为载体的信息。计算机除了能够处理、存储数值和文字,还能处理大量多媒体信息。这些多媒体信息虽然表示形式不同,进入到计算机中也要转换为二进制形式表示。
3.多媒体信息表示 (1)音频信息 为了要使计算机能够处理音频信息,便于存储和操作,必须首先要将声音的模拟信号转换为数字信号。按照固定的时间间隔对声波的振幅进行采样,记录所得到的值序列,并转化为二进制序列,得到声波的数字化表示。 常见的几种声音文件格式 扩展名 特点 WAV 记录真实声音,对存储空间需求太大,不便于交流和传播,是Windows系统使用的标准数字音频波形文件 MIDI 比波形文件小,节省空间,但缺乏重现真实自然声音的能力,常用来存放背景音乐 WMA 与MP3格式类似的一种新的音频格式,压缩比和音质方面都超过了MP3,适合网络实时低速率传输 Mp3、Mp4 数字音频编码和有损压缩格式,压缩比高,基本不失真
3.多媒体信息表示 (2)视频信息 视频信号数字化的原理与音频信息数字化相似,以一定的频率对单帧视频信号进行采样、量化、编码等,实现模数转换、彩色空间变换和编码压缩等。
常见的视频文件和流媒体文件格式 扩展名 特点 AVI 采用有损压缩,压缩比高,解决了音频与视频信息的同步问题,已成为Windows视频文件的标准,用于保存电影、电视信息 MPG 按照MPEG标准压缩的全视频文件 WMV 独立于编码方式的标准,可以直接在网上实时观看视频,属于网络流媒体,播放器是Media Player 。 rm 压缩比高,文件小、适合网络传输,属于流媒体文件格式,文件的播放器是RealPlayer ASF 可以直接在网上观看的视频文件格式,压缩和图像质量高,属于流媒体格式,播放器是Media Player 。 FLV 增长最快、最为广泛的视频传播格式,许多在线视频网站都采用此视频格式,属于流媒体格式。CPU占有率低、视频质量良好、体积小、加载速度极快等特点。
(3)图形图像 图形图像文件是多媒体软件中最重要的信息表现形式之一。不同的图像采用不同的处理方式。 常用文件格式: BMP、GIF、JPEG、WMF等。
(3)图形图像 ①位图: 将图像表示成一组点,每一个点称为一个像素,每个像素的显示被编码,编码方式随着应用的不同而不同,分为黑白图像和彩色图像。整个图像就是这些像素的集合。计算机中的许多设备如显示器和打印机,都是根据像素进行操作的。 文件扩展名:BMP 19
(3)图形图像 ②矢量图: 把图像分解为几何结构(如曲线和直线)的组合,通过数学公式定义这些几何结构。这些数学公式是重构图像的指令,计算机存储这些指令,需要生成图像的时候,只要输入图像的尺寸,计算机就能够按照这些指令生成图像。 位图和矢量图的表示方法各有利弊。 位图图像质量高,占用存储空间大,当无限放大时会失真,不够清晰,数码相机使用的就是这种方法。矢量图像放大或缩小时,能够保持原来的清晰度,不会失真。而且矢量图像比位图占用的存储空间小。 20