信息的编码 信息的编码 ——汉字的编码 本资料来自于资源最齐全的21世纪教育网www.21cnjy.com
汉字有多少? 《说文解字》(公元100年)收9353字; 《声类》(227-239年)收11520字; 《玉篇》(543年)收22726字; 《唐韵》(751年)收26194字; 《类篇》(1066年)收31319字; 《字汇》(1615年)收33179字; 《康熙字典》(1716年)收47035字; 《中华大字典》(1915年)收48000字; 《中文大字典》(1968年)收49905字; 《汉语大字典》(1986年)收56000字。 本资料来自于资源最齐全的21世纪教育网www.21cnjy.com
汉 字 编 码 由于汉字是象形文字,字的数目很多,常用汉字就有3000~5000个,加上汉字的形状和笔画多少差异极大,因此,不可能用少数几个确定的符号将汉字完全表示出来,像英文那样将汉字拼写出来。 汉字必须以独特的编码(每个汉字一个编码),实现二进制代码表示。由于汉字数量多,用一个字节是无法表示的,所以汉字需要用多个字节表示。 本资料来自于资源最齐全的21世纪教育网www.21cnjy.com
处理汉字信息需要解决的几个问题: 汉 字 编 码 1、怎样将汉字输入计算机? 2、在计算机之间怎样交换汉字信息? 3、在计算机内部怎样处理汉字? 4、计算机如何实现汉字信息的输出? 汉 字 编 码 本资料来自于资源最齐全的21世纪教育网www.21cnjy.com
1、汉字输入 ——输入码(外码) 汉 字 编 码 汉字字型自动识别 输 入 汉 字 有 两 种 方 法: 自动识别方式 汉字语音自动识别 (拼音码) 音码 形码 (五笔字型码) 将汉字编码输入 本资料来自于资源最齐全的21世纪教育网www.21cnjy.com 输入码 (外码) 形音码 利用汉字的音或形进行编码 音形码 (郑码)
2、汉字信息的交换 汉 字 编 码 交换码—区位码 为了方便数字系统之间汉字信息通信交换的需要,1981年,国家颁布了编号为GB2312—80标准《信息交换用汉字编码及字符集》,这种汉字交换用的代码又称区位码。 本资料来自于资源最齐全的21世纪教育网www.21cnjy.com
汉 字 编 码 计算机中采用2个字节来储存区位码, 第一个字节标记区码,最高位是“0”。 第二个字节标记位码,最高位是“0”。 交换码(区位码):94×94矩阵方式排列 汉 字 编 码 计算机中采用2个字节来储存区位码, 第一个字节标记区码,最高位是“0”。 第二个字节标记位码,最高位是“0”。
汉 字 编 码 汉字的内部处理 ——处理码(内码) 处理码计算机内部用于存储、加工处理、传输统一使用的代码。 处理码占用2个字节 处理码连续两个字节的最高位分别置为1 (作为中英区分标志)
字形码 字形码:汉字字库中存储的汉字字形的数字化信息,用于汉字的显示和打印 点阵方式:汉字字形点阵的代码,每个点的虚实来表示汉字的轮廓,16×16或24×24个点,点阵字库汉字最大的缺点是不能放大,一旦放大后就会发现文字边缘的锯齿。一个汉字方块中行数、列数分得越多,描绘的汉字也就越细微,但占用的存储空间也就越多。 本资料来自于资源最齐全的21世纪教育网www.21cnjy.com
字形码 矢量方式:保存的是对每一个汉字的描述信息,比如一个笔划的起始、终止坐标,半径、弧度等等。在显示、打印这一类字库时,要经过一系列的数学运算才能输出结果,但是这一类字库保存的汉字理论上可以被无限地放大,笔划轮廓仍然能保持圆滑。 本资料来自于资源最齐全的21世纪教育网www.21cnjy.com
小结 输入码(外码):为了将汉字通过键盘输入计算机而设计的代码 交换码(区位码):为了方便各种数字系统之间的汉字信息的交换制定的标准。规定汉字收集数量、排列顺序。 处理码(内码):计算机内部实际存储每个汉字的编码。 本资料来自于资源最齐全的21世纪教育网www.21cnjy.com 字形码:汉字字库中存储的汉字字形的数字化信息,用于汉字的显示和打印