Download presentation
Presentation is loading. Please wait.
1
汉字编码 汉字编码
2
汉字编码现状及其根源 多种编码方案共存,不利于交流和共享 新旧标准同台使用,需相互转换 统一标准正在形成 中、日、韩、新等多国同时使用汉字
简繁体汉字并存 地区、国家间的文化、政治差异增加了汉字统一编码的难度 汉字编码
3
主要汉字(文字)编码标准与规范 ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS
ISO/IEC 10646 Unicode 汉字编码
4
汉字的几种通行名称 Hanzi,Hantsu,汉字 Ideographic character,表意字符,中文字符 Kanji-日文中的叫法
Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan 汉字编码
5
ASCII码 美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规范编码
包括33个控制码,一个空格码,和94个形象码 形象码中包括了英文大小写字母,阿拉伯数字,标点符号等 国际上大部分电脑的通用编码 汉字编码
6
文本文件与二进制文件 字符大都是用一个八位二进制数字表示,美标只规定了128个编码,剩下的另外128个数码没有规范,美标中的33个控制码,各厂家用法也不尽一致 文本文件(ASCII Text Files) :美标形象码或空格码组成,通常可在不同电脑系统间直接交换 二进制文件(Binary Files) :含有控制码或非美标码的文件,通常不能在不同电脑系统间直接交换 汉字编码
7
国标、区位、“准国标” 、机内码 国标:中华人民共和国国家标准信息交换用汉字编码
国标(GB )表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵 每一横行叫一个“区”,每个区有九十四个“位” 一个汉字在方阵中的坐标,称为该字的“区位码” 例如“中”字在方阵中处于第54区第48位,它的区位码就是5448 汉字编码
8
区位码表 区位码来源于信息交换用汉字编码字符集(基本集)国家标准(GB ),该标准收汉字6763个,第一级3755个,位于16至55区,55区的最后5个字符没有定义;第二级3008个,位于56至87区 第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。 第二级汉字按部首排序,本标准采用的部首与一般字典用的部首基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。 查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是1610。 汉字编码
9
例 汉字编码
10
例 汉字编码
11
例 汉字编码
12
例 汉字编码
13
例 汉字编码
14
例 汉字编码
15
国标、区位、“准国标”、机内码 94:美标中形象码的总数,33--126
汉字区、位码各加上32,就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字各加上128,称“准国标”或“机内码” 机内码=(区位码)H H +2020H 汉字编码
16
BIG5码 针对繁体汉字的编码,在台湾、香港的电脑系统中得到普遍应用 汉字编码
Big5中二级汉字的排列都采用按笔划数由少到多排列。Big5的设计者实际上是从JIS C 抄了很多汉字。因为很多汉字既用于中文,又用于日文和韩文,但这3个国家的汉字字形实际上是有一些不同的。Big5中的许多字形与其说是中国汉字,倒不如说更像日本汉字。 汉字编码
17
ISO/IEC 10646 一个国际标准编号,国际标准化组织(ISO)1993年正式颁布
英文全称:Information technology - Universal Multiple - Octet Coded Character Set,简称UCS 中文全称:信息技术--通用多八位编码字符集,亦称大字符集 宗旨:全球所有文种统一编码 汉字编码
18
Unicode 英文Universal Code的缩略语 统一编码 是对国际标准ISO/IEC 10646编码的一种称谓
是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码 就内容而言,Unicode和ISO/IEC 10646是一致的,并行的 汉字编码
19
CJK-中日韩统一汉字 把中国、日本与韩国的英文称谓的首字母用于ISO/IEC 10646中的中、日、韩统一编码汉字的简称 Unihan
CJKV或许更准确,V代表越南 汉字编码
20
ISO/IEC 10646 的体系结构 四维的编码空间 总体上分为128个三维组(group), group的值范围是从00到7F
每一组包含256个平面(plane),每一个平面包含256行(row),每一行包含256个字位(cell),又称为“列”,plane、row、cell的值范围都是从00到FF全编码 整个编码字符集的每个字符都是由4个八位序列表示,(按照组八位、面八位、行八位、列八位的顺序) 可编码空间为:128X256X256X256=32KX64K 汉字编码
21
ISO/IEC 10646体系结构图 汉字编码
22
基本多文种平面 第一个平面(00组中的00平面)称作Basic Multilingual Plane(基本多文种平面),简称BMP,并在其上规定了双八位形式,它可以作为双八位编码字符集使用,即在此平面上仅用行、列两个八位就可以表示一个编码字符 汉字编码
23
BMP的最新概貌 A-Zone(00至4D行) :拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名、数学符号等都在此区域编码
CJK Unified Ideographs,Extension A(3400-4DB5)(6000多码位 ) CJK Unified Ideographs(4E00-9FA5)(20902个编码汉字 ) 韩文 (AC至D7这44行(44X256=11264)) S-ZONE (D8至DF行)for UTF-16 R-Zone(E0至FF行):限制使用区,一些兼容字符、字符的变形显现形式、特殊字符等均放在此区 汉字编码
24
ISO/IEC 10646空间分配现状 00平面:BMP,被用于全球现已规范语种的基本文字编码,编码空间已基本饱和
01平面:作为拼音文字辅助平面 02平面:作为汉字辅助平面,CJK Extension B即将放入该平面 E0至FF平面:作为该标准的专用平面来使用 其它空间尚未分配 汉字编码
25
ISO/IEC 10646中CJK汉字组成 CJK统一编码汉字(20902) CJK扩充集A(6585) CJK扩充集B(4万--)
汉字编码
26
什么是UTF? Unicode transformation format UCS transformation format
汉字编码
27
UTF-16 Unicode标准的16位编码形式 为每个字符指定一个16位的值 编码形式与ISO/IEC 10646中的定义形式相同
以一个16位的值来编码映射到不大于65535数值的字符,映射到大于65535的数值的字符则被编码成一组16位的值(代用对) 汉字编码
28
UTF-8 为满足面向字节、基于ASCII码系统的需要而制定(主要用于数据传输、互联网)
用最多达4个字节的序列来表示每个字符,为有效分析字符串,用第一个字节指明某个多字节序列中的字节数 通常用于数据交换 汉字编码
29
UTF-32 每个字符都表示成一个32位的整数 码长相等,便于某些特殊情况的处理 Unix系统使用 汉字编码
30
字节顺序标记(BOM) 指示处理器怎样把连续的文本放到一个字节序列中
权值最低的字节位于开头叫做“little-endian”,权值最高的字节位于开头叫做“big-endian” 可用作识别文本文件编码形式的依据 举例来说,在使用Bigendian顺序的计算机中,要存储一个十六进制数4F52所需要的字节将会以4F52的形式存储(比如4F存放在内存的1000位置,而52将会被存储在1001位置)。而在使用Little-endian顺序的系统中,存储的形式将会是524F(52在地址1000处,4F在地址1001处)。IBM的370种大型机、大多数基于RISC的计算机以及Motorola的微处理器使用的是Bigendian顺序,TCP/IP协议也是。而Intel的处理器和DEC公司的一些程序则使用的Little-endian方式。 汉字编码
31
Windows对Unicode的支持 Windows 3.1, Windows NT 4, Windows 2000, Windows XP支持Unicode.如果在这些操作系统上运行非Unicode编码程序,在处理之前,操作系统在其内部将应用程序的文本转化为Unicode编码的文本,在把信息传回应用程序之前,操作系统把Unicode编码的文本转化回所希望的代码页编码形式。 Windows 95, Windows 98, Windows Me不是基于Unicode的,它们只提供了基于Windows NT的Windows版本所提供的Unicode支持的一个子集 汉字编码
32
GBK 汉字内码扩展规范,Rules/Specifications defining the extensions of internal codes for Chinese ideograms 为了推进Unicode的实施,同时也是为了向下兼容,由电子部与国家技术监督局联合颁布 在保持GB2312原貌的基础上,将其字汇扩充与ISO 10646中的CJK等量,同时也包容了台湾的工业标准Big5码汉字,此外还为用户留了1894个码位的自定义区 汉字编码
33
GB 信息技术-信息交换用汉字编码字符集-基本集的扩充,Information technology-Chinese ideograms coded character set for information interchange-Extension for the basic set GBK的替代、超集 汉字编码
34
GB18030-2000 完全包含CJK(Unihan) Extension A
与GBK完全兼容(code- and character- compatible)的同时,为所有其它Unicode码点提供了空间 定义了4字节编码机制 汉字编码
35
GB 码位范围分配表 2字节编码共23940个码位 4字节编码共超过150万个码位 汉字编码
36
ISO 10646/Unicode的实现及其重要意义
在全球范围内建立起实时、无障碍的信息交换模式 推动了汉字典籍的数字化 为数字化图书馆的建立铺平了道路 为弘扬汉字文化提供了舞台 Single Binary技术的诞生:同一套基本程序用于多个语言环境的技术 使汉字关联活起来:正-异关联、中-日关联、繁-简关联,正-讹关联以及古今、新旧字形关联 汉字编码
Similar presentations