汉字编码 汉字编码.

Slides:



Advertisements
Similar presentations
国家税务总局关于修改企业所得税年度纳税申报表( A 类, 2014 年版) 部分申报表的公告(国家税务总局公告 2016 年第 3 号) 一、对《企业基础信息表》( A )及填报说明修改如下: (一) “107 从事国家非限制和禁止行业 ” 修改为 “107 从事国家限制或禁止行业 ”
Advertisements

学年度工作总结 —— 上海建桥学院 —— 上海建桥学院 实验室与资产管理处 实验室与资产管理处.
汇编语言 程序设计 第 1 章 基础知识 第 1 章 基础知识 ◆ 汇编语言程序设计概述 ◆ 进位计数制及其相互转换 ◆ 计算机中数的表示 ◆ 计算机中字符的表示 汇编语言程序设计概述 进位计数制及其相互转换 计算机中数的表示 计算机中字符的表示.
1 1.2 信息的表示与存储  数据:数据是对客观事物的符号表示。 如,数值、文字、语言、图形、图像等都是不同形 式的数据。  信息:信息是既是对客观事物变化和特征的反映,又 是事物之间相互作用、相互联系的表征。 信息必须数字化编码,才能用计算机进行传送、存 储和处理。 信息具有针对性和时效性。
2014 年 12 月 企业所得税年度纳税申报表 (A 类, 2014 版 ) 辅导材料(二) A 企业基础信息 A 主表.
石油钻采设备制造企业 序号企业名称所属部门行业生产情况 1 金湖华威重工机械有限公司开发区石油钻采设备制造独立生产 2 金湖政轩石油机械有限公司黎城石油钻采设备制造独立生产, 产品供出口 3 金湖天成机械有限公司黎城石油钻采设备制造和金石铸锻相配套 4 金湖县支点石油科技有限公司闵桥石油钻采设备制造独立生产.
计算机应用基础 江西财经大学信息管理学院 凌传繁
景观水池渗漏的研究 年级专业:12级土木工程 指导教师: ××× 教 学 点: ××××教学点 新疆工程学院继续教育学院 20 年 月 日
2015退伍士兵焊工专业 第一学期 课程名称:计算机基础(一).
第6章 计算机网络基础 信息技术基础.
2015年广东省有色金属学会铝加工专业委员会工作总结
大学计算机基础 山东大学计算机学院 张鹏 高等学校计算机公共教学改革与实践 大学计算机基础 山东大学计算机学院 张鹏
卫生处理单位安全质量检查考核评分表释义 刘 云 凯 天津出入境检验检疫局 2007年5月.
阳光工程引导性培训 宁夏自治区盐池县农广校
《毛泽东思想和中国特色社会主义体系概论》 第一章马克思主义中国化两大理论成果
2010年春季开学学校食堂食品安全知识培训 徐汇区食品药品监督所
进出口食品检验监管 基础讲课内容 我国进出口食品安全管理体系介绍 法律法规 进口食品的检验检疫 出口食品的检验检疫.
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
授课班级 安全技术管理0605班 第 5 次 课 授课时间 2008年3月10日 星期一 授课地点 科技楼401多媒体教室 课题内容:
課程名稱:計算機概論 授課老師:李春雄 博士

總務處營繕組簡報 1.業務職掌 2.九十四年度工作績效 3.工程一覽 4.歷年工作成果 5.未來展望 6.困難及建議.
日新月异的信息技术.
Unicode和多语言信息处理 adoal.
2014年企业所得税汇算清缴相关税收政策 新华区地方税务局 卿继红
你,是扼殺 孩子競爭力的幫兇嗎?.
第十章 季节施工 ——冬期施工准备.
三重有情、修德有愛 2003/12/24.
市八中学 胡亮平 办公室:F504 高中信息科技 市八中学 胡亮平 办公室:F504
的法眼 TMS 95 怎麼都逃不出 套 房 出 租 版 誰用公司電話打私人電話聊天?
2.3 信息表示与编码 所谓编码,就是利用数字串来标识所处理对象的不同个体。
计算机基础.
第 5 章 數字系統與資料表示法.
第二章 數字系統:電腦內部的資料表示法 在第一章中,我們對於電腦有了初步的認識,在深入介紹電腦的各項組成元件之前,首先我們必須先了解另一種不同於人類使用習慣的二進位表示法,由於電腦的半導體、磁性、光學元件適合用來表示二進位,因此二進位表示法非常適合用來設計電腦。
计算机与信息技术应用基础 徐东雨 计算机中心
第一章 信息技术与 计算机文化 潍坊医学院 第一章信息技术与计算机文化.
第二章 计算机基础知识 2.1 计算机系统的组成与工作原理 2.2 数制转换及运算 2.3 数据在计算机中的表示.
过 程 机 械 第五章 高压容器设计.
數字系統與資料表示法 電腦的基本單位 數字系統 數值資料表示法 數值資料與算數運算 數碼系統 浮點數表示法 文字表示法 資料來源:周裕達教授.
3D繪圖軟體 CATIA V5介紹 第十一組 劉子剛.
第一章 计算机基础知识 计算机的基本概念 计算机系统的组成 信息的编码 微型计算机的硬件组成.
RefWorks 簡單、易學、受歡迎的… 線上書目管理工具 漢珍公司 沈妙其 (02) ext224.
中文輸入 拼音輸入法 拆字輸入法 綜合拼音與拆字輸入法 中文手寫輸入法 掃描、中文圖形輸入: 語音輸入法: 微軟新注音、自然輸入法
(C) Active Network CO., Ltd
資料表示法與數字系統 主講:顧叔財 資料來源: 計算機概論.
A3-1 數字系統 A3-2 資料表示法 A3-3 資料的儲存
计算机文化基础 第一章 计算机的基础知识.
中文世界 Ensky.
精進教師研習 QR Code製作教學 資料來源:
第1章 微型计算机基础知识 【本章重点】微型计算机的组成和各部分的作 用,以及计算机中数的表示方法。
致遠管理學院資訊管理學系 授課老師:謝慧民 九十三學年度第一學期
产品使用说明标准和应用 冯 卫 2012年9月.
摩擦力.
微机原理电子教案 微机原理电子教案.
6-1 資料表示法簡介 6-2 數值表示法 6-3 數字系統介紹 6-4 數字系統轉換方式
计算机组成原理 The Principle of Computer
IT&SAMS小組 (IIT - 倉頡輸入法)
全国图书馆联合编目系统异构系统上载 发言人:索晶 2013年12月13日.
小太陽兒童人文藝術學院兒童畫展 地點:住院大樓9F、11F外走道( )
Chinese World hmwang.
任务一:初识计算机 任务二:学习计算机中的信息表示 P /4/7.
第 1 章 文字媒體 多媒體導論與應用-第三版 1.1 文字的格式 1.2 數位化文字的應用 1.3 課後練習
计算机组装、维修及 实训教程 第17章 微机软件的安装与设置 2019年4月11日星期四.
2-1 數位化概念 2-2 資料的數位化 ※ 2-3 基本數位邏輯處理
團體衛生教育護理創意競賽 報告者:護理科 計畫主持人邱馨誼講師
數字系統 資訊工程系 國立清華大學資訊基礎教育 教學改進計畫 數字系統 資訊工程系 /4/22.
会议主题 林龙 2019/5/142019/5/14.
中國大陸加工貿易紙本手冊與電子帳冊監管實施與解析
第一章 数字逻辑基础 1.1 模拟信号与数字信号 1.2 数字电路 1.3 数制 1.4 二进制编码.
Presentation transcript:

汉字编码 汉字编码

汉字编码现状及其根源 多种编码方案共存,不利于交流和共享 新旧标准同台使用,需相互转换 统一标准正在形成 中、日、韩、新等多国同时使用汉字 简繁体汉字并存 地区、国家间的文化、政治差异增加了汉字统一编码的难度 汉字编码

主要汉字(文字)编码标准与规范 ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 Unicode 汉字编码

汉字的几种通行名称 Hanzi,Hantsu,汉字 Ideographic character,表意字符,中文字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan 汉字编码

ASCII码 美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规范编码 包括33个控制码,一个空格码,和94个形象码 形象码中包括了英文大小写字母,阿拉伯数字,标点符号等 国际上大部分电脑的通用编码 汉字编码

文本文件与二进制文件 字符大都是用一个八位二进制数字表示,美标只规定了128个编码,剩下的另外128个数码没有规范,美标中的33个控制码,各厂家用法也不尽一致 文本文件(ASCII Text Files) :美标形象码或空格码组成,通常可在不同电脑系统间直接交换 二进制文件(Binary Files) :含有控制码或非美标码的文件,通常不能在不同电脑系统间直接交换 汉字编码

国标、区位、“准国标” 、机内码 国标:中华人民共和国国家标准信息交换用汉字编码 国标(GB2312-80)表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵 每一横行叫一个“区”,每个区有九十四个“位” 一个汉字在方阵中的坐标,称为该字的“区位码” 例如“中”字在方阵中处于第54区第48位,它的区位码就是5448 汉字编码

区位码表 区位码来源于信息交换用汉字编码字符集(基本集)国家标准(GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55区,55区的最后5个字符没有定义;第二级3008个,位于56至87区 第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。 第二级汉字按部首排序,本标准采用的部首与一般字典用的部首基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。 查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是1610。 汉字编码

例 汉字编码

例 汉字编码

例 汉字编码

例 汉字编码

例 汉字编码

例 汉字编码

国标、区位、“准国标”、机内码 94:美标中形象码的总数,33--126 汉字区、位码各加上32,就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字各加上128,称“准国标”或“机内码” 机内码=(区位码)H + 8080H +2020H 汉字编码

BIG5码 针对繁体汉字的编码,在台湾、香港的电脑系统中得到普遍应用 汉字编码 Big5中二级汉字的排列都采用按笔划数由少到多排列。Big5的设计者实际上是从JIS C 626-1978抄了很多汉字。因为很多汉字既用于中文,又用于日文和韩文,但这3个国家的汉字字形实际上是有一些不同的。Big5中的许多字形与其说是中国汉字,倒不如说更像日本汉字。 汉字编码

ISO/IEC 10646 一个国际标准编号,国际标准化组织(ISO)1993年正式颁布 英文全称:Information technology - Universal Multiple - Octet Coded Character Set,简称UCS 中文全称:信息技术--通用多八位编码字符集,亦称大字符集 宗旨:全球所有文种统一编码 汉字编码

Unicode 英文Universal Code的缩略语 统一编码 是对国际标准ISO/IEC 10646编码的一种称谓 是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码 就内容而言,Unicode和ISO/IEC 10646是一致的,并行的 汉字编码

CJK-中日韩统一汉字 把中国、日本与韩国的英文称谓的首字母用于ISO/IEC 10646中的中、日、韩统一编码汉字的简称 Unihan CJKV或许更准确,V代表越南 汉字编码

ISO/IEC 10646 的体系结构 四维的编码空间 总体上分为128个三维组(group), group的值范围是从00到7F 每一组包含256个平面(plane),每一个平面包含256行(row),每一行包含256个字位(cell),又称为“列”,plane、row、cell的值范围都是从00到FF全编码 整个编码字符集的每个字符都是由4个八位序列表示,(按照组八位、面八位、行八位、列八位的顺序) 可编码空间为:128X256X256X256=32KX64K 汉字编码

ISO/IEC 10646体系结构图 汉字编码

基本多文种平面 第一个平面(00组中的00平面)称作Basic Multilingual Plane(基本多文种平面),简称BMP,并在其上规定了双八位形式,它可以作为双八位编码字符集使用,即在此平面上仅用行、列两个八位就可以表示一个编码字符 汉字编码

BMP的最新概貌 A-Zone(00至4D行) :拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名、数学符号等都在此区域编码 CJK Unified Ideographs,Extension A(3400-4DB5)(6000多码位 ) CJK Unified Ideographs(4E00-9FA5)(20902个编码汉字 ) 韩文 (AC至D7这44行(44X256=11264)) S-ZONE (D8至DF行)for UTF-16 R-Zone(E0至FF行):限制使用区,一些兼容字符、字符的变形显现形式、特殊字符等均放在此区 汉字编码

ISO/IEC 10646空间分配现状 00平面:BMP,被用于全球现已规范语种的基本文字编码,编码空间已基本饱和 01平面:作为拼音文字辅助平面 02平面:作为汉字辅助平面,CJK Extension B即将放入该平面 E0至FF平面:作为该标准的专用平面来使用 其它空间尚未分配 汉字编码

ISO/IEC 10646中CJK汉字组成 CJK统一编码汉字(20902) CJK扩充集A(6585) CJK扩充集B(4万--) 汉字编码

什么是UTF? Unicode transformation format UCS transformation format 汉字编码

UTF-16 Unicode标准的16位编码形式 为每个字符指定一个16位的值 编码形式与ISO/IEC 10646中的定义形式相同 以一个16位的值来编码映射到不大于65535数值的字符,映射到大于65535的数值的字符则被编码成一组16位的值(代用对) 汉字编码

UTF-8 为满足面向字节、基于ASCII码系统的需要而制定(主要用于数据传输、互联网) 用最多达4个字节的序列来表示每个字符,为有效分析字符串,用第一个字节指明某个多字节序列中的字节数 通常用于数据交换 汉字编码

UTF-32 每个字符都表示成一个32位的整数 码长相等,便于某些特殊情况的处理 Unix系统使用 汉字编码

字节顺序标记(BOM) 指示处理器怎样把连续的文本放到一个字节序列中 权值最低的字节位于开头叫做“little-endian”,权值最高的字节位于开头叫做“big-endian” 可用作识别文本文件编码形式的依据 举例来说,在使用Bigendian顺序的计算机中,要存储一个十六进制数4F52所需要的字节将会以4F52的形式存储(比如4F存放在内存的1000位置,而52将会被存储在1001位置)。而在使用Little-endian顺序的系统中,存储的形式将会是524F(52在地址1000处,4F在地址1001处)。IBM的370种大型机、大多数基于RISC的计算机以及Motorola的微处理器使用的是Bigendian顺序,TCP/IP协议也是。而Intel的处理器和DEC公司的一些程序则使用的Little-endian方式。 汉字编码

Windows对Unicode的支持 Windows 3.1, Windows NT 4, Windows 2000, Windows XP支持Unicode.如果在这些操作系统上运行非Unicode编码程序,在处理之前,操作系统在其内部将应用程序的文本转化为Unicode编码的文本,在把信息传回应用程序之前,操作系统把Unicode编码的文本转化回所希望的代码页编码形式。 Windows 95, Windows 98, Windows Me不是基于Unicode的,它们只提供了基于Windows NT的Windows版本所提供的Unicode支持的一个子集 汉字编码

GBK 汉字内码扩展规范,Rules/Specifications defining the extensions of internal codes for Chinese ideograms 为了推进Unicode的实施,同时也是为了向下兼容,由电子部与国家技术监督局联合颁布 在保持GB2312原貌的基础上,将其字汇扩充与ISO 10646中的CJK等量,同时也包容了台湾的工业标准Big5码汉字,此外还为用户留了1894个码位的自定义区 汉字编码

GB18030-2000 信息技术-信息交换用汉字编码字符集-基本集的扩充,Information technology-Chinese ideograms coded character set for information interchange-Extension for the basic set GBK的替代、超集 汉字编码

GB18030-2000 完全包含CJK(Unihan) Extension A 与GBK完全兼容(code- and character- compatible)的同时,为所有其它Unicode码点提供了空间 定义了4字节编码机制 汉字编码

GB18030-2000码位范围分配表 2字节编码共23940个码位 4字节编码共超过150万个码位 汉字编码

ISO 10646/Unicode的实现及其重要意义 在全球范围内建立起实时、无障碍的信息交换模式 推动了汉字典籍的数字化 为数字化图书馆的建立铺平了道路 为弘扬汉字文化提供了舞台 Single Binary技术的诞生:同一套基本程序用于多个语言环境的技术 使汉字关联活起来:正-异关联、中-日关联、繁-简关联,正-讹关联以及古今、新旧字形关联 汉字编码