第七章 现代汉字研究 引子:现代汉字研究的内容 第一节 现代汉字的字量 第二节 现代汉字的字形 第三节 现代汉字的字序 第四节 现代汉字的构字法 第五节 汉字与信息处理 作业7
引子:现代汉字研究的内容 现代汉字学应该包括以下内容 第一,汉字的性质和特点。 第二,现代汉字的属性。现代汉字属性指的是现代汉字所负载的各种信息,包括字量、字形、字音、字序等方面。 第三,现代汉字的应用。 这包括两个界面:人际界面和人机界面。
第一节 现代汉字的字量 一、现代汉字的总字数 二、通用字和常用字 1、《现代汉字表》的研制 ——是规范字表,只收规范字。总字量约10000。 2、现代汉字的来源: 传统汉字占75% ;新造字占2.7%;借用字占1.3%;简化字占20%。 二、通用字和常用字 1、通用字、常用字、罕用字 2、选取通用字和常用字的标准 A、字的频度;B、字的使用度;C、字的构词能力和构字能力。 3、通用字的字量:大约接近7000字。 4、常用字的字量:大约3000多字,其中最常用字2000多字。 5、《现代汉语通用字表》——1988年发布,收字7000个。 6、《现代汉语常用字表》——1988年发布,收常用字3500个,其中一级常用字2500个,二级次常用字1000个。
三、专门用字:以社会某个特定的群体用字为对象。 1、扫盲用字表——2000字(其中必学字1800,参考字200个) 2、小学用字表——《小学语文用字表》3071个 3、汉语水平•汉字等级表——收汉字2905个 四、专业用字 一般用字——人们在非专业行为的交际中所用的字。 专业用字——一般字以外的字。可分九类。 (1)带有文言色彩的字。(2)带有方言色彩的字。(3)姓名用字。(4)史地用字。(5)动植物名称用字。(6)科技用字。 (7)宗教用字。(8)民族用字。(9)译音用字。 五、限制和减少汉字的字数
第二节 现代汉字的字形 字形分析分为溯源分析和现状分析。 溯源分析——以这个字在产生时候的字形为对象所做的分析。(造字法) 现状分析——以这个字当前楷书规范字形为对象所做的分析。 现状分析可分为外部结构分析和内部结构分析。 外部结构分析——纯粹的字形外观结构分析,分析组合成份和组合方式。(构形法) 内部结构分析——研究字形和字音、字义的关系,说明构字理据。(构字法)
一、笔画 1、笔画:指构成汉字的线条,是汉字构形的最小单位。 2、笔画数:最少的是1画,最多的是64画。 3、拥字量:在一个确定的汉字字符集中,每种笔画有多少个汉字,叫做该笔画的拥字量。 笔画太少,不易区别,笔画太多,不便应用。 拥字量最多的是9—12画。 4、笔形:指笔画的形状。 汉字笔形有5种——横、竖、撇、点、折。 折笔笔形规范。 各种笔形的使用规律。 各种笔形的使用频率。 5、笔画的组合: 有三种类型:相离、相接、相交。 6、笔顺:指书写汉字时下笔先后的顺序。 汉字笔顺规范。
二、部件 1、部件:也叫字根、字元、字素,是由笔画组成的具有组配汉字功能的构字单位。||部件小于整字,大于笔画。 2、部件拆分:只根据字形,不考虑字形和字义。(字形拆分原则讨论) 分平面拆分和层次拆分。 平面拆分——一次拆分出基础部件。 层次拆分——逐层拆分,最后得到基础部件。(层次拆分的规则) 3、部件的分类: 成字部件(如“口”)和非成字部件(如“宀扌氵” )、 基础部件(最小的不能再拆分的部件,如“日、刂” )和合成部件(如“早、立” )、 通用部件(参加两个以上不同字形的构字的部件,如“亻、刂” )和特殊部件(只在一种字形结构中出现的部件(孤立部件),如“脊”字头)
二、部件 4、汉字部件规范: 1997年发布。20902个汉字经拆分后得到560个基础部件。 5、部件名称和部位名称 部件名称:成字部件按该字读音,多音字按常读音,非成字部件按习惯名称。 部位名称:上头下底,左旁右边,内心外框、中腰四角。 6、部件的变形:同一个部件出现在字的不同部位而引起的形体变化。 改变部分笔形;拉长或压扁。 7、部件的整理: 整理汉字部件,使它简明、规范,具有通用性,对汉字的规范化、简便化有重要意义。
三、整字 1、独体字与合体字: 由一个部件构成的字是独体字,由几个部件构成的字是合体字。 2、独体字的数量: 195—372个。 3、合体字的部件: 两个部件和三个部件构成的合成字最多。 4、部件组合的规律: 基础部件组合模式:比较复杂。 第一级部件组合模式:分4大类13小类:左右、上下、包围、框架。 1、左右结构:(1)左右(形把),(2)左中右(街班); 2、上下结构:(3)上下(要是),(4)上中下(曼爱); 3、包围结构:(5)全包围(国固), (6)上三包围(问同), (7)左三包围(匡匣), (8)下三包围(凶幽), (9)上左包围(压病), (10)上右包围(句可), (11)下左包围(这延), (12)下右包围(斗头) 4、框架结构: (13)框架(承乖)。
第三节 现代汉字的字序 一、查字法的标准化 1)部首法 2)笔画法 3)四角法 4)音序法:就是汉语拼音字母序列法。 可以分为: 1、单纯字母序列法 2.音节•汉字•字母分层序列法 二、汉字编码的研究(见后面内容)
第四节 现代汉字的构字法 一、字符和字符的分类 1、字符: 汉字的内部结构,即指与字音、字义有联系的汉字构成成份的组合。 构字拆分和构形拆分。构字拆分的结果是字符,构形拆分的结果是部件。 2、字符的类别 根据字符和整字意义的关系,可分为三类:意符、音符、记号。 意符——和整字在意义上有联系的字符。如“刂(割刻)、扌(打按)、艹(草蒿)”。 音符——和整字在读音上有联系的字符。如“皇(隍蝗惶)、巴(爸吧疤)”。 记号——和整字在意义和读音上都没有联系的字符。如“丁(灯厅打)、×(赵杀)”。
第四节 现代汉字的构字法 二、现代汉字的新六书 (1)会意字,由两个或两个以上的意符构成,如“从、析”。 (2)形声字,由形符和意符构成,如“疤、病”。 (3)半意符半记号字,由意符和记号构成,如“布、缸”。 (4)半音符半记号字,由音符和记号构成,如“球、笨”。 (5)独体记号字,由一个记号构成,如“日、月”。 (6)合体记号字,由两个或两个以上的记号构成,如“马、燕”。 三、现代汉字的理据性 1、文字的理据性:文字符号和语言成份建立的联系有道理可说。 2、现代汉字的构字理据: 汉字的理据性是指意符、音符和字义字音有联系。 3、理据度及其计算 现代汉字的理据度大约在50%。 4、汉字的溯源分析
第五节 汉字与信息处理 一、汉字信息处理的过程 通常汉字信息处理的过程分为三个阶段: 汉字信息的输入 汉字信息的处理 汉字信息的输出 二、汉字编码及其评价
三、理想的汉字编码方案及计算机汉字输入系统应满足的指标 (1)规范性: 音码编码方案符合《汉语拼音方案》;形码编码方案符合汉字结构规律和语言文字规范; 音码和形码方案均应遵循《信息交换用汉字编码字符集》的有关规定。 (2)易学性: a编码规则简单、明确,部件与键位分布科学、合理,易学易记; b拆分规则和编码规则符合汉字认知过程; c学后不易忘记,间断使用时易于恢复; d规则的二义性小、码表与编码规则的符合程度高; e字量升级时,编码方法与规则不变。 (3)快速性:分为两类: 编码方案指标评价: a静态字、词平均码长;b静态字、词重码率;c静态键位分布系数等;d不等长编码技术。 软件系统指标评价:a高频先见技术;b字、词混合输入(无需键位切换)技术;c重码自动区分、词组自动编码等智能技术。 (4)兼容性:与国际通用键盘兼容;与多种显示终端兼容;与通用系统兼容; (5)一致性:编码规则应前后一致,贯彻始终,不能自相矛盾,同类结构的汉字应使用相同的编码规则,尽量避免随意性。 (6)完备性: 信息处理用汉字集通常分三个层次:基本集(含国标一、二级汉字共6763个),IS0一IEC大字符集(包括基本集和辅助集,共20902个汉字)和全汉字集(包括全部汉字约60000个左右)
作业 1、现代汉字研究练习题。(见课外补充材料)(名词解释和简述题,包括部分汉字规范化、汉字教学的内容。) 2、汉字编码方案应该满足怎样的指标体系?