汉字规范与 规范汉字表的研制 2008.11.8
《规范汉字表》的研制情况 《规范汉字表》是国家当代书写现代汉语通用语文本、处理现代社会与民众直接相关的大规模信息所通用的汉字集合,体现国家当代通用汉字在字量、字形等方面的规范。《字表》共分三级: 一级字表为基本通用字,是书写现代汉语文本使用效度最高、规范作用最大的汉字的集合,是九年制义务教育基本用字,即常用字字集。 二级字为次通用字,是使用频度仅次于常用字、在常用字基础上有所扩展的社会通用字,是知识阶层和现代汉语专业出版物所需的扩展用字; 三级字表是从人名用字、地名用字、科技用字和基础教育文言文用字中选择的准通用字,即一二级字表未能收入而在上述四个领域中使用频度仍然较高的字。
《规范汉字表》的配套工作 新的《规范汉字表》研制完毕后,与《规范汉字表》配套的《规范汉字字典》正在统稿阶段。 与《规范汉字表》配套的《指南》也在积极编写中。《指南》说明了《字表》研制的理念,新旧规范的承袭和差异,应用的范围、方法、原则,并提供了新的《异体字整理表》和《简繁字对照表》。 《规范汉字表》将在各个领域应用,关于新规范的理念与应用原则,将靠第一线的工作者们广泛宣传和细致指导。
信息时代是汉字规范的必要性 更加突显的时代 我国现代汉字规范工作酝酿于20世纪初期。新中国成立后,由于一些领导人的提倡,这项事业由学术层面转为国家行为,20世纪50年代以来的汉字规范政策,重要的是由国务院直接发布的,一般的或补充性质的,也是在国务院批转的情况下,由文化、教育、出版或语言文字主管部门单独或联合发布的。
这些文件的发布和半个世纪的贯彻实践,为我国人民的语言文字生活注入了新的内容,形成了全国人民尤其是语言文字工作者牢不可破的规范意识和遵循规范的用字习惯,减少了各个领域使用汉字的难度,对文化、教育、出版和科技的发展,起到了无形地重要推动作用。试想一下,在幅员辽阔、人口众多的中国,政治经济如此统一的情况下,如果没有通用层面的汉字规范,仅仅是国家政令和基础教育这两项,书写不一的汉字将要带给人们多少麻烦,就可以知道“规范”二字具有多大的分量了!
中国正在实施的创新型国家的伟大战略中,信息化成为实现这一目标的重要支撑。有人说:“现在的文字已经很少手写,计算机的贮存空间又这样大,规范的必要性已经逐渐减退了。” 事实上,在信息时代,发展政治、经济、文化的重要条件,是及时和准确地获得和传播必要的信息。计算机成为传播信息的工具,实现了信息传播的高速度远距离和高度的社会化。 有了汉字这种传播载体的标准化,才能实现信息传播的速度和信度。在这种情况下,汉字规范的作用就更加突显出来。
汉字规范的科学性 汉字是记录汉语的符号,一般情况下,它的产生、发展都是自然进行的。在汉字自然发展的过程中,内在的矛盾不断产生。汉字在为全民所应用的长期过程中,受到各种内在关系和外在力量的相互制约而产生自组织现象,调节着简与繁、多与省、乱与整的诸多矛盾,适应着社会的需要。 尽管有客观规律操纵着汉字的存在与发展,处在某一具体阶段的汉字,从总体看,矛盾的存在是绝对的,平衡则是相对的,自发调节这些矛盾达到平衡的状态需要经过相当长的时间。因此,在一定时期,为了需要必须进行人为的规范时,目的是使汉字内部矛盾的调节在短期内奏效。 所以,它必须符合汉字发展的客观的规律,一旦违背了汉字发展和使用的规律,那就必然使文字符号更难使用,更不切合社会的需要,与规范的初衷背道而驰。汉字规范的科学性就是在人为调节诸多矛盾时,必须遵循或不能违背汉字自身的发展规律。
汉字的字量既要够用又需要控制 汉字有多少就够用了?要看我们用字的目的是什么? 基础教学用字是最起码的;各学科学术著作用字相对多了一些专业术语用字;特殊领域用字还要多一些;古籍整理用字恐怕要算最多的了。最多能多到多少字种? 汉字实际的需要量比已经积累的字书、字库的用量要少得多。多出来的字有三个来源:第一种是不同历史层面不同字体的积淀;第二种是辞书储存汉字时增加的无用例的错别字;第三种是重复造的字。这些字就共时的使用而言都是冗余的字样。 储备求全,使用求纯。二者之间,存在着一个整理的问题,《规范汉字表》要提供合理的字量,还要选出真正有用的字。
汉字的字数多多益善是一种认识上的误区 汉字经历数千年的发展,各种字体的构形首先积淀到《说文》小篆层面。《说文》小篆通过系统的字理分析,优选了少量的字样,用“六书”的前四书进行穷尽分析,构建了一个汉字的构形系统。这个构形系统是理想化的,它影响了今文字的构形,但它没能控制汉字在楷书层面上字数的增多,字书和字符集收字现在已经达到8-9万字,有些字库正在向13万飙升,还在通过多方面的搜集无限增多。
冗余字无限增多是一种灾难 识字难(学习吃力,浪费记忆) 信息处理难(浪费贮存空间,接受与发出信息浪费人力与时间) 辨认寻找难(规律被破坏,索引不好设,“暗里寻他千百度”) 付出这样困难的代价,收获又是什么呢?对专业人士来说,可能扩大了0.1%的古书阅读量;对普及层面来说,仅仅能够满足“识字多”的虚荣心,其他都是负作用。 不要利用计算机的存储量来做无意义甚至有害的事,纵容垃圾字泛滥。
普及性古籍用字的字量和字频与 现代汉语用字的比较 前100字共字64字 前300字共字127字 共字 76 ·76% 2320 “四 书” 前100字共字47字 前300字共字190字 共字74·27% 1462 2708 “三百千” 与现代汉语高 频字字种差异 与现代汉语3500常用字比较 字种数 总字数 普及性 古 籍 56764
近世楷书的字量举例 从断代的需要出发,由宋人手写后雕刻的宋版书中抽样选取文本总字数200471字,共整理出4856字种 从18401首宋诗的1060696字中整理出的不重复单字4520个 二者合并去重共5100多字 累计魏至清代楷书的实际用字可以得出:楷书书写和印刷的古籍字种12760字,其中用字量超过3个的字种7540字,可以称为通用字的5540字,与宋代几乎取齐
覆盖率与使用价值 高增长临界点
缺字与三级字表的通用性 第一,通用要考虑阅读的频度。例如,前面说到的西医药名、饮食营养学中的化学元素用字,文本的使用率并不高;但阅读的几率却可以达到千家万户。又如,基础教育语文教材的文言用字,也有少部分不属于社会通用字,但是每年的教材印刷必须使用,历届老师、学生、家长必须面对,也是需要统一字形而进入规范的。 第二,通用要考虑储备领域。以汉字为载体的信息,一部分是在流通领域通行的,还有一部分是储备领域必须的。例如姓名,除了知名人士,一般的姓名在社会通用层面上使用度不会太高;地名,除了大城市、著名景点,一般的地名在社会通用层面上使用度也比较有限,根据字频和使用度不能将它们收集出来。但是,无所不往的邮政、金融、交通等事业,无人不用的身份证、户籍卡、学历证书、病历卡等证件,必须储备可能用到的汉字。如果在信息处理上不去对这些字进行规范,也会引起社会信息储备和使用的混乱。
异体字问题 异体字属于强迫一部分汉字“退役”,异体字的定义必须严格,不该“退役”的“退役”就会影响表达。 《一异表》存在正字义项不能包含非正字的现象。例如:熔(镕):在“溶化;溶解”义项上两者都可使用,但在“1、熔铸金属的模具。2、规范,模式”义项上只能作“鎔”。又如:修(脩):在“干肉;旧时送给老师的酬金”等义项上只能用“脩”,其他义项相同。 《一异表》 存在完全不通用字。即:现代汉语中,正字与非正字不具有相同的记词职能。其中包括无关的同音字、不同音的近义词以及非本国用字等。如上文所举的“諂(謟)”“咱(倃)”,在音义上均不相关。 异体字要科学处理。
在字表中恢复的异体字举例 1.误做异体字取消,群众已经自动恢复:皙(xi1) 2.群众喜欢用做人名的字或有影响的人名用字:堃(坤 kun1)、喆(哲 zhe2)、昇(升sheng1)、淼(渺 miao3)等 3.姓氏用字:仝(tong2) 4.地名用字:砦(zhai4)、邨(村cun1)
汉字规范的社会应用性 汉字规范在某些社会应用领域具有强制性,特别是基础教育、出版印刷、信息处理这三个领域,虽然属于专业领域,但同时也涉及国内和海外学习汉语汉字的所有人群,如何使这些受众使用方便,这不能不是一个出发点。 中国历史上的汉字规范有两种情况:一种是权威的学术规范,它是由一些影响较大的学者通过他们的著作来实现的,例如许慎的《说文解字》 。另一种是权力的强制规范,它是通过政治力量来对汉字的应用规则作出硬性规定的,如唐代的《干禄字书》。这种规范一旦实行,就会成为社会用字的现实,使用者从不习惯到慢慢习惯,即使其中人为的规定从理论上看有不尽然合理之处,习惯成自然,也就具有了社会性。 我国50年代以来发布的规范,是属于专家和权力相结合的规范,在方法上是最理想的。
协调好科学性与社会性的关系 重视科学性,依照汉字的内在规律进行规范,是符合汉字发展长远利益的;但是,汉字是一种社会运用的符号,它的人文性决定了完全符合数理逻辑的理想汉字实际上并不存在。 在广大的使用领域,在计算机高超的贮存技术面前,理论有时显得非常“低能”——这“低能”有些是因为理论缺乏实践的考验,还不够完善;还有一些是因为应用领域瞬息万变的形势,是滞后的理论研究无法反映的。 大众和专业领域的需求是不同的,分开层次解决问题更能切合需要。 科学性与社会性一致的地方,应当大胆处理;科学性与社会性产生矛盾的地方,要认真协调,理论有时要做必要的让步。
两岸的交流日益频繁,信息的沟通要求速度和信度。 一简对多繁的问题 两岸的交流日益频繁,信息的沟通要求速度和信度。 两岸共同的追求是利用计算机技术求得简繁汉字准确的、快速的自动转换,但是在转换中出现了较大的误差。
汉字简化系统第一种字用合并 汉字的繁难不只是笔画的繁多,更因为表意文字字数的繁多。 因为注意到减少字数,简化汉字采用了较多的同音替代进行简化,或合并了一些已经分化了的字形。例如: 干—干(干犯)、干(枝榦)、干(幹練、幹事)、亁(亁燥、亁脆) 舍—舍(房舍)、舍(捨棄)
汉字简化系统第二种字用合并 也是为了减少字数,简化汉字取消了一批异体字,而这批异体字有一部分不是严格的异体字,无法用正字取代。例如: 分化字:背—揹,布—佈,欲—慾 同源通用字:玩—翫,游—逰,志—誌 部分通用字:雕—鵰,哄—閧,斤—觔 同音借用字:,修—脩
齣--出 “齣”是不组词的自由语素,专用做量词。前面有数词和指代词,但“出来”的“出”前面也有有量词“一”和极个别其他量词的时候: 一出去就不回来 太阳一出来天就亮了 六出祁山
面--麵 他一面点钱,一面骂骂咧咧 这是从前面茶棚里留声机上放出来的。 发--發、髮 由此生发出各种新问题 生髮油用来生发 板--闆 管他新板子老板子,作成家具涂上漆都一样
语言文字研究与技术的结合 统计简繁对应的多种情况,根据多种情况制订简繁对应的词语表 建立简繁平行词语库,将其引进高精度简繁智能转换系统 增加词库中语词的单位,包括与转换环境相关的词组、多字段 解决不等距离的单向区别字对转换字的干预问题 寻求便利用户的个别转换的技术处理方法
控制类推的问题 简化汉字第二表规定了“可作简化偏旁用的简化字和简化偏旁”,共收132个简化字和14个不成字的偏旁。这就是类推。在通用字范围内,类推的原则已经贯彻,有些辞书无限类推,超出了规定的范围。
类推的优势与弊病 保持汉字的系统,易于识别。 总体减少笔画,书写方便。 改变字的结构,使字理模糊。有些字破坏了汉字的美观性。 出现了一些同形字。 形成了一个新的“系统”,使古今距离与两岸距离越来越远。
《规范汉字表》实行“有限类推简化” 按《简化字总表》第二表规定的132字与14个偏旁的范围类推,不扩大范围。《简化字总表》第一表的繁体字作构字部件时,无论是整体或使局部一律不类推简化。如“讏”,不能简化为“(上)卫(下)言”,也不能把上面部件居中的“韋”简化为“韦”。 采用“部分代替全体”原则简化的字(如“亲”、“产”、“从”、“丰”、“广”、“乡”、“杀”、“与”、“云”等),以及结构产生变化的字(如“备”、“荐”、“双”、“义”等),原则上只在第一层次构字时类推,以保持原字的结构不受影响。 采用以上原则产生难以识别的怪异字或产生同形字,可以灵活处理。 《字表》以外的字不再类推
怎样使用《规范汉字表》 规范汉字表根据普遍社会应用层面规定了字级、字量和字形,必须严格执行,个人习惯在社会用字上要服从社会,服从法律。 人名、地名、科技用字要服从规范,受到一定的限制。 文言、手写是力求规范,另行处理。 在教育、教学领域制定应用字表,既要遵循规范汉字表的规定,又不能简单截用其中的一段使用。教学要遵循循序渐进的原则,由易到难,而社会普遍应用层面的字频,与汉字的难易度和构形相互依存的系统是不一致的。
三种语料库部分汉字频次比较 汉字 中 国 发 年 成 种 分 体 物 13 21 29 33 43 50 52 73 80 9 26 31 国家语委平衡语料库频次 13 21 29 33 43 50 52 73 80 科普与教育综合语料库频次 9 26 31 39 24 37 36 38 18 适合第一学段儿童文学语料库频次 132 156 103 223 119 251 299 541 264
分清“不规范字”与“未规范字” “规范汉字”对应着的两个不同的概念: 一个是“不规范的字”。已经有了规范汉字,在通用层面上书写现代汉语文本时,仍然去用其他字形,就属于不规范字。例如:我们认定“泪”为规范字,“淚”是它的严格异体字,不应当出现在现代汉语文本中。我们规定“险”“检”“剑”“俭”为规范字,一般不要在简化汉字文本里再出现“險” “檢”“劍”“儉”这样的繁体字。错别字就更是不规范的字了。 另一个是“未规范字”,也就是没有被收入规范汉字表中、也不对应任何一个规范字的字。“未规范字”又称“表外字”,在需要使用的时候,是可以使用的。例如,规范汉字表说明,只是要求新生儿起名字时,限制用字表中的字,而字表发布前已经有的人名用字,即使不在字表中,只要不是错别字,仍然可以使用。因为这些字仅仅是没有进行规范,或有待于今后继续规范,是不能与“不规范字”等同的。
推行《规范汉字表》的几个问题 提高社会各界对规范的认识和实行规范的自觉性,同时也消除对待规范过分的紧张心理。 求得理论的一致与思想的一致。宣传科学性,普及汉字知识。 面向社会上多种不同需求的人群。力争《字表》在和谐的氛围里顺利推行。
欢迎讨论,谢谢!