现代汉语词量与分级
思考 一、现代汉语的词量有多大? 二、包括哪些词语? 三、分几“级”合适?每级界限在哪? 四、词级划分依据的标准和方法?
当代最具影响力的两个常用词表: 《现代汉语频率词典》,8548条 《对外汉语教学词汇大纲》,8822条
“语法、语音是有系统的,词汇是一盘散沙。” 最初实践,对《现代汉语词典》的计量研究
《现代汉语常用词表》,商务印书馆,2008年11月 近几年的实践: “对外汉语1500常用词”,见《中国语言生活状况报告2006》,王铁琨主编,商务印书馆,2007年8月。(收入国家汉办主编《国际汉语通用课程教学大纲》外语教学与研究出版社,2008年4月) “基础教育3000基本词”,见《中国语言生活状况报告2007》,王铁琨主编,商务印书馆,2008年11月。
一、现代汉语的词汇量有多大? 对词典的考察 对词表的考察 对大规模真实语料的考察
从词典来考察“词汇量” 1.《现代汉语词典》的词汇 规范型词典全面反映语言的词汇体系,就要对词语作全面收录,不因某些词语无需查检而不收。 规范型词典对民族共同语词汇的记录是全面的,但不是穷尽的(在理论上和实践上都是不可能的)。《现汉》是一部中型词典,它在收词上既是全面的,又有较强的选择性。选词的依据,主要不是看查考的需要,而是看词语在语言使用中出现的频率。 晁继周、单耀海、韩敬体:《关于规范型词典的收词问题》,见《〈现代汉语词典〉学术研讨会论文集》,商务印书馆,1996年版,第70、72页。
《现汉》词条61000: -单字条10700(4000) -方言词2600 -科技术语60000*0.2=12000 -书语词3800 =31900 从严计算,32000-40000之间。
在《现汉》的语文词周围存在一条宽阔的接壤词汇带: 1.方言词:《现代汉语方言大词典》共41卷,收41个方言点的词汇,平均每个点收词8000条,其总数达30万条以上。《汉语方言大词典》20万条 2.术语词、行业词:数十个学科、行业,以每个2000计,有数十万条。 3.新词语:近30年间,30000余条,每年约1000条。 4.文言词:《辞源》10万条,《汉语大词典》非现代词。
《当代汉语词典》 《新华词典》 《现代汉语规范词典》 中型语文词典 52000 2001 《新华词典》 50000 2005 《现代汉语规范词典》 80000 《辞海》 大中型百科词典 120000 1999 《汉语大词典》 大型历时词典 370000 1994 《中文大辞典》 430000 1962 《汉和大辞典》 400000 1960 《韩汉大辞典》 450000 2008
方言词与普通话词语的区分: 拇指 – 大拇指 – 大拇哥
行业词与普通话词语的区分: 招标、投标、竞标、发标、中标、得标 开标、唱标、流标、跑标、串标、围标 接听 主叫、被叫
新词语与普通话词语的区分 裸露、裸照、裸奔、裸泳、裸尸 裸戏、裸晒、裸聊、裸背、裸肩 /裸机、裸眼 / 裸捐、裸退、裸官
书语词与古语词的区分: 膺选 勖励、勖勉 劬劳 古语词 书语词 中性词 口语词 登第、登科、及第 当选、中选、入选 考取、考中 激发、激励、激扬、嘉勉、砥砺、慰勉 劝勉、勉励、鼓励、劝导 劝说、相劝、开解 劬劳 操劳 奔波、劳累 奔忙
从词表来考察“词汇量” 表名 研制者 词语数 时代 现代汉语常用词 频率词典 1986 对外汉语教学词汇大纲 国家汉办 1992 8548 1986 对外汉语教学词汇大纲 国家汉办 8822 1992 现代汉语词表 刘源 71000 1984 张氏词库 张卫国 109000 1999 知网 董振东 81000 2005 中文词库 张潮生 80000 中文信息处理用词表 孙茂松 120000 2007 现代汉语常用词表 课题组 56008 2008 现代汉语语义分类词典 苏新春 83000 一般的分词软件所带的词库容量:“10-15万”
从大规模真实语料来考察“词汇量” 来源/规模 词语数 词种数 研制者 时间 通用语料库(4500万) 25万 120000 国家语委 2005年度(9亿) 165万 110000 语言资源中心 2006 2006年度(9.7亿) 260万 107000 2007
结论: 从对词典的考察来看,属普通话词汇的语文词词量约6万左右。 从对词表和大规模真实语料来看,大概在8-10万左右。 确定词量的关键在普通话词汇与接壤词汇之间如何划界。
二、现代汉语词汇包括哪些词种 那么在6-8万的普通话词汇范围中,包括了哪些词语?试以下面三种为例: 《现代汉语词典》(63000/58000) 《现代汉语语义分类词典》(83000条/77000) 《现代汉语常用词表》(56008/55600)
交集比较: 《现代汉语词典》 《现代汉语语义分类词典》 《现代汉语常用词表》 63000/58000 45730 38329 83000条/77000 50567 《现代汉语常用词表》 56008/55600
交集比较: 《现代汉语词典》 45730 38329 31032 现代汉语语义分类词典》 50567 《现代汉语常用词表》 05\06\07 63000/ 58000 45730 38329 31032 现代汉语语义分类词典》 83000/ 77000 50567 《现代汉语常用词表》 56008/ 55600 05\06\07 年度报告 430000
结论: 没有一种词汇集具有完全的“认同度” ;没有完整地包含它集或被它集所包含。 不同规模、不同性质、不同用途的词汇集都有着自己“独收子”。 参与比较的词汇集愈多,交集愈小,交集的“普遍性”愈突出。
三、划多少“级”合适? 拟建构“基本词集”: 第一级:3000条 第二级:8000条 第三级:30000条 第四级:60000 - 80000条 另有若干附属的专集
词级划分的参考因素: 分布-分布率: 使用-频率-覆盖率: 基础、重要的语义成分: 服务对象、使用范围: 作用与功能
结论: 广分布的词,并不等于高频词;高频率使用词,不等于广分布的词 母语学习者与第二语言学习者的不同; 基础教育学习者与社会使用者的不同;
普遍存在的词不等于使用中的高频词 四者的共有词 05年总词表(词频序号) 5000 6522 10000 15336 15000 26569 20000 41252 25000 66115 30000 171904 31032 1650049
普遍存在的词不等于使用中的高频词 1000 1742 2000 5577 3000 24542 基础教育3000基本词 05年总词表(词频序号) 1000 1742 2000 5577 3000 24542
四、词级划分依据的标准和方法 频次法 分布法 频级法 使用率 使用度 语义分布
分布法与频率法的对比
四套教材词语状况: 教材 分词单位总数 词总数 词种数 共用 部分共用 独用 比例% 人教版 342 911 287096 24852 10 460 42.09 9276 37.32 5 116 20.59 苏教版 261 997 219337 23180 45.12 8246 35.57 4 474 19.3 北师大版 316 522 264280 26895 38.89 8840 32.87 7 595 28.24 语文版 368 696 306879 28400 36.83 10129 35.67 7 811 27.5
分布法 频次法 序号 词 文本数 频次数 3068 平原 27 28 2372 麦秸 1 50 3074 逢 2373 水上漂 3073 噢 2374 杨志 3076 迷人 2420 切斯特 49 3075 靠近 2421 信客 3079 往日 2635 帕霍姆 45 3078 炎热 2901 贾芸 41 3080 向往 2902 瑞恩 3082 脸颊 2903 王利发 不免 2974 皮诺曹 40
分布法 频次法 词 文本_频次序 频次_文本序 使用度序 频次序 平原 3068 3876 3066 麦秸 2372 27479 10195 逢 3074 3985 3079 水上漂 2373 27478 10187 噢 3073 3986 杨志 2374 27477 10186 迷人 3076 3987 3078 切斯特 2420 27480 10523 靠近 3075 3988 3080 信客 2421 27481 10576 往日 3989 3077 帕霍姆 2635 27482 10907 炎热 3991 贾芸 2901 27483 11211 向往 3992 瑞恩 2902 27484 11212 脸颊 3082 4110 王利发 2903 27485 11213 不免 4112 3081 皮诺曹 2974 27486 11264
分布法与频次分的对比分析 思考一: 频次统计法有相当的误导性。频统计法只有在具有大致相当的分布情况下才具有较好的参考性。
思考二: 使用度统计法能在一定程度上冲淡频次信息的片面性,但它只适用于频次与分布差别不大的现象适用。对频次高分布窄的词语不能起到足够的校正作用,因为频次畸高的因素仍会严重影响到综合数值。
词语的分布信息比频次信息有更好的参考价值。 分布统计法能更准确地显示词语的通用性、基础性、大众性。 思考三: 词语的分布信息比频次信息有更好的参考价值。 分布统计法能更准确地显示词语的通用性、基础性、大众性。
频级法的使用 频级:在调查对象中相同频次的为一个频级。 频级统计法:根据频级调查词语常用度的一种调查方法。适用于大规模语料调查。特别是对于立足于特性不一、容量差异明显的多个语料库之间比较的大规模词汇统计。通常有升序,降序等。
《现代汉语常用词表》的 词频序号使用的是频级法 由于词语的来源面比较宽,各种语料都有自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差较大,因而不同语料库中的具体频次之间缺乏严格的可比性。用频级统计则能较客观地显示每个词语的使用情况。频级就是同一语料库中的所有词语按频次数量的多少排列时体现出来的排位顺序。相同频次的为一个频级。
频级统计分两步施行。 第一步形成不同类型语料的频级:检测语料有“通用语料库”、“人民日报”、“文学作品”三种,这样每一个词语就有了三个不同的原始频级。 第二步形成总语料的频级,就是将每个词语的三种语料的频级之和除以三。 相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音的字母升序排列。
频级:相同频次的为一级,由高到低排列。 共同频级:若干个库的频级相加/频级数 总频级 =(频级1+频级2+N)/频级数
语义分布法的测定(一般说的分布是领域分布)
思考与练习 如何来确定词量的范围?有那些常用的方法? 确定词量的难度是什么? 确定词量有何意义?