现代汉语词量与分级.

Slides:



Advertisements
Similar presentations
外语教学与研究出版社 FOREIGN LANGUAGE TEACHING AND RESEARCH PRESS 学术英语课程教学资源 分享与交流.
Advertisements

质数和合数 中心小学 顾禹 人教版小学五年级数学下册 一、激趣导入 提示:密码是一个三位 数,它既是一个偶数, 又是 5 的倍数;最高位是 9 的最大因数;中间一位 是最小的质数。你能打 开密码锁吗?
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
2014 年职称英语等级考试 综合类精讲班 主讲:叶老师. 职称英语考试与复习方法 一、职称英语考试 1. 职称英语考试的特点: a 综合英语分为 A B C 级 b 职称英语考试和教材的关系 c 可以借助字典 d 送分( 分) (1) 词汇选项(可能送 3—8 分) (2) 阅读判断.
数学北师大版第六册第一单元 3.50 元是 …… 3元5角3元5角 像 3.05 、 1.06 、 , …… 这样的数,叫做小数。 读作:十六点八五 …… 小数点 读作: 一点零六 读作: 三点零五 读作: 零点八零 小数和我们以前学习的整数有什么不同.
北师大版四年级数学下册 天平游戏(二).
专题六 语文课程标准修订对“实验稿”作了哪些修改和调整
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
一、关于课程的参考书目 二、关于课程的教学大纲(内容) 三、关于课程的考试
山东英才学院 SHANDONG YINGCAI UNIVERSITY
绪论 现代汉语概说.
人大复印资料全文数据库 人大复印资料全文数据库选辑1995年至今公开发表的人文科学和社会科学中各学科、专业的重要论文和重要动态资料的全部原文。其信息资源覆盖了人文科学和社会科学领域国内公开出版的3000多种核心期刊、专业期刊和报纸,分4大类100多个专题。
Three topics The strategy system
证券投资技术分析.
之 语料库在英语教学中的间接应用 何美
第一章 现代汉语概述.
电子信息类专业英语.
第八章 综合性语言学 主要内容:本章介绍了几门最重要的综合性语言学科的概况和主要内容。需要重点掌握的内容有:第一节:心理语言学发展的主要动力、心理语言学的三大流派、思维对语言的影响、言语生成的阶段和言语理解的过程。第二节:社会语言学和文化语言学的兴起的原因、社会语言学和文化语言学的差异、社会语言学和文化语言学的主要内容。第三节:应用语言学的研究范围、确立共同语的依据、语料库加工的主要内容、语言信息处理的主要应用领域。
工作坊欢迎你 衡山班主任培训班 辅导教师:谭建芬 学员:30人 2015年12月2日.
实用操作系统概念 张惠娟 副教授 1.
关于本门课程.
第七章 固定资产 本章结构 固定资产的性质与分类 固定资产的增加 固定资产的折旧 固定资产的修理 固定资产的减少
常用逻辑用语复习课 李娟.
基于平行语料库的 跨语言知识挖掘 盛玉麒
北师大版二年级数学上册 儿童乐园 王秀梅.
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
《数据结构》课程简介 李武军 南京大学计算机科学与技术系 2016年秋季.
在PHP和MYSQL中实现完美的中文显示
第三讲 教学设计和大纲.
《数据库原理及应用》课程介绍 信息工程学院 孙俊国
国家语言资源监测与研究中心平面媒体语言分中心
课程与编码:语言学与应用语言学 张露茜(博士) 浙江工商大学 外国语学院
拓展 问题 探究 练习 北师大版 五年级上册 第五单元 分数的意义 绿色圃中小学教育网
How to Use Authentic Material in Teaching Chinese Effectively
辅导课程六.
数 控 技 术 华中科技大学机械科学与工程学院.
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
Harvard ManageMentor®
第九章 现代科学技术与对外汉语教学 主讲人:辽宁师范大学 赵越.
基于规则抽取的 时间表达式识别.
1085至1125年间的官员地域分布与社会关系 1.
整合思维导图的初中英语教学设计 主讲人:卢璐.
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
人教版五年级数学上册第四单元 解方程(一) 马郎小学 陈伟.
《知网2000座谈会》发言 董振东 董强 Tel: (8610) Tel: (8610)
C语言程序设计 主讲教师:陆幼利.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
12.2全等三角形的判定(2) 大连市第三十九中学 赵海英.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
在行动 中学习 在研究 中成长 凌 蕙.
北师大版五年级数学下册 分数乘法(一).
Semantic Relations between Words
第八章 总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.
人教版小学数学三年级上册 认识几分之几 gjq.
1.非线性规划模型 2.非线性规划的Matlab形式
分数再认识三 真假带分数的练习课.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
Adj + Noun映射到知识库中的classes
本底对汞原子第一激发能测量的影响 钱振宇
第四章 UNIX文件系统.
国 际 法 第 一 讲 主讲人: 兰州大学法学院李晓静.
位似.
苏教版五年级数学 上册 简便算法 高效课堂编写组 王合立.
入侵检测技术 大连理工大学软件学院 毕玲.
辞典类 Oxford English Dictionary 牛津在线英语大辞典
学习目标 1、什么是列类型 2、列类型之数值类型.
校园之路.
Presentation transcript:

现代汉语词量与分级

思考 一、现代汉语的词量有多大? 二、包括哪些词语? 三、分几“级”合适?每级界限在哪? 四、词级划分依据的标准和方法?

当代最具影响力的两个常用词表: 《现代汉语频率词典》,8548条 《对外汉语教学词汇大纲》,8822条

“语法、语音是有系统的,词汇是一盘散沙。” 最初实践,对《现代汉语词典》的计量研究

《现代汉语常用词表》,商务印书馆,2008年11月 近几年的实践: “对外汉语1500常用词”,见《中国语言生活状况报告2006》,王铁琨主编,商务印书馆,2007年8月。(收入国家汉办主编《国际汉语通用课程教学大纲》外语教学与研究出版社,2008年4月) “基础教育3000基本词”,见《中国语言生活状况报告2007》,王铁琨主编,商务印书馆,2008年11月。

一、现代汉语的词汇量有多大? 对词典的考察 对词表的考察 对大规模真实语料的考察

从词典来考察“词汇量” 1.《现代汉语词典》的词汇 规范型词典全面反映语言的词汇体系,就要对词语作全面收录,不因某些词语无需查检而不收。 规范型词典对民族共同语词汇的记录是全面的,但不是穷尽的(在理论上和实践上都是不可能的)。《现汉》是一部中型词典,它在收词上既是全面的,又有较强的选择性。选词的依据,主要不是看查考的需要,而是看词语在语言使用中出现的频率。 晁继周、单耀海、韩敬体:《关于规范型词典的收词问题》,见《〈现代汉语词典〉学术研讨会论文集》,商务印书馆,1996年版,第70、72页。

《现汉》词条61000: -单字条10700(4000) -方言词2600 -科技术语60000*0.2=12000 -书语词3800 =31900 从严计算,32000-40000之间。

在《现汉》的语文词周围存在一条宽阔的接壤词汇带: 1.方言词:《现代汉语方言大词典》共41卷,收41个方言点的词汇,平均每个点收词8000条,其总数达30万条以上。《汉语方言大词典》20万条 2.术语词、行业词:数十个学科、行业,以每个2000计,有数十万条。 3.新词语:近30年间,30000余条,每年约1000条。 4.文言词:《辞源》10万条,《汉语大词典》非现代词。

《当代汉语词典》 《新华词典》 《现代汉语规范词典》 中型语文词典 52000 2001 《新华词典》 50000 2005 《现代汉语规范词典》 80000 《辞海》 大中型百科词典 120000 1999 《汉语大词典》 大型历时词典 370000 1994 《中文大辞典》 430000 1962 《汉和大辞典》 400000 1960 《韩汉大辞典》 450000 2008

方言词与普通话词语的区分: 拇指 – 大拇指 – 大拇哥

行业词与普通话词语的区分: 招标、投标、竞标、发标、中标、得标 开标、唱标、流标、跑标、串标、围标 接听 主叫、被叫

新词语与普通话词语的区分 裸露、裸照、裸奔、裸泳、裸尸 裸戏、裸晒、裸聊、裸背、裸肩 /裸机、裸眼 / 裸捐、裸退、裸官

书语词与古语词的区分: 膺选 勖励、勖勉 劬劳 古语词 书语词 中性词 口语词 登第、登科、及第 当选、中选、入选 考取、考中 激发、激励、激扬、嘉勉、砥砺、慰勉 劝勉、勉励、鼓励、劝导 劝说、相劝、开解 劬劳 操劳 奔波、劳累 奔忙

从词表来考察“词汇量” 表名 研制者 词语数 时代 现代汉语常用词 频率词典 1986 对外汉语教学词汇大纲 国家汉办 1992 8548 1986 对外汉语教学词汇大纲 国家汉办 8822 1992 现代汉语词表 刘源 71000 1984 张氏词库 张卫国 109000 1999 知网 董振东 81000 2005 中文词库 张潮生 80000 中文信息处理用词表 孙茂松 120000 2007 现代汉语常用词表 课题组 56008 2008 现代汉语语义分类词典 苏新春 83000 一般的分词软件所带的词库容量:“10-15万”

从大规模真实语料来考察“词汇量” 来源/规模 词语数 词种数 研制者 时间 通用语料库(4500万) 25万 120000 国家语委 2005年度(9亿) 165万 110000 语言资源中心 2006 2006年度(9.7亿) 260万 107000 2007

结论: 从对词典的考察来看,属普通话词汇的语文词词量约6万左右。 从对词表和大规模真实语料来看,大概在8-10万左右。 确定词量的关键在普通话词汇与接壤词汇之间如何划界。

二、现代汉语词汇包括哪些词种 那么在6-8万的普通话词汇范围中,包括了哪些词语?试以下面三种为例: 《现代汉语词典》(63000/58000) 《现代汉语语义分类词典》(83000条/77000) 《现代汉语常用词表》(56008/55600)

交集比较: 《现代汉语词典》 《现代汉语语义分类词典》 《现代汉语常用词表》 63000/58000 45730 38329 83000条/77000 50567 《现代汉语常用词表》 56008/55600

交集比较: 《现代汉语词典》 45730 38329 31032 现代汉语语义分类词典》 50567 《现代汉语常用词表》 05\06\07 63000/ 58000 45730 38329 31032 现代汉语语义分类词典》 83000/ 77000 50567 《现代汉语常用词表》 56008/ 55600 05\06\07 年度报告 430000

结论: 没有一种词汇集具有完全的“认同度” ;没有完整地包含它集或被它集所包含。 不同规模、不同性质、不同用途的词汇集都有着自己“独收子”。 参与比较的词汇集愈多,交集愈小,交集的“普遍性”愈突出。

三、划多少“级”合适? 拟建构“基本词集”: 第一级:3000条 第二级:8000条 第三级:30000条 第四级:60000 - 80000条 另有若干附属的专集

词级划分的参考因素: 分布-分布率: 使用-频率-覆盖率: 基础、重要的语义成分: 服务对象、使用范围: 作用与功能

结论: 广分布的词,并不等于高频词;高频率使用词,不等于广分布的词 母语学习者与第二语言学习者的不同; 基础教育学习者与社会使用者的不同;

普遍存在的词不等于使用中的高频词 四者的共有词 05年总词表(词频序号) 5000 6522 10000 15336 15000 26569 20000 41252 25000 66115 30000 171904 31032 1650049

普遍存在的词不等于使用中的高频词 1000 1742 2000 5577 3000 24542 基础教育3000基本词 05年总词表(词频序号) 1000 1742 2000 5577 3000 24542

四、词级划分依据的标准和方法 频次法 分布法 频级法 使用率 使用度 语义分布

分布法与频率法的对比

四套教材词语状况: 教材 分词单位总数 词总数 词种数 共用 部分共用 独用 比例% 人教版 342 911 287096 24852 10 460 42.09 9276 37.32 5 116 20.59 苏教版 261 997 219337 23180 45.12 8246 35.57 4 474 19.3 北师大版 316 522 264280 26895 38.89 8840 32.87 7 595 28.24 语文版 368 696 306879 28400 36.83 10129 35.67 7 811 27.5

分布法 频次法 序号 词 文本数 频次数 3068 平原 27 28 2372 麦秸 1 50 3074 逢 2373 水上漂 3073 噢 2374 杨志 3076 迷人 2420 切斯特 49 3075 靠近 2421 信客 3079 往日 2635 帕霍姆 45 3078 炎热 2901 贾芸 41 3080 向往 2902 瑞恩 3082 脸颊 2903 王利发 不免 2974 皮诺曹 40

分布法 频次法 词 文本_频次序 频次_文本序 使用度序 频次序 平原 3068 3876 3066 麦秸 2372 27479 10195 逢 3074 3985 3079 水上漂 2373 27478 10187 噢 3073 3986 杨志 2374 27477 10186 迷人 3076 3987 3078 切斯特 2420 27480 10523 靠近 3075 3988 3080 信客 2421 27481 10576 往日 3989 3077 帕霍姆 2635 27482 10907 炎热 3991 贾芸 2901 27483 11211 向往 3992 瑞恩 2902 27484 11212 脸颊 3082 4110 王利发 2903 27485 11213 不免 4112 3081 皮诺曹 2974 27486 11264

分布法与频次分的对比分析 思考一: 频次统计法有相当的误导性。频统计法只有在具有大致相当的分布情况下才具有较好的参考性。

思考二: 使用度统计法能在一定程度上冲淡频次信息的片面性,但它只适用于频次与分布差别不大的现象适用。对频次高分布窄的词语不能起到足够的校正作用,因为频次畸高的因素仍会严重影响到综合数值。

词语的分布信息比频次信息有更好的参考价值。 分布统计法能更准确地显示词语的通用性、基础性、大众性。 思考三: 词语的分布信息比频次信息有更好的参考价值。 分布统计法能更准确地显示词语的通用性、基础性、大众性。

频级法的使用 频级:在调查对象中相同频次的为一个频级。 频级统计法:根据频级调查词语常用度的一种调查方法。适用于大规模语料调查。特别是对于立足于特性不一、容量差异明显的多个语料库之间比较的大规模词汇统计。通常有升序,降序等。

《现代汉语常用词表》的 词频序号使用的是频级法 由于词语的来源面比较宽,各种语料都有自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差较大,因而不同语料库中的具体频次之间缺乏严格的可比性。用频级统计则能较客观地显示每个词语的使用情况。频级就是同一语料库中的所有词语按频次数量的多少排列时体现出来的排位顺序。相同频次的为一个频级。

频级统计分两步施行。 第一步形成不同类型语料的频级:检测语料有“通用语料库”、“人民日报”、“文学作品”三种,这样每一个词语就有了三个不同的原始频级。 第二步形成总语料的频级,就是将每个词语的三种语料的频级之和除以三。 相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音的字母升序排列。

频级:相同频次的为一级,由高到低排列。 共同频级:若干个库的频级相加/频级数 总频级 =(频级1+频级2+N)/频级数

语义分布法的测定(一般说的分布是领域分布)

思考与练习 如何来确定词量的范围?有那些常用的方法? 确定词量的难度是什么? 确定词量有何意义?