国家语言资源监测与研究中心平面媒体语言分中心

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

专题六 语文课程标准修订对“实验稿”作了哪些修改和调整
PROJECT NAME 项目名称 上海xx文化传播有限公司.
计算机网络教程 任课教师:孙颖楷.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
SEWM2006 Web检索 山东大学 陈竹敏.
山东英才学院 SHANDONG YINGCAI UNIVERSITY
XXXX学院2014年度 本科教学工作总结 2015年1月15日.
网页设计师的职业成长规律 主讲:刘万辉 淮安信息职业技术学院.
证券投资技术分析.
电子信息类专业英语.
第 8 课 美国经济的发展.
区级课题汇报 (初期) 汇报人:建平中学周宁医 2008年9月27日.
UI(用户界面)集训班 Illustrator 高级班.
Lazada919跨境电商大会报告 部门:营销中心 姓名:FENDOR.
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
中国药物GCP检查 国家食品药品监督管理局药品认证管理中心         李见明         北京 国家食品药品监督管理局药品认证管理中心.
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
                                                                                                                                                                
如何使用CiteSpace分析Derwent专利数据
Hadoop I/O By ShiChaojie.
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
数 控 技 术 华中科技大学机械科学与工程学院.
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第十章 方差分析.
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
1085至1125年间的官员地域分布与社会关系 1.
整合思维导图的初中英语教学设计 主讲人:卢璐.
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
第3章 信息与信息系统 陈恭和.
编程作业3:网页正文抽取 (10分).
实用网络营销基础 冯英健 2006年8月6日 首页.
《知网2000座谈会》发言 董振东 董强 Tel: (8610) Tel: (8610)
C语言程序设计 主讲教师:陆幼利.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
晶体管及其小信号放大 -单管共射电路的频率特性.
2019/4/16 关注NE官方微信,获取更多服务.
网页设计与制作 —— 学习情境二:网页模板设计
晶体管及其小信号放大 -单管共射电路的频率特性.
提供机构:XXXXXXXXX 机构级别:X级X等(无级别可不填写)
下一代网络营销探讨 —网络营销移动化问题思考
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
用计算器开方.
第4章 Excel电子表格制作软件 4.4 函数(一).
John Wiley & Sons 投稿简介.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
计算机绘图 AutoCAD2016.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
基于列存储的RDF数据管理 朱敏
Adj + Noun映射到知识库中的classes
XX大学XX学院 多色复古论文答辩PPT模板 X124-2 蓝梦 学号.
上节复习(11.14) 1、方式2、方式0的特点? 2、定时/计数器的编程要点? 3、实验5方案优化问题.
本底对汞原子第一激发能测量的影响 钱振宇
第十七讲 密码执行(1).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
入侵检测技术 大连理工大学软件学院 毕玲.
超星电子书 让更多的人读更多的书.
IT审计简介 最高审计机关国际组织 IT审计培训 第一讲.
辞典类 Oxford English Dictionary 牛津在线英语大辞典
Sssss.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

国家语言资源监测与研究中心平面媒体语言分中心 语言监测与语言生活调查 大规模媒体语料库用字用语调查 国家语言资源监测与研究中心平面媒体语言分中心 杨 尔 弘 感谢俞老师给我这样一个机会,能够得以和大家一起交流,我想我会有收获的。 特别感谢俞老师、朱老师这些年对我们工作的支持,每年都会花大量的时间帮我们检查数据、审阅稿件。特别感谢! 今天是想大家汇报工作,同时有些问题向大家讨教。 我们的工作谈不上研究上的创新,更多的是工程性的,所以没有新技术同大家分享。只是把在大规模数据上 观察到 的 一些情况 向大家 报告一下。有些内容由于技术、认识的局限,观察归纳的未必 合适,今天在这儿有这样一个 机会,同大家讨论,向大家请教。 2011年3月29日

国家语言资源监测与研究中心 工作简介

认识 指导思想 语言是一种资源,有必要像其他自然资源、社会资源一样进行科学的采集、存储、建设。 语言生活的监测是语言资源合理利用和良性发展的手段。可以达到保护语言生态、构建和谐语言生活,实现语言资源可持续发展的目标。语言监测的成果也是政府制定宏观语言文化政策的依据。 目的是通过语言资源的建设与开发,实现对对大众传媒与基础教育 语言的调查与监测

共建分中心(2004.6~2008.6) 大众传媒 基础教育 国家语言资源监测与研究中心 平面媒体语言 有声媒体语言 少数民族语言 海外华语 教育教材 网络媒体语言 教育部语信司 目的是通过语言资源的建设与开发,实现对对大众传媒与基础教育 语言的调查与监测 藏语基地 维语基地 哈、柯语基地 大众传媒 基础教育

开展的工作 语言资源建设——工作基础 年度语言生活调查——语言监测的工程性任务 语言监测的理论与技术研究 学术委员会对分中心的发展起到重要作用

资源建设基本架构 研 究 工程 服务 国家语言资源监测语料库 服务 、监测 动态流通语料库 资 源 管 理 系 统 检 索 系 统 资源管理平台 资源库 资源信息库 基础语料库 语料来源 安全验证 语料接收单元 语料备份单元 预处理单元 文本库 字词语统计数据 文本信息库 网页库 通用领域库 领域信息库 媒体信息库 字词语库 管理员 专业领域库 应用软件集成平台 应用软件开发平台 文本查询 网页浏览 字符串检索 领域语料检索 …… 应用软件 资 源 管 理 系 统 监测任务接收 监测结果输出 用户界面 软件设计 软件设计、开发、调试、发布 软件输出 数据 支持 资源建设基本架构 服务 、监测 研 究 工程 服务 数据 支持 检 索 系 统 动态流通语料库 架构体系体现研究、工程、服务 国家语言资源监测语料库

资源建设 国家语言资源监测 语料库 主流媒体语料库 每年度10亿字 的流量 每年度不同 语种2亿字 的流量 各种教材 1500万字 的存储 平面媒体 有声媒体 网络媒体 教育教材 少数民族 主流媒体语料库 每年度10亿字 的流量 各种教材 1500万字 的存储 每年度不同 语种2亿字 的流量

语料检索系统

语言监测的工程性任务 年度语言生活状况调查 专项调查 数据发布 外文缩略词使用调查与对策研究 外语人名、地名使用情况调查 火星文使用情况调查 报纸广播电视网络(新闻)用字用语、流行语、新词语调查 网络BBS、博客专项调查 教育教材字词语使用情况调查(基础教育、对外汉语、海外汉语教材) 少数民族语言使用情况调查 专项调查 外文缩略词使用调查与对策研究 外语人名、地名使用情况调查 火星文使用情况调查 …… 数据发布 年度语言生活状况 流行语 汉语字词盘点 随时下达的任务

研究工作 理论:语言资源、监测理论与动态语言知识更新 技术:人机互动模式的构建 基于动态流通语料库的实践 语言与社会 动态、稳态 相对时间观 流通度与大众语感的模拟 …… 技术:人机互动模式的构建 面向语言监测的分词标注工具、评测 热点话题的自动发现与提取 少数民族语言的处理工具 基于动态流通语料库的实践 大规模语料库字词语的使用情况 一般词语、新词语、流行语、特定语言现象 面向教学的词表研究 媒体语言的历时词语变化研究 围绕语言资源建设与监测,这些年都开展了相应的研究

字词语 动态 稳态 分词单位、字符串 词语表 流行语 文本 基本词汇 通用词语 字母词 主题词群 领域词语 新词语 年度用字 用语 关键短语 属性描述:来源、频度、散布度、流通度 网页、文本 领域词语 新词语 年度用字 用语 关键短语 IT术语 虚词 包括语言形式方面,并尝试对内容的监测 人名译名 机构名 词语表

资源建设与内容分析 语言、社会 文本内标注 内容分析 话题发现与追踪 媒体分析 语篇标注 标题标注 分词标注语料库 分类语料库 原始文本 事件信息 关键短语 语言、社会 标题标注

语言监测体系的逐步形成

汇报提纲 引言 年度字词语调查 年度字、词语的动态与稳态情况 年度词语调查与词典的比较 总结

汇报提纲 引言 中国语言生活状况报告 相关研究工作

引言 中国语言生活绿皮书——中国语言生活状况报 语言事实的记录 社会生活的记录 实态调查 使用实态、技术实态 年度的基本情况与特色

引言 语言监测的相关研究 Gloabal language moniter(GLM)全球英语监测机构 LIVAC[共时同题语料库

引言 语言监测的相关研究 Gloabal language moniter(GLM)全球英语监测机构 LIVAC[共时同题语料库 发布语言发展趋势 反映政治,文化,商务…等各个方面的内容 年度最热词 年度最热短语 最具迷惑性高科技流行词 年度电视热词 十大青年人口头语流行词 年度十大人名 …… 分析媒体对主要世界大事的报道 统计英语的词汇增长情况 支持技术: 独家算法Predictive Quantities Indicator(PQI)计算词汇排序。 GLM的影响力 六大洲的多家媒体都引用过GLM的数据 语言监测的相关研究 Gloabal language moniter(GLM)全球英语监测机构 LIVAC[共时同题语料库

引言 语言监测的相关研究 Gloabal language moniter(GLM)全球英语监测机构 LIVAC[共时同题语料库 语料采集:1995年开始,采集香港、澳門、台北、新加坡、上海、北京、广州、深圳多个地区当地有代表性中文媒体,搜集內容包括社评、重要新聞、当地新闻、综合新闻、国际新闻、港澳台新闻、经济新闻、体育新闻、娱乐新闻、广告。每四天定量下载一次。 语料加工:分词标注、人工校对,按地区提取词语,包括新词语、人名、地名等,形成各地词语库 规模:至2010年1月,语料库共收集72万个词条,总字数超过1.5亿字 每双周发布名人榜 语言监测的相关研究 Gloabal language moniter(GLM)全球英语监测机构 LIVAC[共时同题语料库

引言 语言监测的相关研究 Gloabal language moniter(GLM)全球英语监测机构 LIVAC[共时同题语料库 特点: 通过对大规模语料的监测,从中挑选出具有特点的个体,从这些个体挖掘语言本身一起其背后所代表的社会、文化现象。 中国语言生活状况报告 特色个体:热词、流行语、新词语 总体面貌

汇报提纲 引言 年度字词语调查 语料量 语料采集与质量保证 字词语调查的基本流程 字词语调查的项目 分词标注软件 流行语、新词语提取

报纸、广播电视、网络(新闻)语料量 字次 字种 词次 词种数 2010年 10,395 2,142,945 2009年 10,204 956,706,906 10,395 566,912,648 2,142,945 2009年 1,007 019,960 10,204 592,414,821 2,348,100 2008年 991,717,791 9,271 565,064,223 2,261,272 2007年 1,007,053,180 10,123 586,211,239 2,301,553 2006年 978,994,406 9,231 578,019,707 2,022,273 2005年 732,143,010 8,128 416,090,995 1,651,749 总计 4 716,928,347 12,622 2,737,800,985 7,183,440

语料情况 语料采集(从页面文件——文本文件:反复过滤过程) 平面、有声、网络各自采集,各自根据所采集的对象设计采集方法 平面媒体的语料采集与质量保证 下载:采用开源下载工具wget和httrack,按月下载相应的htm文件 检查方式:与报纸每天索引页面进行对比 转换为xml、txt格式:根据每一份报纸的特点分别开发相应转换软件 检查 乱码检查 随机抽取每份报纸人工进行样本检查 统计语料中的用字用词,根据经验选择部分汉字、词语返回语料中检查

语料情况 语料采集 平面、有声、网络各自采集,各自根据所采集的对象设计采集方法 平面媒体的语料采集与质量保证 语料的质量: 乱码的发现 栏目信息剔除的干净与否 特殊汉字的发现: “凉、凉”、“裏、裏” 别字 褔娃(福) 觖决(解) 枊暗花明(柳) 锯木榍(屑) 人民帀,钱帀(币,注:“帀”是“匝”的异体字) 鸡趐(翅) 女人褢小脚(裹) 佷熟悉(很) 好看的T桖(恤) 方案圴需国家药监局批准(均) 致畗的道路(富)、嚗光度(曝) 聟障(智) 增潻了活力(添) 腽固醇含量减少(胆) …… 语料采集 平面、有声、网络各自采集,各自根据所采集的对象设计采集方法 平面媒体的语料采集与质量保证 下载:采用开源下载工具wget和httrack,按月下载相应的htm文件 检查方式:与报纸每天索引页面进行对比 转换为xml、txt格式:根据每一份报纸的特点分别开发相应转换软件 检查 乱码检查 随机抽取每份报纸人工进行样本检查 统计语料中的用字用词,根据经验选择部分汉字、词语返回语料中检查 语料的质量: 支持调查的大规模的,随着逐年的语料收集,精确性逐步提高。

字词语提取流程

年度字词语调查内容 用字调查 用语调查 字种数(总体、媒体共用、独用) 覆盖率与字种数 与现行规范汉字表的比较 汉字使用的一些情况 媒体间、年度间汉字使用比较 用语调查 词种数、覆盖率 高频词语、成语

年度用字调查基本情况 字种数方面,似乎有逐年增多,仅从表中看,2009年度的字种数是最多的,一方面与该年度《通用规范汉字表》在社会公开征求意见、汉字繁简讨论等内容有关;另一方面,与网络上标新立异地使用汉字的现象增加有关,媒体对这种现象的关注、评论也使得一些生僻字出现。同时,越来越多的对中国传统文化的介绍、传播与研究,对汉字的使用也有一定的影响。

汉字使用的其它情况

词语调查的基本面貌 词语量 所有词语都是由自动切分软件产生的 高频词语指累加频率达到90%的词语

词语调查 词语覆盖率 高频词语 成语 问题 成语的参照

分词标注软件 软件 2005~2009年使用自动化所赵军项目组开发的 2010年更换为中国传媒大学有声媒体语言分中心开发的 词性 易维护 词性标注集共计48个,将其合并为25类 词性标注的质量 2010年更换为中国传媒大学有声媒体语言分中心开发的 易维护 词语的颗粒度开关 :汉族(包括日本人名中能明显识别出姓和名的)人名中姓和名的分合;组合型机构名、地名和其他专名的分合;组合型时间表达式的分合;组合型数字表达式的分合,组合型量词表达式的分合。 2010年平面媒体 5.7亿字: 粗粒度:1623494 细粒度:615447

年度流行语提取 流行语的界定 流行语指某一时期、某一范围内,广为传播、盛行一时的词语。基于国家语言资源监测语料库的流行语特指一个年度内,在各个媒体中广为传播、盛行一时的词语。 广为传播、盛行一时

年度流行语提取 流行语的界定 广为传播、盛行一时 H C BH T A 词语从很少使用开始,在短时间内使用率大幅度提高,大量传播 词语从0使用开始,在短时间内使用率大幅度提高,大量传播

年度流行语提取 流行语提取步骤 问题: 穷尽式搜索 曲线拟合 人工筛选 曲线拟合还不能是函数计算,是按照3个月的频差计算 人工筛选的工作量较大 穷尽式搜索 将一年的媒体语料,提取全部2至9字串,计算出每一个字串在每一个月中的使用率。过滤达不到“广为传播”的使用率较低的字串。 曲线拟合 对于由第一步获得的所有字串,以每一个月的使用率为参数,检验其在一年内使用频率的变化是否符合上述流行语的曲线特征。 人工筛选 进入流行语候选集中的字串,有些是不成词语的,如“和谐社”,它仅仅是“和谐社会”的一部分,因此要对针对这些内容制定一些规则,根据规则筛选掉不可能成为流行语的候选字串,然后再根据字串表达的完整性、区别性、以及词语对所表达内容的贴切性,语感等因素,选择流行语。 从上述步骤可以看出,流行语的提取过程中,按照时间点统计词语的使用率是整个技术的关键。 “使用率”的概念见本刊中“语言资源建设与语言生活监测相关术语简介”

年度新词语提取 年度新词语指的是在某一年度新产生的并出现在该年度媒体语料中的词语 年度新词语最重要特点是在该年度才出现。即在该年度之前,年度新词语的使用率几乎为0。 年度新词语与流行语最大的不同点是,新词语的使用率可以较低。 穷尽式搜索 将一年的媒体语料,提取全部2至9字串,计算出每一个字串在每一个月中的使用率。过滤达不到“广为传播”的使用率较低的字串。 曲线拟合 对于由第一步获得的所有字串,以每一个月的使用率为参数,检验其在一年内使用频率的变化是否符合上述流行语的曲线特征。 人工筛选 进入流行语候选集中的字串,有些是不成词语的,如“和谐社”,它仅仅是“和谐社会”的一部分,因此要对针对这些内容制定一些规则,根据规则筛选掉不可能成为流行语的候选字串,然后再根据字串表达的完整性、区别性、以及词语对所表达内容的贴切性,语感等因素,选择流行语。 从上述步骤可以看出,流行语的提取过程中,按照时间点统计词语的使用率是整个技术的关键。 “使用率”的概念见本刊中“语言资源建设与语言生活监测相关术语简介”

年度新词语提取 年度新词语提取步骤 双引号内的词语 问题 穷尽式搜索(设定使用率阈值提取候选串(阈值要比流行语低许多)) 计算年度使用率差 过滤并进行人工判定 双引号内的词语 问题 新词语的认定(尺度)2010部分新词语 年度使用率差为1 说明前一年未使用。越接近1,越是 旧词新意 只能用双引号提取

新词语使用频次分布

提纲 引言 年度媒体用字用语调查 年度字词语的动态与稳态情况 动态部分 稳态部分 媒体、年度共用字、词语 稳态词语的使用频率——变化

年度字词语的动态与稳态情况 考察角度 字种、词种的共用独用情况 对于年度共用的字词语,进一步考察 频序:年度间相对位置关系的变化 频率:年度间相对使用频率的变化

年度词语的动态性 77 489 占总词语数≈ 1.08% 三个媒体 五年都出现 0.001秒、 8月10日、…… 考察词表

年度词语的动态性 9 933 占五年全部高频词语≈ 66.16% 五年都出现 仍然有时间、数字表达式 还包括一些时间、数字表达 。高频的词语相对更集中 仍然有时间、数字表达式

高频词语的变化反映年度特色 ——年度高频词语中的独用词语例

高频词语的变化反映年度特色 ——年度高频词语中频率变化最大的词语

年度专名的变化 人名 机构名 地名 其它

年度稳定的词语 高频稳定词语 9 933

高频词语的年度频率变化 (按5年总频率降序) 高频词语的年度频率变化 (按5年总频率降序)

按照2009年顺序

不同范围内标准差对比

高频词语年度频率比值变化分布 (以2009为例) 微观的使用频率变化,体现了媒体的热点

字的统计数据 用字情况分析 字种 频序 频率 使用率 结论

语料情况 语料量 2005年 2006年 2007年 2008年 字次 732,143,010 978,994,406 1,007,053,180 991,717,791 字种 8,128 9,231 10,123 9,271

四年的用字情况分析 字种 初步的结论:从字种的共用、独用的角度来看:四年历时使用基本稳定的汉字7300余个? 共用字中频次最低:4次 年度 字种数 共用 部分共用 独用 比例% 2005年 8128 7323 90.09 609 7.49 196 2.41 2006年 9231 79.33 1333 14.44 575 6.23 2007年 10123 72.34 1719 16.98 1081 10.68 2008年 9271 78.99 1401 15.11 547 5.90 总计 11799 62.06 2077 17.60 2399 20.33 初步的结论:从字种的共用、独用的角度来看:四年历时使用基本稳定的汉字7300余个? 共用字中频次最低:4次 ?7000左右汉字究竟该是些什么

四年共用汉字频序分布分析 年度频序值 频序的相关性 计算四年共用字两两年度之间频序排列的相关性

四年共用汉字频序分布分析 频序的变化——序差 一个汉字频序位置的变化 ,表示该汉字在子表中相对于其他汉字其使用频率发生了变化。 位置发生变化的汉字有多少? 变化的分布如何? 序值的统一处理——克服四年度字种不一样造成的绝对序之间的差别 wordID= [ ]

四年共用汉字频序分布分析 频序的变化 以任意一年的序值为参照,考察其他年度的序值与该年度序值的差值。 序差的变化范围 -4064 4016 2623 横坐标:字种数,纵坐标:序差

四年共用汉字频序分布分析 频序的变化 相对而言,高频字频序的变化幅度较小,随着使用频率的降低,年度间相对序值的变化幅度变大 以任意一年的序值为参照,考察其他年度的序值与该年度序值的差值。 序差的变化范围 序差的分布 横坐标:共用字频序(左图:07年频序,右图:05年频序) 纵坐标:序差

四年共用汉字频序分布分析 频序的方差 横坐标:共用字频序, 纵坐标:4年频序值方差

四年共用汉字频序分布分析 不同频段的序差变化 横坐标:字种数,纵坐标:序差 横坐标:频序,纵坐标:序差

四年共用汉字频序分布分析 08年相对07年不同频段序差变化最大的20字 每一个频段频序值变化较大的字大都体现了年度的特色用字 表4 08年相对07年频序提前的前20字 四年共用汉字频序分布分析 每一个频段频序值变化较大的字大都体现了年度的特色用字 不同频段的频序值的变化幅度不同,绝大多数字的频序变化都在同一个段内,所以可以频级区分范围。 频级的界定 80%、90 %、99% 还有什么划分标准?需不需要? 08年相对07年不同频段序差变化最大的20字 范围 字 前600 奥 运 火 五 岁 星 店 济 级 油 四 北 网 亿 牌 区 友 际 神 放 前1000 救 浪 奥 航 融 危 跌 八 宝 运 火 五 岁 独 星 顾 母 闻 席 湖 前3000 寨 绿 寞 舰 灾 炬 虐 震 翁 篷 曝 烂 巢 川 绵 递 舱 旗 喇 塌 全部 甯 缶 瑠 痄 鸻 撄 箨 勖 鲺 麿 嶋 艟 绨 鳁 瑢 趑 騋 崤 簰 酂

表4 08年相对07年频序提前的前20字 四年共用汉字频率分布分析 频率的相关性

四年共用汉字频率对比分析 频率的变化的考察方法 直接计算频率的方差 计算任意两年度的频率比值 表4 08年相对07年频序提前的前20字 四年共用汉字频率对比分析 频率的变化的考察方法 直接计算频率的方差 方差分布在0.000024到10314.21之间 计算任意两年度的频率比值 频比 任意两年频比的方差

四年共用汉字频率对比分析 全部共用汉字的频比方差 总体变化不大 频比方差大于10的汉字311字 表4 08年相对07年频序提前的前20字 四年共用汉字频率对比分析 全部共用汉字的频比方差 总体变化不大 频比方差大于10的汉字311字 频比方差小于1的6335字,占全部共用字的86.51%(通用字?)

四年共用汉字频率对比分析 使用频率突变的汉字占少数,使用频率相对稳定(方差<1)的汉字占到了4年共用汉字的86.1%。 表4 08年相对07年频序提前的前20字 使用频率突变的汉字占少数,使用频率相对稳定(方差<1)的汉字占到了4年共用汉字的86.1%。 方差的变化分布与汉字的频率有一定关系,总体来说,高频使用的汉字其方差相对较小(这种关系可能只是一种弱关系,见图) 方差大表明汉字在这段时间使用频率的不稳定性,也表明了用字的社会调频性, 四年共用汉字频率对比分析 频比方差小于1的情况

四年共用汉字频率对比分析 频比方差与频比 频比方差可以反映一段时间内的汉字使用频率变化情况 频比可以直接反映两年之间频率的变化 这两者的对比也可以发现一段时间内对汉字使用频率影响较大的年度

四年共用汉字使用率与频率对比 调查报告的基础数据 相关的使用率的研究 报告中的使用率 字种 频次 文本数 文本分布 进一步 领域分布 时间分布

四年共用汉字使用率与频率对比 使用率对频率的影响,可以用汉字按照两种率值排序的结果来观察。 使用率调序幅度较大的部分在高频使用的汉字部分 使用率对频率的影响,可以用汉字按照两种率值排序的结果来观察。 直接用使用率的序值与汉字的序值进行相比较,体现使用率对频率的调序 各年度使用率对频序的调整情况很相似,图给出的是四年总体的情

四年共用汉字使用率与频率对比 前600字使用率对频序的调整 调序没有明显的规律,在高频部分哪一个汉字被调序、调序的幅度具有任意性 表4 08年相对07年频序提前的前20字 四年共用汉字使用率与频率对比 调序没有明显的规律,在高频部分哪一个汉字被调序、调序的幅度具有任意性 调序的范围多在原序的0.5个长度范围之内 前600字使用率对频序的调整

四年共用汉字频率对比分析 频比方差与频比 频比方差可以反映一段时间内的汉字使用频率变化情况 频比可以直接反映两年之间频率的变化 表4 08年相对07年频序提前的前20字 四年共用汉字频率对比分析 频比方差与频比 频比方差可以反映一段时间内的汉字使用频率变化情况 频比可以直接反映两年之间频率的变化 这两者的对比也可以发现一段时间内对汉字使用频率影响较大的年度

小结 年度间的共用字:较稳定的汉字7300余个 每一年度的汉字使用的频率及其相对顺序都是有所变化的,这种变化是绝对的,这种变化又是局限在一定的范围之内(频级?频段?),这个范围可以用频序的分级大略描述,不同范围的变化体现了年度的用字特色。要找到具体的变化的内容,必须通过年度的用字表对比才可以发现。 使用率可以改变频序,调整幅度有一定的规律,且高频汉字部分被调整数量较多。因此若要严格的排出一种用字顺序的话,需要根据排序目标合适的选择调序的范围

探讨 对大规模语料的用字调查,已经积累了基本的数据 这些数据给出的字表,可以从字种、频序、频率等各个方面进行比较,数据、技术都是比较成熟的。 年度 不同的时点、时段 领域 媒体 其他分类(日志、博客……) 这些数据给出的字表,可以从字种、频序、频率等各个方面进行比较,数据、技术都是比较成熟的。

报纸、广播电视、网络媒体5年全部使用的词语(77 489)与词典词语的对比 北京大学计算语言学研究所研制的——现代汉语语法信息词典 国家语委——现代汉语常用词表 董振东教授——知网。

三个参考词典的基本情况 词性 分布

三词典中都出现的词语在5年考察词语表中 3个词典共有的词语42 547条 没有出现在在考察词表 9682 切分的问题 媒体分布 年度分布 进一步到全部词语表中考察有3188出现(说明媒体分布不够) 剩余6203到语料中考察,出现6125 从使用角度对词语的分级定量

探讨 问题 对大规模的词语调查,更深入的挖掘 关于 语料 混合 关于精准的调查 技术 宏观微观变化的原因 或 结果 从构词的角度来看 社会语言学 语言 社会学

语料混合的方式

探讨 问题 对大规模的词语调查,更深入的挖掘 关于 语料 混合 关于精准的调查 技术 宏观微观变化的原因 或 结果 从构词的角度来看 社会语言学 语言 社会学

总结 年度媒体字词语的调查记录了年度词语的使用情况。 词语频率的变化部分反映了社会生活。 媒体、年度共同使用的词语可以作为词频表研制的基础。 可以分级分段的考虑词频表,从而为语言教学、语言研究服务

谢谢!