第九章 现代科学技术与对外汉语教学 主讲人:辽宁师范大学 赵越
第九章 现代科学技术与对外汉语教学 现代科技与有关的中文信息处理环境 多媒体汉语计算机辅助教学 网络环境下的对外汉语教学 知识点1 知识点2 第九章 现代科学技术与对外汉语教学 现代科技与有关的中文信息处理环境 知识点1 多媒体汉语计算机辅助教学 知识点2 网络环境下的对外汉语教学 知识点3
绪 言 现代科学技术,主要是指以计算机技术为核心的信息技术,包括计算机的硬软件技术、数字化技术、多媒体技术、网络技术、激光与卫星传输技术和虚拟现实技术等。 现代科技的特点是发展迅速,它影响着人类社会生活的各个方面,对对外汉语教学也产生了重要的影响。
知识点1 现代科技与有关的中文信息处理环境
1 现代科技与有关的中文信息处理环境 1.1 现代科技在对外汉语教学中的应用 1.2 有关的中文信息处理环境
1.1 现代科技在对外汉语教学中的应用 1.1.1 文字处理 1.1.2 辅助语言教学和训练 1.1.3 辅助语言测试 1.1.4 语料分析 1.1.5 教学管理
1.1.1 文字处理 借助于文字处理软件,实现文字的编辑和储存。 1.1 现代科技在对外汉语教学中的应用 1.1.1 文字处理 借助于文字处理软件,实现文字的编辑和储存。 在计算机上编写教案、准备教学资料、收集语言材料,乃至发、写论文、编写教材等。 对资料进行增加、删除、修改、查询、存储, 可以节省大量的时间,提高工作效率。
1.1.2 辅助语言教学和训练 (1)教学软件 (2)多媒体汉语字典或词典、电子教科书 (3)网络远程汉语教学 1.1 现代科技在对外汉语教学中的应用 1.1.2 辅助语言教学和训练 (1)教学软件 (2)多媒体汉语字典或词典、电子教科书 (3)网络远程汉语教学
1.1.3 辅助语言测试 1.1 现代科技在对外汉语教学中的应用 试题库管理软件可以调用库内数据生成试题或试卷,具备对各种考试的结果和具体试题进行分析,并根据分析结果修改或补充试题库的功能。 计算机化语言测试还涉及自动阅卷、测试成绩归档等相关配套项目。 避免重复劳动、节省时间,通过科学计算和分析来保证试题本身的可靠性和有效性。
1.1 现代科技在对外汉语教学中的应用 1.1.4 语料分析 综合性分析 单篇文字的分析
1.1.5 教学管理 包括教学资料管理和教学行政管理。 实质上主要是建立某种目的的数据库,如学生成绩档案、图书目录、视听资料目录,等等。 1.1 现代科技在对外汉语教学中的应用 1.1.5 教学管理 包括教学资料管理和教学行政管理。 实质上主要是建立某种目的的数据库,如学生成绩档案、图书目录、视听资料目录,等等。 利用计算机的快速、自动检索和图表处理功能,可以提高管理工作的效率和准确性。
小结 1.1 现代科技在对外汉语教学中的应用 1.1.1 文字处理 1.1.2 辅助语言教学和训练 1.1.3 辅助语言测试 1.1.4 语料分析 1.1.5 教学管理
1.2 有关的中文信息处理环境 1.2.1 中文信息平台和多文种信息平台 1.2.2 汉语教学和研究的基础工具 1.2.3 语料库技术
1.2.1 中文信息平台和多文种信息平台 中文信息平台是指具有对汉字进行编码、处理、传输的能力并且具有中文输入、输出界面的操作系统。 1.2 有关的中文信息处理环境 1.2.1 中文信息平台和多文种信息平台 中文信息平台是指具有对汉字进行编码、处理、传输的能力并且具有中文输入、输出界面的操作系统。 多文种平台,是指能同时处理两种或两种以上语文的操作系统。
1.2.1 中文信息平台和多文种信息平台 汉字编码标准 汉字输入方法 汉字输出技术 中文信息平台和对外汉语教学 1.2 有关的中文信息处理环境 1.2.1 中文信息平台和多文种信息平台 汉字编码标准 汉字输入方法 汉字输出技术 中文信息平台和对外汉语教学
1.2 有关的中文信息处理环境 1.2.2 汉语教学和研究的基础工具 表达工具 数据统计和分析工具 其他
1.2 有关的中文信息处理环境 1.2.3 语料库技术 ♦ 语料库与语料库语言学 ♦对外汉语教学用语料库建设及检索系统
♦ 语料库与语料库语言学 ◇什么是语料库? ◇语料库的分类 ◇语料库的发展简介
◇什么是语料库 语料库(corpus) 就是一个存放语言材料的仓库(或数据库)。传统上语言学家用语料库这个术语表示可以作为语言研究基础的、大量自然出现的语言数据。 现在通常指电子形式存储的语言材料,并广泛用于语言研究和语言工程。 作为专业定义:指为某一个或多个研究目标而专门采集的、有一定结构的、具有代表性的、具有一定规模的、可以被计算机程序处理的语言材料的集合。
语料库VS文本 语言资料库简称语料库(corpus ):它是大规模真实文本(text)的有序集合,是利用计算机对语言进行各种分类、统计、检索、综合、比较等研究的基础。 文本:是语言的符号串,文字信息的处理对象,是依据语言学的原则和数理统计的方法从自然语言中抽取出来的。 语料库不仅仅是原始语料的结合,而且是有结构、经过加工标注了语法、语义、语音、语用等信息的语料集合。
◇语料库的分类 共时与历时语料库 平衡语料库与整群语料库 通用语料库与专用语料库 书面语与口语语料库 单语种与多语种语料库 平行语料库 监控语料库
①共时与历时语料库 共时是指某一时间段内的语言材料组成的语料库, 如:香港城市大学的两岸五地共时语料库(LIVAC) 历时是指为了对语言进行历时研究而建立的语料库。收集的语料是分时间段的、动态的。 如:北京语言大学的动态流通语料库 实际上目前没有完全共时的语料库,也没有完全历时的语料库,历时语料库是一个个共时语言的快照组成。
http://www.livac.org
②平衡语料库与整群语料库 平衡语料库是从研究的目的出发,按某种人为事先设定好的比例和结构,采集的该领域最具有代表性的语言材料的集合。 如著名的BROWN、LOB、北航、国家级、北语现代汉语语料库 语料采集的原则:真实、可靠、流通性;公认、代表性;科学、规模、结构(分布)性。 整群语料库,以群体为采集单位,建设语料库。 如北京大学计算语言研究所开发的《人民日报》标注语料库,圣经语料库、英国著名作家语料库,红楼梦语料库。
③通用语料库与专用语料库 通用语料库:抽样时仔细从各方面考虑了语料对某种语言代表性和通用性问题的平衡语料库。通用语料库是对应于专用语料库的一种对举称呼。 专用语料库:为了某种专门用途,只采集特定领域、特定区域、特定时间、特定类型的语料而组成的语料库。 如:北京口语语料库、中介语语料库、外国留学生作文语料库、小学生语言系的语料。
④书面语与口语语料库 口语语料库的语料为口语录音(录音语料库区别),常常需要人工转换为文本语料。如: 英国的英语口语语料库LLC (the london-lund corpus) 中国传媒大学的电视录音转换语料库 (http://ling.cuc.edu.cn/ylk/) 中国社会科学院语言研究所的现代自然口语语料库
⑤单语种与多语种语料库 单语种语料库:指语料来源为某种语言的语料库。 如:现代汉语语料库、当代美国英语书面语语料库。 多语种语料库:语料来源是两种或两种以上的语言的语料库。 如:JCKE项目为中、日、韩、英等几个国家的句子对齐语料库。
⑥平行语料库 可以分为单语言的平行语料库和多语言的平语料库。 单语言平行语料库 如: “国际英语语料库”,共有20个平行的自语料库,分别来自以英语为母语或者官方语言和主要语言的国家,其平行表现在语料的结构包括种类、比例、时间等的一致性上。可以用于对不同国家的英语进行对比研究。 香港理工大学“中港台汉语语料库”(1990—1991年的10份报刊)和香港城市大学的“中文五地共时语料库”,对不同地区采样的媒体、采样时间、采样内容、版面、长度等都有严谨的限制。可以用于研究不同地区的中文的使用情况。
指的是在两种或两种以上语言之间进行的语料采 集和加工。 多语种的平行语料库 指的是在两种或两种以上语言之间进行的语料采 集和加工。 如: “双语对齐语料库”,包括篇章级对齐、句子级对齐和正在研究的多次表达对齐(短语级对齐)。 法国国家科研中心的“圣经语料库”,收集各种不同语种和版本的圣经进行对比研究。 正在建设北京大学汉英双语平行语料库,除了篇 章、句子对齐还在做短语对齐,提取短语对齐词表。
⑦监控语料库 具备及时更新和自动监控的语料库,能够自动淘汰过时的语料,不断自动选择新语料,增加新语料,及时发现、及时报告语言应用中出现的新现象、新变化。对术语、新词语、词语使用状况的动态研究、词典编纂等非常有用。 Cobuild语料库就是一个监控语料库(monitor corpus),加进了一个动态元素,新文本被源源不断地加进去,通过软件分析识别和发现新词语和词汇的新用法。每周向其电子邮件用户发送一份word watch邮件,报告流通中用语的动态变化。 2001年全球英语监控语料库(the global English monitor corpus)项目启动。目的是报告不同国家英语变化的趋势。
◇语料库的发展 对于语料库的发展阶段,学界存在三分法(何婷婷、黄昌宁、李涓子、詹卫东等)或六分法(张普等)等几种观点。 综合各种分法,可以看出语料库发展经历了漫长的人工语料库时代和迅猛发展的电子语料库时代,其中电子语料库时代按时期、语料、数量、加工深度、文本方式、应用领域等又分为前期电子语料库时代、中期电子语料库时代、后期电子语料库时代和超后期电子语料库时代
⑴ 人工语料库时代 在计算机技术运用于语言研究之前,特别是20世纪60年代以前,研究者也有语料库,只是规模小、范围窄,且基本上是单语种语料库,仅用于面向语言的研究领域。这样的语料库虽然是机器不可读的,但是却是现代语料库的雏形,为现代语料库的建立和发展奠定了基础。
在国外,人工语料库曾广泛使用于语言习得、方言学、语言教学、句法和语义及音系研究等语言研究中。 如:19世纪70年代欧洲儿童语言习得的研究者普莱尔(Preyer)和斯特恩(Stern)等人以父母的育儿日记为语言材料建立语料库,作为提出理论假说的依据。 如:19世纪的方言研究者,手持笔记本或手提录音机,记录下其所遇到的一切方言材料作为语料库进行研究。
在我国,人工语料库也被运用于语言研究之中, 如:西汉语言学家扬雄利用首都之便,对当地的方言进行普遍走访,经过27年艰苦努力,积累了大量的语言材料,终成汉语方言学第一部著作。 从20 世纪20 年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率,其目的在于制定基础汉字的字表。1925 年完成的《语体文应用字汇》,是由著名教育学家陈鹤琴和他的助理,在对语料统计的基础上,先后费了两三年工夫,检查了几十万字的语体文编写而成,于1928 年由商务印书馆出版。
意义: 人工语料库,都凝聚着语言学者们勤劳的心血和执着的精神,值得我们今天的研究者学习,不应该被排除在语料库历史之外。另外,虽然现代社会计算机已经广泛被使用,但是我们仍不能完全排除新的人工语料库被建立和应用的可能。
⑵前期电子语料库时代 20世纪60-70年代,语料库进入前期电子语料库时代。语料库规模一般不超过100万,基本为单语种语料库,加工到词汇层级,文本采取抽样方式提取。广泛应用与语言研究领域中。几个代表语料库: 20世纪60年代,Brown语料库是当今最早的机读语料库。它是由N.Francis和Kucera等一批语言学家和计算语言学家在美国Brown大学建立的美国英语书面语语料库。总规模为一百万词次,采用共时原则采集语料。 20世纪70年代,英国学者建立Brown语料库姊妹语料库——LOB语料库。规模约一百万词,样本是1961年前后的书面英国英语。
1975年的LLC英国英语口语语料库。收集历时25年的语料,是比较、评价其他口语语料库的重要资料。至今仍被广泛使用。 第一代语料库还包括一些专门用途的语料库: 用于词汇研究的AHI(American Heritage Intermediate Corpus); 用于语言学习的SEC语料库(The Lancaster/IBM Spoken English Corpus); 研究语言习得的语料库CHILDES (Child Language Data Exchange system)。 前期电子语料库时代的到来是语言学进入电子时代的标志。在这一时期,确定了建设语料库的一些基本方法和原则,为建立更大规模的语料库奠定了基础。但是其规模对于一些语言现象,特别是低频语言现象的研究来说,是不够的。
⑶ 中期电子语料库时代 20世纪80年代以后,由于计算机应用水平不断提高和语料库研究不断的深入,语料库有了新的发展,不但规模上达到千万字、上亿字以上,建设的速度也大大加快,且出现了多语种语料库,因此称为中期电子语料库时代。主要语料库如下: 20世纪80年代,Harper Collins出版社与英国伯明翰大学合作开发的Cobuild语料库,其语料超过4亿,结构合理,标注全面,是迄今为止最大的平衡语料库之一。 LONGMAN语料库包含三个大型语料库:LLELC , LSC, LCLE ,为全方位研究英语提供了一个可靠的基础平台。
BNC语料库(the British National Corpus),由英国政府、学术单位、商业出版社共同合作完成,目标是成为当代最有代表性的英语信息库。使用TEI编码进行规范的标注,开发了专门的检索工具与检索语言以方便研究者使用,发布时包含完备的说明文档,为语料库工程建设树立了一个榜样。 ICE(The International Corpus of English)语料库。语料取于若干个以英语作为母语、官方语言或第二语言的国家,是为不同地区英语比较研究建设的。 在这一时期,中国的利用语料库进行语言调查和研究的学者不断增多。《现代汉语常用字表》和《现代汉语频率词典》是利用大规模语料库对汉字和词语的使用频率进行统计调查取得的代表成果。特别是《现代汉语频率词典》,不但克服困难,用人工完成了全部语料的标注工作,且提出了关于词语通用度的计算公式,有很大的价值。
⑷ 后期电子语料库时代 进入90年代,随着计算机技术的高速发展,人们采集和处理语料的能力不断提高,语料库的规模不断扩大,形成了多语种亿级万亿级大规模真实文本语料库。加工的深度也达到句法语义级,应用领域也相应扩大。这一时期的语料库代表有:
国际语料库: 由美国计算语言学会倡议,美国宾西法尼亚大学利伯曼(M.Liberman)主持的数据采取计划简称ACL/DCI。 英国伯明翰大学的辛克莱(Sinclair)主张建立一个监控语料库(monitor corpus)。 1999年6月比利时的维尔文(D. Vervenne)实现了一个协作性知识管理系统。
国内语料库: 清华大学计算机系“现代汉语语料库” 北京语言文化大学1992年建成“当代北京口语语料库” 1995年完成“现代汉语语法研究语料库” 1995年完成“汉语中介语语料库系统” 1995年完成“现代汉语句型语料库”
1998年还与香港理工大学中文及双语学系建设了“现代汉语语料库” 1990年山东大学完成“当代汉语流通语料库” 国家语言文字工作委员会建设“现代汉语语料库” 1998年北京语言文化大学提出建立“动态流通语料库” 1998年日本富士通公司与北京大学计算语言研究所等大学合作,拟建立6000万字的“现代汉语精加工语料库”
⑸ 超后期电子语料库时代 20世纪90年代以来,互联网络的普及,使得获取电子文本的语料库容易起来; 加上计算机硬件技术的高速发展,存储容量和计算速度都有了极大提高; 光电扫描识别技术进一步提高印刷体识别率达到95%左右; 带辅助校对功能软件的产生,计算机索引技术、全文检索技术的大发展,使得建设超大规模语料库成为可能。 同时有人提出建立监控语料库、虚拟语料库和动态流通语料库的设想。并朝着规范化、自动化、网络化、智能化和多功能五个方向发展。
监控语料库需要具备及时更新和自动监控语料的能力,它要能够不断自动淘汰过时的语料,不断自动选择和增加新语料、新变化、新现象。现在这种语料库的开发处于起步阶段,代表有Cobuild语料库和全英语监控语料库等。 虚拟语料库是把网络上的一切资源视为一个大语料库,用的时候根据需要提取,实际上很难实现。 动态流通语料库是不断动态补充语料,并注重语料流通度的语料库。所谓“流通度”,是指一种语言事实在社会交际中的流行通用的程度。人们对一种语言现象的流行通用程度的感觉就是所谓“语感”。流通度的计算能很好的量化语感。动态流通语料库目前还处于推进中。
♦对外汉语教学用语料库建设及检索系统 现代汉语语料库 现代汉语句型语料库 汉语中介语语料库 面向语言学研究的汉语语料库检索系统 汉语教学多媒体素材库和资源库
1、现代汉语语料库 建设现代汉语语料库是一项非常有意义和非常基础的工程。它可以为汉语教学工作者提供有力的帮助。我们可以用它来辅助制定教学大纲、编写教材、查找例句、编写教案、编出试题等。 现代汉语语料库的建立要经历原始语料收集、提取粗语料、提取精语料几个过程。
国家语委现代汉语语料库 语料库概况 继美、英、德、日等国家投入巨资建立大规模语料库之后,我国从1990年开始由国家语言文字工作委员会主持,组织语言学界和计算机界的专家共同建立了大型的国家机语料库,即国家语委现代汉语语料库。
语料库特点 (1)由人文与社会科学、自然科学及综合三个大类约40个小类组成。语料时间跨度为1919年至2002年,以20年的语料为主;分为13个大类,40多个小类,100多个详细分类。 语料库类别分布如下所示:
(2)已完成5000万字语料的词语切分和词性标注加工,在语料库加工过程中研发了语料库加工、词类标记集等规范以及词语切分和词性标注、语料库校对、管理、语料检索、查询统计等一整套的计算机软件工具,功能齐全,用户界面友好。 (3)对外公开免费使用。
现代汉语句型语料库 现代汉语句型统计与研究是一项通过对文本语料进行句型分类统计和句法结构分析,从而对现代汉语进行句型调查和研究的基础工程。 调查现代汉语句型的使用频率,研制出一个体现汉语特点、突出汉语语法教学重点的常用句型表,建立一个经过专家分析研究的句型语料库,是非常有意义的。 这项工程的成果,应该能为对外汉语教学的教材建设、语法教学、汉外对比研究以及汉语水平测试提供有关句型方面的科学数据和丰富例句。
小学语文课文句型语料库 http://www.shihan.edu.cn/seminar_achievements/100424
检索例举
汉语中介语语料库 中介语是不断发展变化的;它的发展变化有一定的内在规律,表现出一种普遍性或群体性的特征。 (1)中介语语料库特点 正因为中介语的规律性和系统性,我们才可以描写中介语的面貌,揭示中介语发展的总体特征和群体特征,并找出影响中介语发展的主观和客观条件。
(2)意义和作用 建立汉语中介语语料库的基本目的,是为对外汉语教学的学科建设做一项基础性的准备工作; 同时也为有关的汉语本体研究、汉外语言对比和语言共性研究,以及其他相关的研究工作提供来自汉语中介语方面的语料和数据。
北京语言大学汉语中介语语料库 “ HSK 动态作文语料库 ” 是母语非汉语的外国人参加高等汉语水平考试( HSK 高等)作文考试的答卷语料库,收集了 1992-2005 年的部分外国考生的作文答卷。语料库 1.0 版收入语料 10740 篇,约 400 万字,于 2006 年 12 月下旬上网试运行。经修改补充,语料库 1.1 版语料总数达到 11569 篇,共计 424 万字。 语料库提供给用户的作文语料有两种版本:标注语料和原始语料。
(1)字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、漏字标注、多字标注,以及各种用字错误统计,总的字频统计等。 一:字的检索
(2)词处理:包括错词标注、缺词标注、多词标注、外文词标注、离合词错误标注,以及各种用词错误统计,总的词频统计等。
(3)句处理:包括句子成分残缺或多余的错误标注,各种特殊句式的错误标注,语序、动词重叠、句式杂糅、未完句等方面的错误标注,以及各种句子错误的数据统计。
面向语言学研究的汉语语料库检索系统 语言学研究需要以语言事实作为依据。 过去主要通过研究者用卡片大量摘录语言材料,这种方法因受到数据规模的限制而效率较低。 近十几年出现了大量的电子文档,可以组成大规模的电子语料库,并出现了相当成熟的文本信息检索技术。 效率高,可以在极短的时间内,在大规模电子语料库中找到相关文本的文章、段落、句子;结果可以编辑、复制、打印;查询表达式可以是关键词语同逻辑符号组合成的复杂的关系式。
面向语言教学研究的汉语语料检索系统CCRL 单位:北京语言大学 简介: 北京语言大学在国家863计划、国家自然科学基金和教育部项目的支持下,研制成功。 CCRL软件系统已经对8亿多字的各种文体的汉语文本语料库建立了字索引和多种词语属性索引,词语属性包括语法、语义、语音、构词等方面,并已取得多项有意义的研究成果。CCRL网络测试版已在北京语言大学语言信息处理研究所网(http://clip.blcu.edu.cn)发布,全球的用户都可自由使用。 教育部科技发展中心 http://www.cutech.edu.cn/cn/gxzxjdcgjj/axkfl/jsj/webinfo/2004/02/1179971250769742.htm
CCRL汉语检索通
汉语教学多媒体素材库和资源库 对外汉语教学多媒体素材库,存储的是汉语教学所用的形形色色的基本“元件”,教师可以根据自己的设想或者根据他人所提供的“图纸”,搭建成自己所需要的教材或者课件,形成配合课堂教学使用的或者在网络上供学生使用的教学资源。各种各样的素材库便构成了理想的教学资源库。
汉语国际教学推广资源库 单位:武汉大学汉语国际推广教学资源研究与开发基地 特点: 旨在建设超大容量、自动组配、满足需求的教学资源库及网络平台; 研发汉推紧缺教学资源产品; 构建汉推教学资源评价体系; 提供教学资源建设策划和咨询服务; 打造面向世界的汉语国际推广教学资源研发中心。
语料库总结 现代汉语语料库 现代汉语句型语料库 汉语中介语语料库 面向语言学研究的汉语语料库检索系统 汉语教学多媒体素材库和资源库
3.3.3 应用性 3.3 对外汉语教学的学科特点 根据对外汉语教学的学科任务,决定了这一门理论与实践紧密结合、具有极强实践性的应用学科。 作为教学活动的对外汉语教学必须理论与实践相结合。一线教师积累有丰富的教学经验,可以补充丰富教学理论;新加入的高学历教师则需要教学法的学习,在教学中理论指导实践。 本学科研究方法的特点要进行科学实验,获得数据,进行定量、定性分析,从而得出客观的、有说服力的结论。