国内英语教学用多模态语料库建设现状 - 何美 20130422. 语料库 语料库是指按照一定的语言学原则,运用随机 抽样方法,收集自然出现的连续的语言运用文 本或话语片断而建成的具有一定容量的大型电 子文库。 关于语料库的三点基本认识:语料库中存放的 是在语言的实际使用中真实出现过的语言材料; 语料库是以电子计算机为载体承载语言知识的.

Slides:



Advertisements
Similar presentations
英语考试资源馆藏 及网上检索. 杭州师范学院图书馆 1. 馆内有关数据库 2. 网上免费资源 3. 网上相关资源.
Advertisements

专题六 语文课程标准修订对“实验稿”作了哪些修改和调整
《程序设计实践》 孙辉 理工配楼104A
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
毕业论文答辩PPT模板 学院:地理与旅游学院 专业:会展经济与管理 答辩人:北纬 指导老师:北纬君.
The Graduation Thesis Defense
以“职业人格”为核心, 全面构建“双四维”德育体系
山东英才学院 SHANDONG YINGCAI UNIVERSITY
纸上得来终觉浅,绝知此事要躬行 --2013级高一语文备课组工作总结 前锋学校 2013年12月10日.
Three topics The strategy system
之 语料库在英语教学中的间接应用 何美
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
第八章 综合性语言学 主要内容:本章介绍了几门最重要的综合性语言学科的概况和主要内容。需要重点掌握的内容有:第一节:心理语言学发展的主要动力、心理语言学的三大流派、思维对语言的影响、言语生成的阶段和言语理解的过程。第二节:社会语言学和文化语言学的兴起的原因、社会语言学和文化语言学的差异、社会语言学和文化语言学的主要内容。第三节:应用语言学的研究范围、确立共同语的依据、语料库加工的主要内容、语言信息处理的主要应用领域。
对 培训者 培训的理解 丁革建
素材 资源 库 文字 图形 图像 声音 动画 视频 人力 物力 财力 获取素材的渠道 数据库.
第七章 现代教育技术的应用 第一节 现代教育技术与生物学教育 第二节 计算机及其相关技术在生物学 第三节 互联网在生物学教学中的应用
PressDisplay各语种报纸库.
UI(用户界面)集训班 Illustrator 高级班.
《小学教育学》 模块二 小学教育源流 第五单元 小学教育走向的探究成果分享 自主学习指南.
基于平行语料库的 跨语言知识挖掘 盛玉麒
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
如何利用互联网的英语学习资源.
《数据库原理及应用》课程介绍 信息工程学院 孙俊国
                                                                                                                                                                
课程与编码:语言学与应用语言学 张露茜(博士) 浙江工商大学 外国语学院
教学媒体 朱京曦 北京师范大学 教育技术学院 Tel&Fax: Mob:
单击此处添加标题.
面向对象建模技术 软件工程系 林 琳.
R in Enterprise Environment 企业环境中的R
存储系统.
管理信息结构SMI.
语料库及其基本操作 杨林伟 烟台大学外语教育技术研究中心.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
数 控 技 术 华中科技大学机械科学与工程学院.
第17章 网站发布.
陈新仁 南京大学外国语学院 语言学之家: 基于语料库的语用学研究 陈新仁 南京大学外国语学院 语言学之家:
数据挖掘工具性能比较.
姓名 Tel: My Skill 技能1 技能2 技能3 技能4 技能5 技能6.
PaPaPa项目架构 By:Listen 我在这.
整合思维导图的初中英语教学设计 主讲人:卢璐.
ScienceDirect高级检索功能及使用视频、说明发现路径
京师数学大讲坛 第六讲 北京师范大学 数学科学学院
SOA – Experiment 2: Query Classification Web Service
编程作业3:网页正文抽取 (10分).
C语言程序设计 主讲教师:陆幼利.
中国XX大学 毕业答辩模板 此模板可用于本科毕业答辩/硕士毕业答辩/学术研究等.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
现代教育技术应用 第六章 素材的加工与处理 第19讲 动画的类型和采集 单 位: 北京师范大学 作 者: 毛荷&王翠霞.
计算机及办公软件应用 ©2013 苏州工业园区职业技术学院
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
数据库使用指南 Nature全文数据库.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
2019/4/26 关注NE官方微信,获取更多服务.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
象形手势在课堂教学 中的有效运用 课程名称《教师口语》 课程性质:教师教育必修课 适用专业:师范类专业.
北京中科进出口有限责任公司 PQDT论文全文库检索平台.
第六章 素材的加工与处理 第13讲 用GoldWave进行音频的截取、合并、淡入淡出操作
Logo 思维 力量 商务展示·企业内训.
SIAM全文电子期刊数据库国际站使用指南
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
计算机绘图 AutoCAD2016.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
SIAM全文电子期刊数据库国际站使用指南
学习数据结构的意义 (C语言版) 《数据结构》在线开放课程 主讲人:李刚
入侵检测技术 大连理工大学软件学院 毕玲.
高中物理“平抛运动的应用” 点评专家:谭一宁.
辞典类 Oxford English Dictionary 牛津在线英语大辞典
Presentation transcript:

国内英语教学用多模态语料库建设现状 - 何美

语料库 语料库是指按照一定的语言学原则,运用随机 抽样方法,收集自然出现的连续的语言运用文 本或话语片断而建成的具有一定容量的大型电 子文库。 关于语料库的三点基本认识:语料库中存放的 是在语言的实际使用中真实出现过的语言材料; 语料库是以电子计算机为载体承载语言知识的 基础资源;真实语料需要经过加工(分析和处 理), 才能成为有用的资源;

语料库驱动学习 在 20 世纪 90 年代初 Tim Johns 提出一种新的基于语料 库数据的外语学习方法 : 数据驱动学习( data-driven learning, 简称 DDL )。其主要思想是引导学生对语料 库数据进行观察,检索,自我发现语言使用规律,以 自下而上的方式归纳语法规则和语用特征 优点:数据驱动学习改变了以往传统的单向灌输的教 学模式,提供真实的语言实例,激发学生的学习兴趣, 通过语料库检索,培养学生自主学习和自我解决问题 的能力,达到辅助英语教学的最终目的

国内传统文本语料库教学应用 - 理论研究综述 21 世纪初,国内一些学者 ( 李文中 1999 ,朱乐红, 2000; 何安平, 2001) 开始关注于语料库在英语教学中的应用研究。李文中, 濮建 忠( 2001 )率先提出语料库索引在英语教学中的三种方式; 2004 年王金栓探讨语料库驱动学习英语教学新模式;同年首届中国语 料库语言学与英语教育教学研讨会在广州华南师范大学外文学院 召开, 对语料库语言学与英语教育教学的各个议题展开了激烈讨 论,极大地促进了语料库的英语教学研究;目前国内关于语料库 应用于英语教学的研究中所涉及的内容有词汇教学、语法教学、 语音拼写教学、写作教学翻译教学、口语教学、中介语研究、学 习模式、教学模式改革、话语和语篇研究等,曾永强( 2001 ) 《基于语料库的适应性学习模式》,徐曼菲( 2004 )《图示理论、 语料库语言学与外语教学》、卫乃兴,李文中,濮建中 (2005) 《语料库应用研究》、梁茂成,李文中,许家金《语料库应用教 程》、潘潘( 2012 )《基于语料库的语言研究和教学应用》等 。

国内传统文本语料库教学应用 - 语料库建设开发综述 由卫乃兴、李文中和濮建忠等人首次在国内实现了语 料库资源的在线查询、检索和免费共享, 实现了 4 个语 料库的 700 多万词的文本资源 KWIC 网络在线转换和实 时传送与共享, 开发了数据库学习系统 现在在国内已 建成多个大型英语语料库:中国子语料库,中国英语 学习语料库,大学学习者英语口语语料库,中国专业 英语学习者口语语料库,中国英语语料库,中学英语 口语语料库,公共英语等级考试口语语料库等,这些 英语语料库都与中国的外语教学和外语学习紧密相联。

传统文本语料库教学应用 “ 瓶颈 ” 目前基于语料库的教学模式和实践仍处于探索阶段, 且 教学应用研究多关注于词汇教学。 传统语料库多为文本进行转写标注,其应用于直接应 用于日常语言教学却仍有不少障碍,主要问题包括: ( 1 )现有文本语料库主要为调查和研究语言而设计和 建立,其规模大、话题和语域种类繁多,但内容通常 不能与语言教学要求直接接轨;( 2 )语料库的体例与 传统的教材体例相距甚远,从中提取的词语索引行也 往往使初学者感到过于纷杂和不完整;( 3 )语料库的 标注体系,如口语语料库中的诸多音韵标记,通常令 人费解;( 4 )语料库只显示文字和数据,而语言教学 却已进入了 “ 多媒体 ” 时代 - 何安平( 2009 )

多媒体 VS 多模态 内容的载体即逻辑媒介来界定某个内容是否是 多媒体材料。逻辑媒介指在物理媒介上装载内 容或信息的编码手段, 如文字、模拟音频流、 数字音频流、图像、视频流等。 模态在本文里指人类通过感官如视觉、听觉等 跟外部环境如人、机器、物件、动物等之间的 互动方式。

多模态语料库 - 多模态语料库是建立在 “ 言语理论 ” 基础之上的, 以 言语活动为研究对象, 以从原始数据中抽取信息和 知识为手段, 以语境模型为驱动的囊括整个言语活 动的语言、声音、图像和动作的多媒体语料库(张 霄军, 2007:36 )。 教学应用优势: 多模态语料库的语料不再仅限于文本, 以多媒体素 材包括音频和视频为语料, 在多元语境中反映语言在 语音、语义和语用等方面的全貌,学生更直接的体 验语言使用的多模态语境。 通过多媒体素材语料进行检索,提高学生的自主性 改变以往灌输式的教学方式,有利于建设 “ 以教师为 主,以学生为辅 ” 的教学模式。

国外多模态语料库的建设 早在 2000 年, NIMM 工作组就当时现存多模态语料库,转写软件, 标注工具进行调查,发现全球范围内已存在 64 个多模态语料库,36 个用于面部表情和言语多模态研究, 28 个研究身体姿势和言语多 模态研究,并已有 21 个标注方案,现存的多模态语料库主要用于 多模态话语分析,视听识别系统,人机智能对话领域的,但是当 时多模态语料库的研究多是仅限于两种模态的分析,标注软件, 研究成果应用范围不广。经过十几年众多学者的努力,现在已建 有用于不同用途的可以分析多种模态的大型语料库工程,包括用 于多模态话语分析的 CID 语料库, D64 语料库, IFADV 语料库, Smartweb 语料库用于研究人机智能对话技术,也有应用其他领域 的: AMI 会议语料库( 3 个不同会议室 100 小时的会议内容,用于 研发浏览先前会议内容的技术), CUBE-G 语料库(由德国和日 本联合建设,用于研究多模态文化差异), Fruits Cart Corpus ( 13 个成员的任务生成性对话,用于研究语言生成)。

国外多模态语料库检索软件开发 许多应用于多模态语料库标注和检索的软件: ANVIL , Elan , MacVisSTA , DRS , Exmeralda ,同时还有其他功能的软件, Transformer 用于文件格式转换, speechware 语料库转写软件, C-BAS 用于标注编码。 Elan 软件是荷兰纽梅因马普心理语言学研究所开发的一 个多媒体转写标注软件,在话语分析、态势语言、语言存档、口语语料 库建设、濒危语言或方言的保存等方面被广泛使用。 Elan 支持多种音频 和视频文件格式的转写和标注,媒体与文本直接关联,一一对应,可以 无限添加标注;支持大字符集 Unicode 编码汉字、国际音标等各种字符的 输入和显示;转写标注内容与数据库紧密结合,使用者可以根据需要进 行各种形式的检索;许多多模态语料库的建设中都是用了该种软件。而 多模态语料库应用到外语教学的研究也起步于 2000 年。意大利系统功能 语言学和多模态话语分析专家 Anthony Baldry 和其他学者共同研发 “ 多模 态语料库标注系统 ” ( Multimodal Corpus Authoring System ,简称 MCA ) 该信息检索工具基于系统功能语言学和多模态话语分析理论,以 “ 帧 ” 为基 本单位刻画了影视语篇的语义内容和类型结构,从而成功地表征了多媒 体信息的语义内容。如今在意大利、新加坡等国,该多模态检索系统已 经在多所高校的外语电化教学中得到了应用。

国外教学多模态语料库建设 2008 年 12 曰合作建设的教学语料库 SACODEYL 多模态语料库是 多模态语料库在外域教学中的直接应用。其在欧共体资助下,由 英国、法国、德国、意大利、立陶宛、罗马尼亚和西班牙 7 个国 家的 4 所大学于。该库收录了欧洲 7 国的青少年语言,是世界上第 一个将数据驱动学习模式付诸实践的多语种多模态语料库。与其 他语料库相比,该库有其独到之处:( 1 )提供多种语料库工具 和灵活多样的检索形式;( 2 )可进行文本和多模态视频间的自 由切换;( 3 )用户可自定义标注;( 4 )补充了丰富的教学活动; ( 5 )可免费在线使用同时多模态语料库建设中的其他一些问题 也在国外引起了广泛关注。如:多模态语料库标注信度测试,多 个多模态语料库标注软件间文本兼容,多模态语料库网络共享及 多模态语料库的著作权问题都有了深层次的研究。

国内多模态语料库建设 李文中教授带领开发的国内建成语料检 索与音视频定位同步播放系统,整合了 多媒体技术,支持关键词和场景检索。 杨林伟、伍忠杰设计的新闻多媒体语料 库基于 B/S( 浏览器 / 服务器 ) 架构模式均对 语料库的建设和共享具有积极的促进作 用。

多模态应用于教学 目前国内关于多模态语料库应用于教学 的研究有两种: 一种是间接应用,将多模态语料库的研 究成果应用于英语教学。 另一种是直接应用,将多模态语料库直 接应用于英语教学。

间接应用 王立非、文艳( 2008 )应用 Elan 软件对第二语 言教师课堂话语,母语演讲者开场片段进行多 模态分析,建立小型多模态语料库研究音韵特 征是如何和话语的结合方式; 刘芹、潘鸣威( 2010 )以多模态话语分析理论 为基础,拟建立中型多模态口语语料库,从多 个标注维度设计多模态口语语料库,以对学生 口语作全方位、多层次的剖析,以全面反映大 学生的英语口语水平。

直接应用 李学宁、马利霞( 2010 )探讨了 MCA 多模态 检索及其在外语电化教学中的应用的可能性; 吴进善( 2010 )提出多媒体教学平台建设的理 论框架,将多媒体语料检索和大学教学相结合; 河南师范大学李文中( 2010 )实现了多媒体语 料库的教学应用,及白晧,樊晓红( 2012 )基 于该语料库的实证研究。 杨林伟,伍忠杰( 2012 )对 Web 多媒体语料 库教学应用设想

多模态语料库教学应用研究总述 虽然国内多模态语料库教学研究刚刚起步,但 是引起广泛关注,多模态语料库教学应用主要 在于理论支持研究上,在语料库建设和软件开 发上较国外发展仍比较落后。李文中教授带领 建立的多媒体语料库仅限于单机使用,应用范 围有限。杨林伟等建设多媒体语料库现只能支 持音频检索。 多模态语料库开发和应用需要语料库语言学家、 外语教学专家和计算机工程师的通力合作。