何 姗 北京师范大学 & 爱荷华大学 陈梦恬 爱荷华大学 浅议汉语口语语料库的选材问题 何 姗 北京师范大学 & 爱荷华大学 陈梦恬 爱荷华大学
研究思路 选题缘起 研究问题 选材设想 建设学习者中介语口语语料库的重要意义 对汉语口语的研究是基础,但现有研究不够充分 需要建设本族语者口语语料库以深化研究 选题缘起 汉语口语语料库的建设目标是什么? 汉语口语语料库应该收录什么语料? 研究问题 广泛选取具有代表性的语料,构建大型普通话口语平衡语料库 选材设想
建设中介语口语语料库有重要意义 语音研究 对于口语语体特征的掌握情况 横向了解学习者在不同口语交际场景下的语言能力 纵向研究学习者的口语水平的发展情况 需要现代汉语口语研究作为基础 教材编写 辞书编纂 课堂教学
口语教学研究现状 对汉语口语研 究的关注不足 在汉语教学中对 口语的重视不够 辞书对口语的说 明标识存在问题 语法、词汇、语用、 语体方面的研究不够 深入。 (韩荔华,1994;曹炜, 2003;李如龙,2007; 冯胜利,2012) 学习者缺乏语体意识,书 面语存在口语化倾向,口 语交际中又容易出现失误。 (丁金国,1997;1999; 2010;冯胜利,2003(1); 2003(2)) 《现代汉语词典(第五版)》某些 标识<口>的词语不具有口语词的语 义特征,或是口语色彩不明显;某 些具有明显口语特征的词语却并未 标志;某些词语虽然具有口语特征, 但同时带有较强的方言特色,不应 该简单标识为口语词;《现代汉语 常用口语词典》和《口语习用语功 能词典》收录的口语词口径不一, 且数量有限,包含大量方言词、口 语色彩不强的惯用语。 (贺俊岚,2008;宋婧婧,2015) 总体来说,相关研究的数量还比较少,研究对象以北方话或北京话的多,研究通语的少;研究方法上,依靠主观语感和经验的多,定量分析的少,例证式的研究多,调查分析得少。 (宋婧婧,2015;杨翼等,2016)
现有汉语口语语料库资源概况 序号 名称 口语语料 口语语料来源 1 北京大学中国语言学研究中心CCL语料库(文本语料库) 7.8亿 1982年北京话调查资料、对话(如:李彦宏马化腾马云精彩对话)、电视访谈(鲁豫有约)、电视电影(如周星驰喜剧剧本选、百家讲坛)、相声小品(赵本山、郭德纲) 2 北京语言大学BCC现代汉语语料库(文本) 30亿 2013年新浪微博 3 中国传媒大学有声媒体语料库(录音/文本) 2亿 34039个广播电视节目的转写材料 4 国家语委语料库 (文本) 300万 口语语料应该是书面语和表义连贯明确,能够用书面语转述的口语语料(如剧本、相声、谈话录、演讲录等),并以前者为主,后者为辅。 5 北京语言大学北京口语语料库(录音) 186万 北京市区和城郊500位居民的独白 6 朗读语篇语音语料库ASCCD(录音) 约7500 10位发音人朗读的18篇文章 7 自然口语独白语音语料库CASS(录音) 6小时 清华大学广播站提供磁带,内容包括学校讲座、学生自由讨论、公共会议,有对话,但大部分为独白 8 台湾国立政治大学NCCU Corpus of Spoken Chinese 27段对话 国语、客家话、.话
现有口语语料库资源存在不足 资源有限,数量较少; 大部分语料都是经过转写的文本材料,包含原始音频 材料的语料库很少; 对于口语语料的判定没有统一的标准,各个语料库收 录口语语料的口径不一; 含有语音文件的语料主要是电台、电视台的播音员、 主持人的媒体语料,普通话在日常生活中的使用情况 没有足够语料可供参考。 对于现代汉语口语情况的记录缺乏全面性和客观性, 不利于研究的深入。
统计和分析特定语言单位在口语中的用法、频率和分布情况 建立口语语料库要解决什么问题? 为汉语作为第二语言的教学和研究提供参考 统计和分析特定语言单位在口语中的用法、频率和分布情况 对比分析 口语的特征 为非目的语环境下的学习者提供口语输入 了解现代汉语普通话的整体情况
什么样的口语语料库 才能达到建设目标? 口语 语料 多样性语料 普通话 自然
现代汉语普通话 定义:以北方话为基础,以北京语音为基础音, 以典范的现代白话文著作为语法规范的现代汉语 标准。 上述定义看似很明确,实际上有很多值得进一步 探究的问题。
语音以北京语音为基础音 以北京话的语音系统为标准,并不是把北京话一切 读法全部照搬,北京话仍有许多土音和异读音现象。 轻声儿化以及某些音变 ,一直是普通话规范中的争 论焦点。什么样的儿化是标准的 ,什么样的儿化是 不标准的 ,哪些轻声、音变可以进入普通话 ,哪些轻 声、音变必须规范掉 ,现在并没有权威的说法。 (谢俊英,1999) 问题一:大部分南方人不说“这儿、那儿、哪儿”, 而是说“这里、那里、哪里”,很多方言地区的人 在说普通话时没有儿化,那他们说的是普通话吗?
词汇以北方话为基础 普通话的词汇系统以北方话为基础 ,但这个基础方言的词汇系 统内部存在比较大的差异;另外,不少其他方言(粤语、吴语) 的词汇也逐渐进入到普通话词汇系统中;哪些是普通话的规范 词,没有明确的判断标准。 北方大部分地区口语都说“孩子”,《现汉》收了“小孩儿”, 说明普通话可以说“小孩儿”,但必须儿化。西北、西南官话 和非官话则有种种说法,但是这些地区的人在说普通话的时候, 往往都说没有儿化的“小孩”。他们以为这就是普通话,却完 全想不到北方人是从不这么说的。(汪平,2013) 问题二:方言区的人说普通话,实际上常常夹杂既非方言也非 普通话的说法,但是并不影响理解和交流,那么他们说的是普 通话吗?
以典范的现代白话文著作为语法规范 虽然说白话文相对于文言文更接近于口语,但是白 话文著作主要体现的还是书面语语法; 正如播音语言虽然以口头形式表达,但基本上使用 书面语法,其实是“念”书面语,而不是“说”话, 所以不是真正的口语;(叶军,1997) 问题三:普通话的定义中,语音指的是口语,语法 指的是书面语,词汇不明确,那么普通话到底是口 语还是书面语? 普通话口语如何界定?
因为语言不是静态封闭的系统,所以绝对性的界 定必然与语言的动态发展性相悖,所以不可能在 普通话和方言、书面语和口语之间划定一道清晰 的界线; 不同地区、不同阶层的人对普通话有不同的认知; 在中国大部分地区,汉语方言还占有主导地位, 普通话的普及程度存在地域差别,普通话水平受 到说话人方言、语言态度、受教育程度等多种因 素影响。
普通话测试评级标准 一级 会说相当标准的普通话,语音、词汇、语法很少差错; 二级 会说比较标准的普通话,方音不太重,词汇、语法较少差错; 三级 会说一般的普通话,不同方言区的人能够听懂。 《新时期的语言工作》(1986)
中国语言文字使用情况调查 (谢俊英,2011) 判定原则:语音、词汇、语法三者兼顾 ,但把语音作为判定是否是普通话的首要条件,只要语音基本上是普通话的音系 ,就可以认为被调查者说的是普通话。 三省 2430份问卷 6928份入户调查 普通话水平/地区 河北 江苏 广西 流利,准确 73.30% 70.67% 80.75% 熟练使用,个别发音不准 37.14% 13.60% 10.30% 使用较熟练,方言音较重 17.19% 35.18% 41.11% 基本能交谈,但不太熟练 17.72% 24.39% 20.30% 能用普通话交谈 27.95% 15.59% 26.29%
普通话并不是一个标准明确,界限明晰的封闭系统,因此在描写和研究中都应该将普通话系统视为一个典型范畴,一个包含典型成员(较为标准的普通话)和边缘成员(较不标准的普通话)的连续统。 电台、电视台播音员和主持人的普通话发音标准,表达较为规范,是标准普通话的代表,但是和自然口语有一定差距;方言区普通民众的发音可能不太标准,表达也带有方言特色,但是他们使用普通话进行的日常交际是更具代表性的口语语料。 因此,现代汉语口语语料库应该广泛取材,而不是以语音为标准将普通话狭义地限定于标准普通话。
汉语书面语和口语存在明显的差别,根据冯胜利 (2006)的研究,书面语至少在表达正式的语体 功能、语体的典雅与词语长短的对应关系、嵌偶 单音词的遴用、合偶双音词的使用、文言古句型 的选用五个方面特征。 如果在和朋友闲谈、陪长辈聊天、在正式会议发 言、和老师同学讨论专业问题时都以播音式的语 言面貌出现,必然是不真实、不自然,让人难以 接受的。也就是说,口语的表现会根据会话双方、 交际场景的差异在正式程度、庄典程度等方面产 生差别,因此除了考虑说话人的多样性之外,也 应该保证交际场景、交际目的、会话双方关系等 方面的多样性。
国外语料库口语语料选材调查 口语语料库在建设在国外起步较早,利用大型语料库对 口语进行的研究已经取得了不少成果,如Longman Grammar of Spoken and Written English(1999)和 Cambridge Grammar of English: A Comprehensive Guide Spoken and Written English Grammar and Usage(2006) 对于建设口语语料库,国外有不少成功经验值得借鉴, 因此我们对50多个语料库进行了调查,重点关注被收录 口语语料的类型,以期为汉语口语语料库的建设提供一 些参考。
语料库调查结果 50个语料库中除了英语语料库(英国、美国、新西 兰、新加坡)之外,还有苏格兰语、西班牙语、葡 萄牙语、意大利语、法语、俄语、乌克兰语、波兰 语、德语等语言; 其中包含通用语料库和专门语料库,如ANC/BNC等 大型国家语料库(14个)和SBCSAE/ACAMSNAE等专 门的口语语料库(21个); 共计35个语料库收录了口语语料(音频文件、经过 转录文本文件和其它文本文件),话题涉及政治、 体育、交通、学习、家庭、购物、工作等; 基本上所有口语语料库都考虑到了说话人、交际场 景的多样性。
语料的其它来源还包括布道、导游词、电影对白、课堂教学、朗读、讨论、推特、网页、研讨会等。
总结 加强现代汉语口语研究; 转换规定性的研究视角,重视描写性的基础工作; 将普通话视为一个开放性的典型范畴; 语料库研究应该基于大规模自然语料; 支持汉语作为第二语言的教学。
参考文献 曹炜. 现代汉语口语词和书面语词的差异初探[J]. 语言教学与研究, 2003(06):39-44. 丁金国. 对外汉语教学中的语体意识[J]. 烟台大学学报:哲学社会科学版, 1997(1):89-96. 丁金国. 再论对外汉语教学中的语体意识[J]. 语言文字应用, 1999(02):28-32. 丁金国. 语体意识及其培育[J]. 当代修辞学, 2010(06):31-38. 冯胜利. 语体语法:“形式-功能对应律”的语言探索[J]. 当代修辞学, 2012(06):3-12. 冯胜利. 韵律制约的书面语与听说为主的教学法[J]. 世界汉语教学, 2003(01):87-97. 冯胜利. 书面语语法及教学的相对独立性[J]. 语言教学与研究, 2003(02):53-63. 韩荔华. 口语、书面语再谈[J]. 北京第二外国语学院学报, 1994(5):61-65. 贺俊岚. 对外汉语口语词典的收词、释义、示例研究[D]. 暨南大学, 2008. 李如龙. 关注汉语口语词汇与书面语词汇的研究[J]. 陕西师范大学学报:哲学社会科学版, 2007, 36(2):110-116. 宋婧婧. 现代汉语口语词特征及其认定原则与方法[J]. 厦门理工学院学报, 2015(6):62-68. 汪平. 试论书面语与口语、方言、普通话的关系[J]. 中国方言学报, 2013(1). 谢俊英.中国语言文字使用情况调查中有关普通话的几个问题[J]. 语言文字应用,1999(4) 谢俊英.普通话普及情况调查分析[J]. 语言文字应用,2011(3) 杨翼, 李绍林, 郭颖雯,等. 建立汉语学习者口语语料库的基本设想[J]. 汉语学习, 2006(03):58-64.
谢谢! Thank you!