Download presentation
Presentation is loading. Please wait.
Published byBenjamin Owens Modified 6年之前
1
语料库在外语教学研究中的 应用及方法 潘璠 计算机辅助语言教学研究所 华 中 科 技 大 学 外 国 语 学 院 2008年4月
语料库在外语教学研究中的 应用及方法 潘璠 计算机辅助语言教学研究所 华 中 科 技 大 学 外 国 语 学 院 2008年4月
2
Outline: 1.语料库和建库原则 2.语料库检索方式 3.运用语料库进行外语研究:方法和实例 4.语料库资源介绍
3
语料(corpus),又称为素材,是自然发生的语言材料(包括书面语和口语)的集合。
1.语料库和建库原则 语料(corpus),又称为素材,是自然发生的语言材料(包括书面语和口语)的集合。 可以用来作为描述一种语言的出发点或用于证实有关一种语言的假设的手段(Crystal,1991)。 语料语言学(corpus linguistics)是以语篇(text)语料为基础对语言进行研究的一门学科,是计算语言学的一个分支。
4
语料库 对语料的处理由较为简单的机器可读形式发展到人工或自动词性附码(tagging)和句法分析(parsing)的注释(annotated)形式。 利用语料对语言进行研究的成果已被用于辞典编纂和语言教学等实际工作中,例如1980年由Sinclair主持的Cobuild计划。这是Collins出版公司与Birmingham大学的合作计划。他们搜集了大量的现代英语口语和书面语素材,逐一分析每个单词的词汇、语法、语义、语体和语用特点。根据这些资料,陆续出版了一系列COBUILD词典和语法等工具书。这些书中的例句取自真实的语言素材,词典中词的释义排列顺序由语料库中得出的统计结果来决定,更加客观地反映了英语的使用情况。此外,词的释义方法更利于英语学习和教学。因此,受到语言学界和语言教师及学生的欢迎。
5
语料库建库原则 语料库的主要用途之一是发现语言的主要的和典型的用法。
一般用途语料库的语料随机地取自各种来源,在语域方面尽量避免偏向,例如Brown语料库在语域上分为15个类别(新闻报导、社论、新闻评论、宗教、技能和爱好、学术和科技、各类小说和幽默等等)。 语料采集方式最根本的目的在于尽可能保证所采集的语料具有代表性,保证所收录的语料最大程度地涵盖具体语言在诸如语体、语域、地域变体、作品年代、作者性别、题材类型等多方面的比例合理性,进而保证建成后的语料库能囊括具体言语行为的普遍规律性。
6
语料库建库原则 表1.“英语用法调查”语料库 (I)原始书写语料(100篇) (A)印刷品(46) (B)非印刷品(36)
人文科学 6 ┌ 想象性 5 连续书写品┤ 自然科学 7 └ 资讯性 6 教学 6 ┌ 一般新闻 4 ┌亲密 6 报刊┤ 社交书信┤平等 4 └ 专门报导 4 └疏远 4 文书 4 ┌平等 4 非社交书信1┤ 法律 3 └疏远 4 论说文 5 日记 4 散文小说 7 (C)口语(18) ┌资讯性 4 剧本 4 谈话┤ └想象性 2 正式演说(经转写) 3 故事 2 广播新闻 3
7
语料库建库原则 (Ⅱ)原始口说材料(100)篇 有准备的演说(未转写) 6 ┌ ┌亲密 24 ┌演说 10 │不公开┤
有准备的演说(未转写) 6 ┌ ┌亲密 24 ┌演说 10 │不公开┤ 自发言语┤ ┌体育 4 │ └疏远 10 └评论┤ │ ┌亲密 20 └其他 4 交谈┤可公开┤ │ └疏远 6 │ ┌亲密 10 │电话┤ └ └疏远 6
8
2.语料库检索方式 较为典型的检索工具是1996年牛津大学出版社推出的Mike Scott所编制的Wordsmith软件包。这套软件不仅提供了词语检索(Concordancing)并共现上下文的常用功能,还可统计计算出索引单位搭配行为的T(或Z)值、信息相关值(即MI:mutual information)和x平方值,并予以列表显示。它还能快速识别某种文体中经常出现的多词集合,且提供在整个语料库中对英语教师和英语学习者具有价值的语言特征。就连传统的关键词(keyword)功能在Wordsmith软件包中也已赋予新用途,如可列选出在特定文本或文体类型中出现频率特别高的词,以帮助研究者得出某种语域或文体的显著词汇特征。
9
3.运用语料库进行外语研究:方法和实例 3.1 分析词语的方法 3.1.1 不同语域词频差异的调查 3.1.2 根据搭配调查语义差异
3.1.3 根据搭配调查语义韵差异 3.2 学习者中介语的调查 3.2.1 学习者与本族语者之间的对比 3.2.2 不同母语背景学习者之间的对比 3.2.3 不同层次学习者之间的对比
10
3.1 分析词语的方法 3.1.1 不同语域词频差异的调查 Rundell就曾利用BNC的口语部分调查发现:began在书面语中出现的次数几乎是started的两倍,而在口语中出现的频率要比started低得多。
11
certain, sure, definite在社会科学和小说中的 频率分布图
不同语域词频差异的调查 certain, sure, definite在社会科学和小说中的 频率分布图
12
certain, sure, definite不同语域频率分布差异
在社会科学类文本中,用的最多是certain(1百万词中359次),其次是definite(114次),sure最不常见(74次);而在小说类型的文本中,sure比certain要常见得多(353次对179次),而definite就极为少见(仅11词次)。这说明在表达比较严谨的文本中,更倾向于使用certain和definite,而在表达相对自由的小说中,较为口语化的sure用得更多。不同语域同义词的取舍有一定的指导意义,形成一定的优先原则。如在社会科学类的文本中,可优先考虑certain,其次为definite;而在小说中,则sure将是首选,其次才为certain。
13
3.1.2 根据搭配调查语义差异: take a job 和take on a job
1)to pay off, she cannot now take a job paying less than pounds 12,000 a year. 2) iver. He is now leaving to a job in Brussels as a European commissioner. 3) a kitchen assistant before taking a job as a pizza delivery driver 18 months a 4)x years. Three years ago I took a part-time job and have received my tax allow. 5)eir boy to be a lawyer. He a job with the Ministry of the Interior but sp 6)se neuroses. At 16, Moore a summer job working on the chassis line at GM 7)er moving to New York, she a modeling job and, while doing an ad for Oli 8)block any move for him to another job in football.” Little would see a r
14
3.1.2 根据搭配调查语义差异: take a job 和take on a job
(1)工作类别:as a European commissioner,as a pizza delivery, with the Ministry of the Interior, modeling,in football (2)工作时间:part-time,summer (3)工作报酬:paying 由此可以看出,take a job多指“干什么样的具体工作”,与之相关的有“工作付多少报酬,工作是全职或兼职”等,核心意思是“就业”。
15
3.1.2 根据搭配调查语义差异: take a job 和take on a job
(1)工作内容(并非职业):scrapping excess capacity, compiling the electoral register, defending, grain preparation (2)工作压力:stressful job-loads,demanding,stress-loaded (3)无报酬:unpaid 可见,take on a job多表示“把责任赋予某项工作,不管有无报酬”,其它未在此列出的搭配词,还有诸如role(s), responsibility/ies, task(s), work, commitment(s), burden(s), challenge(s)等,它们都显示出take on a job的核心在于“责任”。
16
3.1.3 根据搭配调查语义韵差异:cause和lead to
cause多与表示疾病、伤害、不佳情绪、问题、困难等含义的词语一起出现,几乎全含有否定和消极的意味,这说明cause导致的基本都是坏的结果,语义韵特征上倾向于否定和消极。 rash, greater injury, complaint, irritation, severe embarrassment, shortages, initial problems, fluid retention, styling problems, difficulty, fatal problems, all sorts of havoc, anxiety, slowdown in deficiency disease, more violence, later harm, poor weather, a host of problems, terrible damage, heart attack, tension, cancer damage, trouble, sorrow, confusion, lack.
17
3.1.3 根据搭配调查语义韵差异:cause和lead to
其客体既可是肯定的,如“notable improvement, great successes,permanent opportunities, new developments, professional qualification, improved human health, happiness,formation, specification”等; 也可是否定的,如“loss of life, more problems,unfair advantage and conflict, immediate withdrawal, drug taking and crime, anxiety attacks, serious problems, water loss and damage, scarring, holes, prosecution increased risk”等。 就整体分布而言, 两者几乎平分秋色。从这一点来看,lead to不存在语义韵的显著差别,既可引起好的结果,也可导致坏的结果。
18
语义韵差异的拓展研究: A.义韵冲突—反讽的出现 义韵冲突不仅是非诚意性的信号,也可能是反讽出现的标志。因为任一反讽性言语行为的实施过程都存在着非诚意性,非诚意性因而成为判断话语是否具有反讽性的主要标尺,所以在一定条件下,义韵冲突---非诚意性--反讽成立。说话人(作者)有时为了实现反讽,会故意违反正常的语义韵律,有意打破人们的期待模式,使听者(读者)因为惊异于话语语义结构的不一致,而推测出说话人的反讽意图。
19
A 义韵冲突—反讽的出现 语用学认为,话语具有什么样的言外之力,是否具有反讽性,须借助语境和言外之力指示手段才能判断(涂靖,2000:52)。言外之力指示手段之一就是话语的语义结构中的冲突,即话语中含有明显违反"选择性限制"的用词,如例1中的thank 和refuse to help,例2中的congratulate和stupid。 1.I thank you for your refusing to help me. 我感谢你拒绝帮助我。 2.I congratulate you on your stupid speech at the meeting. 我祝贺你在会上作出的愚蠢发言。
20
B 词典编撰 语义韵律作为词语语义的一部分,对学习者而言是很重要的信息,能帮助他们在合适的语境中正确地使用该词。但学习者赖以获取信息的词典是否提供了这方面的信息呢?词典中对rife的解释: Websters1979年版:1. prevalent; frequently or commonly occurring; current.2. abundant; plentiful.3. filled; abounding; followed by with. 在牛津现代高级双解词典1988年版中,rife中文释义为"流行的;普遍的",英文释义为"widespread; common",此外没有任何附加说明。两部词典的释义都没有反映出rife内含的贬义,使学习者极易误认为rife等同于释义中的abundant,plentiful,widespread,common等词,可适用于同样的语言环境。
21
B 词典编撰 利用语料库编撰的Collins COBUILD English Language Dictionary 1987年版才清楚地描述了rife的语义韵律特征:1.If you say that something bad or unpleasant is rife, you mean that it occurs very frequently.2.If a place is rife with something bad or pleasant, it contains a lot of it.所附的例句更清楚地说明了这一特征: 1.Bribery and corruption in the government service were rife. 2.Graduate unemployment is rife. 同样用语料库编撰的朗文当代英语词典1995年版也以类似的形式描述了rife的语义韵律特征。 语义韵律在词典编撰中应该受到越来越多的重视。虽然目前对语义韵律的分析调查还没有系统化和规范化,相当数量的词语(如provide, impressive,peddle,dealings等)的语义韵律特征在有的词典中并未进行描述,从而降低了词典对于学习者的指导作用。
22
3.2 学习者中介语的调查 中介语对比分析的方法(Contrastive Interlanguage Analysis,Granger 1998) 3.2.1 学习者与本族语者之间的对比 参照语料库为:英语本族语语料库 对比语料库为:学习者语料库
23
3.2.1 学习者与本族语者之间的对比 研究实例:非英语专业研究生写作中连接词用法的语料库调查 研究试图回答以下问题:
在一批最常用的连接词的使用频率和选择倾向方面,国内非英语专业研究生是否和本族语使用者存在着显著差异? 在使用某个连接词表达语义关系方面,国内非英语专业研究生是否和本族语使用者存在着显著差异? 本研究分以下步骤:首先,调查20个连接词在两个语料库中的出现频率,并按频率高低进行排序和比较,以回答第一个问题。它们分别是:and, because, but, for example, for instance, furthermore, however, in addition, in fact,in other words, indeed, nevertheless, not only…but also, on the other hand, so, then, therefore, though, thus, while。然后,选择位于句首的And,对其语义关系在两个语料库中的分布差异进行调查分析,以回答第二个问题。
24
前20位连接词排序和出现频率(每10万词次出现频率)
学习者前20位 频率(%) 本族语前20位 出现频率(%) 1 and 817.5 2439.0 2 so 492.5 but 345.0 3 188.0 197.5 4 because 61.0 then 109.6 5 however 30.0 101.8 6 29.5 69.4 7 while 18.5 60.9 8 not only, but also 18.0 though 44.0
25
And语义关系的分布比较: 增补 因果 转折 比较 层进 引题 本族语 比例 学习者 21 7% 1 2.0% 27 9% 10 19.6%
本族语 比例 学习者 增补 21 7% 1 2.0% 因果 27 9% 10 19.6% 转折 33 11% 6 11.8% 比较 18 6% 层进 12 23.5% 引题 60 20% 5 9.8%
26
And语义关系的分布比较: 增补、因果、转折、比较、层进、引题、原因、说明、列举、总结
27
若需更多细节,可查阅以下文章: 1.非英语专业研究生写作中连接词用法的语料库调查 《现代外语》2004年第2期
1.非英语专业研究生写作中连接词用法的语料库调查 《现代外语》2004年第2期 2.语义韵律的语料库调查及应用研究 《当代语言学》2003年第2期 3.语料库语言学与外语教学思想的转变 《外语学刊》2000年第4期 4.语料库规模增长原因探查 《外语学刊》2004年第3期 5.学习者语料库与外语教学和研究 《北京第二外国语学院学报》2006年第4期 6.语料库研究与外语教材编写 《武警指挥学院学报》2005年第5期 7.基于语料库的词语差异性特征调查 《山东外语教学》2000年第4期 8.语料库语言学的最新动态和未来发展趋势 《山东外语教学》1998年第4期
28
常用语料库网址 中国学习者英语语料库 CLEC介绍 在线检索 WordSmith Tool 下载 在线检索英国国家语料库 BNC
英汉平行语料库 The Babel English-Chinese Parallel Corpus 台湾中央研究院 现代汉语平衡语料库 俄国国家语料库(俄语) Collins Sampler of the Bank of English British National Corpus American National Corpus
29
常用语料库资源链接汇集 http://202.204.128.82/sweccl/Corpus
1. BNC-World Simple Search ☆☆☆ But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: English: Parallel: 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.
30
常用语料库资源链接汇集 4. New BNC interface - VIEW: ☆☆☆☆☆ http://view.byu.edu/
5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to 6. CLEC online concordancing ☆☆☆☆ CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see
31
语料库书籍推荐: Biber, Douglas, Susan Conrad & Randi Reppen Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Granger, S. et al. (eds.) Corpus-based Approaches to Contrastive Linguistics and Translation Studies《基于语料库的语言对比和翻译研究》. Amsterdam: Rodopi. (外研社引进) Gries, Stefan Thomas Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进) Hunston, Susan Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme An Introduction to Corpus Linguistics. London: Longman. (外研社引进)
32
语料库书籍推荐: Nattinger, James R. & Jeanette S. DeCarrico Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进) Sinclair, John Corpus, Concordance, Collocation. Oxford: Oxford University Press. (外教社引进) Thomas, Jenny & Mick Short Using Corpora for Language Education. London: Pearson Education. (外研社引进) Zanettin, F., et al. (eds.) Corpora in Translator Education《语料库与译者培养》. Manchester: St. Jerome Publishing. (外研社引进)
33
语料库书籍推荐: 蔡金亭,2003,《语言因素对英语过渡中使用——一般过去时的影响》。北京:外语教学与研究出版社。
何安平(主编),2004,《语料库在外语教育中的应用:理论与实践》。广州:广东高等教育出版社出版。 何安平,2004,《语料库语言学与英语教学》。北京:外语教学与研究出版社。 华南师范大学外国语学院编,2005,《语料库语言学的研究与应用》。长春:东北师范大学出版社。 黄昌宁,李涓子著,2002,《语料库语言学》。北京:商务印书馆。 濮建忠,2003,《学习者动词行为:类联接、搭配及词块》。开封:河南大学出版社。 王建新,2005,《计算机语料库的建设与应用》。北京:清华大学出版社。
34
语料库书籍推荐: 王克非等,2004,《双语对应语料库研制与应用》。北京:外语教学与研究出版社。
王立非、梁茂成等,2007,《计算机辅助第二语言研究方法与实用》。北京:外语教学与研究出版社。 卫乃兴,2002,《词语搭配的界定与研究体系》。上海:上海交通大学出版社。 卫乃兴,李文中,濮建忠等,2005,《语料库应用研究》。上海:上海外语教育出版社。 文秋芳、王立非、梁茂成,2005,《中国学生英语口笔语语料库》。北京:外语教学与研究出版社。 杨达复,2000,《英语错误型式分析》。西安:陕西人民出版社。 杨惠中、桂诗春,2003,《中国学习者英语语料库》。上海:上海外语教育出版社。 杨惠中、卫乃兴,2005,《中国学习者英语口语语料库建设与研究》。上海:上海外语教育出版社。 杨惠中等(主编),2005,《基于CLEC语料库的中国学习者英语分析》。上海:上海外语教育出版社。 杨惠中主编,2002,《语料库语言学导论》。上海:上海外语教育出版社。
35
Thank You for Listening!
Comments are welcome! Contact me:
Similar presentations