Download presentation
Presentation is loading. Please wait.
1
语料库语言学简介 Luo Ling
2
目 录 1 2 3 4 5 6 什么是语料库语言学 语料库语言学的研究内容 语料库语言学的研究意义 国内外主要语料库简介 应用研究个案
目 录 什么是语料库语言学 1 语料库语言学与其他学科的关系 2 语料库语言学的研究内容 3 语料库语言学的研究意义 4 国内外主要语料库简介 5 应用研究个案 6 Shanghai International Studies University
3
1. 什么是语料库语言学(1) 关于语料库语言学的定义,引述三例:
“根据篇章材料对语言的研究,称为语料库语言学。”(Aijmer K. & Altenberg B.,1991) “以现实生活中人们运用语言的实例为基础进行的语言研究,称为语料库语言学。”(McEnery T.& Wilson A.,1996) “以语料为语言描写的起点,或以语料为验证有关语言假说的方法,称为语料库语言学。”(Crystal D.,1991)。 Shanghai International Studies University
4
中华人民共和国国家标准——学科分类与代码(GB/T13745—92)【92版】
1. 什么是语料库语言学(2) 学科定位 中华人民共和国国家标准——学科分类与代码(GB/T13745—92)【92版】 中华人民共和国国家标准——学科分类与代码( GB/T13745—2009 )【2009版】 Shanghai International Studies University
5
1. 什么是语料库语言学(3) 语料库语言学不是语言学的一个新的分支,而是一种以语料库为基础的语言研究方法。
对自然语料进行加工,研究语料库加工的理论、方法和工具。 基于语料库的知识获取,研究已加工语料库的利用方法。 作为一种方法,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 Shanghai International Studies University
6
2. 语料库语言学与其他学科的关系(1) 内容看: 方法看: 语法学、语义学--语言自身某个侧面的研究
计算语言学 -- 应用语言学的一个分支(通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的全部或者部分语言能力的目的) 语料库语言学--一种语言研究方法 方法看: 语言统计方法--以数理统计为基础 语料库语言学--以语料库为基础 Shanghai International Studies University
7
2. 语料库语言学与其他学科的关系(2) 计算语言学的定位——《学科分类与代码表》(中国国家标准 GB/T13745--2009 ) 语言学
——应用语言学 ——计算语言学( ) (三级学科“计算语言学”属于文科 ) 俞士汶 主编《计算语言学概论》,商务印书馆,2003年 计算机科学技术 ——人工智能 ——自然语言处理( ) (三级学科“自然语言处理”属于理工科) 两个三级学科的研究对象与内容基本相同,新兴交叉学科在学科体系中已有一席之地。 Shanghai International Studies University
8
3. 语料库语言学的研究内容(1) (一)语料库本体研究: 1. 语料库的设计与开发 2. 语料库加工和管理技术 语料库设计与建设中的问题
语料库的类型 。。。。。。 2. 语料库加工和管理技术 语料库标注及规范(词性、句法、语义、语音及韵律标注) 平行语料库的对齐加工 语料库检索 Shanghai International Studies University
9
3. 语料库语言学的研究内容(2) (二)语料库应用研究: 1. 语料库和语言学研究 2. 语料库和计算语言学(自然语言处理)研究
语料库与词汇、语法、语义、语用研究 语料库与词典学研究 语料库与翻译研究 语料库与语言教学研究 。。。。。。 2. 语料库和计算语言学(自然语言处理)研究 语料库与机器翻译 语料库与信息提取 语料库与话语识别 Shanghai International Studies University .
10
4. 语料库语言学的研究意义(1) 传统语言学 语料库语言学 客观性 较弱 较强 容量 较小 较大 覆盖面 较窄 较宽 研究效率 较低 较高
共享性 较差 较好 Shanghai International Studies University
11
语料库的理论价值 4. 语料库语言学的研究意义(2) 语料库语言学的产生将改变传统的语言研究观念 语料库语言学的产生使语言研究日趋深入、精细
语料库方法将改变传统的语言研究方法 语料库语言学的产生将改变传统的语言研究观念 语料库语言学的产生使语言研究日趋深入、精细 Shanghai International Studies University
12
4. 语料库语言学的研究意义(3) 语料库的应用价值 语料库将成为词典编纂的强大技术手段,并由此产生了计算词典学
语料库为字频统计、词频统计、语言文字规范化研究、语法研究等提供了前所未有的先进方法,也提供了前所未有的丰富的语言资源 语料库使大规模真实文本的自动处理得以实现 Shanghai International Studies University
13
4. 语料库语言学的研究意义(4) 正确认识语料库的作用 语料库是语言知识的重要来源 语料库不是语言知识的唯一来源
词汇知识:新词语、词语搭配 语法知识:词的语法功能、句法格式 语义知识:词义关系、句子的语义结构 语料库不是语言知识的唯一来源 人类有生成无限多句子的能力 任何规模的语料库都是“稀疏”的 归纳方法和演绎方法应该相互结合 Shanghai International Studies University
14
5.1 国外语料库的介绍 SEU:英语用法调查语料库
Brown:布朗语料库 LOB:兰开斯特-奥斯陆-卑尔根语料库 LLC:伦敦-隆德口语语料库 COBUILD:柯林斯-伯明翰国际语言数据库 ICE:国际英语语料库 TLF:法语语料库 Helsinki :赫尔辛基历史英语语料库 Langman:朗曼语料库 BNC:英国国家语料库 Shanghai International Studies University
15
英语用法调查语料库 主持人:Quirk 起始时间:1959 主要应用:80年代,Quirk等人撰写《英语用法大全》
SEU(Survey of English Usage)英语用法调查语料库 主持人:Quirk 起始时间:1959 主要应用:80年代,Quirk等人撰写《英语用法大全》 规模:200篇(书面语和口语各100篇),每个语篇500词次,总规模100万词次 特点:建库最早;人工制作卡片; 《英语语法大全》的基础 Shanghai International Studies University
16
布朗语料库 1961年建成最早的机读语料库 只选录1961年由美国人撰写出版的普通语体的文本 以共时原则采集不同主题的美国英语样本
主持人:Francis和Kucera;起始时间:1959/1961 建成时间:1964年版本A,此后有版本B、C和卑尔根I、卑尔根II、布朗MARC 标注:81个语法标记 相关软件:70年代,Green和Rubin设计了TAGGIT系统,用81个标记对布朗语料库进行词性标注,上下文约束规则3300条,自动标注正确率为77% 主要特点: 1961年建成最早的机读语料库 只选录1961年由美国人撰写出版的普通语体的文本 以共时原则采集不同主题的美国英语样本 规模:15种体裁,500个样本,每个样本不少于2000词次,总规模100万词次 主要应用成果:《当代英语词频词典》(布朗出版社) Shanghai International Studies University
17
LOB (Lancaster-Oslo-Bergen Corpus)
主持人:英国Lancaster大学语言学家Leech 研究目的:英国英语 设计原则:与Brown语料库相同 采样原则:与Brown语料库相同 起始时间:70年代 建成时间:1983 规模:500个样本,每个约2000词次,总规模100万词次 标注:133个标记。TAGGIT系统采用布朗语料库的统计数据进行词性标注,正确率提高到96~97%。此外还进行了句法标注 Shanghai International Studies University
18
伦敦-隆德口语语料库 主持人:瑞典Lund大学Jan Svartvik 起始时间:1975;建成时间:1981
LLC(Londun-Lund Corpus of Spoken English) 主持人:瑞典Lund大学Jan Svartvik 起始时间:1975;建成时间:1981 工作基础:SEU语料库和Brown语料库 主要成果:最终实现了计算机上的SEU语料库 主要特点:“作为英语口语研究的语料资源,它至今仍无以伦比”(Leech) 目标:以自动化方式获取SEU语料库的英语口语资料 标注:节律分析、语调单位、语调等 相关软件:KWIC(关键字居中索引) 规模:起初为81个文本,每个文本5000词次左右,最终达到50万词次 Shanghai International Studies University
19
COBUILD (Collins Birmingham University International Language Database)
主持人:John Sinclair 合作单位:柯林斯出版社和伯明翰大学 起始时间:1980 采样原则:书面语75%,口语25%;英国英语70%,美国英语20%,其他地区英语5%,反映当代英语的用法,材料尽可能新(大多数是1990年以后的文本) 语料库性质:随着新材料的不断加入,成为一个动态语料库 规模:平均长度为7万词次,最初总规模为2000万词次,目前达到3.2亿词次 标注:近2亿词次的语料进行了句法分析 应用成果:《Collins COBUILD English Language Dictionary》,选词、用法、释义方面拥有翔实和定量的数据,所有例句来自真实语料 Shanghai International Studies University
20
国际英语语料库 ICE(The International Corpus of English) 建设单位:伦敦大学英语系
起始时间:1988 建设目标:为世界范围内英语民族变体的对比研究提供数据 规模:20个平行的子库,每个子库500个样本,每个文本2000词次,总计2000万词次 语料特点:取自所有英语国家,采用统一的分类和编码,每个国家限定100万词次,口语和书面语各占一半,采样时间为1990至1993年,采样对象为18岁以上接受英语教育成长起来的成年人 采样:60%是口语文本,40%是书面语文本 Shanghai International Studies University
21
法语语料库 合作单位:法国国家科学研究中心与美国芝加哥大学 语料特点:从7世纪到20世纪,包括书面法语的各种文体
TLF(Tremor de la Language Françoise) 合作单位:法国国家科学研究中心与美国芝加哥大学 语料特点:从7世纪到20世纪,包括书面法语的各种文体 规模:2000个样本,1.5亿词次 Shanghai International Studies University
22
赫尔辛基历史英语语料库 主持人:赫尔辛基大学Roseanne等语言学家
The Helsinki Corpus of Historical English 主持人:赫尔辛基大学Roseanne等语言学家 语料特点:公元850年到1720年各类英语语篇,以百年分段,是第一个历时英语语料库 规模:1600万词次 Shanghai International Studies University
23
朗曼语料库 Longman Corpus 承担单位:朗曼语料库委员会 起始时间:1988年1月 建成时间:1990年11月
目标:遵循客观标准(不受可获得性约束),构造多用途语料库,据此对词和短语的意思及典型用法进行可靠的概括,作为词典、语法和各类语言著作的基础 采样原则:知识性文本占60%,想像性文本占40%;话题优先于体裁 规模:2800万词次 Shanghai International Studies University
24
英国国家语料库 BNC (The National British Corpus)
规模:4124个文本,每个文本不超过4万词次,总规模1亿词次 特点:规模最大的结构化的第二代样本语料库,只有10%来自口语资源 承担单位:牛津大学出版社、朗曼集团、Chambers出版社、英国国家图书馆、牛津大学、Lancaster大学 相关软件:Lancaster大学的词性标注系统CLAW,BNC检索平台 Shanghai International Studies University
25
5.2 国内语料库的介绍 汉语语料库 北语、北航的汉语词频统计语料库 台湾中研院平衡语料库 中文五地区共时语料库(大陆、港、澳、台、新加坡)
清华、北语的精加工语料库 北语的汉语中介语语料库 社科院的汉语口语语料库 Shanghai International Studies University
26
北语、北航的汉语词频统计语料库 北语的汉语词频统计语料库 北航等单位的汉语词频统计语料库 按字母音序排列的频率词表
按频率递减的顺序排列的词表 按使用度递降顺序排列的词表 (频率结合分布状况的数据) 按语体分类的高频词表 北航等单位的汉语词频统计语料库 研制出了我国第一个实用的书面汉语自动分词系统 CDWS (The Modern Printed Chinese Distinguishing Word System ) 设计和实现了我国第一个完整的现代汉语词频统计软件系统 Shanghai International Studies University
27
台湾中研院平衡语料库 世界上第一个带有完整词类标记的汉语平衡语料库 平衡语料库的组成比例 哲学 10% 艺术 5% 科学 生活 20% 社会
35% 文学 Shanghai International Studies University
28
LIVAC语料库 Linguistic Variety in Chinese Communities,简称LIVAC语料库
中文名:中文五地区共时语料库(大陆、港、澳、台、新加坡) 采用共时同步手法收集五个华语地区(大陆、港、澳、台、新加坡)的具有代表性的语料,对汉语在各华语区的实际用法做出全面的描写和分析。 到1996年6月,LIVAC由报纸所得资料总字数为8.3亿 Shanghai International Studies University
29
两条共时谈及同一主题的新闻([香港]胡百华、李行德、汤志祥,1997)
Shanghai International Studies University
30
清华、北语的精加工语料库 国家自然科学基金重点项目“语料库语言学研究的理论、方法和工具”的一个子课题
该体系主要包括《现代汉语语料库文本分词规范》、《现代汉语语料库词性标注规范》、语料库选样的基本原则及语料分布,最后得到一个200万字的经过分词的、带有词性标注和部分语法信息的、分布合理的均衡语料库,以及1.2亿词的质量可靠的生语料库 Shanghai International Studies University
31
北语的汉语中介语语料库 国家教委八五社科规划研究项目、国家汉办八五科研规划项目,1995年11月15日通过专家鉴定。研制人员储诚志、陈小荷等人。 收集了96个国家和地区的1635位外国留学生的成篇成段的汉语作文或练习材料5774篇,共计 字,从中抽取了740人的1731篇语料,共44218句, 字,进行了分词、词性标注及一些特殊的语言学标注。 全部语料均登录有作者姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。 汉语作为第二语言教学领域里取得了开创性成果,“达到了国际领先的水平”。 Shanghai International Studies University
32
社科院的汉语口语语料库 单音节库:有1275个单音节,由15位男性发音人发音 双音节库:包括了3000多种声韵组合关系(即音联关系)
朗读语篇语料库(Annotated Speech Corpus of Chinese Discourse,简称ASCCD) 汉语自然口语对话语音语料库(Chinese Annotated Dialogue and Conversation Corpus,简称CADCC) 具有音段标注的自然口语语篇库(Chinese Annotated Spontaneous Speech,简称CASS) “863”语音识别语料库/“863”语音合成语料库 Shanghai International Studies University
33
国内的英语语料库 1982 年,上海交通大学的黄人杰、杨惠中教授主持建立了100万词次的专门用途英语语料库(JDEST) 。
1993年前后,香港科技大学语言中心编制了计算机科学英语语料库。 1996年,广州外国语学院开始建立中国学生交际英语语料库。 2003年,我国著名应用语言学家桂诗春和杨惠中两位教授主持完成了中国英语学习者语料库(CLEC) 2005年,文秋芳等人主持完成了中国学生英语口笔语语料库(SWECCL)1.0版;2008年推出2.0版。 Shanghai International Studies University
34
平行语料库 英汉双语语料库 日汉对译语料库 德汉双语语料库 汉日英分类熟语料库 英汉文学作品语料库 外研社
冯友兰《中国哲学史》汉英对照语料库 李约瑟(Joseph Needham)《中国科学技术史》英汉对照语料库 中国大学生英汉汉英口笔译语料库 (210万词) 英汉双语语料库(15万对) 中科院软件所 英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对 中国科学院自动化研究所 英汉双语语料库(40-50万句子对) 哈尔滨工业大学 双语语料库(5万多对) 北京大学计算语言学研究所 Shanghai International Studies University
35
少数民族语料库 维吾尔语语料库 藏语语料库 蒙古语语料库
蒙古语中小学教材的课文,义务教育五年制小学课本从第六册到第十册(1998年版),义务教育三年制初级中学课本第一册到第六册(1991年版),共144篇课文 Shanghai International Studies University
36
中国英语学习者情态动词的使用情况 6.1 基于语料库的外语学习研究(1) 采用基于语料库的对比分析方法
以中国非英语专业大学生为研究对象,与英语本族语学生作比较 探讨不同英语水平的学习者的差异 考察了9个情态动词 (程晓堂、裘晶,2005) Shanghai International Studies University
37
6.1 基于语料库的外语学习研究(2) 研究问题 中国大学生英语学习者与英语本族语者在作文中使用情态动词的频率有何差异?中国大学生是否存在过多使用或过少使用的现象? 处于不同水平的中国英语学习者在情态动词的使用频率上有何差异?是否水平较高的学习者更接近于本族语者? Shanghai International Studies University
38
6.1 基于语料库的外语学习研究(3) 语料库及分析工具 中国学习者语料: St3 与 St4 (来自CLEC) 各约200 000词
本族语者语料:LOCNESS 约95 000词 借助ConcApp V 4 检索出词频 用卡方值判断显著性 (程晓堂、裘晶,2005) Shanghai International Studies University
39
各情态动词使用分布情况对比 6.1 基于语料库的外语学习研究(4) 三个语料库中各情态动词的相对频率
Shanghai International Studies University
40
6.1 基于语料库的外语学习研究(5) CAN等词的过度多用 接触到各情态动词的顺序 写作定式 母语影响 文化价值观
中介语发展过程中普遍特点 习惯搭配 Shanghai International Studies University
41
结论 6.1 基于语料库的外语学习研究(6) 中国英语学习者在情态动词的使用上与本族语学生存在巨大差异 (总体多用;个别词多用、少用)
不同水平的两组学习者差异不明显,但总体上符合“愈高-愈接近”的情况。 中国学生在情态动词使用上有别于本族语学生的差异可能源于一系列的因素,如学生特有母语文化背景、教材不足等等。 Shanghai International Studies University
42
词语搭配研究 能否找到某些适当的定量数据作为判断搭配的参考或补充?
6.2 语料库与词语搭配研究(1) 词语搭配研究 能否找到某些适当的定量数据作为判断搭配的参考或补充? 搭配的重复性、任意性和结构性对搭配的判断有直接的意义。如何使这些特征量化? Shanghai International Studies University
43
6.2 语料库与词语搭配研究(2) 自然语言处理领域中,运用信息论中的互信息(Mutual Information, MI)数值来测算两词或表达之间的同现关系是从上世纪90年代初开始的。Church & Hanks于1990年提出“点互信息(pointwise Mutual Information)”的方法计测量单词或表达式的同现情况。具体而言就是,设定一个语料库中的两个单词w1和w2, P(w1,w2) 和freq(w1,w2) 表示两词同现的概率和频次,P(w1)和freq(w1)是w1在整个语料库中单独出现的概率和频次, P(w2)和freq(w2)是w2单独出现的概率和频次,N是语料库的总词数,则单词w1和w2共现的互信息其实就是两个词语共现概率除以两词单独出现概率乘积的对数,公式演算过程如下: Shanghai International Studies University
44
6.2 语料库与词语搭配研究(3) Shanghai International Studies University
45
6.2 语料库与词语搭配研究(4) 从BNC口语子语料库中得到的与money同现的词的频率和互信息
Shanghai International Studies University
46
提 请 注 意 任何语料库研究均开始于语料库的建立,语料库的设计及选材几乎控制以后所要做的一切基于语料库的研究工作,研究结果的好坏只与语料库的建设质量有关。 John Sinclair, 1991 Shanghai International Studies University
47
Sketch Engine Sample Shanghai International Studies University
48
Thank You !
Similar presentations