Presentation is loading. Please wait.

Presentation is loading. Please wait.

基于平行语料库的 跨语言知识挖掘 盛玉麒 2007-5-16.

Similar presentations


Presentation on theme: "基于平行语料库的 跨语言知识挖掘 盛玉麒 2007-5-16."— Presentation transcript:

1 基于平行语料库的 跨语言知识挖掘 盛玉麒

2 信息处理的发展与语言知识短缺 汉语本体应用研究的三个阶段: 字处理 词语处理 语句处理

3 相关交叉学科研究的三个领域 从人际系统到人机系统、 从母语到第二语言、 从单一语言到双/多语交互;

4 中文信息研究的理论发展 技术决定论 汉语特殊论 普适性规律的发现 跨语言资源共享

5 语言研究与语料观的转变 1.结构主义和功能主义 二十世纪语言研究形成两个大的阵营,结构主义和功能主义。
结构主义被西方学者称为“语言学主流”(mainstream linguistics)。 如果把新兴学科如社会语言学、语用学、会话分析、语篇分析等都划人功能主义(因为这些都是研究语言的各种功能的),那么功能主义大有取代结构主义成为语言学主流之势。

6 语料库语言学的地位 “语料库语言学”(corpus linguistics)
一是利用语料库对语言的某个方面进行研究,也就是说“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。 二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。 现在是否能把语料库语言学跟社会语言学、心理语言学、语用学等相提并论,需要时间和实践。

7 汉语研究的语料观 举例说明 文献检索 燕京大学《引得》系列

8 言语语言学的语料观 世界上大约有5000到6000种语言(准确的数字要看如何界定语言跟方言的区别),有文字的还不到一半。 母语习得
二语学得:听-说-读-写 语言差异 方言差异。 历时因素导致的语言差异

9 索绪尔的做法 排除差异,找出共性, (共时)语言学研究的是langue,即同质的、抽象的语言形式,而不是parole,即异质的、五花八门的言语。 结构主义研究的语言是高度独立性的抽象的符号系统。 难题:他们看得见听得着的是异质的、五花八门的言语,要研究的却是同质的抽象符号系统。 早期结构主义者(以美国Bloomfield为代表) 对异质的的言语进行调查,从中找出同质的、共性的形式结构。 贡献:在语音、音位和形态; 局限:在词组、句法层次。

10 乔姆斯基的做法 Chomsky提出转换生成语法理论,可以说帮助结构主义摆脱了困境。
他区分了competence(语言能力)和performance(语言使用)。 Langue是凌驾于个人、属于语言社团的抽象系统, competence是个人能生成无限言语的、根植于大脑之中的语言知识。 Chomsky把句法研究的主要任务视为找出那些能生成无限句子的有限规则。

11 Chomsky认为:对同一语言来说,他不需要做语言调查,强调 “语言直觉”。
语言是生理和心理现象,人们说出来的话(即实际语料)不能完全反映语言的本质。 最有力的证据就是人们能说出他们从来没有听别人说过的句子。 语料库是有限的,语言是无限的。 Chomsky理论的弱点: 一否定了语言的社会性。 二忽视语料库的作用。

12 功能主义的做法 功能主义(以Halliday为代表)最大的特点是强调语言的社会性,语言的使用功能为语言结构作出最终的解释。
Halliday《功能语法导论》序 (1985:Xiii): ......千万年来一代代人使用语言才使得语言形成今天这样一个系统。语言为了满足人类的需要在发展;它的组成结构之所以是功能性的正是因为这些需求。它不是任意性的。一部功能语法本质上是一部“自然”语法,即书中所说的一切都能在语言的使用方式中找到最终的解释。

13 功能主义的语料观 功能主义注重语言实际使用情况,语料库是不可多得的帮手。 语料库语言学对功能主义的发展会提供很多具有相当说服力的佐证。
语言的最原始和最古老的形式 书面语料库 口语语料库

14 语料库语言学的基本问题 1.建立语料库 建库的目的; 语料品种; 取样标准; 规模; 人力及资金来源; 存贮方式与格式。

15 2.语料转写 口语语料的处理 转写成文字和计算机可读的声音符号 格式和规范。

16 3.语料标注 “生语料库” “熟语料库”。 把语料所具有的重要语言学信息用一组符号标注出来。 “吃饭”: 结构:“吃”+“饭”构成动宾结构;
功能:做谓语; 条件:主语是有生命的,…… 标注得越是详细,研究者从中能得到的信息也就越大。

17 4.管理与应用软件 检索 更新 排序 重组 转存 ……

18 5.语言研究 语言单位的专题研究 专项研究 词典学研究 句法学研究。

19 四、语料库的应用 1、辞书编撰: 1)大型语料库 2)代表性 3)分析工具。

20 ●用法即意义; ●根据词频编制常用词表; ●根据非语言要素的联结(如语域、历史阶段与方言等),了解和判断不同类型语言的用语特征; ●确定词项的搭配及分布; ●确定某词的义项及用法的分布。 ●确定同义词的使用与分布 ●了解语境对词义选择、搭配与语域的关系。

21 2、语法研究 各种语言结构的频率分布; 语法结构与语言的其它层次间的关系, 语言因素与非语言因素之间的关系;
解释讲话者选择一定语言形式的原因; 用实证的方法对语法资源的各种使用模式做出定量定性的分析。

22 3、词汇与语法的联结 词汇与其语法环境之间的关系; 语法结构与相关词汇环境间的关系; 区分同义词或近义词; 区分同义或近义的语法结构。

23 4、语篇分析 精确地描写所选语域的语篇特征; 文本符合其语域的一般语篇模式的程度; 用程序(与拼写检查器相似)分析语篇特征;
用自动分析器检索整个文本中某些语法特征。

24 5、语言变异研究 语域变异 语域间定量的变异可在功能上得到解释; 从句在口语和书面语语域中频率与分布差异;
不同学科的文本之间语言变异的模式的差异; 同一文本中,不同章节的语言特征变化; 进行定性分析,解释语言模式的功能。

25 6、语言习得与发展研究 儿童语言习得研究; 小学生母语能力的发展; 不同年级的小学生使用情况; 小学生与成人语言比较研究。

26 7.语言历时研究 历时语料库 不同语域的静态动词和准静态动词的使用; 口语与书面语语域中语言模式的变异; 男性与女性私人信件中的特征;
对照各个历史时期中小说文本,调查某些词语的历时变化。

27 8.语言风格研究 根据大量的有关文本、语域种类、历史时期与语言特征,可以为描述文本与作者的风格提供一种可靠的分析框架。
整本小说或一个作家的所有作品, 并行比较或历时比较, 一个作家不同类型作品的比较。

28 9.服务于语言教学 1)分析大量语料,改进课程设计。 2)了解语言使用模式,开发语言教学资料,优化教材编写。 3)改进课堂教学活动。

29 10.服务于信息处理 搭配与共现 歧义选择 模糊判断 定量分析 频度动态优化 专家系统

30 谢谢!


Download ppt "基于平行语料库的 跨语言知识挖掘 盛玉麒 2007-5-16."

Similar presentations


Ads by Google