基于平行语料库的 跨语言知识挖掘 盛玉麒 2007-5-16.

Slides:



Advertisements
Similar presentations
3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
Advertisements

2014 年职称英语等级考试 综合类精讲班 主讲:叶老师. 职称英语考试与复习方法 一、职称英语考试 1. 职称英语考试的特点: a 综合英语分为 A B C 级 b 职称英语考试和教材的关系 c 可以借助字典 d 送分( 分) (1) 词汇选项(可能送 3—8 分) (2) 阅读判断.
数据结构的引入. 通讯录管理 社团机构管理 校园导航管理 通讯录管理 社团机构管理 校园导航管理.
冀教版四年级数学上册 本节课我们主要来学习 2 、 3 、 5 的倍数特征,同学们要注意观察 和总结规律,掌握 2 、 3 、 5 的倍 数分别有什么特点,并且能够按 要求找出符合条件的数。
专题六 语文课程标准修订对“实验稿”作了哪些修改和调整
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
山东英才学院 SHANDONG YINGCAI UNIVERSITY
药物分析 pharmaceutical analysis
加州中国语言教学研究中心 中文教师培训班 语言学概论课
第一章 现代汉语概述.
周国栋 苏州大学自然语言处理实验室 年12月21日 自然语言处理 之 语言学基础 周国栋 苏州大学自然语言处理实验室 年12月21日 1.
第一章 绪论 第一节 第二语言习得研究发端、发展的简要回顾 第二节 第二语言习得研究的学科性质与特点 第三节 第二语言习得研究的基本概念
第八章 综合性语言学 主要内容:本章介绍了几门最重要的综合性语言学科的概况和主要内容。需要重点掌握的内容有:第一节:心理语言学发展的主要动力、心理语言学的三大流派、思维对语言的影响、言语生成的阶段和言语理解的过程。第二节:社会语言学和文化语言学的兴起的原因、社会语言学和文化语言学的差异、社会语言学和文化语言学的主要内容。第三节:应用语言学的研究范围、确立共同语的依据、语料库加工的主要内容、语言信息处理的主要应用领域。
开课院系:人文学院中文系 课程性质:学科基础课 课程学分:3学分
北师大会议( ) 英语课程学生英语学习力形成研究思路 戴忠信 (博士/教授) 华北电力大学外国语学院
素材 资源 库 文字 图形 图像 声音 动画 视频 人力 物力 财力 获取素材的渠道 数据库.
UI(用户界面)集训班 Illustrator 高级班.
常用逻辑用语复习课 李娟.
会计学专业基础课堂之 基础会计(初级会计) 安徽财经大学会计学院.
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
小学新标准英语第四册 Module 6 Unit 2 Was it a big city then?
基于学习者语料库的 外语教学研究 北京师范大学外文学院 程晓堂.
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
全国计算机等级考试 二级基础知识 第二章 程序设计基础.
计算机基础知识 丁家营镇九年制学校 徐中先.
《数据库原理及应用》课程介绍 信息工程学院 孙俊国
课程与编码:语言学与应用语言学 张露茜(博士) 浙江工商大学 外国语学院
12英语2班:王晓珏 仇丹妮 潘冬菊 袁承敏 吴爱婷 尹苗苗
基督徒 和 心理学.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
语杠理论 -- 句法结构的砖石.
单元解析:教材主编 牛长清.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
第五讲 四则运算计算器(一) 精品教程《C#程序设计与应用(第2版)清华大学出版社 谭恒松 主编
陈新仁 南京大学外国语学院 语言学之家: 基于语料库的语用学研究 陈新仁 南京大学外国语学院 语言学之家:
第二章 Java语言基础.
第十章 方差分析.
第九章 现代科学技术与对外汉语教学 主讲人:辽宁师范大学 赵越.
整合思维导图的初中英语教学设计 主讲人:卢璐.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
程序设计工具实习 Software Program Tool
一个RDF数据自然语言生成器的设计与实现
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
《知网2000座谈会》发言 董振东 董强 Tel: (8610) Tel: (8610)
1.3 C语言的语句和关键字 一、C语言的语句 与其它高级语言一样,C语言也是利用函数体中的可执行 语句,向计算机系统发出操作命令。按照语句功能或构成的不 同,可将C语言的语句分为五类。 goto, return.
C语言程序设计 主讲教师:陆幼利.
EBNF与操作语义 请用扩展的 BNF 描述 javascript语言里语句的结构;并用操作语义的方法描述对应的语义规则
Reading of English-American Literature
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
微机系统的组成.
2019/4/16 关注NE官方微信,获取更多服务.
网页设计与制作 —— 学习情境二:网页模板设计
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
第4章 Excel电子表格制作软件 4.4 函数(一).
<编程达人入门课程> 本节内容 计算机编程语言 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群: ,
主谓一致 (Agreement) 一、概念 在英语中,随着主语的人称或数的变化谓语动词采用单数或复数形式。 二、怎么判断?
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
导 言 经济学的基本问题 经济学的基本研究方法 需求和供给.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第二节 C语言的特点.
S + Vt. + O (主语+谓语+宾语 句型).
形式语言学的战国时期 与 支配及约束理论.
Adj + Noun映射到知识库中的classes
第四章 UNIX文件系统.
学习数据结构的意义 (C语言版) 《数据结构》在线开放课程 主讲人:李刚
辞典类 Oxford English Dictionary 牛津在线英语大辞典
目录 壹 贰 叁 肆. 目录 壹 贰 叁 肆 壹 请在此处添加详细描述文本,尽量与标题文本语言风格相符合,语言描述尽量简洁生动。请在此处添加详细描述文本,尽量与标题文本语言风格相符合,语言描述尽量简洁生动。请在此处添加详细描述文本,尽量与标题文本语言风格相符合,语言描述尽量简洁生动。
校园之路.
Presentation transcript:

基于平行语料库的 跨语言知识挖掘 盛玉麒 2007-5-16

信息处理的发展与语言知识短缺 汉语本体应用研究的三个阶段: 字处理 词语处理 语句处理

相关交叉学科研究的三个领域 从人际系统到人机系统、 从母语到第二语言、 从单一语言到双/多语交互;

中文信息研究的理论发展 技术决定论 汉语特殊论 普适性规律的发现 跨语言资源共享

语言研究与语料观的转变 1.结构主义和功能主义 二十世纪语言研究形成两个大的阵营,结构主义和功能主义。 结构主义被西方学者称为“语言学主流”(mainstream linguistics)。 如果把新兴学科如社会语言学、语用学、会话分析、语篇分析等都划人功能主义(因为这些都是研究语言的各种功能的),那么功能主义大有取代结构主义成为语言学主流之势。

语料库语言学的地位 “语料库语言学”(corpus linguistics) 一是利用语料库对语言的某个方面进行研究,也就是说“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。 二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。 现在是否能把语料库语言学跟社会语言学、心理语言学、语用学等相提并论,需要时间和实践。

汉语研究的语料观 举例说明 文献检索 燕京大学《引得》系列

言语语言学的语料观 世界上大约有5000到6000种语言(准确的数字要看如何界定语言跟方言的区别),有文字的还不到一半。 母语习得 二语学得:听-说-读-写 语言差异 方言差异。 历时因素导致的语言差异

索绪尔的做法 排除差异,找出共性, (共时)语言学研究的是langue,即同质的、抽象的语言形式,而不是parole,即异质的、五花八门的言语。 结构主义研究的语言是高度独立性的抽象的符号系统。 难题:他们看得见听得着的是异质的、五花八门的言语,要研究的却是同质的抽象符号系统。 早期结构主义者(以美国Bloomfield为代表) 对异质的的言语进行调查,从中找出同质的、共性的形式结构。 贡献:在语音、音位和形态; 局限:在词组、句法层次。

乔姆斯基的做法 Chomsky提出转换生成语法理论,可以说帮助结构主义摆脱了困境。 他区分了competence(语言能力)和performance(语言使用)。 Langue是凌驾于个人、属于语言社团的抽象系统, competence是个人能生成无限言语的、根植于大脑之中的语言知识。 Chomsky把句法研究的主要任务视为找出那些能生成无限句子的有限规则。

Chomsky认为:对同一语言来说,他不需要做语言调查,强调 “语言直觉”。 语言是生理和心理现象,人们说出来的话(即实际语料)不能完全反映语言的本质。 最有力的证据就是人们能说出他们从来没有听别人说过的句子。 语料库是有限的,语言是无限的。 Chomsky理论的弱点: 一否定了语言的社会性。 二忽视语料库的作用。

功能主义的做法 功能主义(以Halliday为代表)最大的特点是强调语言的社会性,语言的使用功能为语言结构作出最终的解释。 Halliday《功能语法导论》序 (1985:Xiii): ......千万年来一代代人使用语言才使得语言形成今天这样一个系统。语言为了满足人类的需要在发展;它的组成结构之所以是功能性的正是因为这些需求。它不是任意性的。一部功能语法本质上是一部“自然”语法,即书中所说的一切都能在语言的使用方式中找到最终的解释。

功能主义的语料观 功能主义注重语言实际使用情况,语料库是不可多得的帮手。 语料库语言学对功能主义的发展会提供很多具有相当说服力的佐证。 语言的最原始和最古老的形式 书面语料库 口语语料库

语料库语言学的基本问题 1.建立语料库 建库的目的; 语料品种; 取样标准; 规模; 人力及资金来源; 存贮方式与格式。

2.语料转写 口语语料的处理 转写成文字和计算机可读的声音符号 格式和规范。

3.语料标注 “生语料库” “熟语料库”。 把语料所具有的重要语言学信息用一组符号标注出来。 “吃饭”: 结构:“吃”+“饭”构成动宾结构; 功能:做谓语; 条件:主语是有生命的,…… 标注得越是详细,研究者从中能得到的信息也就越大。

4.管理与应用软件 检索 更新 排序 重组 转存 ……

5.语言研究 语言单位的专题研究 专项研究 词典学研究 句法学研究。

四、语料库的应用 1、辞书编撰: 1)大型语料库 2)代表性 3)分析工具。

●用法即意义; ●根据词频编制常用词表; ●根据非语言要素的联结(如语域、历史阶段与方言等),了解和判断不同类型语言的用语特征; ●确定词项的搭配及分布; ●确定某词的义项及用法的分布。 ●确定同义词的使用与分布 ●了解语境对词义选择、搭配与语域的关系。

2、语法研究 各种语言结构的频率分布; 语法结构与语言的其它层次间的关系, 语言因素与非语言因素之间的关系; 解释讲话者选择一定语言形式的原因; 用实证的方法对语法资源的各种使用模式做出定量定性的分析。

3、词汇与语法的联结 词汇与其语法环境之间的关系; 语法结构与相关词汇环境间的关系; 区分同义词或近义词; 区分同义或近义的语法结构。

4、语篇分析 精确地描写所选语域的语篇特征; 文本符合其语域的一般语篇模式的程度; 用程序(与拼写检查器相似)分析语篇特征; 用自动分析器检索整个文本中某些语法特征。

5、语言变异研究 语域变异 语域间定量的变异可在功能上得到解释; 从句在口语和书面语语域中频率与分布差异; 不同学科的文本之间语言变异的模式的差异; 同一文本中,不同章节的语言特征变化; 进行定性分析,解释语言模式的功能。

6、语言习得与发展研究 儿童语言习得研究; 小学生母语能力的发展; 不同年级的小学生使用情况; 小学生与成人语言比较研究。

7.语言历时研究 历时语料库 不同语域的静态动词和准静态动词的使用; 口语与书面语语域中语言模式的变异; 男性与女性私人信件中的特征; 对照各个历史时期中小说文本,调查某些词语的历时变化。

8.语言风格研究 根据大量的有关文本、语域种类、历史时期与语言特征,可以为描述文本与作者的风格提供一种可靠的分析框架。 整本小说或一个作家的所有作品, 并行比较或历时比较, 一个作家不同类型作品的比较。

9.服务于语言教学 1)分析大量语料,改进课程设计。 2)了解语言使用模式,开发语言教学资料,优化教材编写。 3)改进课堂教学活动。

10.服务于信息处理 搭配与共现 歧义选择 模糊判断 定量分析 频度动态优化 专家系统

谢谢!