语料库及其基本操作 杨林伟 烟台大学外语教育技术研究中心.


Similar presentations
四六级考试资源介绍 图书馆. 经常用到的考试资源 试卷 银符热门考试平台 视频 新东方网络课程数据库 网上报告厅 图书 读秀知识库.

急救基本概念急救基本概念 (First Aid) part 1 蕭佩珍老師 蕭佩珍老師. 天外奇蹟 ( 野外求救篇 ) 影片.
Is It Necessary to Develop Grammar Learning Materials? New York University Dela Jiao.
语料库的制作和应用 语料库的制作和应用 CONTENTS 语料库的基本特征 语料抽样:理论与抽样操作 语料文本的基本处理:主要处理方式和实现方式 双语语料的对齐:方式和方法 语料检索:基本检索和高级检索 ( 普通、正则和 term list) 双语语料检索:基本检索和高级检索.
高中英语教材分析与教学建议 福建教育学院外语研修部特级教师:周大明. 课程目录  一、理论创新与教材发展  二、现行教材的理论基础和编写体系  三、图式理论与 “ 话题教学 ”  四、课例分析与教学建议.
黄国文 中山大学 通用型英语人才培养中的 语言学教学 黄国文 中山大学
牛津期刊- Oxford Journals 國立台北護理健康大學 教育訓練 Oct 邱子翎.
(科学网博客) 科技编辑类论文选题与写作 任 胜 利 《自然科学进展》编辑部 (科学网博客)
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
陳浩然 國立台灣師範大學英語系 網路與英語學習: 口語,閱讀,及寫作 陳浩然 國立台灣師範大學英語系
-谈《大学英语课程教学要求》的修订 贾国栋
如何與老人互動 臺灣大學職能治療學系 毛慧芬
教師晨會經驗分享 小學雙語實驗教育實施現況之研究 計畫主持人:陳金粧校長、馮思義副校長 指導顧問:陳惠邦教授、鄧奮忠主任、呂慧芬組長
Chinese hot pot - Harvard Project
科研意识与论文的撰写 我能写论文吗?! 温州大学 罗晓杰.
一一年 值得关注的日子 元 旦 春 节 情 人 宵 植树节 愚人节 清明节 劳动节 母亲节 儿童节 父亲节 教师节 中秋节 圣诞节
附錄1 —— 《個人資料(私隱)條例》的釋義、原則及主要條文
学术期刊论文撰写与实例分析 华中科技大学 徐锦芬
教學意見調查 線上填答說明 (104學年度第2學期).
如何申請醫事人員報備支援線上申辦系統 National Public Health Information Portal 公共衛生資訊入口網
都市計畫概論論文概述及評論: 彰化高鐵站區域計畫
全球化语境下的大学英语教学的三点思考 上海交通大学外国语学院 俞理明.
Academic Year TFC EFL Data Collection Outline 学年美丽中国英语测试数据收集概述
59 中 张丽娟 学习目标: 1. 识记并理解运用 6 个单词和 5 个短语。 (source, accessible, network, access, via, create come up with, from the moment on, consist of, go down , at the.
云实践引导产业升级 沈寓实 博士 教授 MBA 中国云体系产业创新战略联盟秘书长 微软云计算中国区总监 WinHEC 2015
Figure Interpreting. Introduction In recording an English figure, its three digits make one subsection, while in Chinese, its four digits make one subsection.
Relevance of Linguistic Theories and Foreign Language Teaching
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
考试与考生 --不对等与对等 邹申 上海外国语大学
SpringerLink springerlink.com
Chinese Link Level I Part I September 2012 – June 2013
Jianye He (CCM member) Librarian for Chinese Collections
语料库在外语教学研究中的 应用及方法 潘璠 计算机辅助语言教学研究所 华 中 科 技 大 学 外 国 语 学 院 2008年4月
Linguistics and language teaching
Lecture 2 Lecture An Introduction To The HTML Language
Michael Alexander Kirkwood Halliday (often M. A. K
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
Guide to Freshman Life Prepared by Sam Wu.
課務組 Curriculum Section
Digital Terrain Modeling
Unit 2 Key points summary.
China Standardization activities of ITS
Summer English and Data Science
现代信息检索 Modern Information Retrieval
Hong Kong Library Education and Career Forum 2009
Formal Pivot to both Language and Intelligence in Science
数据库内容及检索功能 – 如何利用这些资源帮助科技论文的写作与发表 钟似璇 (Sixuan Zhong s.
ProQuest- Nursing & Allied Health Source ‎教育訓練
第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术.
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
Philosopher‘s Index 哲學資料庫
须提交的申请材料 个人简历 在中国大学就读期间获得的证书/成绩单
Review and Analysis of the Usage of Degree Adverbs
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
中美图书馆之间合作的过去、现在和未来 Sino-U. S
圖書館資料庫 103年英語自學說明會 校內圖書館資源.
英语专业高年级课程教学: 文化教学在人才培养中的重要性
Selecting Reading Materials
Further Development Translation 来自 创思英语 Grammar.
外國學生漢字學習的認知與策略整理 兼談漢字教學的建議
Introduction to Computer Security and Cryptography
OVID Medline vs. PubMed 邱子恒
英语口译 4 Education and Campus 大学英语教学部 向丁丁.
社會學習領域 課綱修正宣導簡報 臺北市社會領域輔導小姐.
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Section 1 Basic concepts of web page
Presentation transcript:

语料库及其基本操作 杨林伟 烟台大学外语教育技术研究中心

1 2 语料库的概念及其发展简述 语料库工具、软件 3 4 自建小型语料库 教学实践与应用

1 语料库的概念及其发展简述 语料库 的定义 A corpus is a collection of pieces of language text in electronic form selected according to external criteria to represent as far as possible a language or language variety as a source of data for linguistic research. (Sinclair, 1991) a collection of sampled texts, written or spoken, in machine readable form which may be annotated with various forms of linguistic information. (McEnery et al. 2006)

1 语料库的概念及其发展简述 语料库 的定义 a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools. By BFSU CRG members

1 语料库的概念及其发展简述 语料库 百万词级 1959: SEU (Survey of English Usage) the first attempt to provide an ongoing collection of present-day English … was a precursor of later corpora such as the British National Corpus and the American National Corpus. 1961: The Brown Corpus was the first computer-readable general corpus of texts prepared for linguistic research on modern English at Brown University.

1 语料库的概念及其发展简述 语料库 百万词级 1970s: The Lancaster-Oslo/Bergen Corpus (LOB Corpus) was compiled to provide a British counterpart to the Brown Corpus. 1975: The London Lund Corpus (LLC) was the computerised spoken part of SEU, used as the basis for the famous Comprehensive Grammar (Quirk et al. 1985).

1 语料库的概念及其发展简述 语料库 千万词级 1980s: COBUILD (Collins-Birmingham University International Lexical Database). In 1991, the success of the COBUILD led to the development of a large monitor corpus, the Bank of English. 1980s: LONGMAN/LANCSTER Corpus. As part of the Longman Corpus Network, the Longman/Lancaster Corpus is not available for public access.

1980s—early 1990s: BNC (British National Corpus) 1亿 语料库的概念及其发展简述 语料库 亿词级 1980s—early 1990s: BNC (British National Corpus) 1亿 1990s: COCA (The Contemporary American English)4.5亿

Late 1990s—2002: ICLE (The International Corpus of Learner English) 语料库的概念及其发展简述 热点: 学习者语料库 Late 1990s—2002: ICLE (The International Corpus of Learner English) Late 1990s: CLEC (Chinese Learner English Corpus) HKUST Learner Corpus See More Corpora: http://www.lancaster.ac.uk/fass/projects/corpus/cbls/corpora.asp

1 语料库的概念及其发展简述 热点: 双语语料库 The BFSU (Beijing Foreign Studies University) Chinese-English Parallel Corpus contains 30 million words. Presently it is the largest parallel corpus of English and Chinese. The corpus is composed of four subcorpora, i.e. Balanced Corpus, Translation Corpus, Bilingual Sentences Corpus and Corpus for Specific Purpose.

1 语料库的概念及其发展简述 热点: 网络语料库 WaC Wa/fC WfC

AntConc: freeware, copyleft Xaira: BNC 2 语料库工具、软件 检索工具、软件 WordSmith Tools MonoConc / ParaConc AntConc: freeware, copyleft Xaira: BNC CQPWeb: Sketch Engine, BFSU CQPWeb WebCorp

2 语料库工具、软件 检索工具、软件

Wordlist and Collocation N-gram 2 语料库工具、软件 检索工具、软件 Practice 1 KWIC Wordlist and Collocation N-gram

2 语料库工具、软件 检索工具、软件 Practice 1

2 语料库工具、软件 语料库标注工具 Stanford POStagger TreeTagger CLAWS 5

2 语料库工具、软件 9/13=69.2 Stanford POStagger 语料库标注工具 Practice 2 9/13=69.2 Stanford POStagger Can/MD you/PRP can/MD a/DT can/MD as/IN a/DT canner/NN can/MD can/MD a/DT can/MD ?/. 11/13=84.6 TreeTagger Can_MD you_PP can_MD a_DT can_NN as_IN a_DT canner_NN can_MD can_MD a_DT can_NN ?_SENT

2 语料库工具、软件 Regex Editpad Pro Regular Expression PowerGrep 正则表达式 语料库文本处理工具 Regex Regular Expression 正则表达式 wordless Editpad Pro PowerGrep Regex Buddy \ba\w*\b \d+ \b\w{6}\b

Collect all the sentences of the structure: It be … that… 2 语料库工具、软件 语料库文本处理工具 Practice 3 Remove the tags Remove the words Collect all the sentences of the structure: It be … that…

Python、 NLTK: Natural Language Toolkit 2 语料库工具、软件 语料库高级工具 Active Perl Python、 NLTK: Natural Language Toolkit Text1.concordance(“monstrous”)

Representative and balanced sampling 3 自建小型语料库 语料库建库原则 Machine readable Authentic Authoritative Representative and balanced sampling

1 Text OCR, downloading, collecting 3 自建小型语料库 语料库建库步骤 Practice 4 1 Text OCR, downloading, collecting 2 Text cleaning and formatting 3 Text markup, tagging, meta information Taking Webpages as an example

4 教学实践与应用 我的 应用 1 Web多媒体新闻语料库 2 微型文本语料库