语料库的制作和应用语料库的制作和应用 2014.7.14. CONTENTS 语料库的基本特征语料抽样：理论与抽样操作语料文本的基本处理：主要处理方式和实现方式双语语料的对齐：方式和方法语料检索：基本检索和高级检索 ( 普通、正则和 term list) 双语语料检索：基本检索和高级检索.

Slides:

Advertisements

Similar presentations

广州市教育局教学研究室英语科 Module 1 Unit 2 Reading STANDARD ENGLISH AND DIALECTS.

Advertisements

北京市卫生和计划生育委员会. 目录目录 2 1 汇审工作安排 2 年末结账及明年建账关注事项 3 卫生年报口径讲解 4 财政决算口径讲解.

实习期工作总结述职人：孙伟 —— 个人简历姓名：孙伟毕业院校 : 内蒙古民族大学专业：农业机械化及其自动化.

北京师范大学生命科学学院北京师范大学生命科学学院余跃强章腾勋王航余跃强章腾勋王航 2 目录目录目录目录  前言前言  概述概述  形态和生活史形态和生活史  寄生适应特征寄生适应特征  致病机制与症状致病机制与症状  诊断诊断  流行情况流行情况.

河北衡水中学康新江高效课堂与激情教育河北衡水中学康新江

中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报华中师范大学中国旅游研究院武汉分院二〇一一年十二月.

文亭淘宝城销售政策及租金政策版权声明：本文仅供客户内部使用，版权归北京和美行房地产经纪公司山东分公司所有，未经北京和美行房地产经纪公司山东分公司书面许可，不得擅自向其它任何机构和个人传阅、引用、复制和发布报告中的部分或全部内容。

聞一多詩集導讀-- 《死水》與《紅燭》系級/組別：森資一第五組

102學年度多元入學大學.

妇产科2015年上半年工作总结汇报人：.

黄岛区政府部门责任清单编制工作介绍二〇一五年六月.

第二节日常业务处理一、生成会计报表二、会计报表输出初级会计电算化>>第十二章>>第二节.

2014届毕业生毕业论文与毕业实习动员一、郑州航院毕业论文工作规定二、法律系毕业论文工作安排三、法律系毕业论文格式要求

一分鐘掌握7大護心秘訣這是你不可忽視的心數字… 在台灣，女性死於心臟性疾病的總數，是乳癌加子宮頸癌的4倍！每2秒，有一人死於心血管疾病

智学网账号登录 1、打开网页，在地址栏里输入 2、点击登录，输入用户名和密码，即可登录：

Word2010的使用讲解人:常蕊.

2011计算机类教研活动陈国久.

新建本科院校应用型人才培养若干问题探析张德江.

10-1 資料庫管理系統簡介 10-2 關聯式資料模式和查詢語言 10-3 Access 簡介 10-4 XML 簡介

高一年级过渡性学习活动汇报高一年级组教科研室汉滨高中.

博碩士論文繳交講習會 2013年.

5.1 Excel 概述 Excel的特点 1、表格制作 2、完成复杂运算 3、建立图表 4、数据库管理 5、决策支持.

第 4 章社會中的文化一、文化的意義與特徵二、文化的內涵三、次文化四、文化的傳承與創新 課後複習 歷屆基測試題.

第十一章管理沟通.

正修科技大學典範人物專訪寫作徵文比賽實施要點

第十六章股票交易資訊分析與試算課前指引目前最熱門的理財方式莫過於投資股票市場，因此本章首先講解如何從美國股市匯入重要資料，之後教授使用WEB查訊功能，匯入台灣股市即時或盤後交易資訊到Excel工作表中，再利用資料分析工具來協助瞭解個股。最後再利用Excel圖表功能來繪製成股票K線圖，這是不是很有趣及實用呢？

2015 《延庆县中小学电子学籍管理平台》工作培训.

秘密／蜜花園台灣女性散文的繁麗圖景楊翠.

目录 CONTENTS 公积金信息系统升级概述缴存和提取业务培训第一部分第二部分 Part 1 Part 2

东南大学数字迎新的探索东南大学网络与信息中心张月琳.

簡報大綱校舍詳細評估作業詳細評估注意事項作業規範、審查及上傳詳細評估管控期程.

中国知网个人数字图书馆的注册、开通及漫游申请

行政院人事行政總處「全國公教人員退休撫卹整合平台專案」使用者操作教學主講人：虎尾國中人事室主任邱德昌 104年7月21日.

固定资产加速折旧新政讲解深圳国家税务局所得税处.

模块4 授导型教学的设计陈冬.

第7章文本编辑与阅读 7.1 文本编辑 7.2 电子阅读 7.3 OCR 文字识别 7.4 思考与拓展实践.

财务报表无纸化网上报送培训.

玉溪工业财贸学校副校长示范校建设办公室主任柏家渭 2014年5月13日

学习方法建议首先应该有明确的学习动机，解决思想问题。然后根据自己实际要有一个明确的学习目标。

申請土地徵收注意事項內政部地政司邱于蓉.

第 1 章跨入 Word 的世界.

第十章房地产开发项目的经济评价 §1 房地产开发项目及其前期工作 §2 房地产开发项目经济评价 本章内容.

浙江省公务卡结算制度.

Microsoft Excel 2000 試算表初階中央大學計算機中心周小慧.

Moodle試用報告林俊卿.

第 2 章必備的 HTML 與 CSS 重點.

2018/12/6 中文Word2000的使用方法.

付款作業錯誤態樣【出納組】錯誤1～核銷文件備具不齊錯誤2 ～戶名與系統不同錯誤3 ～未輸發票號碼日期錯誤4 ～受款人帳號輸錯

Unit 2b communication.

陳一帆 (02) ext 592.

武汉理工大学人事系统职称评审资格审查培训

Word 2003 學習導引手冊第四章檔案存取介紹作者丁安強博碩-Word 2003 學習導引手冊 Ch04.

一分鐘掌握7大護心秘訣這是你不可忽視的心數字… 在台灣，女性死於心臟性疾病的總數，是乳癌加子宮頸癌的4倍！每2秒，有一人死於心血管疾病

第八单元 Word和Excel 进阶应用.

動態網頁程式設計實習主講人：徐培倫老師.

2.1 文字的不同屬性 2.2 文字的版面設計 2.3 不同的文字檔案格式 2.4 按需要設定合適的文字屬性 2.5 文字檔案格式的轉換.

102學年度大學個人申請入學招生審查資料上傳作業說明

電腦應用製作單位: 高雄市立高雄中學.

大学计算机基础——周口师范学院第5章 PowerPoint演示文稿软件 5.2图形对象的插入.

Access应用数据库基础与.

计算机应用基础潍坊学院计算机工程学院主讲人：李凤慧.

安全保密产品检测申请书材料准备介绍.

一分鐘掌握7大護心秘訣這是你不可忽視的心數字… 在台灣，女性死於心臟性疾病的總數，是乳癌加子宮頸癌的4倍！每2秒，有一人死於心血管疾病

Excel 進階 By 梁志堅.

陳昭珍國立臺灣師範大學圖書資訊學研究所副教授

全國高級中等學校專業群科食品群專題組之專題製作經驗分享報告者：北門農工 (劉軒如).

Ⅳ. 一般禀议 간지 Ⅰ. 시스템소개 Autoway Groupware User Manual | 编制 | 协助处 | 裁决 | 否决

Presentation transcript:

语料库的制作和应用语料库的制作和应用

CONTENTS 语料库的基本特征语料抽样：理论与抽样操作语料文本的基本处理：主要处理方式和实现方式双语语料的对齐：方式和方法语料检索：基本检索和高级检索 ( 普通、正则和 term list) 双语语料检索：基本检索和高级检索语料数据后续处理： z-score; log-likelihood; factor analysis; correlation; keyness 微型教学语料库的创建和使用翻译课堂教学用双语语料的制作和应用

语料库的基本特征 -1 Computer-readable: txt, xml, html, doc, pdf Consistency: o his mother; his mother; his\nmother Annotation: o 我们 _r; 我们 /r; 我们 ; 我们 Header: o 有关文本的元信息，涉及文本的作者、文体、出版时间等 o Chinese English MeiGuoShi WeiYeChou 1 3 G Shangwuyinshuguan 1929 B 相对完整的语料文件范本

语料库的基本特征 -2 语料库可以视为结构合理的语料文件的集合。往往以数据库形式存在（如文件夹）。这是语料库建库工作中最重要的部分，也是最耗时费力的部分。语料数据库建成之后，就可以从库中提取信息，称为检索。检索效果高低要看能否充分运用检索手段，但最终依赖语料库本身能提供多少可能性。检索结果的处理需要技巧，事关处理的质量和效率。

语料抽样：理论与抽样操作有代表性、结构合理的语料文本集合，但不是任意搜集的文本数据库，也不是越大越好，而是 “ finite-sized body of machine-readable text ” ，语料库通常有抽样框架。一般说来，处于研究的需要，语料宜尽量平衡，这样就不能照单全收，需要考虑从中抽取一部分。抽取多少，如何抽取，这个问题可以说众说纷纭。 o Brown/LOB ：分层抽样，大小一致；分层抽样如文学中小说占 35% ，散文占 8% ，戏剧占 2% 。 2 nd generation corpora: The Corpus di Italiano ScrittoThe Corpus di Italiano Scritto o BNC ：大小不一（ max ： 40 ， 000 words ）； 25%/75% （ lit./inf. ） o ENPC: 40%/60%(non-lit/lit) ； S. Johansson Size: 2.6 million words Language: English, Norwegian; N umber of texts/samples: 100 orig., 100 transl. P eriod: 1975 – 1995 抽样字数及分配语料取样计算抽样字数及分配语料取样计算

语料文本的基本处理：主要处理方式 -1 语料的最常用存储方式是纯文本，纯文本顾名思义就是只有文字，不支持任何其他字符格式，如粗体、斜体、下划线、表格框，等等。语料以这种方式存储占用空间极小，且几乎所有检索软件都支持。将语料以这种方式存储只是检索的操作，更重要的是让存储的文本内容规范，格式尽量一致，而且没有乱码，不必要的空格和软回车、硬回车，等等文本噪音。要做到这些，就需要对语料进行按部就班的处理。使用 Microsoft Word 可以对文本进行处理。文本噪音

语料文本的基本处理：主要处理方式 -2 Word 中的替换、 Macro 的使用 Word 中的替换、 Macro 的使用其他语料文本处理工具的使用（ Editplus ）其他语料文本处理工具的使用

语料文本的基本处理：主要处理方式 -3 规范语料文件的生成：无噪音、符合预期的加工规范（标记充分）。 Header | POS 存储格式（ txt|xml ）辅助软件的使用：通常会包含包含文本除噪程序的 headadder ， txtmarker 。其实除噪是执行一些替换性的操作（ see next slide ） headadder

语料文本的基本处理：主要处理方式 -4 $line=~s/\s\n/\n/g; #matching and replacing all $line=~s/(.)\n/$1 /g; #matching and replacing all $line=~s/[\r\n]/##/g; #matching and replacing all $line=~s/\*//g; #matching and replacing all $line=~s/^\s*$//g; #matching and replacing all $line=~s/\\s{0,}/\s/g; #matching and replacing all $line=~s/\\s\n/\n/g; #matching and replacing all $line=~s/\Z\n/##/g; #matching and replacing all $line=~s/ +/ /g; #replace more whitespaces with just one $line=~s/\s+(#{2,})/$1/g; #matching and replacing all

语料文本的基本处理：主要处理方式 -5 添加 metadata 后的语料样态

语料文本的基本处理：主要处理方式 -6

双语语料的对齐：方式和方法 -1 对齐就是源文和译文对应。翻译语料的主要特征是对齐。对齐的语言层级： o 段对齐 o 句对齐 o 段对齐中的句对齐对齐方式不同，与创建语料库的目的有关。比如，如果仅仅用于辅助翻译，就可以采用句对齐。而要用于翻译研究，就需要考虑段落层面的语言使用信息，如衔接、话语标记等。对齐软件有很多， CAT 类软件、 Paraconc 、专门软件。 CAT 类软件

双语语料的对齐：方式和方法 -2 初始对应：源语、目标语文本段对齐， word 下完成校对。这一步最重要。 Paraconc 可以考虑添加 s 标记。对齐：软件对齐。如 aligner ， paraconc ； Trados ， dejavu ， bitext2tmx 。前两者提供段对齐和句对齐；后三个软件一般只提供句对齐。 aligner paraconc Trados bitext2tmx

语料赋码 Annotation, 就是加标签（ tagging ）. 标注的分类：自动标注、人工标注；词性 - 句法标注、功能标注；标注标记 _ 、 / 、 <> 。标注词性 - 句法标注、功能标注人工标注主要是指功能性标注，如语义标注、翻译手段的标注，以及为满足特定研究目的进行的附码如话轮、间接、直接言语行为，等等。从一定意义上说，人工标注涉及更深语言层面，标注充分对于研究自然更有意义。自动标注主要包含词性标注和句法标注，可以通过软件来实现。

语料编码、存储格式使用 text 文本时，缺省编码为 ANSI 。用于 WordSmith 用的语料文本一般应为 unicode 。许多软件如 Antconc 等支持 utf-8 编码，这种编码各种语言通用，最不易出现乱码。实现方式： txt 文本，另存为， “ 编码 ” 对话框中选择 utf-8 即可。存储方式 o 语料数据文件最好能在不同的检索程序上通用，甚至可以在一些现成的管理程序如 excel 上执行数据信息的计算，分析和管理。要实现这样的功能，简单存储为 txt 文本显然不能满足以上要求。这时就需要一种比较完整地数据存储方式 xml 。 o 可扩展标记语言 (Extensible Markup Language) 可以用来标记电子文件，标记后的文件有结构性的标记语言。既然标记数据就可以通过标记定义数据的类型，而且标记可以根据我们自己的需要自行定义，合乎语法就行。 Xml 生成 Xml 生成

语料检索：基本检索和高级检索 -1 检索与语言使用的范畴、特征曲折变化： move, moves, moving, moved 派生： move, movement 词性： move(v.), wove(n.) ； in, at, on, over, upon, from 人称： I, me, we, us 短语、组合能产： a lot of, a part of, a cup of, a piece of 结构能产： give me a book; send his father a message V NP NP ; V NP NP 语言使用的特征决定了检索不太可能是 token ，许多情况下要检索到 type ，或者需要词性线索。

语料检索：基本检索和高级检索 -2 检索语种数量 o 主要的单语检索软件： Wordsmith ， Monoconc ， Antconc o 双语检索： Paraconc ， CAT ，自行设计的检索软件（历时语料检索）基本检索 o 以 Antconc 为例实施检索。基本检索包含 token 检索和 wild card 检索，检索前先要熟悉语料的存储方式。 Antconc 高级检索 Antconc 中的单语高级检索：正则表达式检索，使用正则表达式的 term list 检索。正则表达式检索 term list

双语语料检索：基本检索和高级检索 Paraconc 中的双语高级检索：正则表达式检索 Paraconc正则表达式检索满足某些研究需要的正则表达式检索：历时语料库检索平台 omegaT 检索历时语料库检索平台omegaT 检索

语料检索小结正则表达式的检索功能有些使用通配符也能做到，但有些则是通配符检索无法实现的。实际检索时发现，在词汇层面，汉语的叠词以及隔词重复的精确检索只能使用正则表达式，使用通配符也能勉强检索，但无法精确检索；在句子层面，正则表达式能使准确的句段长度检索和严格的句段内部结构检索成为可能。正则表达式的使用看上去有些繁琐，但只要肯花点时间熟悉元字符的意义，使用起来也比较方便，它还有助于提高检索的准确性和效率，进而提高语言研究的质量。

语料数据的后续处理 -1 语料检索的目的是发现问题，而语料库检索发现的问题主要表现在频次、频率上。语料库的这一长处必须充分发挥，才称之为语料库语言研究。频次、频率典型表达为数字，处理数字问题关系到研究结论的可信度，需要使用一些处理方法，常用的处理方法有： o 频率对比：特定的词、词丛、词性赋码串；使用 WS 或 Antconc 中 keyness 工具对比词表、词丛表对比词表 o 搭配强度计算： Z-score Z-score o 频率差异显著性计算： log-likelihood 计算 log-likelihood 计算一般说来，词表对比的结果可以重新标注用于分类处理

语料数据的后续处理 -2 重复词项计算 Facotor analysis (SPSS) Facotor analysis Correlation analysis (SPSS) Correlation analysis

平行语料库辅助翻译应用基本思路：已有翻译为参照，为当下翻译提供参考；建立术语库，使术语统一成为可能。 CAT 的主体部分是 TM 和 Term Database CAT 软件： Trados ， Deja vu ，雅信，（免费） OmegaT Trados 商业使用最为广泛 D é j à vu 易操作 D é j à vu Omega T 免费，更易操作，但只能单用不能基于 web Omega

微型教学语料库的创建和使用建库目的和内容 o 针对学生翻译习作 o 反映学生个体和总体特征 o 翻译技巧和翻译评估相结合 o 提取信息方便 o 易于操作使用 Excel 基本满足此类要求 Excel 基本满足此类要求

翻译课堂教学用双语语料的制作和应用建库目的：翻译教学；自学设计要求： o 方便呈现多样译文；便于对比；方便评注； o 不需要句对齐，段对齐即可载体：网页文件，可以经 excel 生成经 excel 生成编辑： Dreaweaver Dreaweaver