语料库的制作和应用 语料库的制作和应用 2014.7.14. CONTENTS 语料库的基本特征 语料抽样:理论与抽样操作 语料文本的基本处理:主要处理方式和实现方式 双语语料的对齐:方式和方法 语料检索:基本检索和高级检索 ( 普通、正则和 term list) 双语语料检索:基本检索和高级检索.

Slides:



Advertisements
Similar presentations
广州市教育局教学研究室英语科 Module 1 Unit 2 Reading STANDARD ENGLISH AND DIALECTS.
Advertisements

北京市卫生和计划生育委员会. 目录目录 2 1 汇审工作安排 2 年末结账及明年建账关注事项 3 卫生年报口径讲解 4 财政决算口径讲解.
实习期工作总结 述职人:孙伟 —— 个人简历 姓名:孙伟 毕业院校 : 内蒙古民族大学 专业:农业机械化及其自动化.
北京师范大学生命科学学院 北京师范大学生命科学学院 余跃强 章腾勋 王航 余跃强 章腾勋 王航 2 目 录目 录目 录目 录  前言 前言  概述 概述  形态和生活史 形态和生活史  寄生适应特征 寄生适应特征  致病机制与症状 致病机制与症状  诊断 诊断  流行情况 流行情况.
河北衡水中学 康新江 高效课堂与激情教育 河北衡水中学 康新江
中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报 华中师范大学 中国旅游研究院武汉分院 二〇一一年十二月.
文亭淘宝城销售政策及租金政策 版权声明: 本文仅供客户内部使用,版权归北京和美行房地产经纪公司山东分公司所有,未经北京和美行房地产经纪公司山东分公司书面许可,不得擅自向其它任何机构和个人传阅、引用、复制和发布报告中的部分或全部内容。
聞一多詩集導讀-- 《死水》與《紅燭》 系級/組別:森資一 第五組
102學年度 多元入學 大 學.
妇产科2015年上半年 工作总结 汇报人:.
黄岛区政府部门责任清单编制工作介绍 二〇一五年六月.
第二节 日常业务处理 一、生成会计报表 二、会计报表输出 初级会计电算化>>第十二章>>第二节.
2014届毕业生毕业论文与毕业实习动员 一、郑州航院毕业论文工作规定 二、法律系毕业论文工作安排 三、法律系毕业论文格式要求
一分鐘掌握7大護心秘訣 這是你不可忽視的心數字… 在台灣,女性死於心臟性疾病的總數, 是乳癌加子宮頸癌的4倍! 每2秒,有一人死於心血管疾病
智学网账号登录 1、打开网页,在地址栏里输入 2、点击登录,输入用户名和密码,即可登录:
Word2010的使用 讲解人:常蕊.
2011计算机类教研活动 陈国久.
新建本科院校 应用型人才培养若干问题探析 张德江.
10-1 資料庫管理系統簡介 10-2 關聯式資料模式和查詢語言 10-3 Access 簡介 10-4 XML 簡介
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
博碩士論文繳交講習會 2013年.
5.1 Excel 概述 Excel的特点 1、表格制作 2、完成复杂运算 3、建立图表 4、数据库管理 5、决策支持.
第 4 章 社會中的文化 一、文化的意義與特徵 二、文化的內涵 三、次文化 四、文化的傳承與創新 課後複習 歷屆基測試題.
第十一章 管理沟通.
正修科技大學典範人物專訪 寫作徵文比賽實施要點
第十六章 股票交易資訊分析與試算 課前指引 目前最熱門的理財方式莫過於投資股票市場,因此本章首先講解如何從美國股市匯入重要資料,之後教授使用WEB查訊功能,匯入台灣股市即時或盤後交易資訊到Excel工作表中,再利用資料分析工具來協助瞭解個股。最後再利用Excel圖表功能來繪製成股票K線圖,這是不是很有趣及實用呢?
2015 《延庆县中小学电子学籍管理平台》 工作培训.
秘密/蜜花園 台灣女性散文的繁麗圖景 楊 翠.
目 录 CONTENTS 公积金信息系统升级概述 缴存和提取业务培训 第一部分 第二部分 Part 1 Part 2
东南大学 数字迎新的探索 东南大学 网络与信息中心 张月琳.
簡報大綱 校舍詳細評估作業 詳細評估注意事項 作業規範、審查及上傳 詳細評估管控期程.
漢 字 簡 化.
中国知网个人数字图书馆的注册、开通及漫游申请
行政院人事行政總處 「全國公教人員退休撫卹整合平台專案」 使用者操作教學 主講人:虎尾國中人事室主任 邱德昌 104年7月21日.
固定资产加速折旧新政讲解 深圳国家税务局所得税处.
模块4 授导型教学的设计 陈冬.
第7章文本编辑与阅读 7.1 文本编辑 7.2 电子阅读 7.3 OCR 文字识别 7.4 思考与拓展实践.
财务报表无纸化网上报送培训.
玉溪工业财贸学校副校长 示范校建设办公室主任 柏家渭 2014年5月13日
学习方法建议 首先应该有明确的学习动机,解决思想问题。 然后根据自己实际要有一个明确的学习目标。
腦癇症.
申請土地徵收注意事項 內政部地政司 邱于蓉.
資料轉換.
第 1 章 跨入 Word 的世界.
第十章 房地产开发项目的经济评价 §1 房地产开发项目及其前期工作 §2 房地产开发项目经济评价 本章内容.
浙江省公务卡结算制度.
Microsoft Excel 2000 試算表初階 中央大學 計算機中心 周小慧.
Moodle試用報告 林俊卿.
第 2 章 必備的 HTML 與 CSS 重點.
2018/12/6 中文Word2000的使用方法.
付款作業錯誤態樣【出納組】 錯誤1~核銷文件備具不齊 錯誤2 ~戶名與系統不同 錯誤3 ~未輸發票號碼日期 錯誤4 ~受款人帳號輸錯
Unit 2b communication.
陳一帆 (02) ext 592.
武汉理工大学人事系统 职称评审资格审查培训
Word 2003 學習導引手冊 第四章 檔案存取介紹 作者 丁安強 博碩-Word 2003 學習導引手冊 Ch04.
一分鐘掌握7大護心秘訣 這是你不可忽視的心數字… 在台灣,女性死於心臟性疾病的總數, 是乳癌加子宮頸癌的4倍! 每2秒,有一人死於心血管疾病
第八单元 Word和Excel 进阶应用.
動態網頁程式設計實習 主講人:徐培倫老師.
2.1 文字的不同屬性 2.2 文字的版面設計 2.3 不同的文字檔案格式 2.4 按需要設定合適的文字屬性 2.5 文字檔案格式的轉換.
102學年度大學個人申請入學 招生審查資料上傳作業說明
電腦應用 製作單位: 高雄市立高雄中學.
大学计算机基础——周口师范学院 第5章 PowerPoint演示文稿软件 5.2图形对象的插入.
Access应用 数据库基础 与.
计 算 机 应 用 基 础 潍坊学院 计算机工程学院 主讲人:李凤慧.
安全保密产品检测申请书 材料准备介绍.
一分鐘掌握7大護心秘訣 這是你不可忽視的心數字… 在台灣,女性死於心臟性疾病的總數, 是乳癌加子宮頸癌的4倍! 每2秒,有一人死於心血管疾病
Excel 進階 By 梁志堅.
陳昭珍 國立臺灣師範大學圖書資訊學研究所副教授
全國高級中等學校專業群科 食品群專題組之專題製作 經驗分享 報告者:北門農工 (劉軒如).
Ⅳ. 一般禀议 간지 Ⅰ. 시스템소개 Autoway Groupware User Manual | 编制 | 协助处 | 裁决 | 否决
Presentation transcript:

语料库的制作和应用 语料库的制作和应用

CONTENTS 语料库的基本特征 语料抽样:理论与抽样操作 语料文本的基本处理:主要处理方式和实现方式 双语语料的对齐:方式和方法 语料检索:基本检索和高级检索 ( 普通、正则和 term list) 双语语料检索:基本检索和高级检索 语料数据后续处理: z-score; log-likelihood; factor analysis; correlation; keyness 微型教学语料库的创建和使用 翻译课堂教学用双语语料的制作和应用

语料库的基本特征 -1 Computer-readable: txt, xml, html, doc, pdf Consistency: o his mother; his mother; his\nmother Annotation: o 我们 _r; 我们 /r; 我们 ; 我们 Header: o 有关文本的元信息,涉及文本的作者、文体、出版时间等 o Chinese English MeiGuoShi WeiYeChou 1 3 G Shangwuyinshuguan 1929 B 相对完整的语料文件范本

语料库的基本特征 -2 语料库可以视为结构合理的语料文件的集合。往往以 数据库形式存在(如文件夹)。这是语料库建库工作 中最重要的部分,也是最耗时费力的部分。 语料数据库建成之后,就可以从库中提取信息,称为 检索。检索效果高低要看能否充分运用检索手段,但 最终依赖语料库本身能提供多少可能性。 检索结果的处理需要技巧,事关处理的质量和效率。

语料抽样:理论与抽样操 作 有代表性、结构合理的语料文本集合,但不是任意搜集的文本数据库, 也不是越大越好,而是 “ finite-sized body of machine-readable text ” , 语料库通常有抽样框架。一般说来,处于研究的需要,语料宜尽量平衡, 这样就不能照单全收,需要考虑从中抽取一部分。抽取多少,如何抽取, 这个问题可以说众说纷纭。 o Brown/LOB :分层抽样,大小一致;分层抽样如文学中小说占 35% , 散文占 8% ,戏剧占 2% 。 2 nd generation corpora: The Corpus di Italiano ScrittoThe Corpus di Italiano Scritto o BNC :大小不一( max : 40 , 000 words ); 25%/75% ( lit./inf. ) o ENPC: 40%/60%(non-lit/lit) ; S. Johansson Size: 2.6 million words Language: English, Norwegian; N umber of texts/samples: 100 orig., 100 transl. P eriod: 1975 – 1995 抽样字数及分配 语料取样计算 抽样字数及分配 语料取样计算

语料文本的基本处理:主要处理方式 -1 语料的最常用存储方式是纯文本,纯文本顾名思义就是 只有文字,不支持任何其他字符格式,如粗体、斜体、 下划线、表格框,等等。语料以这种方式存储占用空间 极小,且几乎所有检索软件都支持。 将语料以这种方式存储只是检索的操作,更重要的是让 存储的文本内容规范,格式尽量一致,而且没有乱码, 不必要的空格和软回车、硬回车,等等文本噪音。要做 到这些,就需要对语料进行按部就班的处理。使用 Microsoft Word 可以对文本进行处理。文本噪音

语料文本的基本处理:主 要处理方式 -2 Word 中的替换、 Macro 的使用 Word 中的替换、 Macro 的使用 其他语料文本处理工具的使用( Editplus ) 其他语料文本处理工具的使用

语料文本的基本处理:主 要处理方式 -3 规范语料文件的生成:无噪音、符合预期的加 工规范(标记充分)。 Header | POS 存储格式( txt|xml ) 辅助软件的使用:通常会包含包含文本除噪程 序的 headadder , txtmarker 。其实除噪是执 行一些替换性的操作( see next slide ) headadder

语料文本的基本处理:主 要处理方式 -4 $line=~s/\s\n/\n/g; #matching and replacing all $line=~s/(.)\n/$1 /g; #matching and replacing all $line=~s/[\r\n]/##/g; #matching and replacing all $line=~s/\*//g; #matching and replacing all $line=~s/^\s*$//g; #matching and replacing all $line=~s/\\s{0,}/\s/g; #matching and replacing all $line=~s/\\s\n/\n/g; #matching and replacing all $line=~s/\Z\n/##/g; #matching and replacing all $line=~s/ +/ /g; #replace more whitespaces with just one $line=~s/\s+(#{2,})/$1/g; #matching and replacing all

语料文本的基本处理:主 要处理方式 -5 添加 metadata 后的语料样态

语料文本的基本处理:主要处理方式 -6

双语语料的对齐:方式和 方法 -1 对齐就是源文和译文对应。翻译语料的主要特征是对齐。 对齐的语言层级: o 段对齐 o 句对齐 o 段对齐中的句对齐 对齐方式不同,与创建语料库的目的有关。比如,如果仅仅 用于辅助翻译,就可以采用句对齐。而要用于翻译研究,就 需要考虑段落层面的语言使用信息,如衔接、话语标记等。 对齐软件有很多, CAT 类软件、 Paraconc 、专门软件。 CAT 类软件

双语语料的对齐:方式和 方法 -2 初始对应:源语、目标语文本段对齐, word 下完成校 对。这一步最重要。 Paraconc 可以考虑添加 s 标记。 对齐:软件对齐。如 aligner , paraconc ; Trados , dejavu , bitext2tmx 。前两者提供段对齐和句对齐; 后三个软件一般只提供句对齐。 aligner paraconc Trados bitext2tmx

语料赋码 Annotation, 就是加标签( tagging ). 标注的分类:自动标注、人工标注;词性 - 句法标注、功 能标注;标注标记 _ 、 / 、 <> 。 标注词性 - 句法标注、功 能标注 人工标注主要是指功能性标注,如语义标注、翻译手段的 标注,以及为满足特定研究目的进行的附码如话轮、间接、 直接言语行为,等等。从一定意义上说,人工标注涉及更 深语言层面,标注充分对于研究自然更有意义。 自动标注主要包含词性标注和句法标注,可以通过软件来 实现。

语料编码、存储格式 使用 text 文本时,缺省编码为 ANSI 。用于 WordSmith 用的语料文本 一般应为 unicode 。许多软件如 Antconc 等支持 utf-8 编码,这种编 码各种语言通用,最不易出现乱码。实现方式: txt 文本,另存为, “ 编码 ” 对话框中选择 utf-8 即可。 存储方式 o 语料数据文件最好能在不同的检索程序上通用,甚至可以在一些现成的管 理程序如 excel 上执行数据信息的计算,分析和管理。要实现这样的功能, 简单存储为 txt 文本显然不能满足以上要求。这时就需要一种比较完整地数 据存储方式 xml 。 o 可扩展标记语言 (Extensible Markup Language) 可以用来标记电子文件, 标记后的文件有结构性的标记语言。既然标记数据就可以通过标记定义数 据的类型,而且标记可以根据我们自己的需要自行定义,合乎语法就行。 Xml 生成 Xml 生成

语料检索:基本检索和高级检索 -1 检索与语言使用的范畴、特征 曲折变化: move, moves, moving, moved 派生: move, movement 词性: move(v.), wove(n.) ; in, at, on, over, upon, from 人称: I, me, we, us 短语、组合能产: a lot of, a part of, a cup of, a piece of 结构能产: give me a book; send his father a message V NP NP ; V NP NP 语言使用的特征决定了检索不太可能是 token ,许多情况 下要检索到 type ,或者需要词性线索。

语料检索:基本检索和高级检索 -2 检索语种数量 o 主要的单语检索软件: Wordsmith , Monoconc , Antconc o 双语检索: Paraconc , CAT ,自行设计的检索软件 (历时语料检索) 基本检索 o 以 Antconc 为例实施检索。基本检索包含 token 检索 和 wild card 检索,检索前先要熟悉语料的存储方式。 Antconc 高级检索 Antconc 中的单语高级检索:正则表达式检索,使用正 则表达式的 term list 检索。正则表达式检索 term list

双语语料检索:基本检索 和高级检索 Paraconc 中的双语高级检索:正则表达式检索 Paraconc正则表达式检索 满足某些研究需要的正则表达式检索:历时语料 库检索平台 omegaT 检索历时语料 库检索平台omegaT 检索

语料检索小结 正则表达式的检索功能有些使用通配符也能做到,但有些则 是通配符检索无法实现的。实际检索时发现,在词汇层面, 汉语的叠词以及隔词重复的精确检索只能使用正则表达式, 使用通配符也能勉强检索,但无法精确检索;在句子层面, 正则表达式能使准确的句段长度检索和严格的句段内部结构 检索成为可能。 正则表达式的使用看上去有些繁琐,但只要肯花点时间熟悉 元字符的意义,使用起来也比较方便,它还有助于提高检索 的准确性和效率,进而提高语言研究的质量。

语料数据的后续处理 -1 语料检索的目的是发现问题,而语料库检索发现的问题主要 表现在频次、频率上。语料库的这一长处必须充分发挥,才 称之为语料库语言研究。 频次、频率典型表达为数字,处理数字问题关系到研究结论 的可信度,需要使用一些处理方法,常用的处理方法有: o 频率对比:特定的词、词丛、词性赋码串;使用 WS 或 Antconc 中 keyness 工具对比词表、词丛表对比词表 o 搭配强度计算: Z-score Z-score o 频率差异显著性计算: log-likelihood 计算 log-likelihood 计算 一般说来,词表对比的结果可以重新标注用于分类处理

语料数据的后续处理 -2 重复词项计算 Facotor analysis (SPSS) Facotor analysis Correlation analysis (SPSS) Correlation analysis

平行语料库辅助翻译应用 基本思路:已有翻译为参照,为当下翻译提供参考; 建立术语库,使术语统一成为可能。 CAT 的主体部分是 TM 和 Term Database CAT 软件: Trados , Deja vu ,雅信,(免费) OmegaT Trados 商业使用最为广泛 D é j à vu 易操作 D é j à vu Omega T 免费,更易操作,但只能单用不能基于 web Omega

微型教学语料库的创建和 使用 建库目的和内容 o 针对学生翻译习作 o 反映学生个体和总体特征 o 翻译技巧和翻译评估相结合 o 提取信息方便 o 易于操作 使用 Excel 基本满足此类要求 Excel 基本满足此类要求

翻译课堂教学用双语语料 的制作和应用 建库目的:翻译教学;自学 设计要求: o 方便呈现多样译文; 便于对比; 方便评注; o 不需要句对齐,段对齐即可 载体:网页文件,可以经 excel 生成经 excel 生成 编辑: Dreaweaver Dreaweaver