11. Digitization of Text 文字數位化 September 2006 Marcus Bingenheimer

Slides:



Advertisements
Similar presentations
广州市教育局教学研究室英语科 Module 1 Unit 2 Reading STANDARD ENGLISH AND DIALECTS.
Advertisements

《普通高中课程标准实验教科书 英语 》 (New Senior English For China) (必修模块)培训 湛江市教育局教研室 张 英 2009 年.
1 精進教師教學知能與強化學生 英語能力 尚惠芳義守大學 應用英語系 教授 語文學院 院長. 2 學歷 85/6 美國南加州大學 教育學博士 85/6 美國南加州大學 教育學博士 82/6 美國南加州大學 教育學 ( 英語教學 ) 碩士 82/6 美國南加州大學 教育學 ( 英語教學 ) 碩士 81/6.
语料库的制作和应用 语料库的制作和应用 CONTENTS 语料库的基本特征 语料抽样:理论与抽样操作 语料文本的基本处理:主要处理方式和实现方式 双语语料的对齐:方式和方法 语料检索:基本检索和高级检索 ( 普通、正则和 term list) 双语语料检索:基本检索和高级检索.
高中英语教材分析与教学建议 福建教育学院外语研修部特级教师:周大明. 课程目录  一、理论创新与教材发展  二、现行教材的理论基础和编写体系  三、图式理论与 “ 话题教学 ”  四、课例分析与教学建议.
面試教戰守則 銘傳大學公關組組長:闕淑茹老師 中廣、正聲電台主持人. 備審資料 自傳 讀書計畫 社團參與 競賽成果 在校成績單 資格條件的證明文件.
黄国文 中山大学 通用型英语人才培养中的 语言学教学 黄国文 中山大学
大班教學經驗分享 朱慶琪 中央大學物理系 2010/05/05 中央大學,中壢.
圖利與便民案例研析 講師:林民凱 律師 105/3/9.
6. Simple editorial changes
2011计算机类教研活动 陈国久.
当代中国流行文化与对外汉语教学 Contemporary Chinese Popular Culture and Teaching Chinese as a Foreign Language Yuhong Sun 孙玉红.
“Internet+” Business Innovation
学习者自主与教材建构 以《综合教程》为例 学习者自主与教材建构 以《综合教程》为例 华中师范大学 杨虹.
How can we become good leamers
參考資料: 吳美美,Chap. 2-3 蔡明月,Chap. 2 卜小蝶,Chap. 2 Walker and Janes, Chap. 2
Chen, Liang-Kuang National Kaoshung Normal University
OCLC WorldCat硕博士论文数据库 使用指南
一流的科技信息推动一流的科学研究 SCI数据库在科研中的价值与应用
Welcome Welcome to my class Welcome to my class!.
深層學習 暑期訓練 (2017).
Module 7 Computers 第2课时.
Homework 4 an innovative design process model TEAM 7
Module 5 Shopping 第2课时.
Applications of Digital Signal Processing
Motivational Curriculum Design For A Lesson--Dating (约会)
考试与考生 --不对等与对等 邹申 上海外国语大学
SpringerLink springerlink.com
優質教育基金研究計劃研討會: 經驗分享 - 透過Web 2.0推動高小程度 探究式專題研習的協作教學模式
Hui-Ju Chuang University of Hawaii-Manoa
Lecture 2 Lecture An Introduction To The HTML Language
13. 行銷研究 授課教師:國立台灣大學農業經濟學系 雷立芬教授
Joomla 裝了,然後呢?.
Summer English and Data Science
邱子恒 醫學圖書資訊服務專業人員之角色 邱子恒
An Thanking someone for a ride
Chapter 3 Nationality Objectives:
毕业论文资料查找技能辅导讲座(二) 获取全文的方法.
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
解读设题意图,探究阅读策略 年高考试卷题型(阅读理解)分析及对策
Unit 1 How can we become good learners?
英語科會考題目分析及有效教學策略建議 桃園市青溪國中許绣敏.
二、雅思学术类阅读题型 10种题型 5种大题型+5种小题型.
Gale Scholar Gale原始资源统一检索平台
105-1 Data Structure Exam /12/27.
About dotAC.
1 这里填写小标题 平行信息罗列 插入 相关 图片 项目名称 项目名称 项目名称 Input your information here. Make it longer than the title.. 插入 相关 图片 项目名称 项目名称 项目名称 一段描述的语言,长一点,超过一行会比较好看。
Unit 5 Reading A Couch Potato.
Guide to a successful PowerPoint design – simple is best
毕业论文资料查找技能辅导 讲座 之二 获取全文的方法.
資訊組織與主題分析 - 資訊組織的本質 Unit-1 7/17/2001 Copyright 2001 S. Lo.
虚 拟 仪 器 virtual instrument
檢索與資訊組織 --掌握資訊的贏家 師大圖資所 碩一 陳映后、張榕容.
中央社新聞— <LTTC:台灣學生英語聽說提升 讀寫相對下降>
Review and Analysis of the Usage of Degree Adverbs
OvidSP Introduction Flexible. Innovative. Precise.
醫學圖書資訊服務專業人員之角色 邱子恒
圖書館資料庫 103年英語自學說明會 校內圖書館資源.
Inspiration From Above 1 Chinese Evangelical Free Church
李宏毅專題 Track A, B, C 的時間、地點開學前通知
LOGO 2018 企业公司年会庆典PPT模板 SOME ENTERPRISE COMPANY ANNUAL MEETING PPT TEMPLATE.
LRC收錄內容與範圍 Core Literary Reference 重要之文學相關大部頭參考書
Selecting Reading Materials
專業倫理 (Professional Ethics) 2008 FALL SEMESTER (N3)
Arguments to the main Function and Final Project
陳昭珍 國立臺灣師範大學圖書資訊學研究所副教授
英语口译 4 Education and Campus 大学英语教学部 向丁丁.
面向知识服务助力教学科研 同方知网(北京)技术有限公司甘肃分公司 2017年4月.
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Section 1 Basic concepts of web page
Presentation transcript:

11. Digitization of Text 文字數位化 September 2006 Marcus Bingenheimer TEI 工作坊 11. Digitization of Text 文字數位化 September 2006 Marcus Bingenheimer

Humanites Computing 人文資訊學- Digital Humanities 1 Main applications (so far): 數位化與數位版本: encyclopedias 百科全書 dictionaries 辭典 bibliographies, indices 參考書目, 索引 New types of knowledge bases (GIS etc.)

Humanites Computing 人文資訊學- Digital Humanities 2 文字與圖畫的數位出版與發行digital publication of text and images: New forms of information production & dissemination: wiki, blog... New research questions: authorship attribution & stylistic analysis literary analysis linguistic analysis, corpus linguistics

Example: authorship attribution 1 Mosteller and Wallace (1964): Inference and Disputed Authorship – The Federalist 1787-8: 85 papers, Hamilton, Madison, Jay 12 of disputed authorship: either Hamilton or Madison

Example: authorship attribution 2 Count Sentence Length 句子長度 ☹ Vocabulary usage 詞彙使用量化性分析: ☺ compare frequency for 30 marker words e.g. “upon”: Hamilton (2.93 per 1000), Madison (0.16 per 1000)

Example: analysing literary texts 分析文學 Estrella Irizarry (1992) compares two Mexican writers (O. Paz ♂ and Rosario Castellanos ♀) on language use & gender ♀ uses more and longer questions ♂ uses more words like ‘always’ and ‘absolutely’, expressions of certitude Words of compassion (taken from a thesaurus) appear only in ♀ work

Example: corpus linguistics 語言資料庫語言學 1 British National Corpus (BNC) (http://www.natcorp.ox.ac.uk/) 100 mil. words (一億詞), in samples of 45,000 words Markup with TEI (P3) Automated Part of Speech (PoS) tagging

Example: corpus linguistics 語言資料庫語言學 2 The BNC is: balanced 平衡的: written, spoken material from divers sources monolingual 單語的: only English synchronic 同時的/同步的: 20th century

Core Technologies 核心技術 xml 技術 (xslt, xquery, svg...)(從1998) 標記規格 (TEI (Text Encoding Initiative), Dublin Core, EAD...) 網路規格 (HTML, RSS...) 資料庫

5 stages in the production of high-quality digital texts 1. Input 輸入 2. Basic Markup 基本標記 3. Deep Markup 詳細標記 4. Content Delivery 內容發行 5. Archiving 典藏

1. Input 輸入 Basic data input Texts: Keyboarding (Double Keying) Scanning 掃描 (OCR: Optical Character Recognition 光學字元辨識機) ⇨ a file (perhaps a .txt file)

2. Basic Markup 基本標記 檔案處理系統 (格式, 檔名 etc.) 關於數位化過程的Metadata (e.g. teiHeader) 基本結構性的內容標記 basic structural content markup (e.g. with TEI) ⇨ probably an .xml file

3. Scholarly in-depth markup 學術標準標記 Value adding through encoding 以標記加值 Encode (with TEI) what you wish to say about the text ⇨ 一件符合TEI的 .xml file (hopefully)

4. Content Delivery 內容發行 Making the content available. E.g. online as CD in a database This needs skills beyond markup

5. Archiving 典藏 把自己的數位文件包含於大典藏,數位圖書館 或資料庫 Make sure your edition finds its way into larger collections, repositories or archives E.g.: OTA (Oxford Text Archive) Gutenberg Project 讓別的計畫使用與變換你的資訊Let other projects transform and reuse your content!

this class 工具: XML Copy editor, Firefox, Open Office 2

© marcus bingenheimer 2006