圖書的機讀格式 雲林科技大學 漢學資料整理研究所 蔡輝振 081219 第十三週.

Slides:



Advertisements
Similar presentations
《计 算 机 编 目 工 作》 知 识 点 上海图书馆 上海科技情报研究所
Advertisements

读秀学术搜索 广东办事处: 孙舟帆.
第一講次:編目規範 九十年高中圖書館學分班 陳和琴 淡江大學資訊與圖書館學系
Matadata 與 MARC 的未來依存關係分析
陳維魁 博士 儒林圖書公司 第九章 資料抽象化 陳維魁 博士 儒林圖書公司.
Views ,Stored Procedures, User-defined Function, Triggers
DreamWeaver MX (II) 林偉川.
JDK 安裝教學 (for Win7) Soochow University
Different Codec Technologies
資訊組織概論 輔仁大學圖資系
資料庫管理 操作DBMS 指導教授:楊維邦  助教:廖皓翔.
MARC 機讀編目格式 Chien Yuh- Ling.
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
使用VHDL設計—4位元位移器 通訊一甲 B 楊穎穆.
SQL Stored Procedure SQL 預存程序.
資訊組織與主題分析 - 詮釋資料 Unit-3 7/18/2001.
App Inventor2呼叫PHP存取MySQL
第二章 SPSS的使用 2.1 啟動SPSS系統 2.2 結束SPSS系統 2.3 資料分析之相關檔案 2.4 如何使用SPSS軟體.
MARC数据的识别与利用 图书馆 李 华.
Java 程式設計 講師:FrankLin.
私立南山高中 信息組 電腦研習 電腦資料的備份 中華民國 99年4月20日 星期二.
Chap3 Linked List 鏈結串列.
教育部增置國小圖書教師輔導與教育訓練計畫 圖書資訊教育教學綱要及教學設計小組 設計者:臺北市萬興國小 曾品方老師
網路安全技術 OSI七層 學生:A 郭瀝婷 指導教授:梁明章.
Topic Introduction—RMI
URL(Uniform Resource Locator)
建立一 function s (type) 可以用來繪製cyclic-harmonic curves
網頁程式設計 本章投影片錄自HTML5、CSS3、RWD、jQuery Mobile跨裝網頁設計 陳惠貞 著 碁峰資訊股份有限公司出版
UpToDate Anywhere 設定方法
第一章 直角坐標系 1-3 函數圖形.
數學 近似值 有效數值.
HTML – 超連結與圖片 資訊教育.
把下列各音樂符號和它們的中文名稱配對起來
CH05. 選擇敘述.
挑戰C++程式語言 ──第8章 進一步談字元與字串
GridView.
GridView操作 (II).
實用數學 長度單位的認識與換算.
如何使用Gene Ontology 網址:
Class & Object 靜宜大學資工系 蔡奇偉副教授 ©2011.
電子期刊使用統計 CONCERT 2002 meeting November 13-14, 2002 羅宙康 Springer-Verlag
MicroSim pspice.
把下列各音樂符號和它們的中文名稱配對起來
出貨標籤說明 神準科技.
挑戰C++程式語言 ──第7章 輸入與輸出.
國立臺北科技大學機械系106學年度實務專題海報
流程控制:Switch-Case 94學年度第一學期‧資訊教育 東海大學物理系.
MiRanda Java Interface v1.0的使用方法
第二講次:CCR&CMARC 九十年高中圖書館學分班 陳和琴 淡江大學資訊與圖書館學系
Database Management Exercise 1
陣列與結構.
基本指令.
第 4 章 認識 SQL 語言與資料型別.
Commando War ★★☆☆☆ 題組:Problem Set Archive with Online Judge
如何從政大圖書館館藏目錄匯出書目至EndNote
OMIM教學投影片 網址: 點此下載.
國立台灣大學 關懷弱勢族群電腦課程 By 資訊工程 黃振修
1757: Secret Chamber at Mount Rushmore
資料表示方法 資料儲存單位.
資料擷取與監控應用實務.
Quiz1 繳交期限: 9/28(四).
注音符號課程綱要 注音符號應用能力 A-1-1 能正確認念、拼讀及書寫注音符號。 能熟習並認念注音符號。
教育類相關資料庫.
Test for R Data Processing & Graphics
ABAP Basic Concept (2) 運算子 控制式與迴圈 Subroutines Event Block
String類別 在C語言中提供兩種支援字串的方式 可以使用傳統以null結尾的字元陣列 使用string類別
快取映射 之直接對映 計算整理.
Joining Multiple Tables
Develop and Build Drives by Visual C++ IDE
ABAP Basic Concept (2) 運算子 控制式與迴圈 Subroutines Event Block
Presentation transcript:

圖書的機讀格式 雲林科技大學 漢學資料整理研究所 蔡輝振 081219 第十三週

機讀編目格式標準(MARC,來自英語MAchine-Readable Cataloging的簡寫) 081219 第十三週

MARC標準 機讀格式(Machine Readable Catalogue,MARC)起源於1950年美國國會圖書館開始投入自動化可行性的研究,並於1966年1月成立先導計畫,也就是MARCІ,並於1967年修改為MARCІІ。 081219 第十三週

此後,世界各國或地區相繼採用MARCІІ格式建立各自的機讀目錄系統。各地區的MARC格式除了在欄號(tag)、分欄(subfield)識別符號和資料列舉項目有所差異外,整體結構均與MARCІІ結構相同,期格式有下列特性: 081219 第十三週

1.共包括001至999個欄號可供使用,包括事先定義與使用者自訂的欄號。 2.欄號內容依據編目規則定義詳盡,其下設分欄,用於著錄內容。 3.欄號性質明確,多數欄號可供檢索使用。 4.每筆MARC紀錄可分為指引、控制欄號與一般資料欄號三個部份。 081219 第十三週

國際上使用的MARC標準主要包括: 1.USMSRC 在美國MARC、LCMARC、USMARC三個名詞常交互使用,其名稱有MARC、 MARCІІ皆統稱為LCMARC。 而USMARC是LCMARC的一個後續名詞,因其通過ANSI成為美國國家標準,遂稱為USMARC。 081219 第十三週

MARC不但是圖書館自動化作業書目建檔之方法,也成為推展圖書館各項自動化的依據,特別是在書目紀錄之交換,書目資訊之分享上,MARC確實發揮了書目控制的功能。 081219 第十三週

2.UNIMARC 在USMARC之後,國際上陸續產生了各國的MARC,例如英國的UKMARC,加拿大的Canadian MARC,日本的Japan MARC等。 依據統計在1970年級產生了超過20種以上的MARC格式。由於各國需求不同,導致這些格式彼此之間有差異,造成資料交換之負擔與障礙。 081219 第十三週

為解決各MARC之間不相容與解決彼此之間相互轉換的問題,國際圖書館協會聯盟(International Faderation of Library Associations and Institutes,IFLA)於1972年成立內容標示工作小組(Working Group on Content Designators),研究標示與適應差別的解決辦法,進而探討依國際認可的機讀格式,並於1976年底完成了UNIMARC格式。 081219 第十三週

3.Chinese MARC 為推行中文圖書資料的電腦建檔及自動化,臺灣也於1981年1月出版了「中文圖書機讀編目格式」第一版。 以UNIMARC-1980為藍本,先後參考「美國國會圖書館書目機讀編目格式」(MARC Formats for Bibliographic Data-1980),加拿大的Canadian MARC,法國的Inter-MARC及澳洲的Australian MARC等。 081219 第十三週

磁帶上之書目著錄則採用ISO2709格式。中外文書目著錄格式。則分別依據「中國編目規則」及AACR2為標準。 「中文圖書機讀編目格式」於童年七月修訂出版第二版,1982年修訂再版改稱為「中國機讀編目格式」第一版,並於1996年完成第四版修訂,1997年正式公佈發行。 081219 第十三週

MARC的組成內涵 1.MARC記錄結構: 應用國際標準,如ANSI Z39.2 及ISO2709格式􀂄 2.內容標示: 用於識別及說明資料單元,包括欄號、指標及分欄識別􀂄 081219 第十三週

3.資料內容: 依據ISBD(International Standard Bibliographic Description)、 AACR 2、中國編目規則等規則編目中國圖書分類法、DDC、LCC等分類LCSH、中文主題詞語表、中文標題總目等定標題 081219 第十三週

MARC -組織結構 記錄標示(Leader): 為紀錄之首,有24個固定長度的字元,功用為定義書目記錄的參數,以作為系統載入或輸出的依據。 081219 第十三週

於Leader之後用12字元指出變長欄的索引位置分別記錄欄位(3個字元)、資料欄長度資料欄長度(4個字元)、起始字元位置(5個字元)。 指引(Directory): 於Leader之後用12字元指出變長欄的索引位置分別記錄欄位(3個字元)、資料欄長度資料欄長度(4個字元)、起始字元位置(5個字元)。 081219 第十三週

(1)控制欄:以00為首之欄位,包含資料及一個欄位終止符號 (2)資料欄: A.欄(Tag):記載3位數欄位,只用數字代表。 變長欄(Variable field): (1)控制欄:以00為首之欄位,包含資料及一個欄位終止符號 (2)資料欄: A.欄(Tag):記載3位數欄位,只用數字代表。 B.指標(Indicator) :儲存在每個變長資料欄的開端,每個欄位有2個指標,指標若未定義,以「#」表示空白字元。 081219 第十三週

D.欄位終止符號(Field terminator): 資料欄的最後一個欄位,代表欄位結束。 C.分欄代碼(Subfield): 在每個資料描述的最前端,用「$」隔開。 D.欄位終止符號(Field terminator): 資料欄的最後一個欄位,代表欄位結束。 081219 第十三週

欄位的性質 定長欄(Fixed Field)􀂄 變長欄(Variable Field)􀂄 必備項(Mandatory Fields)􀂄 非必備項(optional)􀂄 指標(indicator)􀂄 欄與分欄(field, sub-field)􀂄 欄間符號(field separator) 081219 第十三週

中國機讀編目格式 書目資料登錄欄 中國機讀編目格式將可登錄的書目資料內容,分為九大段158欄。每個欄位還可再細分為長短不一的分欄。有些欄位是必備的、有些欄位不可重複、也有些分欄可以重複,另外若干欄位及分欄是不可重複的。 還有更多的欄位是由編目政策決定它的存在與否,以及是否重複。 欄位的名稱祗是方便編目人員的工作所需,實際上並不會存入。欄位的編號是固定的,它的指標也有一定的用法,不可隨意更動。 081219 第十三週

記錄結構 中國機讀編目格式採用ISO 2709的規定界定書目記錄的結構,也就是說交換用的每筆書目記錄必須有下列三個部份: 1.記錄標示:長度為24字元 2.指引:內涵每個欄位的三位數欄號,以及它們的長度,與第一個資料欄位的相對起始位置。 3.書目資料登錄欄:每個欄位之間以欄間符號區隔。 ISO 2709有好幾個選擇, UNIMARC在書目資料登錄欄內採用先登錄指標, 再給各分欄資料的方式。 081219 第十三週

記錄標示 根據ISO 2709的規定,每筆記錄之前都應有一個24位元的記錄標示,不能重複, 而且無欄號、指標及分欄。它的內容都是定長欄: 081219 第十三週

指引 根據ISO 2709的規定,記錄標示之後的是指引。 它的款目由記錄標示決定,每個款目對應一個書目資料登錄欄,記載其欄號、資料欄長度、首字位址,並依照欄號順序排列,最後再給欄間符號。然而,書目資料登錄欄本身的順序卻不是那重要。 資料欄長度包括該欄的指引、分欄符號、資料本身及欄間符號。 首字位址是相對值,以第一個欄位的第一個字元為0,這個位址的絕對位址登錄在記錄標示資料基位。 081219 第十三週

記錄及欄位分隔 每筆記錄及每個欄位結束時,都應給一個特別的字元,表示該記錄或欄位到此結束,中國機讀編目格式稱它們是記錄分隔及欄間符號。 依照實務經驗及UNIMARC的規定,記錄分隔應改稱為記錄終止。因為它不是分隔兩個記錄之用,祗是用來表示前一個記錄到此結束,即使是檔案的最後一筆記錄也會有一個記錄分隔。 081219 第十三週

欄間符號應該用‘@’表示,而不是井號‘#’。 井號保留做空白符號之用,並且應改稱為欄位終止符號,因為它表示前一個欄位到此結束,並不是用來區隔兩個欄位的,即是記錄的最後一個欄位也會有一個欄間符號。 081219 第十三週

必備欄位 中國機讀編目格式要求的必備欄位有8個: 祗有含語文資料的地圖必須同時具備這8個欄位,一般常見的圖書,祗有5個必備欄位,無隨附文件的畫作,祗有4個必備欄位。 經由編目政策或實務,決定其他欄位出現的機會。 081219 第十三週

記錄長度 記錄長度的算法是包括記錄標示、指標及各變長欄位, 它佔五位數, 所以每筆記錄的最大長度是99,999字元, 大約是五萬個中文字, 實務上每筆記錄的長度大約在1,000字元以內。 081219 第十三週

連結記錄 實務上,經常碰到從這筆書目資料連結到另一筆書目資料,像是翻譯作品的原著和譯著之間、或譯著彼此之間,或是更改刊名的連續性出版品之間都有這種需求。 在人工作業的時代,這是非常繁煩的工作,大部份的圖書資訊單位對此都敬謝不敏,心有餘而力不足。 081219 第十三週

書目軟體無法從指引連接到另一個記錄,指引祗能做為連接整個欄位之用;連接欄位的欄號。 有了機讀編目格式,情況就不一樣了,一整段的欄位, 4__, 保留給連接之用,登錄被連接的作品,若該作品存在於同一書目系統中,則指向該書目記錄。每個連接欄位由若干分欄構成,登錄欄號、指引、及資料。 書目軟體無法從指引連接到另一個記錄,指引祗能做為連接整個欄位之用;連接欄位的欄號。 081219 第十三週

內碼 每個運用到電腦的資料,都需指定它使用的內碼,中國機讀編目格式也不例外。 100一般性資料分欄$a的位址26-29字集與30-33附加字集,係用來指定內碼的內定值及延伸的圖形字元集。 記錄標示、指引、指標、分欄識別、及資料用到控制碼及圖形字元,內定是ISO 646,常用到的三個控制碼是: 081219 第十三週

分欄識別的第一個符號是ISO 646字集裡的 01/15,即IS1,看起來像是倒三角形▼,為了方便讀寫以錢號表示‘$’。 081219 第十三週

至於中文字的內碼,圖書館界認可的是中央標準局公佈的CCCII,****,實務上,卻仍採用常見的BIG-5。中國機讀編目格式認可的內碼有7個: 01=ISO 646 IRV version(basic Latin set) 02=ISO Registration #37(Basic Cyrillic set) 03=ISO 5426(extented Latin set) 04=ISO DIS 5427(extented Cyrillic set) 05=ISO 5428(Greek set) 06=ISO 6438(African coded character set) 09=中文字集(暫定) 唯一要注意代碼09的中文字集,有關中文字集的種類,相當繁多,此處究竟指的是那一個字集,有必要清楚交待。 081219 第十三週

欄位的順序 欄位的順序沒有規定,指引款目的順序不代表相對欄位的實質順序。 分欄識別的順序也沒有規定,特定情況下,會建議某個分欄的順序。國際書目著錄標準指定的欄位,應依照其原有順序登錄,當然也決定其分欄的順序。 數字分欄比較特別,$3、$6、$7需置於所有其他分欄之前,$2、$4、$5需置於所有其他分欄之後,它們本身則照昇冪排列。至於$1,祗限於4__段使用。 081219 第十三週

字元 資料欄位可以填入任何字元,需依照規定登錄,分欄及指標的代碼。 不能登錄代碼時,應以遞補字元取代,此字元採用ISO 646七位元代碼表位置7/12的值“|”。 記錄標示、指引、欄號及文字資料不能使用遞補字元。也不可用以取代必備代碼資料單元、分欄識別、標點符號或其他特殊字元,更不可以用於自由使用的代碼欄位(若有這種需要,應該不要用它)。 081219 第十三週

代碼資料的遞補字元 基於主觀或客觀的考量,有些編目單位從未使用部份代碼資料,例如:很多編目單位從來不用100 一般性資料的字元位置17-19,適用對象。 代碼資料的常用遞補字元有: #、u、v、x、y、z: 081219 第十三週

指標的遞補字元 有時,指標也需要遞補字元,有的編目單位故意忽視規定的指標,像是710 團體名稱-主要著者的第一個指標,團體類型。 081219 第十三週

標點符號 中國機讀編目格式是一種交換格式,帶入各單位及系統的異種資料。但是各單位可能用不同的編目規則,因此很難界定那些資料細目是必備的。幸好國際書目著錄標準已經逐漸成為國際間的共識,中國機讀編目格式建議採用該標準衍生出來的中國編目規則。 081219 第十三週

除了少數的例外,國際書目著錄標準的規定標點符號是不必登錄的,可以讓程式經由分欄代碼判斷自動產生。 中國編目規則意圖產生供目錄或書目使用者閱讀的書目記錄,對於機讀型式的目錄並未列入考慮,因此特別多花了若干篇幅在2__ 著錄段,協助使用者將中國編目規則指述的細目轉入中國機讀編目格式。 除了少數的例外,國際書目著錄標準的規定標點符號是不必登錄的,可以讓程式經由分欄代碼判斷自動產生。 081219 第十三週

書目資料登錄欄 每個欄位都包含8項說明,不適用特定記錄的欄位,可以整欄省略: 081219 第十三週

中國機讀格式各段資料的意義 000 --識別段 100 --代碼資料段 200 --著錄段 300 --附註段 400 --連接款目段:第四版已刪除 500 --相關題名段 600 --主題分析段 700 --著者及輔助檢索段 800 --各館使用段 081219 第十三週