圖書的機讀格式 雲林科技大學 漢學資料整理研究所 蔡輝振 081219 第十三週
機讀編目格式標準(MARC,來自英語MAchine-Readable Cataloging的簡寫) 081219 第十三週
MARC標準 機讀格式(Machine Readable Catalogue,MARC)起源於1950年美國國會圖書館開始投入自動化可行性的研究,並於1966年1月成立先導計畫,也就是MARCІ,並於1967年修改為MARCІІ。 081219 第十三週
此後,世界各國或地區相繼採用MARCІІ格式建立各自的機讀目錄系統。各地區的MARC格式除了在欄號(tag)、分欄(subfield)識別符號和資料列舉項目有所差異外,整體結構均與MARCІІ結構相同,期格式有下列特性: 081219 第十三週
1.共包括001至999個欄號可供使用,包括事先定義與使用者自訂的欄號。 2.欄號內容依據編目規則定義詳盡,其下設分欄,用於著錄內容。 3.欄號性質明確,多數欄號可供檢索使用。 4.每筆MARC紀錄可分為指引、控制欄號與一般資料欄號三個部份。 081219 第十三週
國際上使用的MARC標準主要包括: 1.USMSRC 在美國MARC、LCMARC、USMARC三個名詞常交互使用,其名稱有MARC、 MARCІІ皆統稱為LCMARC。 而USMARC是LCMARC的一個後續名詞,因其通過ANSI成為美國國家標準,遂稱為USMARC。 081219 第十三週
MARC不但是圖書館自動化作業書目建檔之方法,也成為推展圖書館各項自動化的依據,特別是在書目紀錄之交換,書目資訊之分享上,MARC確實發揮了書目控制的功能。 081219 第十三週
2.UNIMARC 在USMARC之後,國際上陸續產生了各國的MARC,例如英國的UKMARC,加拿大的Canadian MARC,日本的Japan MARC等。 依據統計在1970年級產生了超過20種以上的MARC格式。由於各國需求不同,導致這些格式彼此之間有差異,造成資料交換之負擔與障礙。 081219 第十三週
為解決各MARC之間不相容與解決彼此之間相互轉換的問題,國際圖書館協會聯盟(International Faderation of Library Associations and Institutes,IFLA)於1972年成立內容標示工作小組(Working Group on Content Designators),研究標示與適應差別的解決辦法,進而探討依國際認可的機讀格式,並於1976年底完成了UNIMARC格式。 081219 第十三週
3.Chinese MARC 為推行中文圖書資料的電腦建檔及自動化,臺灣也於1981年1月出版了「中文圖書機讀編目格式」第一版。 以UNIMARC-1980為藍本,先後參考「美國國會圖書館書目機讀編目格式」(MARC Formats for Bibliographic Data-1980),加拿大的Canadian MARC,法國的Inter-MARC及澳洲的Australian MARC等。 081219 第十三週
磁帶上之書目著錄則採用ISO2709格式。中外文書目著錄格式。則分別依據「中國編目規則」及AACR2為標準。 「中文圖書機讀編目格式」於童年七月修訂出版第二版,1982年修訂再版改稱為「中國機讀編目格式」第一版,並於1996年完成第四版修訂,1997年正式公佈發行。 081219 第十三週
MARC的組成內涵 1.MARC記錄結構: 應用國際標準,如ANSI Z39.2 及ISO2709格式 2.內容標示: 用於識別及說明資料單元,包括欄號、指標及分欄識別 081219 第十三週
3.資料內容: 依據ISBD(International Standard Bibliographic Description)、 AACR 2、中國編目規則等規則編目中國圖書分類法、DDC、LCC等分類LCSH、中文主題詞語表、中文標題總目等定標題 081219 第十三週
MARC -組織結構 記錄標示(Leader): 為紀錄之首,有24個固定長度的字元,功用為定義書目記錄的參數,以作為系統載入或輸出的依據。 081219 第十三週
於Leader之後用12字元指出變長欄的索引位置分別記錄欄位(3個字元)、資料欄長度資料欄長度(4個字元)、起始字元位置(5個字元)。 指引(Directory): 於Leader之後用12字元指出變長欄的索引位置分別記錄欄位(3個字元)、資料欄長度資料欄長度(4個字元)、起始字元位置(5個字元)。 081219 第十三週
(1)控制欄:以00為首之欄位,包含資料及一個欄位終止符號 (2)資料欄: A.欄(Tag):記載3位數欄位,只用數字代表。 變長欄(Variable field): (1)控制欄:以00為首之欄位,包含資料及一個欄位終止符號 (2)資料欄: A.欄(Tag):記載3位數欄位,只用數字代表。 B.指標(Indicator) :儲存在每個變長資料欄的開端,每個欄位有2個指標,指標若未定義,以「#」表示空白字元。 081219 第十三週
D.欄位終止符號(Field terminator): 資料欄的最後一個欄位,代表欄位結束。 C.分欄代碼(Subfield): 在每個資料描述的最前端,用「$」隔開。 D.欄位終止符號(Field terminator): 資料欄的最後一個欄位,代表欄位結束。 081219 第十三週
欄位的性質 定長欄(Fixed Field) 變長欄(Variable Field) 必備項(Mandatory Fields) 非必備項(optional) 指標(indicator) 欄與分欄(field, sub-field) 欄間符號(field separator) 081219 第十三週
中國機讀編目格式 書目資料登錄欄 中國機讀編目格式將可登錄的書目資料內容,分為九大段158欄。每個欄位還可再細分為長短不一的分欄。有些欄位是必備的、有些欄位不可重複、也有些分欄可以重複,另外若干欄位及分欄是不可重複的。 還有更多的欄位是由編目政策決定它的存在與否,以及是否重複。 欄位的名稱祗是方便編目人員的工作所需,實際上並不會存入。欄位的編號是固定的,它的指標也有一定的用法,不可隨意更動。 081219 第十三週
記錄結構 中國機讀編目格式採用ISO 2709的規定界定書目記錄的結構,也就是說交換用的每筆書目記錄必須有下列三個部份: 1.記錄標示:長度為24字元 2.指引:內涵每個欄位的三位數欄號,以及它們的長度,與第一個資料欄位的相對起始位置。 3.書目資料登錄欄:每個欄位之間以欄間符號區隔。 ISO 2709有好幾個選擇, UNIMARC在書目資料登錄欄內採用先登錄指標, 再給各分欄資料的方式。 081219 第十三週
記錄標示 根據ISO 2709的規定,每筆記錄之前都應有一個24位元的記錄標示,不能重複, 而且無欄號、指標及分欄。它的內容都是定長欄: 081219 第十三週
指引 根據ISO 2709的規定,記錄標示之後的是指引。 它的款目由記錄標示決定,每個款目對應一個書目資料登錄欄,記載其欄號、資料欄長度、首字位址,並依照欄號順序排列,最後再給欄間符號。然而,書目資料登錄欄本身的順序卻不是那重要。 資料欄長度包括該欄的指引、分欄符號、資料本身及欄間符號。 首字位址是相對值,以第一個欄位的第一個字元為0,這個位址的絕對位址登錄在記錄標示資料基位。 081219 第十三週
記錄及欄位分隔 每筆記錄及每個欄位結束時,都應給一個特別的字元,表示該記錄或欄位到此結束,中國機讀編目格式稱它們是記錄分隔及欄間符號。 依照實務經驗及UNIMARC的規定,記錄分隔應改稱為記錄終止。因為它不是分隔兩個記錄之用,祗是用來表示前一個記錄到此結束,即使是檔案的最後一筆記錄也會有一個記錄分隔。 081219 第十三週
欄間符號應該用‘@’表示,而不是井號‘#’。 井號保留做空白符號之用,並且應改稱為欄位終止符號,因為它表示前一個欄位到此結束,並不是用來區隔兩個欄位的,即是記錄的最後一個欄位也會有一個欄間符號。 081219 第十三週
必備欄位 中國機讀編目格式要求的必備欄位有8個: 祗有含語文資料的地圖必須同時具備這8個欄位,一般常見的圖書,祗有5個必備欄位,無隨附文件的畫作,祗有4個必備欄位。 經由編目政策或實務,決定其他欄位出現的機會。 081219 第十三週
記錄長度 記錄長度的算法是包括記錄標示、指標及各變長欄位, 它佔五位數, 所以每筆記錄的最大長度是99,999字元, 大約是五萬個中文字, 實務上每筆記錄的長度大約在1,000字元以內。 081219 第十三週
連結記錄 實務上,經常碰到從這筆書目資料連結到另一筆書目資料,像是翻譯作品的原著和譯著之間、或譯著彼此之間,或是更改刊名的連續性出版品之間都有這種需求。 在人工作業的時代,這是非常繁煩的工作,大部份的圖書資訊單位對此都敬謝不敏,心有餘而力不足。 081219 第十三週
書目軟體無法從指引連接到另一個記錄,指引祗能做為連接整個欄位之用;連接欄位的欄號。 有了機讀編目格式,情況就不一樣了,一整段的欄位, 4__, 保留給連接之用,登錄被連接的作品,若該作品存在於同一書目系統中,則指向該書目記錄。每個連接欄位由若干分欄構成,登錄欄號、指引、及資料。 書目軟體無法從指引連接到另一個記錄,指引祗能做為連接整個欄位之用;連接欄位的欄號。 081219 第十三週
內碼 每個運用到電腦的資料,都需指定它使用的內碼,中國機讀編目格式也不例外。 100一般性資料分欄$a的位址26-29字集與30-33附加字集,係用來指定內碼的內定值及延伸的圖形字元集。 記錄標示、指引、指標、分欄識別、及資料用到控制碼及圖形字元,內定是ISO 646,常用到的三個控制碼是: 081219 第十三週
分欄識別的第一個符號是ISO 646字集裡的 01/15,即IS1,看起來像是倒三角形▼,為了方便讀寫以錢號表示‘$’。 081219 第十三週
至於中文字的內碼,圖書館界認可的是中央標準局公佈的CCCII,****,實務上,卻仍採用常見的BIG-5。中國機讀編目格式認可的內碼有7個: 01=ISO 646 IRV version(basic Latin set) 02=ISO Registration #37(Basic Cyrillic set) 03=ISO 5426(extented Latin set) 04=ISO DIS 5427(extented Cyrillic set) 05=ISO 5428(Greek set) 06=ISO 6438(African coded character set) 09=中文字集(暫定) 唯一要注意代碼09的中文字集,有關中文字集的種類,相當繁多,此處究竟指的是那一個字集,有必要清楚交待。 081219 第十三週
欄位的順序 欄位的順序沒有規定,指引款目的順序不代表相對欄位的實質順序。 分欄識別的順序也沒有規定,特定情況下,會建議某個分欄的順序。國際書目著錄標準指定的欄位,應依照其原有順序登錄,當然也決定其分欄的順序。 數字分欄比較特別,$3、$6、$7需置於所有其他分欄之前,$2、$4、$5需置於所有其他分欄之後,它們本身則照昇冪排列。至於$1,祗限於4__段使用。 081219 第十三週
字元 資料欄位可以填入任何字元,需依照規定登錄,分欄及指標的代碼。 不能登錄代碼時,應以遞補字元取代,此字元採用ISO 646七位元代碼表位置7/12的值“|”。 記錄標示、指引、欄號及文字資料不能使用遞補字元。也不可用以取代必備代碼資料單元、分欄識別、標點符號或其他特殊字元,更不可以用於自由使用的代碼欄位(若有這種需要,應該不要用它)。 081219 第十三週
代碼資料的遞補字元 基於主觀或客觀的考量,有些編目單位從未使用部份代碼資料,例如:很多編目單位從來不用100 一般性資料的字元位置17-19,適用對象。 代碼資料的常用遞補字元有: #、u、v、x、y、z: 081219 第十三週
指標的遞補字元 有時,指標也需要遞補字元,有的編目單位故意忽視規定的指標,像是710 團體名稱-主要著者的第一個指標,團體類型。 081219 第十三週
標點符號 中國機讀編目格式是一種交換格式,帶入各單位及系統的異種資料。但是各單位可能用不同的編目規則,因此很難界定那些資料細目是必備的。幸好國際書目著錄標準已經逐漸成為國際間的共識,中國機讀編目格式建議採用該標準衍生出來的中國編目規則。 081219 第十三週
除了少數的例外,國際書目著錄標準的規定標點符號是不必登錄的,可以讓程式經由分欄代碼判斷自動產生。 中國編目規則意圖產生供目錄或書目使用者閱讀的書目記錄,對於機讀型式的目錄並未列入考慮,因此特別多花了若干篇幅在2__ 著錄段,協助使用者將中國編目規則指述的細目轉入中國機讀編目格式。 除了少數的例外,國際書目著錄標準的規定標點符號是不必登錄的,可以讓程式經由分欄代碼判斷自動產生。 081219 第十三週
書目資料登錄欄 每個欄位都包含8項說明,不適用特定記錄的欄位,可以整欄省略: 081219 第十三週
中國機讀格式各段資料的意義 000 --識別段 100 --代碼資料段 200 --著錄段 300 --附註段 400 --連接款目段:第四版已刪除 500 --相關題名段 600 --主題分析段 700 --著者及輔助檢索段 800 --各館使用段 081219 第十三週