資料庫結構與組織.

Slides:



Advertisements
Similar presentations
2014 年浙江省数量资料 华图网校 刘有珍 数字推理 年份题量数字规律 三级等差 2. 和递推 3. 幂次修正 4. 倍数递推 5. 倍数递推 6. 特殊差级 7. 倍数递推 8. 倍数递推 9. 积递推 10. 分数数列
Advertisements

Ingenta. Ingenta 学术信息平台简介 Ingenta 网站是 Ingenta 公司于 1998 年建成的学术信息平台。在几年 的发展中,该公司先后兼并了多家信息公司,合并了这些公司的 数据库。 2001 年, Ingenta 公司兼并了 Catchward 公司,近期 Ingenta.
九十五年國文科命題知能 研習分享.
2013届高考复习方案(第一轮) 专题课件.
北京大学图书馆 张春红 数字信息资源 及其检索概述 北京大学图书馆 张春红
第四讲 活用检索功能,组配构造表达 《现代信息查询与利用》课程组.
幼兒教育所 圖書館資源與資料庫利用指導 政大圖書館推廣服務組 陳靜宜 2012/09/25 10:00-12:00
专题二 文学类文本·小说阅读(选考) ——把握人事,洞察百态 补上一课 如何读懂小说 第1讲 情节 第2讲 人物 第3讲 环境 
第二节 金融资产的计量 一、金融资产的初始计量 二、公允价值的确定 三、金融资产的后续计量 四、以公允价值计量且其变动计入当期损益的金融
第五章 会计职业道德.
信息检索中效率问题的研究 报告人:赵江华 北京大学计算机科学与技术系 网络与分布式系统实验室 2002年4月21日.
第二单元 生产、劳动与经营.
A Leading Provider of Academic Databases
EBSCOhost全文数据库 简介及使用指南
PubMed 检索教程.
2011年广西高考政治质量分析 广西师范大学附属外国语学校 蒋 楠.
第一单元 生活与消费 目 录 课时1 神奇的货币  课时2 多变的价格 课时3 多彩的消费.
知识回顾 1、通过仔细观察酒精灯的火焰,你可以发现火焰可以分为 、 、 。 外焰 内焰 焰心 外焰 2、温度最高的是 。
OCLC 数据库检索与利用 主讲人:电子信息工程学院 通信03级 章嘉懿
数字参考咨询服务与数据库检索技巧.
資料庫設計 Database Design.
财经法规与会计职业道德 (3) 四川财经职业学院.
信息检索教材配套讲稿--邓发云.
第一课 神奇的货币 第二框 信用工具和外汇 1-2 信用工具和外汇.
面向海洋的开放地区——珠江三角洲 山东省高青县实验中学:郑宝田.
研究生論文寫作: 學術資料庫與引用規範.
数据库技术及应用 华中科技大学管理学院 课程网址:
发展心理学 王 荣 山.
成才之路 · 地理 人教版 · 必修3 路漫漫其修远兮 吾将上下而求索.
第 十一 课  寻觅社会的真谛.
Library Workshop for MSocScEd(GCS) and MPPG Students
國立體育大學教育訓練 EBSCOhost 系列資料庫 內容與操作說明
第四章第一节 增值税法律制度2 主讲老师:梁天 经济法基础.
The Principles and technology of Social sciences Information Retrieval
第七章 财务报告 主讲老师:王琼 上周知识回顾.
OVID Medline vs. PubMed 邱子恒
四川省农科院 ScienceDirect数据库使用培训
(Exec1) GIS 空间分析-使用ArcGIS (Exec1)
CINAHL Plus with Full Text 教育訓練 EBSCO Publishing Taiwan
Journal Citation Reports® 期刊引文分析報告的使用和檢索
期刊v.s.雜誌 查找特定主題期刊文章 期刊目次服務 選擇學科資料庫 電子期刊介紹
第4章 關聯式資料庫模型 4-1 關聯式資料庫模型的基礎 4-2 關聯式資料庫模型的資料結構 4-3 關聯式資料庫模型的完整性限制條件
計算機概論 第十章 檔案與資料庫管理系統 陳維魁/陳邦治 旗標出版社.
通識教育中心 邱子恒 資訊檢索之理論與實作 通識教育中心 邱子恒
数据库内容及检索功能 – 如何利用这些资源帮助科技论文的写作与发表 钟似璇 (Sixuan Zhong s.
OVID Medline vs. PubMed 邱子恒
BEd(Special Education)
第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术.
耕莘健康管理專科學校 EBSCOhost 資料庫教育訓練
Philosopher‘s Index 哲學資料庫
CH03 行銷資訊系統資料庫模組--資料庫概論
資料庫概論 許明宗.
《2015考试说明》新增考点:“江苏省地级市名称”简析
政大圖書館 推廣服務組 2011/10/ /02/20update
OVID Medline vs. PubMed 邱子恒 臺北醫學大學通識教育中心
大綱 *專題演講介紹 *大陸醫療的改革與發展 *海報發表文章分享 2012海峽兩岸醫院院長論壇行後報告 ‧台北
EBSCO DISCOVERY SERVICE EBSCO 探索服務使用教學
OvidSP Introduction Flexible. Innovative. Precise.
毕业论文写作过程中 文献资料的查找与利用 杜少霞 2015年3月25日.
电子资源检索入门 杜少霞 2015年9月17日.
參考資料: 黃慕萱,Chap. 2-3 Harter, Chap. 3
OVID Medline vs. PubMed 邱子恒
唐常杰 四川大学计算机学院 计算机科学技术系
西文資料庫 MEDLINE、CINAHL 、ERIC 、PDC 、PBSC 中台醫護技術學院圖書館
OVID Medline vs. PubMed 邱子恒
第五课 提升职业道德境界 在职业实践中锤炼.
坚持,努力,机会留给有准备的人 第一章 四大金融资产总结 主讲老师:陈嫣.
平面的基本性质 江苏省泰州中学 数学组 姜莹. 平面的基本性质 江苏省泰州中学 数学组 姜莹.
OVID Medline vs. PubMed 邱子恒
Presentation transcript:

資料庫結構與組織

資料庫結構 資料庫組織方式 資料庫組成元素 Database  Records  索引循序檔 indexed-sequential 隨機檔 random file 索引循序檔 indexed-sequential hierarchical 資料庫組成元素 Database  Records  Fields  Subfields

資料庫結構 網路型: 多父多子 階層型 hierarchical 一父多子 關係型 relational 表格關聯

資料庫的組織 線上資訊系統Dialog 資料庫 ERIC 是Dialog 的file 1 記錄(record) ERIC records >1,000,000 資料欄位(field)每一record 有一連串的資料欄位。 次欄位(sub-field) 700 1 |a吳|b政叡 資料元(data elements)

資料庫的層次 File檔案 -- A file is an organized collection of related records.由一組相關的記錄所組成。 Record記錄-- A record is a collection of related data items or fields.由一組相關的數據欄組成。 Field欄 -- A field is an item of data.在記錄中的一項數據。 Name : Peter Chan Sex : M Age : 22 Academic Qualification :- ……… ……..

資料庫基本名詞定義 Field(欄位) Subfield(次欄位) Data(資料) Record(紀錄) 用來儲存以供檢索之文件描述 Entity(實體) 儲存資訊的物件 e.g.一本書、一篇文章 Attribute(屬性) 可用來描述實體的特性 Value(屬性質) 用來描述實體特性的內容 Field(欄位) 用來描述屬性質的一串字元 Subfield(次欄位) Data(資料)

Attribute Values(屬性值) 屬性與屬性值—以書為例 Attributes(屬性) Attribute Values(屬性值) 作者(Author) 吳政叡 書名(Title) 都柏林核心集與圖書著錄 出版商(Publisher) 臺灣學生 出版地(city of publication) 臺北市 出版年(date of publication) 2000[民89] 頁數(number of pages) 218

資料組成元素 Data Element Example Text represented Bit 1 or 0 Byte 0100110 & Subfield Place of publication Chicago, Illinois field Publication statement Chicago, Illinois: Academic Press, 1985 Record An ERIC index record 大於 983,000 Database The ERIC database Library All Dialog databases >200個databases

檔案的組織 Sequential File 循序檔:最簡單、依序 Random File 隨機檔:以數學函數算位址 Indexed- Sequential File 索引檔 : 主要資料區:儲存檔案資料 溢位區:溢位被擠出之資料存放區 索引區:記載每一存放記錄的儲存位置

檔案組織--循序檔 特性:將檔案中的資料依照一筆一筆地存放在儲存裝置上,如欲存取檔案中之資料時,必須依照檔案中資料排列的順序讀取資料。

檔案組織--循序檔 優點:檔案中的紀錄長度沒有限制且最節省儲存區空間。 缺點:存取效率差及不適於即時處理作業且資料的更新作業可能涉及大量資料搬移動作因此較不經濟。 適用儲存裝置:讀卡機、磁帶、磁碟、磁鼓與磁片。 循序檔適用時機:整批處理。

檔案組織 直接存取檔(DAM) 1.特性:紀錄利用數學函數來計算其位址,再根據此位址將紀錄直接存放在儲存裝置內。 2.優點: b.若資料有異動不會有大量資料搬移的動作。 c.適合即時處理作業。

檔案組織--索引檔 特性:利用一個索引表格來記載在檔案中的位置,當程式欲尋找紀錄之位置時,必須先透過索引表格作找尋紀錄位址之動作。

檔案組織--索引檔 組成: 1.主要資料區(Prime Data Area): 儲存檔案資料得區域。 2.溢位區(Overflow Area): 當主要資料區的空間不敷檔案使用時,會將 無法存入主要資料區中的資料存在此區。 3.索引區(Index Area) : 所有紀錄在主要資料區中的位址均會記錄在此區中,藉以方便資料存取的動作。

檔案組織--索引檔 優點: 1.支援循序、直接存取。 2.若資料有異動,不會有大量資料搬移 的動作。 3.適合即時處理作業。

檔案組織--索引檔 缺點: 1任何資料存取均需兩次因此較耗時。 2.索引區固定會佔用一部份額外儲存空間。 3.需留溢位空間因此無法妥善利用儲存空間。 4.若溢位情形嚴重將使效能降低。 5.循序存取效率較循序檔差,隨機存取效率較 直接檔差。 適用存取裝置:磁碟、磁鼓及磁片

主檔與異動檔 主檔: 特性:主檔會儲存全部的資料,因此資料最完整、內容最多且較少修改。 例:圖書館系統的讀者資料檔、書目資料檔。

主檔與異動檔 異動檔: 特色:用於修正主檔內容,又稱為明細檔,因此內容較少且僅包含某段時間內主檔修正的資訊。 例:每日流通資料。

檔案組織--相對檔 相對檔(relative file)是以紀錄中之某一特定欄位做為紀錄之位址,此欄位稱為相對鍵。 以相對鍵(relative key)之內容來將紀錄儲存在儲存裝置中。

檔案組織—倒置檔 在檔案中欲搜尋某筆記錄時,通常是利用主要鍵欄來找尋;若再建立一個檔案結構時定義了由輔助鍵欄來找出紀錄在檔案中的位址及對應之主要鍵欄之方法,則此種檔案結構即為所謂的倒置檔或反轉檔(inverted file) 。

基本檔案結構 Linear file(線性檔)--Print file Inverted file(倒置檔)-- Index file 依每一筆資料的編號連續儲存 Inverted file(倒置檔)-- Index file 將線形檔中每一個可供檢索的字依字母順序排列,並指出此字在線形檔中的位置 可知此字出現在哪些紀錄,且方便直接調閱該紀錄 常見倒置檔 基本索引檔 (basic index file) 附加索引檔 (additional index file) 索引典檔 (thesaurus index file) 訊息檔(Posting file)

書目記錄結構與欄位— 以ERIC為例 DIALOG BlueSheet 所提供之資料 http://library.dialog.com/bluesheets/html/bl0001.html Resources in Education (RIE) 14,000 documents each year Current Index to Journals in Education (CIJE). 20,000 journal articles, extracted from more than 750 serials

DIALOG—ERIC 線形檔

DIALOG—ERIC 基本索引檔

DIALOG—ERIC 附加索引檔

DIALOG—MathSCi 索引典

ERIC -- OCLC

ERIC – EBSCO

ERIC – ProQuest

資料庫索引法 常見索引法 輔助索引法 單字索引法(word indexing) 片語索引法(phrase indexing) 單字與片語混合索引法(word and phrase indexing) 數字索引法(numeric indexing) 輔助索引法 布林邏輯運算元(Boolean logic operator) 切截法(truncation) 相近運算元(proximity operator) 特定限制欄位檢索法 檢索用法查證法

求全率v.s.求準率 求全率 recall ratio 求準率 precision ratio a b a+b c d c+d a+c 成功檢索到相關資料的比率 = 求準率 precision ratio 沒有檢索到不相關文獻的比率 相關 不相關 總數 檢出 a b a+b 未檢出 c d c+d a+c b+d a+b+c+d a a+c a a+b

單字索引法(word indexing) 將欄位中所有可供檢索的字逐一索引,鍵入倒置檔 通常用於主題相關欄位,以非控制詞彙表示 如題名、摘要、全文 剔除停用字(Stop word) DIALOG的停用字: as 、and 、by 、for 、from 、 of 、the 、to、with 可透過後組合(post-coordination)方式,以布林邏輯運算元組合查詢 the evaluation of databases evaluation、databases

片語索引法(phrase indexing) 或稱複合語索引法 以一個獨立款目為單位進行檢索,包含空白與標點符號 作者、資料型態、期刊名稱、出版語言 檢索者在檢索時,必須以系統製作時的著錄方式檢索,甚至所有的標點符號和空格都需一致,方能檢索到資料 如Bush, George Herbert Walker

單字與片語混合索引法(word and phrase indexing) 多出現於與主題標目相關欄位 保有單字索引法的組合彈性和片語索引法的精確 檢索者知道控制語彙時採用片語檢索,以提高確性 檢索者不知道控制語彙時利用單字組合檢索,提高檢索的回現率

單字與片語混合索引法(word and phrase indexing)(cont.) 檢索點較多,如consumer attitudes 以單字索引法 “consumer”、”attitudes” 使用片語索引法”consumer attitudes” 使用混合索引法 “consumer”、”attitudes”、 “consumer attitudes” 缺點為佔用資料庫儲存空間

數字索引法(numeric indexing) 常用於欄位內所包含的內容均為數字時 商情名錄資料庫之公司基本資料公司資本額、人數、銷售數據 統計資料庫 可依據數字大小排列,進行各項排序、比較、計算

前組合索引v.s.後組合索引(1) 前組合索引(pre-coordinate indexing),又通稱為非操作型索引(non-manipulate indexing) 索引者,在索引階段即進行字詞組合的檢索方式 紙本索引常用方法,並利用系統輪迴法(systematic rotation)方式,將可能出現的詞彙列出

前組合索引v.s.後組合索引(2) 後組合索引(post-coordinate indexing),又通稱為操作型索引(manipulate indexing) 檢索者,在檢索階段自行組合字詞的檢索方式

前組合索引v.s.後組合索引(3) 資料庫 後組合 使用者 索引詞彙 資料庫 使用者 檢索策略 利用指導 檢索策略 利用指導 前組合 資料庫

布林邏輯--1 AND  intersection 交集 OR  union 集合 NOT  difference 差別 AND

布林邏輯--2 優先順序 括弧優先執行 NOT  AND  OR (cats OR dogs) NOT pets cats pets

括弧優先 布林邏輯運算元的優先順序,一般而言,括弧必須優先執行,如果沒有括弧,則一般為NOT > AND > OR Dialog: ss (cataloging or classification or indexing) and theory

切截法 在設定字根後,加上各種特殊符合 ”?”、”#”、”$”,則可檢索到全部字根相同的字 範例 用於複合語欄位檢索更能彰顯其功能 librar? horse?? librar??? ?computer wom?n 用於複合語欄位檢索更能彰顯其功能 如Bush, George Herbert Walker 可不必擔心標點符號或空格 但若切截過廣,會檢索出許多不相關的資料

相近運算元 w限制單字出現的順序 n不限制單字出現的順序,但利用阿拉伯數字限制二字之間的間隔 l限制其前後字詞必須屬於同一個敘述語 information (w) theory n不限制單字出現的順序,但利用阿拉伯數字限制二字之間的間隔 Ronald (n) Reagan Marilyn (2n) White l限制其前後字詞必須屬於同一個敘述語 cancer (l) prevention s限制其前後字詞必須出現在同一個副欄位中 優先順序:wnsl

相近運算元w 主要功能在限制單字出現的順序。其規定在w之前的字必須出現在前方的位置。 例: information (w) theory information (3w) theory Information theory information processing theory

相近運算元n 表示Ronald 與 Reagan 必須緊鄰出現,但並未限制此二字出現的先後順序。 Ronald (n) Reagan 表示Ronald 與 Reagan 必須緊鄰出現,但並未限制此二字出現的先後順序。 Marilyn (2n) White 表示Marilyn 與White並未限制此二字出現的先後順序,而且Marilyn 與White 間可以間隔二個字以內,因此包含她的名字或其他名字。

相近運算元l 運算元前後的字詞都必須屬於同一敘述語。因為很多資料庫都以LCSH為索引典,LCSH同一敘述語常會標點隔開,為了完整檢索LCSH 所以有運算元l 如 cancer (l) prevention cancer-prevention food habits (l) health aspects food habits – health aspects

相近運算元s 限制其前後字詞必須出現在同一個副欄位中(或出現在同一個句子中)