Presentation is loading. Please wait.

Presentation is loading. Please wait.

信息检索概论 岳修志 南区图书馆北楼8楼/图书馆2楼 电话: /

Similar presentations


Presentation on theme: "信息检索概论 岳修志 南区图书馆北楼8楼/图书馆2楼 电话: /"— Presentation transcript:

1 信息检索概论 岳修志 南区图书馆北楼8楼/图书馆2楼 电话:62506985/67698768

2 主要内容 引子,信息素养,问题——搜集文献; 信息检索基本概念:信息、知识、文献,文献的分类,目录,中图法,检索效果,布尔逻辑运算;
图书馆简介;

3 除了专业知识, 大学生还要学习什么? 计算机及办公自动化操作 外语(英语) 获取信息的技能 终身学习

4 何谓信息素养 信息素养(素质)(Information Literacy)一词最早是由美国信息产业协会主席Paul Zurkowski在1974年给美国政府的报告中提出来的。他认为:信息素质是人们在工作中运用信息、学习信息技术、利用信息解决问题的能力。 信息素养是指个人“能认识到何时需要信息,和有效地搜索、评估和使用所需信息的能力。——美国图书馆协会

5 信息素养标准——摘自:《美国高等教育信息素养能力标准》
决定所需信息的范围。 有效地获取所需信息。 严格评价信息及其相关资源。 把所选信息融合到个人的知识库中。 有效运用信息达到特定目的。 运用信息同时了解所涉及的经济,法律和社会范畴,合法和合理地获得和利用信息。

6 你能做到吗? 1.检索专利DE19500122的相关或同族专利: 2.了解牛津大学社会学教授威尔逊指导的研究生论文:
3.了解一下2010到2011年在美国召开的有关行政管理的学术会议: 4.阅读《法律和市场经济》电子图书的全文: 5.检索2006到2011年间哈佛大学作者发表论文,并按照学科进行统计分析:

7 你能做到吗? 6.发表在《河南档案》杂志上,有关电子政务对行政公文带来的影响的文献: 7.查找有关生产医药产品的中国企业信息:
8.专利号是FR 的专利原文: 9.检索城市建筑设计的外文期刊全文: 10.要查找汽车尾气中二氧化硫含量的相关标准;

8 你该怎么办? 课题题目:关于塑料内衬玻璃钢缠绕增强压力容器的市场调查
课题目的:了解该产品的中国市场潜在容量,以便决定是在中国销售,还是在中国设厂生产。

9 课程主要内容 信息检索概述 图书馆机构及其纸质文献检索 图书馆各种电子数据库检索 信息写作

10 为什么要进行信息检索? 1 信息检索是获取知识的捷径 美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。

11  二十世纪七十年代,美国核专家泰勒收到一份题为《制造核弹的方法》的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,它是最详细、最全面的一份。”但使他更为惊异的是,这份报告竟出于哈佛大学经济专业的青年学生之手,而这个四百多页的技术报告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获得的。

12 2 信息检索是科学研究的向导 美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。 在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。

13 3 信息检索是终身教育的基础 学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。
  UNESCO提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。 United Nations Educational, Scientific and Cultural Organization 联合国教育科学暨文化组织

14 信息检索的四个要素 1 信息检索的前题----信息意识 2 信息检索的基础----信息源
3 信息检索的核心----信息获取能力 4 信息检索的关键----信息利用

15 学完本课程后要求具有的能力 熟悉图书馆的馆藏分布情况,知道如何利用图书馆的馆藏为自身学习服务
熟悉图书馆的网络环境,知道如何利用图书馆的网络系统获取知识 熟练掌握各种文献出版类型的著录特征、检索入口和检索途径 熟练掌握各种文献出版类型的数据源,并能灵活运用 熟练掌握本专业相关文献数据库的资源和使用方法 掌握各数据库的功能特色及使用方法 理解不同的检索策略对检索结果的影响 熟悉“带着问题,寻求知识”的过程、策略和方法

16 教材与教学安排 教材 《文献信息利用通论》 原子能出版社,2006年出版 教学安排 课堂讲授 上机实习 实践作业(30%) 测验(60%)
课堂考勤(10%)

17 第一讲 信息检索基础理论 第一节 信息检索基本概念 第二节 科技文献类型与识别 第三节 文献检索工具 第四节 文献检索的方法和途径
第一节 信息检索基本概念 第二节 科技文献类型与识别 第三节 文献检索工具 第四节 文献检索的方法和途径 第五节 计算机检索基础知识 第六节 计算机检索技术 课后作业 本讲要点:信息检索、文献检索、计算机检索的基本概念和原理,各出版类型文献的特点,检索工具的类型和作用,计算机检索技术。

18 第一节 信息检索基本概念 一、信息、知识、文献的概念
第一节 信息检索基本概念 一、信息、知识、文献的概念 1. 信息 ( information ):p 信息是事物发出的体现它存在和运动状态的信号和消息。是物质的一种普 遍属性,是生物以及具有自动控制系统的机器,通过感觉器官和相应的设备 与外界进行交换的一切内容。 2. 知识 知识是信息的一部分,是一种特定的人类信息。知识是人类社会实践经 验的总结,是人的主观世界对于客观世界的概括和如实反映。 3. 文献(document): 记录有知识和信息的一切载体。由四要素组成:所记录的知识和信息、 记录知识和信息的符号图像、用于记录知识和信息的物质载体、记录的方式 或手段。

19 二、信息检索定义 广义的信息检索: 是指将信息按一定的方式组织和存储起来, 并根据信息用户的需要找出有关信息的过程和技术。全称为“信息存储与检索” 。 狭义的信息检索: 指该过程的后半部分,即从信息集合中找出所需要的信息的过程, 相当于人们通常所说的信息查寻。 三、信息检索的本质 是信息用户的需求和信息集合的比较与选择,即匹配(match)的过程。用户根据检索需求,对一定的信息集合采用一定的技术手段,根据一定的线索与准则找出相关的信息。

20 三、检索方式 1. 根据信息的存储媒体和检索技术手段的不同, 信息检索可分为:
回去 三、检索方式 1. 根据信息的存储媒体和检索技术手段的不同, 信息检索可分为: 手工检索:通常使用的是一些印刷载体的工具书和检索期刊,检索过程由人脑和手翻书刊的配合来完成的,匹配是人脑的思考、比较和选择。 计算机检索: 使用的是检索系统。系统包括计算机设备、终端、通信设施、数据库和检索、应用软件等。 2. 根据检索对象形式的不同, 信息检索可分为: 文献检索: 凡以文献(包括文摘、题录或全文)为检索对象的, 是一种相关检索,不直接解答用户所提出的技术问题本身,只提供与之相关的文献供用户参考。 数据或事实检索: 凡以数据或事实为检索对象的, 是一种确定性检索, 直 接回答用户提出的技术问题,提供用户所需要的确切数据或事实。检索结果 一般是确定性的有或无,对或错。

21 第二节 科技文献类型与识别 一、文献资源类型
第二节 科技文献类型与识别 一、文献资源类型 传统的图书馆是专用于典藏书籍的处所,其收藏的主要是纸本文献。随着科学技术的迅速发展,现代的记录形式和出版方式有了很大变化,“图书”这个概念已经不能概括当前所有的出版物。今天,人们将数据、期刊、资料等出版物统称为“文献”,图书馆文献资源类型的划分标准纷繁复杂,这里主要介绍三种划分方法 。 1. 根据文献的载体形式划分 2. 根据文献的编辑出版形式划分 3. 按文献的结构等级(文献的加工程度)划分

22 1. 根据文献的载体形式划分 印刷型 缩微型 机读型 视听型 图 书 连续出版物 资 料 缩微胶片 缩微胶卷 缩微平片 磁带、磁盘 光 盘
1. 根据文献的载体形式划分 印刷型 缩微型 机读型 视听型 图 书 连续出版物 资 料 缩微胶片 缩微胶卷 缩微平片 磁带、磁盘 光 盘 联机网络版 录音带、录像带 唱片、幻灯片 电影胶卷

23 OCLC(Online Computer Library Center,Inc

24 2. 根据文献的编辑出版形式划分 图 书 特种文献 连续出版物 普通图书(book) 工具书(gjs) 科技报告 专利文献 学位论文
10大信息资源(p15-17) 2. 根据文献的编辑出版形式划分 图 书 特种文献 连续出版物 普通图书(book) 工具书(gjs) 科技报告 专利文献 学位论文 标准规范 会议文献 政府出版物 产品资料 期 刊 报 纸 期刊型书籍

25 【例】翟婉明. 车辆-轨道耦合动力学[M]. 北京:中国铁道出版社, 1997:74-80.
1. 图书 ( book ) ISBN 定义:指内容比较成熟、资料比较系统、有完整定型的装祯形式的出版物。格式:著者、书名[M]、版本(第1版不标注)、出版地、出版者、出版年、引文所在的起始或起止页码。 【例】翟婉明. 车辆-轨道耦合动力学[M]. 北京:中国铁道出版社, 1997:74-80. (fenlei) 2. 期刊 ( journal、 periodical ) ISSN 定义:一种以印刷形式或其他形式逐次刊行,通常有数字或年月顺序编号,并打算无限期地连续出版下去的出版物。期刊一般都有固定的刊名。 格式:著者、题(篇)名[J]、刊名、出版年、卷号(期号)、引文所在的起始或起止页码。 【例】史峰,李致中.铁路车流路径的优选算法[J].铁道学报,1993,15(3):70.

26 3. 科技报告 ( report、 technical report ) 定义:是科学技术工作者围绕某个课题研究所取得的成果的正式报告,或对某个课题研究过程中各阶段进展情况的实际记录。其中绝大多数涉及高、精、尖科学研究和技术设计及其阶段进展情况,客观地反映科研过程中的经验教训。 格式:著者、报告题名[R]、出版地、出版者、出版年、页码。 【例】朱家荷,韩调.铁路区间通过能力计算方法的研究[R].北京:铁道部科学研究院运输及经济研究所, 4. 会议文献 ( conference、 paper ) 定义:会议文献是在各种学术、专题会议上发表的论文和报告。会议文献多数以会议录的形式出现。是专业领域最新研究成果报道的一种主要方式。 格式:文献著者、题(篇)名[A]、论文集名[C]、出版地、出版者、出版年、引文所在起始或起止页码。 【例】张玉心.重载货车高摩擦系数合成闸瓦的研制和应用[A].见:中国铁道学会编译.国际重载运输协会制动专题讨论会论文集[C].北京:中国铁道学会,

27 科技报告 出现于20世纪初,第二次世界大战后迅速发展,成为科技文献中的一大门类。每份报告自成一册,通常载有主持单位、报告撰写者、密级、报告号、研究项目号和合同号等。按内容可分为报告书、论文、通报、札记、技术译文、备忘录、特种出版物。大多与政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进行中的科研工作,是一种重要的信息源。查寻科技报告有专门的检索工具。

28 美国四大报告(2-1)   PB报告。1945年 6月美国成立商务部出版局,负责整理、公布从第二次世界大战战败国获取的科技资料,并编号出版,号码前统一冠以"PB"字样。40年代的PB报告(10万号以前),主要为战败国的科技资料,50年代起(10万号以后),则主要是美国政府科研机构及其有关合同机构的科技报告。PB报告的内容绝大部分属科技领域,包括基础理论、生产技术、工艺、材料等。70年代以后,侧重于民用工程技术。1970~1975年间,每年发表PB报告约8000件,至1978年总共发表约30万件。   AD报告。凡美国国防部所属研究所及其合同户的技术报告均由当时的美国武装部队技术情报局(ASTIA) 整理,并在规定的范围内发行。AD报告即为这个情报局出版的文献。PB、AD报告的主要检索工具为美国《政府报告通报和索引》。   

29 美国四大报告(2-2) NASA报告。美国国家航空与宇宙航行局拥有的研究机构产生的技术报告。主要内容为:空气动力学、发动机及飞行器结构、材料、试验设备、飞行器的制导及测量仪器等。主要检索工具为《宇航科技报告》(STAR)。   AEC/ERDA/DOE报告。1946年美国建立原子能委员会,简称AEC,AEC报告即为该委员会所属单位及合同户编写的报告;1975年该委员会改名为能源研究与发展署 (简称 ERDA), AEC报告于1976年改称 ERDA报告;1977年该署又改组扩大为美国能源部(简称DOE), 1978年7月起逐渐改为冠以DOE的科技报告。内容仍以原子能为重点。其主要检索工具为《核子科学文摘》, 继之为《能源研究文摘》。

30 Geologic Adaptation for Seismic Network Tracking. 科技报告 Report NO:
Geologic Adaptation for Seismic Network Tracking ?科技报告 Report NO: . COLD REGIONS RESEARCH AND ENGINEERING LAB HANOVER NH, Moran, Mark L.; Greenfield, Roy J.; Ketcham, Stephen A. 原文

31

32 5. 专利文献 ( patent document )
定义:发明人或专利权人申请专利时向专利局所呈交的一份详细说明发明的目的、构成及效果的书面技术文件,经专利局审查,公开出版或授权后的文献。广义包括专利申请书、专利说明书、专利公报、专利检索工具以及与专利有关的一切资料。 格式:专利所有者、题名[P]、专利国别、专利号、出版日期。 【例】曾德超.常速高速通用优化犁[P].中国专利: , 6. 标准文献 ( standard、 specification、 requirement ) 定义:指经过公认的权威当局批准的以文件形式表达出的统一规定,包括技术标准、技术规格和技术规则等文献的总称。 格式:标准代号(标准顺序号-发布年)、标准名称[S]。 【例】 GB J111-87,铁路工程抗震设计规范[S].

33 7. 学位论文 ( dissertation、 thesis )
定义:高等学校或研究院所的学生在导师指导下从事某一学术课题的研究,为获得某种学位而撰写的学术性较强的研究论文。 格式:著者、题(篇)名[D]、保存地点、保存单位、年份、引文所在起始或起止页码。 【例】党建武.神经网络方法求解组合优化问题的研究[D].成都:西南交通大学, 8. 政府出版物 ( government document ) 政府出版物是各国政府部门及其所属机构发表、出版的文件,其内容广泛,概括可以分为行政性文献和科技文献两大类。(国务院关于支持河南加快建设中原经济区的指导意见) 9. 产品资料、技术档案等(product literature、technical record) 各厂商为推销产品而印发的商业宣传品,包括产品样本、产品目录、产品说明书、厂商介绍、技术座谈资料等。(惠普中国在线商店 ) 企业或科研机构在技术工作中形成的、有一定的工程对象的技术文件。如任务书、协议书、技术经济指标和审批文件、研究计划方案大纲和技术措施等。

34 工具书概述 一、概念 人们根据一定的目的全面系统地搜集某一方面的有关资料,经过筛选、加工整理、概括、浓缩等手段,用一定的编排方法加以组织编排,专供查考问题和检索文献线索的一种特种图书。 二、特性 1.知识的密集性 2.知识的价值性 3.知识的有序性 4.检索性 三、根据编制特点和功能分类 1. 字典、辞典; 2. 百科全书;《中国大百科全书》、《不列颠百科全书》 3. 年鉴、手册、名录;《上海经济年鉴》 4. 年表、历表;《中国历史纪年表》 (fenlei)

35 各类型出版物特点比较 ● 内 容 新颖性: 科技报告、专利、期刊、会议文献、图书 ● 信息报道速度: 科技报告、期刊、会议文献、专利
● 流通范围广度: 期刊、图书、会议文献、专利、政府出版物 ● 发 行 量: 期刊、专利、图书、会议文献 ● 具有法 律 性: 专利、标准 ● 易于获取程度: 期刊、图书、会议文献、专利、标准、政府出版 物、学位论文、科技报告

36 3. 按文献的结构等级(文献的加工程度)划分 按文献中信息量的变化情况来划分,可分成三个结构等级。
1. 一次文献(primary document) 即原始文献。是指人们以自己的经验和研究成果为依据而形成的文献,不管文献以何种物质形式出现。如期刊论文、会议论文、科技报告、专利说明书、标准等,一次文献的信息比较具体、详尽和系统化。 维普《中文科技期刊数据库》、Elsevier Science 、UMI博硕士论文全文库 2. 二次文献(secondary document) 是通过对大量分散、无序的一次文献进行加工、提炼、压缩和组织,成为系统的、便于查找一次文献的工具。如书目、索引、文摘等检索工具即是二次文献。二次文献的重要性在于它可以提供一次文献的线索。 工程索引 Ei 、ISTP 、中国学术期刊数据库(题录文摘版) 3. 三次文献(tertiary document) 在利用二次文献的基础上,对检索到的一次文献进行广泛、深入的分析研究之后,再次加工出来的成果。如综述、述评、进展等。 百科全书、年鉴

37 二、科技文献出版类型的辩识 为了获取原始文献,应学会辨识科技论文后所附参考文献的不同出版类型。一般著录项目都包括篇名、著者姓名、文献出处,可以从文献出处识别各种文献的出版类型。 (1)图 书: 有出版社名称和出版年份。 (2)期 刊: 包括刊名、卷、期、页码、月年。 (3)会议文献: 包括会议名称、时间、地址、会议录出版单位及其地址、出版年份、会议录提供单位及其地址、页码。 (4)专利文献: 有专利国家名称或国家代号、专利号,有的还有出版时间。 (5)科技报告: 最明显是出处中有报告号,有的有出版时间。 (6)学位论文: 一般著录学位和学位论文的名称, 颁发的单位及地址、时间。 (7)标准文献: 一般有标准编号。

38

39 回去

40 第三节 文献检索工具的基本概念 一.检索工具定义 定义:用来报道,存储和查找文献的印刷型出版物或数据库系统。文献检索工具是指对体积庞大、无序的一次文献经过加工压缩而成体积较小的二次文献,再根据一定的原理和规则编制而成的工具。可满足各种用户的不同层次的检索需求。

41 目录类型: 二、检索工具的类型 检索工具可以依据不同的标准来划分,根据著录内容可划分为以下四种: 1.目录 ( catalog )
目录是对一批相关文献外部特征的揭示和报道。通常以一个完整的出版或收藏单位为著录的基本单位来报道和记录文献。只记录文献外部特征(如名称,著者,出版事项等)。目录一般按分类或字顺编排,主要供人们了解出版或收藏机构是否拥有所需图书、期刊等出版物。 目录类型:  馆藏目录:反映一个图书馆文献收藏情况的目录。 中国国家图书馆  联合目录:反映一个地区或一个系统甚至全国或世界范围的图书馆、信息服务机构文献收藏情况的一种统一目录。 全国中西文期刊联合目录 CALIS联机公共数据库

42 按出版类型划分:图书目录、期刊目录、会议论文目录。
按物质形式划分:卡片目录、书本目录、机读目录(MARC)、联机公共检索目录(OPAC ,Online Public Access Catalog )等。 目录示例: 可参照图书馆主页熟悉了解。 OPAC :是指以计算机编码形式存贮在计算机 系统内,供读者通过终端设备进行联机检索的 图书馆目录,即书目数据库的一种形式。

43 2. 题录 ( bibliography 、bibliographic、citation )
题录是单篇文献外表特征的揭示和报导,即对某一文献外部特征的描述,由一组著录项目构成一条文献记录。 题录的著录项目一般有著者,篇名及出处等,常以一个内容上独立的文献单元(如一篇文章,图书中的一部分,有时也可以是整本出版物)为基本著录单位。题录在揭示文献内容的深度方面,比目录深入,但又比文摘简单。 示例1:

44 题录示例2:Ei CPX Web (《工程索引》网络版记录题 录显示格式)

45 3. 文摘 ( abstract ) 文摘是指对一份文献(或称一个文献单元)的内容所做的简略、准确的描述,文摘的著录项目除了著者,篇名及出处等外,还有表示文献内容特征的摘要。
文摘示例1:

46 文摘示例2:Ei CPX Web (《工程索引》网络版记录文摘显示格式)

47 4. 索引 ( index ) 索引是对一组信息集合的有系统的指引。索引是一种附属性的检索工具,通常称为辅助索引。索引具有便于检索,揭示事物比较深入、全面、明细等方面的优点。 索引的用途在文献检索中体现得极为突出,科技文献数量庞大、内容复杂多样,使用面广且频繁。虽然已将其中绝大部分加工压缩成文摘或题录等。但如果没索引,查检起来还是很不方便。严格地说,没有索引的检索工具不能称为完善的检索工具。 最常用的索引是主题索引、分类索引和著者索引等。

48 索引示例:Ei CPX Web (《工程索引》网络版索引显示格式)

49 三、网络信息检索工具 — 搜索引擎( Search Engine )
定义:是一些在网页中主动搜索信息并将其自动索引的Web网站,与普通网站不同的是,搜索引擎网站的主要资源是它的索引数据库,收集了全世界成百万上千万个网站和网页的信息,存储在可供检索的大型服务器中,建立索引和目录服务。 主要功能:是为人们搜索Internet上信息并提供获得所需信息的途径。 “搜索引擎”也就是指充分利用各种网络自动搜索技术,对网络信息资源提供强有力检索的工具。   常用搜索引擎介绍与链接: 1.OCLC中的WorldCat 2.EI中的Sircus 3.百度搜索 4. 回去

50 第四节 文献检索的方法和途径 一、检索方法 文献检索的方法(查找文献的方法)大致可以归纳为三种: 直接法:即直接利用文献检索工具或检索系统来查找文献的方法,是一种常规的科学检索方法。分为顺查法、倒查法和抽查法。 2.追溯法:又称引文法,是一种跟踪查找法。是利用文献(尤其是评述性论文或有关专著) 后面所附的参考文献,进行逐一地追踪查找原文。(例如:SCI) 3.综合法:1、2两种方法的综合。利用检索工具或检索系统进行常规检索,再利用文献后所附参考文献进行追溯检索,分期分段交替使用这两种方法,直到满足要求为止。可以查得较全面较准确,尤其适用于那些过去年代内文献较少的课题。

51 分类语言 分类表 分类语言 是一种按学科范畴和体系来划分事物的检索语言,以分类表的
二.检索途径 文献检索的途径主要可以分为以下几种: 内容途径 文献检索一般是根据课题内容查找有关的文献信息,因此该途径是主要的检索途径。内容途径又可分为以下两种检索途径:  分类途径 是一种按照文献信息所属学科(专业)属性(类别)进行检索的途径。一般检索系统均提供数据库所使用的分类表的分类号索引。 主题途径 通过文献信息的内容主题进行检索的途径。计算机检索主要是主题检索,检索系统可提供多个检索点。 分类语言 分类表 分类语言 是一种按学科范畴和体系来划分事物的检索语言,以分类表的 形式体现。它展示了学科的系统性,反映了事物的从属、派生关系,从上至下, 从总体到局部层层划分展开,是一种等级体系。由类目和相对应的类号来表达 各种概念,构成一个完整的分类类目表。 如:《中国图书馆分类法》

52 《中图法》的分类原则 根据当前社会科学和自然科学所包括的学科多、发展快等特点,按图书学科内容作为分类的主要标准与依据。将图书在五个基本部类的基础上分为22个大类,分别以拉丁字母A—Z表示。

53 示例:《中图法》

54  索书号: 是识别一种图书的唯一标识,图书馆同一分类号的文献数量很多,为了区别相同类号的文献,在分类号的基础上,又给了一个区分符号,这个符号称之为书次号。书次号与分类号一起共同构成索书号。图书馆的文献就是按照索书号的顺序排架管理的。 中文书索书号如:TP312/  39, 西文书索书号如:O6/ FC56

55 2. 著者途径 是根据已知文献著者姓名来查找文献的途径。文献著者包括个人著者和团体著者。一般检索系统都有著者(个人)索引,有的还有团体著者(机构)索引,均按字顺编排,其下为记录个数或文摘号。在利用内容途径查文献有困难时,如一些新近发展起来的学科或技术,往往难于确定类目或检索词,使用著者途径查找文献就显出其优越性,但该方法不能满足全面检索某一课题文献的需要。 3. 名称途径 根据文献的名称查找文献的途径。一般多用于查找图书、期刊、会议名称。常用于目录性检索工具/系统,如《书名目录》《期刊目录》《期刊联合目录》等。 4. 序号途径 以文献的编号为特征,检索文献的途径。根据一些文献类型的特有标识,如科技报告的报告号;专利文献的专利号、入藏号,合同号,技术标准的标准号;ISSN,ISBN等作为检索点。 5. 其他途径 如分子式、元素符号、数字等。

56

57 核心期刊: http://localsev.lib.pku.edu.cn/cjc/
回去

58 第五节 计算机检索基础知识 一、数据库概念 图书馆购买、拥有使用权 的电子资源(网络资源) 由IP地址限制, 免费使用 专线访问, 并发用户
第五节 计算机检索基础知识 一、数据库概念 图书馆购买、拥有使用权 的电子资源(网络资源) 由IP地址限制, 专线访问, 免费使用 注意:严禁过量下载 并发用户 ( 3-15人 ) 即在一定时间内集中、 批量下载全文数量 超过50篇以上 电子资源 知识产权

59 二、数据库的类型 目前在计算机检索领域中数据库种类繁多,为便于学习,归纳为文献数据库和非文献数据库两大类。
文献数据库包括:题录文摘数据库、全文数据库; 非文献数据库包括:事实数据库、数值数据库等。 1. 题录、文摘数据库 (bibliographic database): 是一种二次文献数据库,主要存贮相关主题领域的各类文献资料的书目信息,包括机读版的文摘、题录、目录、索引等。用户可从大量文献记录中筛选出有参考价值的文献源,并依据记录提供的来源指示获取一次文献。如:Ei CPX Web(工程索引)、《中文期刊数据库(文摘题录版)》等。

60 4.数值数据库(numeric database): 这类数据库主要提供来自原始文献的统计数据、调查数据或经过处理的各种数据、数值表格。
2.全文数据库(full-text database): 是将一个完整的信息源的全部内容转化为计算机可识别和处理的信息单元而形成的数据集合,即机读化的一次文献。用户可直接检索出原始文献,也可检索全文中的段、节、章等内容。 如:《中国学术期刊数据库》、《维普中文科技期刊(全文版)》等。 3.事实数据库 (fact database): 这类数据库能直接向用户提供可用的数据 (包括文字、图形、图象、声音、计算机程序等)。如:百科全书、辞典、手册、指南、地图集、人名录、企事业名录、计算机程序、音乐等。 如:中经专网(教育版)、中国资讯行、万方。 4.数值数据库(numeric database): 这类数据库主要提供来自原始文献的统计数据、调查数据或经过处理的各种数据、数值表格。 如:气象数据、地质资料、化学或物理化合物特性的文献数据、财务数据、人口统计资料、市场调研数据等。

61 三、 数据库检索方式 1. 联机数据库 联机检索是用户利用计算机终端设备,通过通信线路与联机信息检索中心的中央计算机联机进行检索。联机检索系统由用户检索终端、通信网络和联机信息检索中心组成。联机检索允许用户采用人机对话的交互方式直接访问检索系统和数据库,检索是在线实时进行的。如:Dialog国际联机检索系统。 2. 光盘数据库 光盘检索系统的基本构成包括微机、CD-ROM驱动器、软件(检索软件和系统软件)。 光盘检索系统可单用户检索,也可将CD-ROM驱动器接入局域网,如通过图书馆网或校园网连接多个用户终端,用服务器管理运行一组光盘数据库,组成多用户CD-ROM网络。 如:INSPEC (1989—2000) 3. 网络数据库 通过WWW访问数据库站点,确认合法用户和口令或IP地址后,进入检索界面进行检索。该种检索方式不受时空限制,合法用户可在任何地方适时检索。

62 三、词位置检索(positional operator) — 位置运算符
利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能 (Full text searching)。 所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。 为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 **全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点: 规定的位置算符不同; 位置算符的职能和使用范围不同。 下面介绍几种数据库经常使用的位置运算符:

63 查全率:检索过程中,计算机输出的相关文献数与计算机数据库中相关文献的总数之比。 检 出 相 关 文 献 量 ×100% 文献库内相关文献总量
回去 检索效果: 查全率:检索过程中,计算机输出的相关文献数与计算机数据库中相关文献的总数之比。 检 出 相 关 文 献 量 ×100% 文献库内相关文献总量 查准率:检索过程中,计算机输出的相关文献数与输出的文献总数之比。 检 出 相 关 文 献 量 ×100% 检 出 文 献 总 量 实验证明: 在查全率和查准率之间存在着相反的相互依赖关系—如果提高输出的查全率,就会降低其查准率,反之亦然。

64 第六节 计算机检索技术 一、布尔逻辑检索 在计算机文献检索中,用户的检索需求是通过检索提问式表达的,逻辑算符在检索提问式中起着逻辑组配作用,它们能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。 布尔逻辑(组配)算符:系统中采用的逻辑组配算符是布尔代数中的逻辑运算符AND/*(与)、OR/+(或)、NOT/—(非)。 布尔逻辑检索: 即运用布尔逻辑算符对检索词进行逻辑组配,表达两个概念之间的逻辑关系。 1. AND 或 * 算符 实现逻辑“与”组配 并且 检索时,命中信息同时含有两个概念,专指性强。 如:logistics AND e-commerce traffic AND control

65 2. OR 或 + 算符 实现逻辑“或”组配 检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,检索范围比AND扩大。 如:rapid transit OR light rail OR subways railway OR railroad 3. NOT 或 – 算符 实现逻辑“非”组配 命中信息包含逻辑A、不包含逻辑B或同时有A和B的,排除了不需要的检索词。 如:fruit NOT apple windows NOT Microsoft

66 二、截词检索 (truncation) — 截词符
截词是指将检索词在适当的地方截断,截词检索是用截断词的一个局部进行的检索,凡是满足这个截词所有字符(串)的记录,系统都为命中。 截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。 按 截 词 位 置 分: 有前截断、后截断、中截断; 按截词的字符数量分:有非限制截断、限制截断。 ** 表示截词的截断符号,各检索系统有不同的规定,没有统一标准。

67 后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。
1. 后截断 后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。  非限制截断:是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干相同的所有词。 例: comput? 表示允许其后可带有任何字符且数量不限,相当于查找compute、 computed、 computes、 computing、 computer、 computers、computerize、computerized、computation、 computations、 computational、 computationally 等词。 ***不宜将词截得过短,否则容易造成误检。  限制截断 :是在检索词词干后面加若干个截词符,表示限制可变化的字符数。 例:fib?? 相当于查找 fiber 或 fibre ……(Ei Compendex Plus) educat?? 相当于Educator,educated……

68 2. 中截断 (通配符或屏蔽) 是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定。一般中截断仅允许有限截断。 例:organi#ation, 可检索到包含organization和organisation的记录。 一个?代表零个或任意个字符。 例: colo?r ,可检索到包含 color、colour、colonizer、 colorimeter的记录。 一个? 和数字,其中的数字代表可替换的字符数。 例:colo?1r, 只能检索到包含colour的记录。

69 例: intelligent (W) robot? (Ei Compendex Plus)
1.W - With  W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。 例: intelligent (W) robot? (Ei Compendex Plus)  Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。 例: intelligent w1 robot* (OCLC FirstSearch) 2. N - Near  N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。 例: intelligent NEAR robot* ( Ei CPX Web)  Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。 例: intelligent N1 robot* (OCLC FirstSearch ) 3. Adj - adjacency 邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。 例: intelligent adj robot* (Elsevier Science SDOS)

70

71 四、字段检索 (range searching)
字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检索常用代码来表示,如下表所示。

72 例: Ei CPX Web 网络版数据库主要字段的字段代码如下: CV Ei叙词表受控语言
注意:目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。 如题名字段:Ei CPX Web 中, 用 highway transport* within TI 来表示; OCLC Firstsearch 中,用 TI: highway transport* 来表示。 在进行字段检索时,为了避免出现检索误差, 应先看一下该数据库的使用指南或说明。 例: Ei CPX Web 网络版数据库主要字段的字段代码如下: CV Ei叙词表受控语言 TI 题名 AB 文摘 AU 著者姓名 AF 著者机构名称 ST 连续出版物名称 PN 出版时间

73 构造检索提问式示例: 课题:数字化图书馆的文献检索服务 检索概念分析: document retrieval
并列概念 document delivery document delivery system digital library 同义词 virtual library electronic library 检索提问式: (document W retrieval or document W delivery or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*) record found : 11 (OCLC Firstsearch)

74 常用名词术语 ISBN: ISSN: ISRC: 回去
国际标准书号(International Standard Book Number)的简称,是专门为识别图书等文献而设计的国际编号。ISO于1972年颁布了ISBN国际标准,并在西柏林普鲁士图书馆设立了实施该标准的管理机构———国际ISBN中心。现在,采用ISBN编码系统的出版物有:图书、小册子、缩微出版物、盲文印刷品等。ISBN由10位数字组成,分四个部分;在联机书目中,ISBN可以作为一个检索字段,为用户增加了一种检索途径。 例如:ISBN 组号 出版者号 书序号 检验码。 (国家、地区、语言的代号) ISSN: 国际标准连续出版物号(International Standard Serial Number)的简称,是ISDS(国际连续出版物数据系统)国际中心为在该系统登记的连续出版物分配的号码。采用ISSN编码系统的出版物有:期刊、会议录等。ISSN由8位数字组成,分两个部分;在联机书目中,ISSN可以作为一个检索字段,为用户增加了一种检索途径。 例如:ISSN 序号 检验码。 ISRC: 国际标准音像制品编码(International Standard Recording Code)的简称。它是音像制品的国际性的唯一标识编码。目前采用ISRC编码的出版物包括唱片、录音带、录像带、激光视盘、激光唱片等。ISRC的实施必将对音像制品的出版发行、版权保护、信息交换和市场管理产生积极的影响。ISRC在联机目录中也可以作为用户的一个检索人口。 ISRC由国家码、出版者码、录制年码、记录码和记录项码五个数据段12个字符组成。 BACK 回去

75 课后作业 1.什么是信息检索?它有哪些过程和类型? 2.评价信息检索系统有哪些主要标准?
3.信息检索途径有哪些?哪些是以内容特征为基础的,哪些是以外表特征为基础的? 4.什么是信息素养?如何提高? 5.请总结自己比较熟悉的获取信息的方式。


Download ppt "信息检索概论 岳修志 南区图书馆北楼8楼/图书馆2楼 电话: /"

Similar presentations


Ads by Google