Web与信息检索 LJ JUFE-SIT
《Web》内容提要 什么是Web Web运行原理 Web构成要素 Web与信息检索
什么是Web Web本意——蜘蛛网、网 现在Web常用作计算机术语—— 它是一个大规模、分布式、互联的信息海洋。 指计算机网络中的一种信息服务及其实现技术 全称World Wide Web(有时也用缩写WWW) 中文称呼:万维网 它是一个大规模、分布式、互联的信息海洋。 目前信息呈现的主要形式:页面 (Page) 信息相互链接,人们方便地从一个页面访问另一个页面,以获取所需信息。
Web运行原理 服务器 服务器 站点 A 站点 C 服务器 站点 D 站点 E
问题:文档格式、文档存放位置、文档传输、文档检索 Web运行原理 Web以客户服务器模式工作 浏览器就是在用户计算机上的Web客户(端)程序。Web文档所驻留的计算机则运行服务器(端)程序,因此这个计算机也称为Web服务器。 在浏览器窗口上显示出的Web文档称为页面(page)。 文档地址 浏览器 程序 服务器 信息交换 客户端 清华大学 院系设置 服务器端 页面 Web文档 问题:文档格式、文档存放位置、文档传输、文档检索
Web构成要素 (1) 怎样标识分布在整个因特网上的Web文档? (2) 如何实现Web文档在计算机之间的传输? 使用统一资源定位符 URL (Uniform Resource Locator)来标志Web上的各种文档的存放位置。 每一个文档在整个因特网的范围内具有唯一的定位标识符。 (2) 如何实现Web文档在计算机之间的传输? 在Web客户程序与Web服务器程序之间进行交互所使用的协议——超文本传送协议 HTTP (HyperText Transfer Protocol)
Web构成要素 (4) 怎样使用户能够很方便地找到所需的信息? (3) 怎样在Web文档中组织各种信息并呈现信息? 即搜索引擎 超文本标记语言 HTML (HyperText Markup Language) 用格式化组织与信息呈现 (4) 怎样使用户能够很方便地找到所需的信息? 即搜索引擎
统一资源定位符 URL URL 是对因特网上资源的位置及其访问方法的一种简洁表示。 只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。 http://www.jxufe.cn/html/xxjj/index.html http://www.whitehouse.gov http://www.unb.br http://sydney.edu.au
<协议>://<主机>[:端口]/<路径> 统一资源定位符 URL URL是以冒号隔开的两部分组成,字符大小写无关。URL 的一般形式是: <协议>://<主机>[:端口]/<路径> 存放资源的主机在因特网中的地址(IP或域名) ftp、http 访问入口 可缺省 文档在站点中的路径, 缺省时指向站点主页 http://www.jxufe.cn/ ftp://210.35.205.52/ http://www.jxufe.cn/html/2014/10-4/n9476691.html
超文本传送协议 HTTP 可用 HTTP 协议来传送一切信息。 客户端 服务器端 HTTP
超文本标记语言 HTML Hyper Text Mark Language HTML 把各种标签嵌入到文本中,就构成了所谓的 HTML 文档。HTML 文档是一种可以用任何文本编辑器创建的纯文本文件。
HTML 文档 仅当 HTML 文档是以.html 或 .htm 为后缀时,浏览器才对此 文档的各种标签进行解释。 如 HTML 文档改换以 .txt 为其后缀,则 HTML 解释程序就不对标签进行解释,而只能显示原来的文本内容。 当浏览器从服务器读取 HTML 文档后,就按照 HTML 文档中的各种标签,根据浏览器所使用的显示器的尺寸和分辨率大小,重新进行排版并恢复出所读取的页面。
HTML 文档示例 <HTML> <HEAD> <TITLE>一个 HTML 的例子</TITLE> </HEAD> <BODY> <center><H1>HTML 很容易掌握</H1> <P>这是第一个段落。虽然很 短,但它仍是一个段落。</P> <P>这是第二个段落。</P> <img src=“./logo.jpg”><br> <a href=“http://www.jxufe.cn”>江西财大</a></center> </BODY> </HTML> 开始HTML文档 结束HTML文档 开始文档首部 结束文档首部 开始文档正文 结束文档正文
HTML文档与页面、网站 网站目录结构 首页 学生 招生 就业 教师 教学 科研 校友
Web的工作过程 客户端 服务器端 服务器 程序 浏览器程序 HTTP 域名解析 传输层连接 网络层转发 Web站点 因特网 超链接地址(URL) http://www.jxuxfe.cn 服务器 程序 北京大学 清华大学 浏览器程序 应用层 HTTP 域名解析 传输层 传输层连接 58.17.39.212 网络层转发 网络层 Web站点 接口层 因特网 客户端 服务器端
用户点击超链后所发生的事件 (1) 浏览器分析超链指向的页面的 URL。 http://www.jxufe.cn/ (1) 浏览器分析超链指向的页面的 URL。 (2) 浏览器向 DNS服务器 请求域名解析 www.jxufe.cn 的 IP 地址。 (3) DNS服务器解析出Web服务器的 IP 地址。 (4) 浏览器与服务器建立传输层连接 (5) 浏览器发出取网站首页文件命令: GET /index.htm。 (6) 服务器给出响应,把文件 index.htm 发给浏览器。 (7)传输层连接释放。 (8) 浏览器在窗口中显示“江西财大首页”文档 index.htm 中的内容。
Web小结 Web1.0Web2.0Web3.0 Web是当代信息检索的主要形式与工具 HTML5技术DEMO—— 支付宝、微众银行、别踩白块儿 http://fff.cmiscm.com/
《信息检索》内容提要 了解信息检索的概念与重要性 了解信息检索工具 了解信息检索方法 能利用常用信息检索工具进行信息检索。
重要性——用户信息需求 数据 史实 文献 2010年我国GDP是: 397983亿元人民币 2014年:635910亿 2015年:676708亿 史实 “三聚氰胺”奶粉、瘦肉精、日本地震、莆田系 文献 [1]金福海.论建立我国的惩罚性赔偿制度[J].中国法学,1994,(3). 中国“十三五”规划
重要性 1、信息社会下终身学习能力的需要 文献数量迅猛增加。每年全世界发表科技论文300-400万篇;出版图书50万种以上;期刊10万种以上;专利约50万件;标准75万件。 文献有效期缩短,新陈代谢加快。文献半衰期:基础学科8~10年,化学8.1年,化工4.8年。 人类知识的总和在1750—1900年间翻了一番,1900—1950年间则在此基础上又翻了一番,之后的翻番发生于1960—1965年间,自此以后的估计是人类知识至少每5年翻一番,到2020年,人类知识将每73天翻一番。
重要性 2、开展科学研究、创新的需要 信息检索与文献阅读是一切科学研究的入口 现代科学家的痛苦是信息太多而不是没有信息 科学研究是“站在前人肩膀上”的事业,而创新又是科学研究的灵魂
重要性 3、国家教育部门文件要求 1984年《关于在高等学校开设文献检索与利用课的意见》 1985年《关于改进和发展文献课教学的几点意见》 1992年《文献检索01文检课开课国家文件课基本要求》
什么是信息检索 信息检索的实质是将描述特定用户所需要信息的提问特征(如关键词)与存储的信息检索标识进行比较,从中找出与提问特征一致或基本一致的信息过程。 信息检索包含存储与检索两个部分。 存储是对有关信息进行选择、并对信息特征进行著录、标引和组织,建立信息数据库 检索则是根据提问制定策略和表达式,利用信息数据库找出用户所需要的信息。
信息检索系统构成 information retrieval systems 信息检索 信息存储
如何使用文献检索工具查找资料 有什么信息检索工具? 工具使用方法? 身边可用的工具?
信息检索工具 信息检索工具是人们为了充分、准确、有效地利用已有的信息资源而加工编制的用来提示、存储和查找信息资源的卡片、表册、特定出版物和计算机系统。 是检索过程得以实施的平台 卡片 出版物 计算机
传统检索工具 传统检索工具主要是各种类型的工具书。 工具书是根据一定的需要、比较完备地汇集某一方面的资料,并按特定的方法加以编排,专供读者检索查考有关知识、资料或事实的书籍。 主要工具书 检索性工具书、参考性工具书、词语性工具书、表谱性工具书、图录性工具书等。
面向计算机与网络的检索工具 面向计算机与网络的检索工具主要包括 联机检索工具、 光盘检索工具 和因特网检索工具等三种工具。
面向计算机与网络的检索工具 因特网检索——基于Web的检索工具 :搜索引擎、网络资源指南、元搜索引擎和检索代理、书目检索系统、全文检索系统、多媒体检索系统等。 Internet
信息检索过程与方法
信息检索的过程 信息检索的过程就是根据用户对信息的需求,利用检索工具查找有关信息资料的具体过程。 分析用户信息需求 选择检索系统和工具 确定检索方法和途径 实施检索策略 评价检索结果 进行其他后续分析
常用的检索方法 常规检索法是以主题、分类、作者等为检索点,利用检索工具获得信息资源的方法。 回溯检索法又称追溯法、引文法、引证法,是—种跟踪查找的方式,即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。 循环检索法又称交替法、综合法、分段法,即交替使用回溯法和常规法来进行文献检索的综合检索方法。
常规检索法 基于文献外部特征的检索途径 基于文献内容特征的检索途径 文献的外部特征,是文献检索载体的外表上标记的可见特征,如题名(书名、刊名、篇名)、责任者(作者、编者、译者、专利权人、出版机构等)、号码(专利号、报告号、索取号等)。 基于文献内容特征的检索途径 文献的内容特征是文献所载的知识信息中隐含的、潜在的特征,如分类、主题等,以文献的内容特征作为检索途径更适用于检索未知线索的文献。
常用的检索工具和资源 搜索引擎 搜索引擎通过采集、标引众多的因特网资源来提供全局性网络资源的控制与检索,目标是将因特网所有信息资源进行整合,方便用户查找所需的信息。 通用搜索引擎:大、全, 以网页为组织对象 www.google.com www.baidu.com www.yahoo.com
搜索引擎 垂直搜索引擎 房产搜索——搜房网 旅游搜索——途牛网 地图搜索——百度地图 文献搜索——谷歌学术/CiteSeer/ACM DL/IEEE Xplore/中国知网
数据资源(from图书馆) 中国知网(CNKI) 高校财经数据库(China INFOBANK) 超星数字图书馆
小结 了解Web概念、Web构成要素 了解信息检索的概念 了解信息检索的途径与工具 能利用常用信息检索工具进行信息检索。
信息检索的三个层次 1.知道在哪里能找到信息(了解不同的信息源) 2.能从信息源中检索出合适的信息(课题分析和检索技术) 3.能对检索结果进行评价和分析(选择、综合利用)