第一节 概述 第二节 网络信息分类法的编制 第三节 网络信息分类组织和著录 第五章 网络信息分类法 第一节 概述 第二节 网络信息分类法的编制 第三节 网络信息分类组织和著录
第一节 概述 网络信息的特点:数量巨大而繁杂;内容范围广泛;信息类型众多;动态性高;超文本链接;有序与无序。 网络信息用户的特点:用户范围极广;受教育程度差别极大;利用网络信息的目的和类型存在明显差异;用户使用的网络服务不同。
网络信息技术环境的特点:TCP/IP、数字技术、多媒体技术、超文本、WWW、人工智能、数据库技术及相应的硬件等。 网络信息的组织和网络信息分类法的编制,只有与当时网络信息环境技术相适应,才能最大限度地发挥信息组织的作用。
网络信息分类法与传统分类法比较 分类对象:传统分类法以物理的、实体的文献,如印刷型文献、磁带、光盘等为主要处理对象,对文献的内容进行标引和整序。网络信息分类法以数百万计服务器上的信息资源为处理对象,对它们进行组织筛选,信息数字式、多媒体、动态、虚拟的。
信息的知识范围:传统分类法以文献收藏部门为使用对象,文献的出版是受控制的、内容是经过一定筛选的,分类体系具有稳定性。网络信息分类法以搜索引擎或大型网站为使用对象,网络信息总体上是不受控制的,几乎包含了人类一切知识领域,要求其具有高度的灵活性和适应网络信息的动态性。
分类法的功能:传统分类法通过对全部文献标引,编制分类检索工具,组织分类排架,分类标引基本是手工的。网络分类法通过对网络信息的标引,建立网络信息分类导航系统,提供浏览式检索手段,分类导航系统的建立和维护主要是手工式的,也有人机结合。
分类标记:是传统分类法不可缺少的组成部分。网络分类法组织虚拟信息,一个类目就是一类相关信息的节点,不涉及物理排列,用户不需要根据分类标记索取信息,也无须使用分类标记,但作为网络分类法的后台运作,分类标记有用。
编制方法: 知识框架。前者以文献内容的学科属性为主要的聚类标准,形成学科分类和高校专业设置为基础,兼顾文献特点的分类大纲。后者以主题为主要标准,把相关的信息加以集中,构成符合各类用户查询习惯的大纲。
前者体系是唯一的。后者可以有两个以上的分类体系,主从并用,满足不同查询需要。 类目划分:前者线性体系。后者的划分不严格按等级进行,如跳跃式划分;主题多重属性关系和相关关系采用交叉列类、超文本连接和多窗口显示,网状体系。
类目排列:前者强调类目之间的内容联系和逻辑关系,科学性、规律性强。后者为了方便、快速、自动地排列众多同位类,也广泛使用字顺、重要性排列法。 说明和注释:前者将其作为标引人员的重要参考。后者不设参照注释,有选择地列举下位类,便于链接。
类名:前者力求科学、准确、规范,稳定性高。后者选择类名更注意面向用户,力求通俗易懂、时新、简练,准确性不如前者,面向用户和面向后台技术运作的类名可以不一致。 维护:前者修订很慎重。后者可随时修订,但更复杂、繁重。
传统分类法在网络信息组织中的应用 应用现状。一些著名的分类法被网站或搜索引擎用来组织网络信息。例如,加拿大的主题信息系统“Canadian Information by Subject”应用DDC的分类系统;美国依阿华洲立大学应用LCC开发“Cyber Stacks”等。
分类法在网络信息上的应用,大体有两种类型:一是以某个分类法为依据,经过必要的改造后作为组织网络信息的主体,多数建立浏览结构,应用的主要范围是大学、图书馆、学术性网站;
二是在设计分类导航系统时,在整体上或局部上参考一个或几个文献分类法的类目体系,这是主要应用形式。文献分类法直接用于网络信息组织(网站、搜索引擎),目前处于起步阶段,影响微乎其微。
文献分类法用于网络信息组织的优势 文献分类法几乎都是综合性分类法,涵盖人类知识的各学科领域,具有很高的通用性。 文献分类法的编制和运用既有成熟的理论和技术支持,也积累了丰富的实践经验,严格的词汇控制和完善的语义网络,有助于网络信息的筛选和组织。
文献分类法是一个完整的知识分类等级体系,类目之间严密的逻辑关系,全面揭示了知识的内在联系,非常适合于浏览检索和对主题进行分类控制,是目前搜索引擎所不能达到的。 文献分类法正向电子化和分类-主题一体化方向发展,更适合于对网络信息的组织
文献分类法适应网络信息组织的改造 增加必要的非学术信息类目,包容网络上的各类信息和多媒体资源,适当突出信息量大、利用率高的类目。 把按学科聚类和按主题聚类结合起来,满足不同出发点的浏览查询需要。
简化类目划分层次,让全部类目为列举式的,归并一些不合适网络信息组织的类目。 把类目的线性结构改造成网状结构,满足多途径浏览检索的需要。以交叉列类方式和超文本链接把相关主题联系起来;通过分面分析和多重列类,实现对一个类目的多标准划分。
类目注释要突出内容含义的说明和类目关系的指引,删除与网络检索用户无关的注释。 提高对网络信息多属性、多视角的揭示。 分类法的界面要适应网络环境的特点。
网络信息分类法的功能 满足对互联网上各种类型信息组织的需要; 满足对互联网上各个知识领域信息组织的需要; 具有科学性、实用、能满足各类用户浏览查询的动态分类体系; 充分揭示信息知识的内容相关性;
能对搜索的信息进行有效的控制和过滤; 面向最终用户; 能与主题检索相互配合; 有丰富的信息输出。
网络信息分类组织与主题组织的关系 WWW的问世,使世界的信息传播和利用进入了一个崭新的时代;1994年后搜索引擎异军突起,给人们的信息查询带来巨大的便利,但单纯的自然语言检索经常会给你提供许多风马牛不相及的信息。表明信息数量越大,越需要受到控制。
信息的分类查询和主题查询是最基本的查询需要 信息的检索离不开分类和主题两种基本方法; 互联网上需要分类查询与主题查询的一体化。在特定知识范围内进行字顺检索;用特定的类限定字顺检索。
分类法在网络信息组织中的地位日益重要。
网络信息的自动分类问题 搜索引擎或门户网站的分类导航系统人工标引和维护与网络信息增长的矛盾,要求分类导航系统的自动标引和维护。 我们所讲的网络信息自动分类,是针对网站的整体,针对文本信息而言。
自动分类的类型和程序 类型:两种。 自动聚类,就是由计算机系统对待分类文本进行分析并提取有关特征,然后对提取的特征进行比较,根据一定的规则将具有相同或相近特征的对象定义为一类。
自动归类,就是计算机系统对待分类文本进行分析并提取有关的特征,然后与既定分类体系中对象所具有的公共特征进行相关性比较,将对象归入与其特征最相近的类中。基于词的自动分类和基于专家系统的自动分类。
程序,大体包括信息采集、文档表示、抽取分类特征、相似性匹配、网站信息整理等步骤。 网络机器人robot按一定规则和策略循环运行搜集信息。 加工网站主页信息,分析结构布局,判断网站主题范围。
对文本进行分词,抽取表达网站主题内容的语词;分析语词的重要程度、词频统计,给出权值,以确定哪些可作为网站主题内容的特征项。 将抽取的特征项与分类知识库所形成的矢量空间模型进行相似性匹配,以能涵盖各特征项的类目为主要类目,其他为次要类目。
编制网站的提要及其他说明标识。 经过标引、著录的网站存入索引数据库。 把网站加进分类导航系统,并自动进行排序。
第二节 网络信息分类法的编制 网络信息分类导航系统中查询界面、类目体系、各级类目及其链接的网络信息是它的分类法部分。 知识分类体系的构建。综合性搜索引擎与专业性搜索引擎或网站不同。
聚类的标准。主要标准“主题和专题”,学科和专业作为辅助标准;专业分类法可以学科或专业为主要聚类标准,或二者结合。 大类的设置。数量15~20个;大类设置要有较高的稳定性,通常一、二级类目构成网络信息分类法组织的核心框架。
分类体系展开的层次。它决定着分类导航系统、知识地图的详略程度;3~6级之间。 类目的种类:包括子类和网站两种。网站是分类系统展开的最末级,点击后进入不属于分类系统的网页。
Google.com网页目录 kids and teens>pre-school Categories: ABC’s and 123’s(56) games(33) shapes and colors(32)… Web pages: noggin-http://www.noggin.com/ kidsCom Jr-http://www.kidscomjr.com/…
多分类体系的运用。“主-从分类体系”。例如, sina.com.cn主分类体系 类目名称。准确、通用和精练。 多分类体系的运用。“主-从分类体系”。例如, sina.com.cn主分类体系 娱乐休闲、求职与招聘、艺术、生活服务、文学、计算机与互联网、教育就业、体育健身、医疗健康、社会文化、科学技术、社会科学、政治军事、新闻媒体、参考资料、个人主页、商业经济、少儿搜索
Sina.com.cn 的从分类体系 新闻、财经、娱乐、房产、女性游戏、旅游、校园、动漫、同学录、企业、短信体育、科技、音乐、汽车、……
类目的划分与设置 分类标准及使用次序。主题分类法,以事物为主要聚类标准;“多重列类”为网络分类法类目划分的重要方法。 类目的均衡性。同一级的各个类目包含的信息不应相差太悬殊,否则增加不必要的浏览路径,影响分类导航的效果。
Dir.Sina.com.cn(2005.9) 搜索分类>文学 小说(15441)网上书库(193) 网上书店(125)散文杂著(1325) 作家作品(10617)校园文学(2212) 影视文学(33)古典文学(994) 艺术(9341845)组织机构(19) 论坛聊天(64)
突出重点的类目。把信息量大、点击频率高的知识范畴突出列类。 类目设置的规律性。某些形式类目如果再按知识的内容细分,要尽量采取与传统分类法一致的做法。
类目交叉关系的处理 纵向等级关系的处理。从大类到各级类目均可设置必要的平行体系。 横向相关关系的处理。设置“交叉类目”。
类目与信息的排列 原则和方法。 类目排列:“内容相关”、“逻辑相关”、“形式相关”。 网站信息排列:重要程度、点击频率、字顺。
类目注释和说明:两种方式。 简练的文字指明该类所含/不包含内容范围; 列举下位类揭示本类内容范围,或提示重点、热点、隐藏较深的内容。
用户界面基本要求 视觉感觉友好; 不同的类目区分排列; 划分的子类与网站信息分别排列; 设置路径指示; 大类跳转要方便:固定栏目、下拉菜单、窗口等形式列出大类目录。
设置“帮助”:把用户查询中可能遇到的问题以及检索技巧等做成帮助文件,在检索界面设置,供用户在查询中随时调用。
Sina.com.cn 军事 武器装备 战争 军事演习 战略战术… 军事理论 军事论坛 军事文学 军事院校… 新闻媒体 组织机构 活动 …
yahoo.com web directories Education>higher education Categories_____________________ Academic competitions@ •books@ College and university planning(457)… Site listing by popularity______________ Mailbase-electronic mailing list service for research in higher education, enabling groups to manage their own discussion topics and associated files. …
Yahoo.com.cn 首页>医药与健康>疾病与症状>各种疾病与症状>霍乱 路径指示可以使用户在层层浏览中随时掌握自己所处的位置,也可以根据链接直接返回本类的任何一级类目。
第三节 网络信息的分类组织和著录 网络信息的分类标引。 网站的等级:搜索引擎或门户网站通常按一定标准(如内容新颖性、丰富详实程度、点击次数、被其他网站链接次数、网页设计等因素)划分若干等级,习惯上借用饭店的等级★表示。
网站的主题分析:主要依据网页提供的信息(名称、关键词、提要等)必要时浏览网站目录。 网站归类:充分、多视角揭示网站中有价值的知识内容和有检索意义的形式特征。处理好两个关系,即整体与局部、内容与形式。
网站信息著录。还没有统一的规范,网站应著录以下信息:网站名称、网站的编码方式、网站内容提要或关键词、网站的因特网地址、网站的生成时间、网页长度等等;著录中最重要的是网站名称和简介。著录之前要对搜集到的信息进行过滤。
Sina.com.cn 糖尿病治疗资讯网站[繁体]提供各国抗糖尿病组织及糖尿病信息网站链接。 Google.com kidscomJr- http://www.kidscomjr.com/ Features games, coloring pages, art projects, stories, and other interactive content.
本章小结 掌握:网络信息分类法与传统分类法的比较、网站信息的分类组织和著录有关内容。 熟悉:网络信息分类体系的构建;网络信息分类组织与主题组织的关系。 了解:网络信息、网络信息用户、网络技术环境的特点;网络信息分类法的功能;网络信息自动分类。