Presentation is loading. Please wait.

Presentation is loading. Please wait.

网络信息检索与采集 ——检索方法 主讲人:许珍 王国硕.

Similar presentations


Presentation on theme: "网络信息检索与采集 ——检索方法 主讲人:许珍 王国硕."— Presentation transcript:

1 网络信息检索与采集 ——检索方法 主讲人:许珍 王国硕

2 检索方法 布尔逻辑检索 邻近检索 短语检索 截词检索 字段限制检索 括号检索 自然语言检索 多语种检索 模糊检索 区分大小写检索

3 1.布尔逻辑检索(Boolean Logic)

4 一个班级内, 喜欢篮球的30人, 喜欢足球的20人, 喜欢足球并且喜欢篮球的有5人, 问:1.喜欢篮球或喜欢足球的有多少人? 2.喜欢篮球但不喜欢足球的有多少人?

5 逻辑与 具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示。 检索词A和检索词B用“与”组配,检索式为:
   A AND B,或者 A * B  它表示检出同时含有A、B两个检索词的记录。

6 逻辑或 计算机运算符为:A or B 或A+B 检出记录中含有检索词A或检索词B的文献

7 逻辑非 计算机运算符为:A not B 或A and not B或A-B 在含检索词A的记录中,去掉含检索词B的记录

8 检索词A和B 的逻辑组配关系:

9

10 (1)“计算机” AND ”文献检索” (2)“计算机” OR “文献检索” (3)“计算机” NOT “文献检索”
1.CNKI 上实训操作。 2.百度上实训操作。

11 () * + 网络舆情AND (监测 OR 分析) 网络舆情AND 监测 OR 分析

12 CNKI :布尔逻辑选项 百度: AND:_ OR: _|_ NOT: _-(***)

13 布尔逻辑的强化与推广应用

14 构造检索式

15 (1)胰岛素治疗糖尿病

16 (2)北京地区或上海地区的大气污染

17 (3)动物的乙肝病毒(不要人的)

18 (4)工业模具设计与制作

19 (5)因特网之外的计算机相关文献

20 (6)因特网之外的计算机的ppt文档

21

22

23

24

25 查找有关电脑病毒的信息。

26 布尔逻辑练习题

27 例子: q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗…
哪些文档会被检索出来? 

28

29 想查关于今年中国好声音16进4比赛的新闻,用布尔模型怎么构造查询?

30 参考: (2014 OR 今年) AND 中国好声音AND (16进4 OR 十六进四 OR 十六 AND 进AND 四) 表达式相当复杂,构造困难!

31 2、临近检索(位置检索) 多在商业数据库中使用 例: Dialog系统,最复杂 世界上最强大的国际联机检索系统

32

33

34 (1)(W)与(nW)算符: (w)两侧的检索词必须按先后顺序出现在记录中,在两词之间不允许插入其他词; (nW)中的n表示两侧的检索词中间允许插入的词量少于或等于n个 .

35 如:building(W)construction
命中: building construction ; building-construction

36 building(1W)construction
命中:building and construction ; building under construction ; building construction ; building-construction

37 building(2W)construction 命中: building design and construction ; building code and construction ; building in composite construction

38 (2)(N)与(nN)算符 N是near的缩写,(N)表示其两侧的检索词位置可以倒置,在两词之间不能插词; (nN)中的n表示允许插词的词量少于或等于n个。

39 information (1N)retrieval
命中:information retrieval ; retrieval of information

40 cross (1N) section 命中: cross section section of cross

41 (3)(F)算符 (字段内词间与运算) 要求在F算符两侧的检索词出现在同一字段中,词序可变,字段类型用字段标识作后缀。 如:online (F) retrieval/ DE, TI

42 (4)(S)算符 “(S)”中的“S”算符是“Sub-field/sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例如,在文摘中的一个句子就是一个子字段),此信息即被命中。 Solar(S)heat

43 (5)(L)算符 L是link的缩写,表示其两侧的检索词之间有主从关系,前者为主,后者为副。L可用来连接主、副标题词,它们被列在记录的规范词字段( SU, DE)。 如: air pollution(L)control 命中:air pollution-control

44 (6) NOT Not W Not N Not S Not F Not L

45 A. Sichuan university B. Sichuan-university C. university at Sichuan D. Sichuan Normal University  E. university,Sichuan 检索式: 1. Sichuan(W)university 2. Sichuan(2W)university 3. Sichuan(N)university 4. Sichuan(2N)university

46 Dialog.

47 3、短语检索 “” 精确检索又称之为字符串检索、短语检索。 几乎所有的搜索引擎读支持精确检索

48 适用短语检索的情况: 机构名称、人名、地名、专业术语等检索 四川文化产业职业学院 世界贸易组织 乔治·华盛顿 峨边彝族自治县 知识产权

49 查找与文化产业职业学院信息的微博数量,学校名称要求精确。
搜索平台:百度

50 Txt:四川文化产业职业学院 site:weibo.com

51

52

53

54

55

56

57 4、截词检索 截词(truncation) 用“?”号(有些系统中用“*” 或“#” )加在检索词的词干或不完整的词形后(或中间),用以表达一组概念相关的检索词。

58 截词检索与截词检索算符 一般仅允许有限截断 economic 无限截断 economics 后截断 如: economic*
economicst 有限截断 economicalism economic 如: economic?? ? economics 前截断 如: ?lish economicst 有限截断 无限截断 中截断 sulfur woman 一般仅允许有限截断 如:wom?n sul*ur women sulphur 前后截断 如: ?computer?可检出: computer、computers、 computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers March 17, 2017

59 (1)非限制性截词 是在词干后面加上一个“*”号,表示允许在词干后出现的字符数不限 。 如:comput* 命中包含下列词的文献: compute;computed;computer;computing;computers;computable;computations;computerize; computerization

60 相当于检索式为: compute or computed or computer or computing or ….. 用途: (1)提高查全率; (2)提高检索效率

61 (2)限制性截词 是对词干后或词中间出现的字符数的限定,用“?”号的个数表示允许出现的字符个数。 如: analy?e? 命中:analyzer ; analyses

62 再如:work??? 命中:work”、“works”、“worker”、 “workers”及“working work? □? 命中:work”和“works” 注意:适用于自由词检索

63 physic 药品,给药 physical 物理的,物质的 physician 内科医生 physicians 内科医生 physicists 物理学家 physics 物理学 physicalism 物理主义 physicochemistry 物理化学

64

65

66 5、字段限制检索 字段限制检索(field limiting)
Title:、ubject:、Keyword:、Summary:、Image:、text:、Applet:、host:、anchor:、domain:、site:、url:、from:等。

67 搜索引擎常用字段 Domain:域名:指定域中搜索主页。 Host:主机名 :指定主机中搜索主页。
Image:文件名:搜索包含指定图像文件名的主页。 Link: 搜索包含指定链接的主页。 Text:文章 :搜索包含指定文本的主页。 Title:文本:搜索标题中包含指定文本的主页。 url:文本 :搜索URL 中包含指定文本的主页。

68

69 百度支持: inurl 与 site domain

70

71 文献数据库常用字段 标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报告号、ISBN、ISSN

72 文献数据库常用字段 英文名称 代码 中文名字 英文全称 Title ti 标题 Journal jn 期刊名称 Abstract ab 文摘
Source so 来源出版物 Keywords kw 关键词 Language la 语种 Subject、Topic su 主题词 Document Type dt 文献类型 Author au 作者 Publication Year py 出版年代 Full-text ft 全文 Document No dn 记录号 Corporate Source co 单位/机构 Country 出版国

73

74

75

76

77

78

79 Title(ti): Sichuan University
url:gov.cn Py>=2009 La=english Link: whitehouse.gov admission AND site: AU=Wang li AND (CS=wuhan Univ.)

80 例如: (minicomputer/DE, TI OR personal computer/ID, TI)AND PY=2008 AND LA=English 这个检索式所表达的检索要求是:查找2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的叙词字段、标题字段出现,“个人电脑”一词在命中文献的自由词字段出现。

81 输入“金庸 古龙 site:sina.com.cn”
(1)限定网站 【实例】 搜索包含“金庸”和“古龙”的中文新浪网站页面。 输入“金庸 古龙 site:sina.com.cn”

82 (2)限定网页 【实例】查找MIDI曲“沧海一声笑”。 “inurl:midi 沧海一声笑”

83 “inurl:security windows2000 site:microsoft.com”
【实例】 查找微软网站上关于windows2000的安全课题资料。 “inurl:security windows2000 site:microsoft.com”

84 (3)限定文件类型 filetype的用法: filetype:格式 关键词 OR 关键词 filetype:格式 例如: 服务器安全 filetype:doc filetype:doc 服务器安全 搜索包含“策划方案”关键词的Office 文件。 关键词:“策划方案 filetype:doc OR filetype:ppt”。

85 6. 括号检索 改变运算先后顺序。 cnki

86 7 自然语言检索(Natural Language)
Could you please give me some information on English literature? 特别适合不熟悉网络检索技术的用户 EXCITE ASKJeeves

87

88

89 8. 多语种检索

90

91 AltaVista提供20余种语言的查询服务,使用专门的语言识别技术,使不同语言的网页资料保存在同一个资料库中,从而以一个庞大的搜索引擎,提供各种语言的搜索。其主页面为英文。

92 9 模糊检索(Fuzzy Search) 概念检索 相关检索 检索→检索,搜索,查找,寻求…….

93 计算机

94

95

96 10 区分大小写检索(Case-sensitive)
china--china,China,CHINA Windows, windows windows AND design

97

98 加权检索、音形一致的检索、词根检索


Download ppt "网络信息检索与采集 ——检索方法 主讲人:许珍 王国硕."

Similar presentations


Ads by Google