Presentation is loading. Please wait.

Presentation is loading. Please wait.

SEWM2006 Web检索 山东大学 陈竹敏.

Similar presentations


Presentation on theme: "SEWM2006 Web检索 山东大学 陈竹敏."— Presentation transcript:

1 SEWM2006 Web检索 山东大学 陈竹敏

2 Contents 1 任务分析 2 实现过程 3 问题讨论及下一步工作 山东大学

3 任务分析 主题提取-查找主题相关的关键资源的入口 导航搜索 最靠前的并不一定是最好的 一般是搜索出的结果中同一网站的深度最少的URL
判断主页还是指定页面 主页查找-查找指定名字的网站的首页 找出同一网站中URL的主页 指定页面查找-查找指定名字的页面 山东大学

4 实现过程 CWT20G 解压 预处理 分词 匹配度 简 化 的 Pagerank 二次调整 排序调整 检索 索引 请求预处理 主题查询
主题需求_链接分析 Pagerank 二次调整 排序调整 检索 索引 指定页面 主页_链接分析 请求预处理 主题查询 导航搜索 山东大学

5 实现过程-2 解压-直接使用北大提供的解压程序。 预处理
HTML标记数量有限统计了400M数据中出现的标记及其出现的次数+标记的意义标记分类+权重分配 1.去掉不要的 2.找到想要的 √ 分为:title content 山东大学

6 实现过程-2 分词-中科院免费分词软件。 索引-开源软件Lucene。 请求预处理 根据不同的任务采用不同的调整策略。
导航搜索-可以很容易的区分是查找主页还是指定页面。 分词,特征表示。 山东大学

7 对同一网站检索出的结果找到最上层的URL
实现过程-3 二次调整 根据简化的Pagerank进行重排序。 根据不同任务的特点采用不同的调整策略。 20G 链接库 初始检 索结果 聚类 对同一网站检索出的结果找到最上层的URL 链入链出 所有链入 链出链接 主题检索 指定页面 二次调整结果 简化Pagerank 排序调整 聚类 找到主页 链入链出 主页 山东大学

8 试验环境 硬件: CPU PⅣ 2.8Ghz 内存 512M 操作系统: Windows 编程语言: Java

9 问题讨论及下一步工作 解压异常 预处理-对最终的结果影响很大. 分词-对最终的结果影响很大. 针对主题提取改进排序及查找算法.
370万260万 预处理-对最终的结果影响很大. 去噪不完全 乱码 分词-对最终的结果影响很大. 针对主题提取改进排序及查找算法. 山东大学

10 Thank You !


Download ppt "SEWM2006 Web检索 山东大学 陈竹敏."

Similar presentations


Ads by Google