Download presentation
Presentation is loading. Please wait.
Published byふじよし うるしはた Modified 5年之前
1
SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室
2
目录 主题型网页发现 网页内容信息块发现
3
系统设计流程 主题型网页发现-系统设计 对70th网页采用DSE算法进行去噪 提取区分主题型与非主题型网页的特征
每个网页用多维的特征向量表示 根据特征向量,采用svm算法对网页进行分类 找到主题型网页集合
4
特征属性 主题型网页发现-特征提取 根据对主题型网页与非主题型网页特征的 总结,本系统采用以下特征来区分两者:
链接标签占网页的所有标签的比率 链接文本内容占全文内容的比率 网页文本内容中标点符号的个数 网页URL的深度 网页URL的后缀 eg:.html,.asp,.shtml…
5
主题型网页发现-特征提取方法 特征值的计算方式 将所有的特征都转化为0~1之间的数值,其中后面三个特征值采用了概率统计的方式
Eg.根据人工判断的方式,获取2000个样本网页,1000个为主题型网页,1000个为非主题型网页 网页深度为0、1、2…的主题型网页数为m0、m1、m2…,非主题型网页数为n0、n1、n2…。则深度为i的网页,其特征向量在网页深度这一维的值为
6
主题型网页发现-特征提取方法 网页去噪 为了使网页中提取出来的特征,更好地区分两类网页,首先必须对网页去噪
采用网页内信息块发现任务中的DSE算法,将网页周边的广告链接去除后再提取特征
7
分类工具 Svm-light开源项目 分类流程 主题型网页发现-网页分类 特征提取 SVM训练 样本网页 样本特征向量 分类模型 特征提取
测试网页 网页特征向量 SVM分类 分好类的网页 分类模型
8
主题型网页发现-总结 总结 找到一些区分主题型与非主题型网页的特征 采用概率统计方法对特征进行数值化 采用SVM分类算法对网页进行分类
9
目录 主题型网页发现 网页内容信息块发现 9
10
主题网页信息抽取—概要 对象:主题网页 目标:抽取正文块并标识位置 方式:抽取主题块 = 网页去噪
选取算法:Data-rich Section Extraction 10
11
主题网页信息抽取—DSE的思路 同一Web Site的内容网页基本是基于同一模板生成,主题性网页的这一特征更加明显。
“同一模板”意味它们对应的DOM树结构相同 同一模板的噪音结点虽然内容不同,但结构均一致 包含正文块的内容结点的结构基本不一致
12
主题网页信息抽取—DSE方法 基本步骤: 选取跟目标网页匹配的样本网页 对目标网页和样本网页进行匹配 即找到跟目标网页具有相似url的网页
12
13
主题网页信息抽取— DSE
14
主题网页信息抽取— 我们的改善(1) 发现“相似URL”过程的改进 DSE的缺点:I/O开销大 改进: 对70th个网页进行域名聚类
对url的域名进行索引(lucene),从而减少搜索url列表时的时空开销 14
15
主题网页信息抽取— 我们的改善(2) DSE算法的局限:某些网页,类似新浪博客的网页,匹配过滤后依然保留大量的导航结点
改善:加入“内容块链接内容比”
16
主题网页信息抽取— 内容链接比的做法 DSE算法:仅仅是网页结构比较 内容链接比:内容角度的分析 锚文本与正文块的比例 过滤因子:0.33
17
主题网页信息抽取—流程 网页 预处理 相似URL发现 Dom Tree Match-ing Link Ratio DSE
18
总结 主要针对主题型网页进行块抽取 考察了URL相似度对DSE的影响 链接内容比的过滤效果
19
应用到搜索引擎的优化:基于主题块的索引以及检索
展望 DSE算法的鲁棒性 应用到搜索引擎的优化:基于主题块的索引以及检索
20
谢谢大家!欢迎交流!
Similar presentations