SEWM 2008中文Web检索评测报告木棉队魏本洁何章鸿毛志科黄翀民李浩文胜华南理工大学广东省计算机网络重点实验室.

SEWM 2008中文Web检索评测报告木棉队魏本洁何章鸿毛志科黄翀民李浩文胜华南理工大学广东省计算机网络重点实验室

目录主题型网页发现网页内容信息块发现

系统设计流程主题型网页发现-系统设计对70th网页采用DSE算法进行去噪提取区分主题型与非主题型网页的特征
每个网页用多维的特征向量表示根据特征向量，采用svm算法对网页进行分类找到主题型网页集合

特征属性主题型网页发现-特征提取根据对主题型网页与非主题型网页特征的总结，本系统采用以下特征来区分两者：
链接标签占网页的所有标签的比率链接文本内容占全文内容的比率网页文本内容中标点符号的个数网页URL的深度网页URL的后缀 eg:.html,.asp,.shtml…

主题型网页发现-特征提取方法特征值的计算方式将所有的特征都转化为0～1之间的数值，其中后面三个特征值采用了概率统计的方式
Eg.根据人工判断的方式，获取2000个样本网页，1000个为主题型网页，1000个为非主题型网页网页深度为0、1、2…的主题型网页数为m0、m1、m2…，非主题型网页数为n0、n1、n2…。则深度为i的网页，其特征向量在网页深度这一维的值为

主题型网页发现-特征提取方法网页去噪为了使网页中提取出来的特征，更好地区分两类网页，首先必须对网页去噪
采用网页内信息块发现任务中的DSE算法，将网页周边的广告链接去除后再提取特征

分类工具 Svm-light开源项目分类流程主题型网页发现-网页分类特征提取 SVM训练样本网页样本特征向量分类模型特征提取
测试网页网页特征向量 SVM分类分好类的网页分类模型

主题型网页发现-总结总结找到一些区分主题型与非主题型网页的特征采用概率统计方法对特征进行数值化采用SVM分类算法对网页进行分类

目录主题型网页发现网页内容信息块发现 9

主题网页信息抽取—概要对象：主题网页目标：抽取正文块并标识位置方式：抽取主题块 = 网页去噪
选取算法：Data-rich Section Extraction 10

主题网页信息抽取—DSE的思路同一Web Site的内容网页基本是基于同一模板生成，主题性网页的这一特征更加明显。
“同一模板”意味它们对应的DOM树结构相同同一模板的噪音结点虽然内容不同，但结构均一致包含正文块的内容结点的结构基本不一致

主题网页信息抽取—DSE方法基本步骤: 选取跟目标网页匹配的样本网页对目标网页和样本网页进行匹配即找到跟目标网页具有相似url的网页
12

主题网页信息抽取— DSE

主题网页信息抽取— 我们的改善（1）发现“相似URL”过程的改进 DSE的缺点：I/O开销大改进：对70th个网页进行域名聚类
对url的域名进行索引（lucene），从而减少搜索url列表时的时空开销 14

主题网页信息抽取— 我们的改善（2） DSE算法的局限：某些网页，类似新浪博客的网页，匹配过滤后依然保留大量的导航结点
改善：加入“内容块链接内容比”

主题网页信息抽取— 内容链接比的做法 DSE算法：仅仅是网页结构比较内容链接比：内容角度的分析锚文本与正文块的比例过滤因子:0.33

主题网页信息抽取—流程网页预处理相似URL发现 Dom Tree Match-ing Link Ratio DSE

总结主要针对主题型网页进行块抽取考察了URL相似度对DSE的影响链接内容比的过滤效果

应用到搜索引擎的优化：基于主题块的索引以及检索
展望 DSE算法的鲁棒性应用到搜索引擎的优化：基于主题块的索引以及检索

谢谢大家！欢迎交流！

SEWM 2008中文Web检索评测报告木棉队魏本洁何章鸿毛志科黄翀民李浩文胜华南理工大学广东省计算机网络重点实验室.

Similar presentations

Presentation on theme: "SEWM 2008中文Web检索评测报告木棉队魏本洁何章鸿毛志科黄翀民李浩文胜华南理工大学广东省计算机网络重点实验室."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室.

Similar presentations

Presentation on theme: "SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室."— Presentation transcript:

Similar presentations

About project

反馈

SEWM 2008中文Web检索评测报告木棉队魏本洁何章鸿毛志科黄翀民李浩文胜华南理工大学广东省计算机网络重点实验室.

Presentation on theme: "SEWM 2008中文Web检索评测报告木棉队魏本洁何章鸿毛志科黄翀民李浩文胜华南理工大学广东省计算机网络重点实验室."— Presentation transcript: