木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿 http://search.scut.edu.cn SEWM 2007中文Web检索测评报告 木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿 http://search.scut.edu.cn
目录 系统设计 运行结果 总结与展望
系统设计 基于Nutch实现; 对URL、Title、Anchor text、Content进行索引; 应用PageRank算法; 加入中文分词模块;
系统框架——索引 转换成nutch的格式 中 文 分 词 网页 文档库 索引库 链 接 分 析 链接库 锚点文本 网页url 网页标题 网页主题内容 转换成nutch的格式 中 文 分 词 网页 文档库 索引库 链 接 分 析 链接库 简单pagerank (SPR)算法
中文分词:使用两组词库 采用正向最大匹配算法 分别使用两组词库,测试词库对检索结果的影响 小词库:包含6万个常用词 大词库:采用搜狐研发中心免费提供的搜狗互联网词库 互联网词库来自于对搜狗搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。
系统框架——检索 索引库 TD: 查询扩展 用户输入查询词 检索策略 结果 NP/HP: 对title域进行不同的加权
检索策略:TD扩展查询 自动抽取baidu的相关搜索,对查询词进行扩展,比如: <top> <num>Number:TD216 <title>计算机等级考试</title> <desc>Description: 查找与计算机等级考试有关的比较全面的信息,等级考试的介绍,考题答疑,考试大纲,考试试题等 </top>
百度相关搜索 扩展后为:计算机等级考试时间、国家计算机等级考试、计算机等级考试网、计算机等级考试查询、计算机等级考试试题、电脑等级考试、江苏计算机等级考试、2007计算机等级考试 用扩展后的查询词搜索,每个查询词均返回300条结果; 合并扩展查询结果。
检索策略:NPHP对Title域进行不同加权 我们发现,对于NPHP任务,Title域显得比其他url域和contont域更加重要。 于是,我们对Title域设定不同的权值,取值范围在1~15,并使用去年导航搜索在200g上的答案进行测试。测试结果表明,权值为10的时候效果最佳,权值为3次之。 title : anchor text : content = 10 : 2 : 1 title : anchor text : content = 3 : 2: 1
二次排序 TD:主要进行url简单聚类,将同一网站的得分最高的url放到最前 对于查询扩展 对每个扩展词的300条结果进行站内聚合,并将每个网站内的ROOT、SUBROOT、url深度小于3的PATH的url提前 对所有被提前的网页按照得分排序,并尽量保证前十条出现不同网站的url,将这些网页放在结果集的前面; 对其他网页按照得分进行排序,按顺序排列在前面得到的结果的后面。
NPHP二次排序 对搜索结果进行二次排序。算法主要是基于sewm2006的论文《基于URL类型优先级入口页面查询算法》。
CWT200g—TD结果 √ 序号 中文分词 (小词库) (互联网词库) 扩展查询 PageRank 二次排序 RUN1 RUN2 RUN3
CWT200g—NPHP结果 √ RUN1 RUN2 RUN3 RUN4 RUN5 序号 中文分词 (小词库) (互联网词库) PageRank 二次排序 Title域权重 RUN1 √ 10 RUN2 RUN3 3 RUN4 RUN5
总结 主要测试了中文分词模块中,互联网词库对检索结果的影响 考察了Title设置不同的权重对NPHP结果的影响 利用百度相关搜索进行扩展查询
展望 使用百度相关搜索进行扩展查询也存在问题,很多相关查询没有结果,例如,“2007计算机等级考试”。最好的方式是根据描述来自动产生扩展查询词。 尝试将分类、聚类应用到检索任务中,提高检索精度
谢谢大家!欢迎交流!