SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室.

Slides:



Advertisements
Similar presentations
電腦在生活上的應用 2-1 個人、家庭應用 2-2 教育方面應用 2-3 社會方面應用 2-4 職業方面應用.
Advertisements

怎樣睡的舒適又健康? 請把這封信轉寄給你所關心的人 睡姿最好採取半側臥,可保證全身放鬆,氣血順暢。不過 無論怎樣的睡姿,以「舒適放鬆」為最好。 中醫有「不通則痛」之說,良好的睡眠姿勢,保證週身氣 道通達, 血絡順暢,可以調氣養神,濡養脈絡,消除疲勞 ,滋養精神。「坐如鍾、站如松、臥如佛 …… 」我們的先人.
Go !报账去 ~ 中国科学技术大学财务报销及相关业务办理指南. 本次培训的主旨: 为了规范学校财务管理和会计基础工作,方便全校 教职工研究生等相关人员了解财务报销程序及报销要求 ,提高报销工作效率和质量,更好的服务全校师生,根 据国家财经法律、法规以及学校相关的财务管理制度规 定,结合我校财务工作的实际情况,进行本次培训。
2007 年 6 月 楚雄师范学院计科系 离 散 数 学 第三章 逻辑代数 ( 上 ) 命题演算.
牙拔除术. 牙拔除术 概述: ( extraction of teeth ) 口腔颌面外科最常用的手术, 治疗某些牙病和由其引起的局 部或全身一些疾病的手段 。
(一)辦桌文化起始略說: 1. 祭祀宗教 2. 生命禮儀 3. 外燴 --- 老師、師公、師傅、總鋪師 4. 搬桌搬椅時代 (二) 食物食材 1. 靠山考海 2. 基本:炒米粉、糍、檳榔 3. 小吃搬上桌 (三) 變變變 1. 調味不同 2. 師承不同 3. 地點也變.
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
明新科技大學 電子計算機中心 盧裕溢 中心主任 1.  系統建置歷程  資料收集與管理方式  系統整合  學習歷程資料呈現  基本能力與畢業門檻資料查詢  系所課程地圖與目標人才設定  目標人才與 104 職缺對應  E 履歷與 104 履歷串接  UCAN 職能平台測驗分析 
第4章 交易性金融资产与可供出售金融资产 学习目标
特奧田徑運動教練講習會 教學成果發表 特奧田徑運動~以100M訓練為例
一、流水贷主要规则介绍 流水贷主要准入规则 企业类型 中国大陆注册企业,生产型企业+贸易公司(个体工商户、个人独资企业均可准入)
傅林用心打造全方位社區診所 第14組 李怡欣 4A 謝欣庭 4A0F0087.
第四章 科學革命.
密云季庄小 学心理讲座 合理情绪 幸福生活 武金红 密云教研中心.
(4F01) 陳可兒 (4F03) 張令宜 (4F05) 何秀欣 (4F14) 潘美玲
西南科技大学《现代信息查询与利用》课程组
有关“政治课”与“政治”.
怎樣睡的舒適又健康? 請把這封信轉寄給你所關心的人 每 60 秒自動換頁 ,敬請慢慢體會 , 或按一下跳下頁 . 公 益‧分 享 音樂 :
104年度北區聯防組織分支組織組長會議暨說明會
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
万青翠 王少博 饶平 高月淑 陈佳佳 雷谦 李萍 夏海渊 杨勇 查丽 杨静
小学《人•自然•社会》 五年级教材解读 浙江省教育厅教研室 李 荆 -
輕歌妙舞送黃昏 組員名單 組長:程鵬飛 組員:黎達華 劉展鵬 邱迦欣.
汇报大纲 一、报送系统总体介绍 二、自查及检查评分报送流程 三、自查及检查方法及关键点 四、建议及注意事项.
怎樣睡的舒適又健康? 請把這封信轉寄給你所關心的人 每 60 秒自動換頁 ,敬請慢慢體會 , 或按一下跳下頁 .
宜点通账户策划.
期考議題 單元一:資訊科技(eg上網活動)與人際關係 單元二:青少年社政參與(80後) 單元二:郊野公園與房屋政策/問題
第二章 项目一:企业厂区与车间平面设计 1.
俄语语音学习讲义(板块一) 本讲义的目的是让外国学生在开始学习发音、阅读以及书写前熟悉所接触的俄语字母和语音.
大學多元入學方案 財務金融二 王詩茹.
第八章 网络课程的设计与开发.
木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿 SEWM 2007中文Web检索测评报告 木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿
华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢
数学运算.
中医针灸与病原生物 《病原生物与人类》课程小组 毛俊喆 王亦凡
官二代与富二代 黄士通 程敏怡 张雯英 陈嘉棉
人地關係 ── 熱帶雨林 人文活動對環境的影響.
水土保持工程施工階段監造管理之探討 授課老師:林俐玲 教授 指導老師:陳文福 教授 報告人: 顏廣智 學 號:
江苏如皋钢铁有限公司 行车司机、起重司索指挥人员安全知识培训 部门(单位)名称:安环部 李雄飞
俄语字母的发音体系 阅读规则.
互联网时代班主任的挑战 万玮 2014年9月20日.
國立花蓮女中101學年度 開學典禮簡報.
1.4 民用建筑的构造组成 1、基础 2、墙体和柱 3、屋顶 4、楼地层 5、楼梯 6、门窗 次要组成部分(阳台、雨蓬、台阶、散水等)
伯裘書院 環保廣告能否有效 地推動環保意識.
4H (1)歐宛曈 (9)李熹漩 (12)吳紀芙 (14)唐曉筠
幼儿园教学工作会议精神执行 ING…… 虹 口.
禪宗的教外別傳.
矿产资源储量管理
陋室铭 作者:刘禹锡.
陋室铭 作者:刘禹锡.
鄉村尋根-農具篇.
Vessel Management System
闪投智能创意操作手册 商务搜索部 闪投项目组
解放军医学图书馆ERMS电子资源管理系统工作汇报
第5章 其他数据库对象.
學生智育發展的目標 提升學習成效, 成為主動學習者。 高階能力 知識技能 基本能力 3a 邏輯思辯能力 3b 獨立思考能力 3c 分析能力
2012慈濟大學18週年校慶運動會 裁判研習 體育教學中心 張木山 教授.
兩漢戚宦掌權的政局 第二節 東漢的戚宦之爭.
南宁翰林华府 ——地中海风格与现代住宅的融合.
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
设岗申请 审核发布 岗位申请 助教培训 津贴发放 工作考核 授课教师 岗位要求 工作内容 开课单位 确定课程、岗位 发布需求 研究生
98年度兒童課後照顧學程 修課名單確認暨課程說明會 2009/09/15(二) 08:40~09:20.
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
阅读全文 Microsoft SharePoint 新闻
班級經營分享 主講人:吳姈娟 時間:104年3月4日.
聖經的獨特.
Section 2-2: 4 (6), 7, 12 (14), 13, 18 (16), 21, 25, 28, 30, 36, 46, 48, 50, 54a Section 3-1: 4 (2), 5, 10, 15, 20, 29, 32 Section 4-1: 3, 7, 8,
慧能的教外別傳.
自然语言处理培训课程提纲 Find Real Matter.
一 什麼是邏輯? 英文為Logic,是研究使人正確思考的一門學科。 邏輯與思考方法的關係:兩者其實是同實而異名。 Logic一詞的中譯:
Presentation transcript:

SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室

目录 主题型网页发现 网页内容信息块发现

系统设计流程 主题型网页发现-系统设计 对70th网页采用DSE算法进行去噪 提取区分主题型与非主题型网页的特征 每个网页用多维的特征向量表示 根据特征向量,采用svm算法对网页进行分类 找到主题型网页集合

特征属性 主题型网页发现-特征提取 根据对主题型网页与非主题型网页特征的 总结,本系统采用以下特征来区分两者: 链接标签占网页的所有标签的比率 链接文本内容占全文内容的比率 网页文本内容中标点符号的个数 网页URL的深度 网页URL的后缀 eg:.html,.asp,.shtml…

主题型网页发现-特征提取方法 特征值的计算方式 将所有的特征都转化为0~1之间的数值,其中后面三个特征值采用了概率统计的方式 Eg.根据人工判断的方式,获取2000个样本网页,1000个为主题型网页,1000个为非主题型网页 网页深度为0、1、2…的主题型网页数为m0、m1、m2…,非主题型网页数为n0、n1、n2…。则深度为i的网页,其特征向量在网页深度这一维的值为

主题型网页发现-特征提取方法 网页去噪 为了使网页中提取出来的特征,更好地区分两类网页,首先必须对网页去噪 采用网页内信息块发现任务中的DSE算法,将网页周边的广告链接去除后再提取特征

分类工具 Svm-light开源项目 分类流程 主题型网页发现-网页分类 特征提取 SVM训练 样本网页 样本特征向量 分类模型 特征提取 测试网页 网页特征向量 SVM分类 分好类的网页 分类模型

主题型网页发现-总结 总结 找到一些区分主题型与非主题型网页的特征 采用概率统计方法对特征进行数值化 采用SVM分类算法对网页进行分类

目录 主题型网页发现 网页内容信息块发现 9

主题网页信息抽取—概要 对象:主题网页 目标:抽取正文块并标识位置 方式:抽取主题块 = 网页去噪 选取算法:Data-rich Section Extraction 10

主题网页信息抽取—DSE的思路 同一Web Site的内容网页基本是基于同一模板生成,主题性网页的这一特征更加明显。 “同一模板”意味它们对应的DOM树结构相同 同一模板的噪音结点虽然内容不同,但结构均一致 包含正文块的内容结点的结构基本不一致

主题网页信息抽取—DSE方法 基本步骤: 选取跟目标网页匹配的样本网页 对目标网页和样本网页进行匹配 即找到跟目标网页具有相似url的网页 12

主题网页信息抽取— DSE

主题网页信息抽取— 我们的改善(1) 发现“相似URL”过程的改进 DSE的缺点:I/O开销大 改进: 对70th个网页进行域名聚类 对url的域名进行索引(lucene),从而减少搜索url列表时的时空开销 14

主题网页信息抽取— 我们的改善(2) DSE算法的局限:某些网页,类似新浪博客的网页,匹配过滤后依然保留大量的导航结点 改善:加入“内容块链接内容比”

主题网页信息抽取— 内容链接比的做法 DSE算法:仅仅是网页结构比较 内容链接比:内容角度的分析 锚文本与正文块的比例 过滤因子:0.33

主题网页信息抽取—流程 网页 预处理 相似URL发现 Dom Tree Match-ing Link Ratio DSE

总结 主要针对主题型网页进行块抽取 考察了URL相似度对DSE的影响 链接内容比的过滤效果

应用到搜索引擎的优化:基于主题块的索引以及检索 展望 DSE算法的鲁棒性 应用到搜索引擎的优化:基于主题块的索引以及检索

谢谢大家!欢迎交流!