华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢

Slides:



Advertisements
Similar presentations
我国国有银行 资本构成及资本充足率变化 小组成员:金融 尹佳裕 王淼 刘钰 金融 吴昱.
Advertisements

醫學美學之我見ー肉毒桿菌 班級:應日三乙 姓名:蔡雅卉 學號: 497E0076. 前言 現在的人,已經把 整型看做是微不足 道的事情了。即使 只是戴牙套、局部 雷射、割雙眼皮、 打美白針、肉毒桿 菌等等,都可以在 身體上做不同的改 變,而讓自己更滿 意自己的外表。
组长:倪运超 小组成员:徐悦、曹吕卿、孙浩、徐圣尧.  上海的历史 上海的历史  上海的历史 上海的历史  上海的文化 —— 建筑 上海的文化 —— 建筑  上海的文化 —— 美食 上海的文化 —— 美食  香港的历史 香港的历史  香港的历史 香港的历史  香港的文化 —— 建筑 香港的文化.
經絡按摩 自我保健 陳潮宗 中醫師. 養生按摩的秘訣養生按摩的秘訣  髮常梳,面常擦,  目常運,鼻常揩,  齒常叩,耳常彈,  足常搓,肢常搖,  腹常摩。
一、 突出解析几何复习中的重点问题的通法通解 解析几何中的重点问题 一、 突出解析几何复习中的重点问题的通法通解 直线与圆锥曲线的位置关系 重点一.
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
端午節. 由於以前五月又稱為「午月」,所以農曆五月五日稱為 「端五」、「重五」或「重午」。在這一天,人 ? 特別重視 正午的活動,這個時候陽光最強烈,所以端午節也稱為 「端陽節」。同時,因為在這天有懸掛菖蒲習俗,所以也 有人稱之為「蒲節」。到了民國二十八年以後,這一天又 被訂為「詩人節」,以紀念屈原的崇高人格和文學成就。
寒假之 南投參訪.
PC DIY達人培訓班 主辦單位:東海高中資訊科 報告人:李宏傑.
第十三章 中国的传统科学技术 中国古代的科技曾经长期处于世界领先地位,对人类文明的进步作出过重要贡献,并形成了富有特色的科技文化。在今天,源自中国古代科技文化的中医学仍然在现实生活中发挥着积极的作用。
環保又健康の烤肉秘笈 用最簡單的方式品嚐烤肉的美味, 創造一段家人共同的美味回憶。.
心性修行的壓力管理 報告者:王柏壽.
讲故事训练 授课人:田轶.
调理肠胃汤水.
第十一課 菜園 6-11.
國內-觀光景點 ★賴家祥★ 二年九班 五號 指導:謝榮芳 北部景點 中部景點 南部景點 東部景點.
农业银行网上签约流程 宁夏金溢投资 内部资料 1.
~【和植物做朋友】~特殊兒童園藝系列活動
專案製作經驗談.
校本选修课 第三专题 西藏问题 北京师大二附中 李文燕.
岡山區103年第12次 登革熱聯繫會報會議 岡山區公所 103年12月30日 1.
雄伟的金字塔.
講師:郝神奇.
第三讲 站点链接与表格布局.
家乐福促销分析报告 第二部分 促销分析(二).
甜品世界 编者:周芷冰 周晴 卓奕敏.
第八章 网络课程的设计与开发.
浙江分市场部 (吴青 陈敏扬制).
汽车工程学院 卓越引领 温馨小家 2016年1月.
Web图片搜索引擎设计 ——基于文本的图片信息提取.
二下校外教學行前介紹 新竹老鍋農場.
騎遍大街小巷 城 中 國 小 曾禎祥 詹惠婷 陳婉誼.
幸福大讲堂 也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述 主讲:钱锡安
正修科技大學教學發展中心 教師教學觀摩與經驗分享 電子工程系 張法憲副教授.
實驗DIY1:玻璃水、密度 實驗DIY2 :火與冰、溶液的變色 實驗DIY3 :家庭科學、泡泡研究 實驗DIY4 :燃燒金屬、敲擊粒子 實驗DIY5 :燃料、沸點 實驗DIY6 :無重力、重力 實驗DIY7 :燈光、馬達 實驗DIY8 :電磁感應、電磁力 實驗DIY9 :電池、顯微鏡.
冰 淇 淋 DIY 五年仁班 鍾 安.
金門縣重大空難應變機制-消防局 壹、消防搶救、滅火、緊急救護 一、派遣作為:
俄语字母的发音体系 阅读规则.
德育视野下的 中小学生命教育 上海市小学德育研究协会 芮彭年
展覽簡介.
薛鴻基 物理治療師 台大物理治療學研究所碩士 教育部部訂講師
互联网时代班主任的挑战 万玮 2014年9月20日.
桃園縣國教輔導團 國中本國語文團隊桃園國中盧翠芳 2012/03/18
蘇軾詞的賞析
开 学 第 一 课 六年级3班.
柯奕宏(06) 王予亨(13) 郭秉逸(15) 楊雯凈(23) 顏佑瑩(32)
第十五章 传播学调查研究方法.
自然與生活科技領域 認識太陽能 蘇紋琪、石明玉.
故事劇場與創意故事說演技巧 臺中市惠文國小校長 曾金美.
 全能的天才畫家- 李奧納多‧達文西 (西元1452年-1519年) 指導老師:袁淑芬老師 製作人:饒佩芯.
單親家庭研究報告 指導老師:吳麗雲 老師 班級:四幼一A 組員:許瑞玲13 陳婉柔15 朱怡秋19 黃家儀20 盧亭羽21 王怡淨22 李誼庭33 蔡雅憓44 黃瀞儀45.
鄉村尋根-農具篇.
認識我的故鄉_台中市.
98/7/18-19 空大校友總會全國幹部研習 暨學術研討活動紀錄
環境教育宣導 資源垃圾回收創作DIY 卓蘭國小衛生組 100年11月16日.
第七單元 樂器的發音 吳端敏 製.
〝紙〞要玩創意 授課老師:李美娟 2000/9/18.
精忠报国  演唱:屠洪纲 作词:陈涛 作曲:张宏光  狼烟起 江山北望  龙起卷 马长嘶 剑气如霜  心似黄河水茫茫  二十年 纵横间 谁能相抗  恨欲狂 长刀所向  多少手足忠魂埋骨它乡  何惜百死报家国  忍叹惜 更无语 血泪满眶  马蹄南去 人北望  人北望 草青黄 尘飞扬  我愿守土复开疆  堂堂中国要让四方来贺.
活動5 流鼻血處理 頭稍往前傾,用食指和大拇指按壓鼻翼5~10分鐘,並用嘴巴呼吸。如果血流不止,要立刻送醫。
日常生活教育 袁卿文 老師主講 李麗秋 老師彙整 99年10月22日.
樂樂請假了 尊重的故事 資料來源:臺北縣國民小學品德教育手冊 故事來源:臺北縣國民小學品德教育手冊 網路小故事
臺北市國民小學101年度基本學力檢測國語文內容向度分析報告
當伏打遇到愛迪生.
外埔國小104學年度下學期期初校務會議 吳文芳 校長 105/02/17.
聽聽那冷雨---重點摘要 二愛 王煜榕.
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
憲政與民主 應化3A 邱泓明.
古蹟知性之旅 我和新港奉天宮有個約 報告人:陳 映 竹 傅 湘 甯.
電子表單 簡介 高雄市鳳山區新甲國小 陳信宏.
Presentation transcript:

华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢 主题型网页发现以及网页内信息块发现 华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢

主题型网页发现

目录 特征分析 算法设计 结果分析 不足与改进

特征分析 主题型网页特征: 文字较多(非锚文本) URL较长 链接较少 主题型网页的主体在于“文字”,相对于导航型网页,其链接数较少。 主题型网页一般都有明显的文本段落,文字较多,相应的标点符号也较多。 URL较长 在一般的Web网站链接导航树上,主题型网页主要分布于底层,多为叶节点。对于同一网站而言,主题型网页的URL相对较长。URL体现了网站内容管理的层次,对于大型网站而言,URL往往非常有规律。 链接较少 主题型网页的主体在于“文字”,相对于导航型网页,其链接数较少。

特征分析 非主题型网页特征 文字较少 非主题型网页的主体是链接,图像,或者其它形式的内容,文字较少 链接较多 URL较短 对于导航型网页而言,链接是其主要内容 URL较短 导航型网页的URL层数较少,且多为目录型URL

特征分析 网页噪音特征 多以链接的形式出现 有很多锚文本,但标点符号较少 有许多常见的噪音文本,如版权声明等 在视觉上,多出现于网页的边缘

算法设计 主题型网页发现:对网页进行二元分类 分类过程分为三个阶段: 阶段1: 阶段2: 阶段3: 根据主题型网页的重要特征进行分类,这些重要特征主要包括:标点符号数目,文字数目。无需复杂算法,只需设置特征阈值。 阶段2: 对在阶段1中无法确定分类的网页,提取更多的特征,利用分类器(如支持向量机)进行进一步的分类。这一阶段的特征有:URL层数、URL中数字的个数、文字数目、标点符号数目等。 阶段3: 经过上面两个阶段的分类之后,对主题型网页进行信息块抽取,根据抽取结果的反馈,进一步筛选网页,去掉非主题型网页。

网页数据 网页去噪 阶段1 抽取网页重要特征 根据特征阈值判断 判断为非主题型网页 判断为主题型网页 难以判断 阶段2 进一步抽取网页特征 分类器分类 判断为非主题型网页 判断为主题型网页 阶段3 信息块抽取 反馈 进一步去除非主题型网页

算法设计 关键1:网页去噪 利用HTML分析工具(HtmlParser)去除所有脚本代码 去除网页中的所有锚文本 过滤常见的噪音文本 网页噪音多为广告,以链接的形式出现 过滤常见的噪音文本 去掉以非锚文本形式出现的网页噪音

算法设计 关键2:特征阈值设定 重要特征: 网页正文内容中的中文句号和逗号的数目 URL层数 URL是否为目录型,是否包含某些特殊关键字 …… 阈值设置:抽样测试表明,当网页的句号和逗号数目超过20个时,绝大部分的网页为主题型网页;当句号和逗号数目少于5时,绝大部分的网页为非主题型网页; 当URL层数为1时,绝大部分的网页为非主题型网页; 当URL为目录型URL时,绝大部分的网页为非主题型网页;

算法设计 关键3:分类器 分类器的选择 分类器的特征选择 有监督分类器:支持向量机 无监督分类器:KNN聚类 网页正文文字数目 网页正文标点符号数目 URL层数 URL中数字的个数 ……

结果分析 测试集:cwt_quark_70thousand 71502个web 阶段1: (输入71502个web ) 主题型网页:33161个 非主题型网页:19623个 无法判断的网页:18718个(26.18%) 阶段2: (输入18718个web ,利用SVM分类) 主题型网页:15139个 非主题型网页:3579个 阶段3: 根据主题型网页信息块抽取结果,去掉只能抽取到极少内容的主题型网页3206个 最终: 主题型网页:45094个(63.07%) 非主题型网页:26408个(36.93%)

结果分析 从阶段1的分类结果看出:大部分的网页(73.82%)可以根据网页的重要特征的阈值进行分类,方法简单高效。 虽然只有26.18%的网页需要利用分类器进行进一步的分类,但这26.18%的网页可能恰恰决定了本算法的分类效果。因为这26.18%的网页都是模棱两可的,对它们进行准确的分类至关重要! 由于阶段1和阶段2都可能存在一定的误差,因此经过信息块抽取之后的反馈是很重要的。

不足与改进 对网页的特征选择与抽取还有待完善,期望以后能挖掘出更能描述网页性质的特征。 在网页去噪方面略显粗糙,需做进一步改善 阶段1的特征阈值设定过于简单。 阶段3的反馈机制过于简单。

网页内信息块发现

一、术语定义 主题型网页:主题型网页是指网页中通过文字描述了一件或多件事物,是有一定主题的;如一张具体的新闻网页就是典型的有主题网页。 PlainText:最终在浏览器中显示的文本,而且这些文本不是锚文本。 AnchorText:锚文本,这些文本也会在浏览器中显示,但是这些文本也是跳往其他网页的链接。

二、主题型网页特点 主题型网页通常包含利用大量的文本来介绍,而且这部分文本中绝大部分都是PlainText。 将网页以树(Tree)的形式表现, HTML标签以及标签内的文本都作为树的(Tree)节点存在于该树中。 HTML(<HTML>)成为这棵树的根节点 大部分的叶子节点都是文本节点 主题型网页的噪音信息可以分成是两种: 一种是广告(锚文本) 另外一种是网页声明

三、主题信息块的发现与提取: 目标:为了找到主题信息的起始位置和长度,最有效的办法就是找到这样一个节点p,节点p满足下面的条件: 假设给定的HTML中,主题信息对应的叶子节点集合为L,对于L中的任何一个节点leaf都是p的子节点。而对于p的任何一个子节点pc,L中都存在节点,该节点不是pc的子节点。

算 法 1. 集合L 为树中所有的叶子节点,并且节点不为<a>标记 的子节点 算 法 1. 集合L 为树中所有的叶子节点,并且节点不为<a>标记 的子节点 2. 对于L 中的任意节点leaf , if(!isPlainText(leaf)) L=L-leaf 3. averageLength=calAverageLength(L);// 平均长度 任意节点leaf 属于 L,calLength(leaf)<averageLength; L=L-leaf; 4. 集合M为空。任意节点leaf 属于 L,parent= leaf .getParent() while(parent.getChildren().size==1){ parent= parent .getParent(); } M=M+parent; 如果M.size经验值(这里经验值设为3)结束 否则,L =M,并执行3。

四、进一步去除噪音 干扰信息:script、frame(广告、或网站定制的脚本) 对脚本、frame的信息进行定位,并根据每段正文的起始和结束位置与干扰信息块的关系,将正文提取出来。

五、表格型网页抽取 以表格的形式来展现主题 处理 抽取网页中的Table标记中的内容 股票的价格信息 电脑DIY的配件信息 处理 抽取网页中的Table标记中的内容 统计Table中包含文字的TR和TD(避免递归处理)的信息 把所有TD数目(列数)超过阈值的TR的都抽取出来, 如果这些TR的数目大于某个阈值,将其父结点加到结果集

结果分析 1. 对于布局正规的网页,抽取方法效果十分理想 2. 对于论坛类型的文章,该方法可以去除一些无意义的回复(如顶、赞等),保留有意义的回复。 3. 对于表格类型的网页,结合有规律的行列分布,可以对表格信息进行有效的抽取

不足与改进 找到一个更加科学的方法来设定阈值 利用标题以获得更多的信息 更好的“上升”策略

谢 谢 !请批评指正! 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢