基于结构与内容的网页主题信息提取研究作者：吴鹏飞，孟祥增，刘俊晓，马凤娟宣讲：吴鹏飞

Slides:

Advertisements

Similar presentations

教师队伍建设组员：王英利赵香媖侯娟. 主讲内容 2. 中小学教师队伍建设 1. 职业教育师资队伍建设国际比较 3. 高校教师队伍建设与管理.

Advertisements

醫學美學之我見ー肉毒桿菌班級：應日三乙姓名：蔡雅卉學號： 497E0076. 前言現在的人，已經把整型看做是微不足道的事情了。即使只是戴牙套、局部雷射、割雙眼皮、打美白針、肉毒桿菌等等，都可以在身體上做不同的改變，而讓自己更滿意自己的外表。

一、老师申请题目，以下指导老师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”

中國大陸遭傾銷國家之應對政策作者：潘偉華學歷：英國伯明罕大學商學博士現任：國立雲林科技大學企管系助理教授.

公務員申領小額款項專案法紀宣導法務部廉政署編製

提纲三次考察与改革的回顾 1 学院三周来的新面貌及下一步工作思路 2 凝心聚力、团结协作、狠抓落实 3.

——以通渭县图书馆青树小项目“携老上网游”为例

兵车行杜甫福州十一中语文组林嵘臻.

第十五章控制方法.

報告書名:父母會傷人班級:二技幼四甲姓名:吳婉如學號:1A2I0034 指導老師:高家斌

职业教育.课程改革.项目课程江苏省太仓中等专业学校校长江苏省职业教育教学改革创新指导委员会委员江苏省职业教育课程开发研究中心组组长

牛汉 ——《华南虎》 …… 恍惚之中听见一声石破天惊的咆哮，有一个不羁的灵魂掠过我的头顶腾空而去，我看见了火焰般的斑纹

牛汉 …… 恍惚之中听见一声石破天惊的咆哮，有一个不羁的灵魂掠过我的头顶腾空而去，我看见了火焰似的斑纹火焰似的眼睛，

综合实践活动设计与实践案例 ——《感恩父母》主题班会.

2013浙江省行测专题密卷解析及备考冲刺罗姮.

讲故事训练授课人：田轶.

媽，我們真的不一樣青少年期與中年期老師：趙品淳老師組員：胡珮玟4A1I0006 馬菀謙4A1I0040

九十二年度第二次會計作業實務座談會主辦單位：會計室.

第十一課菜園 6-11.

萬獸之王獅子.

恒泰期货研究所2016年期债暴跌告一段落，短期波动降低国债期货周报

第3课收复新疆.

校本选修课第三专题西藏问题北京师大二附中李文燕.

12* 假如没有灰尘.

岡山區103年第12次登革熱聯繫會報會議岡山區公所 103年12月30日 1.

第十一单元第24讲第十一单元　世界经济的全球化趋势.

班級：二幼三甲姓名：郭小瑄、詹淑評學號：1A2I0029 、1A2I0025

第三讲站点链接与表格布局.

第八章网络课程的设计与开发.

木棉检索队陈晓锋罗嘉明李雯任利辉何章鸿 SEWM 2007中文Web检索测评报告木棉检索队陈晓锋罗嘉明李雯任利辉何章鸿

Web图片搜索引擎设计 ——基于文本的图片信息提取.

网页设计与制作.

指導老師:陳韻如姓名:吳宜珊學號:4A0I0911 班級:幼保二乙

幸福大讲堂也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述主讲：钱锡安

第三章心理安全广西师范大学罗蕾.

学习情境三：配置WEB服务器服务器配置与管理.

正修科技大學教學發展中心教師教學觀摩與經驗分享電子工程系張法憲副教授.

第十九课南吕•一枝花不伏老关汉卿.

时间管理 -----高一团体辅导.

9.1 抽签的方法合理吗.

傳統童玩遊戲創新組別：第八組班級：幼保二甲組員： 4A0I0005柯舒涵 4A0I0011謝孟真

让微笑伴您一生.

互联网时代班主任的挑战万玮 2014年9月20日.

风波鲁迅江南水乡风景.

蘇軾詞的賞析

柯奕宏（06）王予亨（13）郭秉逸（15）楊雯凈（23）顏佑瑩（32）

第十五章传播学调查研究方法.

友信不銹鋼工程有限公司台北市康定路4號工廠:台北縣三重市竹圍仔街22-3號

自然與生活科技領域認識太陽能蘇紋琪、石明玉.

　全能的天才畫家－李奧納多‧達文西 (西元1452年-1519年) 指導老師：袁淑芬老師製作人：饒佩芯.

2012版中考二轮复习历史精品课件北师大版（含2011中考真题）专题五世界近代史

鄉村尋根-農具篇.

認識我的故鄉＿台中市.

网络营销实务第16讲　搜索引擎优化(1) 主讲人:李小斌.

蓝色图示 — 无动画版.

精忠报国演唱：屠洪纲作词：陈涛作曲：张宏光狼烟起江山北望龙起卷马长嘶剑气如霜心似黄河水茫茫二十年纵横间谁能相抗恨欲狂长刀所向多少手足忠魂埋骨它乡何惜百死报家国忍叹惜更无语血泪满眶马蹄南去人北望人北望草青黄尘飞扬我愿守土复开疆堂堂中国要让四方来贺.

樂樂請假了尊重的故事資料來源：臺北縣國民小學品德教育手冊故事來源：臺北縣國民小學品德教育手冊網路小故事

聽聽那冷雨---重點摘要二愛　王煜榕.

“修身成材” 班级干部培训班黑龙江大学党委学工部.

僅首頁出現本title即可責任的故事（二年級）生命最美麗動人的本能簡報製作：瑞柑國民小學鄭雙慧文/ 何秀芳.

蓝色PPT图示 1 2.

憲政與民主應化3A 邱泓明.

古蹟知性之旅我和新港奉天宮有個約報告人：陳映竹傅湘甯.

专题八欧美代议制的确立与发展（17—19世纪）英　　　美法德选修：日本俄国.

第1章 HTML基础主讲人：刘泰然经济管理学院.

電子表單　簡介高雄市鳳山區新甲國小陳信宏.

Presentation transcript:

基于结构与内容的网页主题信息提取研究作者：吴鹏飞，孟祥增，刘俊晓，马凤娟宣讲：吴鹏飞邮箱：wupengfei_2000@163.com 山东师范大学传播学院 2006-7-21

主要内容前言相关研究工作系统分层流程图映射表网页结构分析网页内容分析实验结果总结

前言主题文本区导航区交互区主题标签区噪音区

相关研究工作—网页结构分析 * DOM网页标记树法 * 页面显示实体坐标位置法 * 基于映射表的网页结构内容分析法

网页主题信息提取分层流程图提取层识别层分割层解析层顺序读文件映射表结构聚类网页区域解析器区域特征提取启发式规则区域识别语义区域内容量化滤除噪音网页主题信息

HTML网页映射表 HTML文档映射表主要是对头部和主体部分中文本条映射，即头部映射、文本条内容映射、文本条属性（视觉、结构、语义）映性映射表，即：f(Di ，i∈n)→<Ti ，i∈n>，其中Di为HTML文档集，Ti为对应的每个文档的内容属性映射表。

HTML网页映射表类型字段名称描述头部 Title 网页标题 Keywords 关键词 Description 网页内容描述文 Tab.1 Mapping table of HTML page HTML网页映射表类型字段名称描述头部 Title 网页标题 Keywords 关键词 Description 网页内容描述文本条属性 TextAtrributeId 属性标识号 TextStructure 文本条结构 TextIsAHref 有无超级链接 TextCharCount 文本条内字符的个数 TextCharFontType 文本条内字体的类型内容 TextContentId 文本条内容标识号与属性标识号一致 TextContent 文本条内容 TextAHref 文本条超级链接

``` 网页结构分析—结构生成网页结构生成方法及表示形式 * 基于栈的网页结构生成方法 * 语义字符串分级表示如A23123，其中A表示主体<BODY>中第一个表格<TABLE>，如果网页中还有其他同层次表格分别记为B，C，D等，2、3分别为第一个表格的内嵌行标记<TR>、单元格标记<TD>；1表示第一个表格A的嵌套表格，2、3分别为嵌套表格行标记、单元格标记。

网页结构分析—区域分割 ID 网页结构网页内容 8 A23123123 首页 9 关于我们 10 荣誉证书 11 产品展示 21 C23123123123 产品列表 22 摩托罗拉 23 诺基 24 索爱 51 C23123123123123 产品名称:三星SGH-W219 52 产品型号:三星SGH-W219 53 产地: 54 付款方式:3860元

网页区域特征根据网页的区域结构布局特征，设页面P=（A1，A2…An），其中网页区域Ai=（TextItemi1，TextItemi2 …TextItemij），TextItemij=（TextAbttributeMap，TextContentMap），TextAbttributeMap为文本条的结构、视觉和语义属性映射，TextContentMap为文本条内容映射。在一个网页内，每个区域可以用5个变量来表达其语义特征： CountRatio：区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount：有链接文本条内字符的平均个数（均值） FormalDegree：字符的方差（方差） AvgCountDiff：无链接与有链接文本条内字符平均个数的差值 CharMaxCount：区域内文本条字符的最大个数。

启发式规则启发式规则设计如下（规则中的数据是通过大量不同网页观察与实验得到） IF CountRatio>2 AND LinkAvgCount<=6 AND FormalDegree<=2 THEN Ai为导航区 ELSE IF CountRatio<0.5 OR（0.5=<CountRatio<=2 AND CharMaxCount>=15 AND AvgCountDiff>=5） THEN Ai为主题文本区 ELSE Ai为主题标签区

网页内容分析—区域内容量化区域内容量化表示采用向量空间模型。向量空间模型（VSM）是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算，采用TF方法，如公式（1），其中tfi是第i个关键词在该区域中的出现频率，n为区域内关键词的个数。假设两个区域U，V，两者的相似度可用向量之间的夹角来度量，相似度计算如公式（2）。 Wi= （1） Sim(V,U)=cos(V,U) = （2）

网页内容分析—滤除噪音网页标题与网页的上一级链接文本，具有高度的主题概括性，将二者组成新的区域S，利用公式（1）计算S的特征向量的权重。非主题相关标签过滤：利用公式（2）分别计算每一个主题标签区Ai与S的相似度，把高于相似度阈值的主题标签区保留，其余滤除。版权区过滤：最后一个区域一般为版权区，通过在此区域查询 “版权所有”等文本向量，如果有，并且主题文本区不唯一，则将其滤除。导航区过滤：判断如果区域Ai为导航区，直接将其滤除。

实验数据集：为了验证我们方法的有效性，实验时分别从新浪、搜狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂结构与分布的网页作为测试数据进行测试。评价标准：采用人工判断网页区域分割与识别结果和网页主题信息提取结果，其中500个网页一共分割出4205个区域，平均每个网页有8个区域。

Result of web pages’ segmentation and identification 实验结果网页分割与识别结果 Result of web pages’ segmentation and identification 网页区域程序处理区域个数人工判别正确个数正确率导航区 1851 1831 99% 主题标签区 1261 1185 94% 主题文本区 1093 972 89%

实验结果网页主题信息提取结果 Result of web pages’ topical information extraction 网页总数提取正确的网页数提取错误的网页数正确率 500 434 66 87%

实验结果分析实验结果表明该方法对大多数网页区域分割与识别结果和网页主题信息提取结果较好。区域分割与识别错误主要是由于网页 HTML文档中不含<TABLE>及其内嵌标记，或者使用了此标记，但是由于设计者安排的内容有着特殊的作用，在主题文本区域内会有少量噪音。区域分割与识别结果决定了网页主题信息提取结果的好坏。

总结本文结合HTML网页内部特征与外部的结构布局，尝试了采用映射表这种网页映射模式对网页视图进行变换，基于结构与启发式规则对网页进行区域分割与识别，并利用向量空间模型对网页内容分析，从而准确得到具有高语义内聚性的网页主题内容。此方法不改变网页原有结构布局即按照设计者的意图来对页面区域进行分割与识别，主题信息提取有着较高的准确性，并且该方法处理速度快。

谢谢各位专家！