基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 宣讲:吴鹏飞 邮箱:wupengfei_2000@163.com 山东师范大学传播学院 2006-7-21
主要内容 前言 相关研究工作 系统分层流程图 映射表 网页结构分析 网页内容分析 实验结果 总结
前言 主题文本区 导航区 交互区 主题标签区 噪音区
相关研究工作—网页结构分析 * DOM网页标记树法 * 页面显示实体坐标位置法 * 基于映射表的网页结构内容分析法
网页主题信息提取分层流程图 提取层 识别层 分割层 解析层 顺序读文件 映射表 结构聚类 网页区域 解析器 区域特征提取 启发式规则 区域识别 语义区域 内容量化 滤除噪音 网页主题信息
HTML网页映射表 HTML文档映射表主要是对头部和主体部分中文本条映射,即 头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映 性映射表,即:f(Di ,i∈n)→<Ti ,i∈n>,其中Di为HTML文档集 ,Ti为对应的每个文档的内容属性映射表。
HTML网页映射表 类型 字段名称 描述 头 部 Title 网页标题 Keywords 关键词 Description 网页内容描述 文 Tab.1 Mapping table of HTML page HTML网页映射表 类型 字段名称 描述 头 部 Title 网页标题 Keywords 关键词 Description 网页内容描述 文 本 条 属 性 TextAtrributeId 属性标识号 TextStructure 文本条结构 TextIsAHref 有无超级链接 TextCharCount 文本条内字符的个数 TextCharFontType 文本条内字体的类型 内 容 TextContentId 文本条内容标识号与属性标识号一致 TextContent 文本条内容 TextAHref 文本条超级链接
``` 网页结构分析—结构生成 网页结构生成方法及表示形式 * 基于栈的网页结构生成方法 * 语义字符串分级表示 如A23123,其中A表示主体<BODY>中第一个表格<TABLE>,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记<TR>、单元格标记<TD>;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。
网页结构分析—区域分割 ID 网页结构 网页内容 8 A23123123 首页 9 关于我们 10 荣誉证书 11 产品展示 21 C23123123123 产品列表 22 摩托罗拉 23 诺基 24 索爱 51 C23123123123123 产品名称:三星SGH-W219 52 产品型号:三星SGH-W219 53 产地: 54 付款方式:3860元
网页区域特征 根据网页的区域结构布局特征,设页面P=(A1,A2…An),其中网页区域Ai=(TextItemi1,TextItemi2 …TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。 在一个网页内,每个区域可以用5个变量来表达其语义特征: CountRatio:区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数(均值) FormalDegree:字符的方差(方差) AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCount:区域内文本条字符的最大个数。
启发式规则 启发式规则设计如下(规则中的数据是通过大量不同网页观察与实验得到) IF CountRatio>2 AND LinkAvgCount<=6 AND FormalDegree<=2 THEN Ai为导航区 ELSE IF CountRatio<0.5 OR(0.5=<CountRatio<=2 AND CharMaxCount>=15 AND AvgCountDiff>=5) THEN Ai为主题文本区 ELSE Ai为主题标签区
网页内容分析—区域内容量化 区域内容量化表示采用向量空间模型。向量空间模型(VSM)是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算,采用TF方法,如公式(1),其中tfi是第i个关键词在该区域中的出现频率,n为区域内关键词的个数。假设两个区域U,V,两者的相似度可用向量之间的夹角来度量,相似度计算如公式(2)。 Wi= (1) Sim(V,U)=cos(V,U) = (2)
网页内容分析—滤除噪音 网页标题与网页的上一级链接文本,具有高度的主题概括性,将二者组成新的区域S,利用公式(1)计算S的特征向量的权重。 非主题相关标签过滤:利用公式(2)分别计算每一个主题标签区Ai与S的相似度,把高于相似度阈值的主题标签区保留,其余滤除。 版权区过滤:最后一个区域一般为版权区,通过在此区域查询 “版权所有”等文本向量,如果有,并且主题文本区不唯一,则将其滤除。 导航区过滤:判断如果区域Ai为导航区,直接将其滤除。
实验 数据集:为了验证我们方法的有效性,实验时分别从新浪、搜狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂结构与分布的网页作为测试数据进行测试 。 评价标准:采用人工判断网页区域分割与识别结果和网页主题信息提取结果,其中500个网页一共分割出4205个区域,平均每个网页有8个区域。
Result of web pages’ segmentation and identification 实验结果 网页分割与识别结果 Result of web pages’ segmentation and identification 网页区域 程序处理区域个数 人工判别正确个数 正确率 导航区 1851 1831 99% 主题标签区 1261 1185 94% 主题文本区 1093 972 89%
实验结果 网页主题信息提取结果 Result of web pages’ topical information extraction 网页总数 提取正确的网页数 提取错误的网页数 正确率 500 434 66 87%
实验结果分析 实验结果表明该方法对大多数网页区域分割与识别结果和网页 主题信息提取结果较好。区域分割与识别错误主要是由于网页 HTML文档中不含<TABLE>及其内嵌标记,或者使用了此标记,但 是由于设计者安排的内容有着特殊的作用,在主题文本区域内会有 少量噪音。区域分割与识别结果决定了网页主题信息提取结果的好 坏。
总结 本文结合HTML网页内部特征与外部的结构布局,尝试了采用映 射表这种网页映射模式对网页视图进行变换,基于结构与启发式规 则对网页进行区域分割与识别,并利用向量空间模型对网页内容分 析,从而准确得到具有高语义内聚性的网页主题内容。此方法不改 变网页原有结构布局即按照设计者的意图来对页面区域进行分割与 识别,主题信息提取有着较高的准确性,并且该方法处理速度快。
谢谢各位专家!