Presentation is loading. Please wait.

Presentation is loading. Please wait.

基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 宣讲:吴鹏飞

Similar presentations


Presentation on theme: "基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 宣讲:吴鹏飞"— Presentation transcript:

1 基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 宣讲:吴鹏飞 邮箱:wupengfei_2000@163.com
山东师范大学传播学院

2 主要内容 前言 相关研究工作 系统分层流程图 映射表 网页结构分析 网页内容分析 实验结果 总结

3 前言 主题文本区 导航区 交互区 主题标签区 噪音区

4 相关研究工作—网页结构分析 * DOM网页标记树法 * 页面显示实体坐标位置法 * 基于映射表的网页结构内容分析法

5 网页主题信息提取分层流程图 提取层 识别层 分割层 解析层 顺序读文件 映射表 结构聚类 网页区域 解析器 区域特征提取 启发式规则
区域识别 语义区域 内容量化 滤除噪音 网页主题信息

6 HTML网页映射表 HTML文档映射表主要是对头部和主体部分中文本条映射,即 头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映
性映射表,即:f(Di ,i∈n)→<Ti ,i∈n>,其中Di为HTML文档集 ,Ti为对应的每个文档的内容属性映射表。

7 HTML网页映射表 类型 字段名称 描述 头 部 Title 网页标题 Keywords 关键词 Description 网页内容描述 文
Tab.1 Mapping table of HTML page HTML网页映射表 类型 字段名称 描述 Title 网页标题 Keywords 关键词 Description 网页内容描述 TextAtrributeId 属性标识号 TextStructure 文本条结构 TextIsAHref 有无超级链接 TextCharCount 文本条内字符的个数 TextCharFontType 文本条内字体的类型 TextContentId 文本条内容标识号与属性标识号一致 TextContent 文本条内容 TextAHref 文本条超级链接

8 ``` 网页结构分析—结构生成 网页结构生成方法及表示形式 * 基于栈的网页结构生成方法 * 语义字符串分级表示
如A23123,其中A表示主体<BODY>中第一个表格<TABLE>,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记<TR>、单元格标记<TD>;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。

9 网页结构分析—区域分割 ID 网页结构 网页内容 8 A23123123 首页 9 关于我们 10 荣誉证书 11 产品展示 21
C 产品列表 22 摩托罗拉 23 诺基 24 索爱 51 C 产品名称:三星SGH-W219 52 产品型号:三星SGH-W219 53 产地: 54 付款方式:3860元

10 网页区域特征 根据网页的区域结构布局特征,设页面P=(A1,A2…An),其中网页区域Ai=(TextItemi1,TextItemi2 …TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。 在一个网页内,每个区域可以用5个变量来表达其语义特征: CountRatio:区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数(均值) FormalDegree:字符的方差(方差) AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCount:区域内文本条字符的最大个数。

11 启发式规则 启发式规则设计如下(规则中的数据是通过大量不同网页观察与实验得到)
IF CountRatio>2 AND LinkAvgCount<=6 AND FormalDegree<=2 THEN Ai为导航区 ELSE IF CountRatio<0.5 OR(0.5=<CountRatio<=2 AND CharMaxCount>=15 AND AvgCountDiff>=5) THEN Ai为主题文本区 ELSE Ai为主题标签区

12 网页内容分析—区域内容量化 区域内容量化表示采用向量空间模型。向量空间模型(VSM)是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算,采用TF方法,如公式(1),其中tfi是第i个关键词在该区域中的出现频率,n为区域内关键词的个数。假设两个区域U,V,两者的相似度可用向量之间的夹角来度量,相似度计算如公式(2)。 Wi= (1) Sim(V,U)=cos(V,U) = (2)

13 网页内容分析—滤除噪音 网页标题与网页的上一级链接文本,具有高度的主题概括性,将二者组成新的区域S,利用公式(1)计算S的特征向量的权重。
非主题相关标签过滤:利用公式(2)分别计算每一个主题标签区Ai与S的相似度,把高于相似度阈值的主题标签区保留,其余滤除。 版权区过滤:最后一个区域一般为版权区,通过在此区域查询 “版权所有”等文本向量,如果有,并且主题文本区不唯一,则将其滤除。 导航区过滤:判断如果区域Ai为导航区,直接将其滤除。

14 实验 数据集:为了验证我们方法的有效性,实验时分别从新浪、搜狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂结构与分布的网页作为测试数据进行测试 。 评价标准:采用人工判断网页区域分割与识别结果和网页主题信息提取结果,其中500个网页一共分割出4205个区域,平均每个网页有8个区域。

15 Result of web pages’ segmentation and identification
实验结果 网页分割与识别结果 Result of web pages’ segmentation and identification 网页区域 程序处理区域个数 人工判别正确个数 正确率 导航区 1851 1831 99% 主题标签区 1261 1185 94% 主题文本区 1093 972 89%

16 实验结果 网页主题信息提取结果 Result of web pages’ topical information extraction
网页总数 提取正确的网页数 提取错误的网页数 正确率 500 434 66 87%

17 实验结果分析 实验结果表明该方法对大多数网页区域分割与识别结果和网页 主题信息提取结果较好。区域分割与识别错误主要是由于网页
HTML文档中不含<TABLE>及其内嵌标记,或者使用了此标记,但 是由于设计者安排的内容有着特殊的作用,在主题文本区域内会有 少量噪音。区域分割与识别结果决定了网页主题信息提取结果的好 坏。

18 总结 本文结合HTML网页内部特征与外部的结构布局,尝试了采用映 射表这种网页映射模式对网页视图进行变换,基于结构与启发式规
则对网页进行区域分割与识别,并利用向量空间模型对网页内容分 析,从而准确得到具有高语义内聚性的网页主题内容。此方法不改 变网页原有结构布局即按照设计者的意图来对页面区域进行分割与 识别,主题信息提取有着较高的准确性,并且该方法处理速度快。

19 谢谢各位专家!


Download ppt "基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 宣讲:吴鹏飞"

Similar presentations


Ads by Google