基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 宣讲:吴鹏飞

Slides:



Advertisements
Similar presentations
教师队伍建设 组员:王英利 赵香媖 侯娟. 主讲内容 2. 中小学教师队伍建设 1. 职业教育师资队伍建设国际比较 3. 高校教师队伍建设与管理.
Advertisements

醫學美學之我見ー肉毒桿菌 班級:應日三乙 姓名:蔡雅卉 學號: 497E0076. 前言 現在的人,已經把 整型看做是微不足 道的事情了。即使 只是戴牙套、局部 雷射、割雙眼皮、 打美白針、肉毒桿 菌等等,都可以在 身體上做不同的改 變,而讓自己更滿 意自己的外表。
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
中國大陸遭傾銷國家之應對政策 作者:潘偉華 學歷:英國伯明罕大學商學博士 現任:國立雲林科技大學企管系 助理教授.
公務員申領小額款項專案法紀宣導 法務部廉政署 編製
提 纲 三次考察与改革的回顾 1 学院三周来的新面貌 及下一步工作思路 2 凝心聚力、团结协作、狠抓落实 3.
——以通渭县图书馆青树小项目“携老上网游”为例
兵车行 杜甫 福州十一中语文组 林嵘臻.
第十五章 控制方法.
小猪.
報告書名:父母會傷人 班級:二技幼四甲 姓名:吳婉如 學號:1A2I0034 指導老師:高家斌
职业教育.课程改革.项目课程 江苏省太仓中等专业学校校长 江苏省职业教育教学改革创新指导委员会委员 江苏省职业教育课程开发研究中心组组长
牛 汉 ——《华南虎》 …… 恍惚之中听见一声 石破天惊的咆哮, 有一个不羁的灵魂 掠过我的头顶 腾空而去, 我看见了火焰般的斑纹
牛 汉 …… 恍惚之中听见一声 石破天惊的咆哮, 有一个不羁的灵魂 掠过我的头顶 腾空而去, 我看见了火焰似的斑纹 火焰似的眼睛,
综合实践活动 设计与实践案例 ——《感恩父母》主题班会.
2013浙江省行测专题 密卷解析及备考冲刺 罗 姮.
讲故事训练 授课人:田轶.
媽,我們真的不一樣 青少年期與中年期 老師: 趙品淳老師 組員: 胡珮玟4A1I0006 馬菀謙4A1I0040
九十二年度第二次 會計作業實務座談會 主辦單位:會計室.
第十一課 菜園 6-11.
萬獸之王 獅子.
恒泰期货研究所2016年 期债暴跌告一段落,短期波动降低 国债期货周报
第3课 收复新疆.
校本选修课 第三专题 西藏问题 北京师大二附中 李文燕.
12* 假如没有灰尘.
岡山區103年第12次 登革熱聯繫會報會議 岡山區公所 103年12月30日 1.
第十一单元 第24讲   第十一单元 世界经济的全球化趋势.
班級:二幼三甲 姓名:郭小瑄 、 詹淑評 學號:1A2I0029 、1A2I0025
第三讲 站点链接与表格布局.
第八章 网络课程的设计与开发.
木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿 SEWM 2007中文Web检索测评报告 木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿
Web图片搜索引擎设计 ——基于文本的图片信息提取.
网页 设计与制作.
指導老師:陳韻如 姓名:吳宜珊 學號:4A0I0911 班級:幼保二乙
幸福大讲堂 也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述 主讲:钱锡安
第三章 心理安全 广西师范大学 罗蕾.
学习情境三:配置WEB服务器 服务器配置与管理.
正修科技大學教學發展中心 教師教學觀摩與經驗分享 電子工程系 張法憲副教授.
第十九课 南吕•一枝花 不 伏 老 关汉卿.
时间管理 -----高一团体辅导.
9.1 抽签的方法合理吗.
傳統童玩遊戲創新 組別:第八組 班級:幼保二甲 組員: 4A0I0005柯舒涵 4A0I0011謝孟真
让微笑伴您一生.
互联网时代班主任的挑战 万玮 2014年9月20日.
语文天地.
风 波 鲁 迅 江南水乡风景.
蘇軾詞的賞析
柯奕宏(06) 王予亨(13) 郭秉逸(15) 楊雯凈(23) 顏佑瑩(32)
第十五章 传播学调查研究方法.
友信不銹鋼工程有限公司 台北市康定路4號 工廠:台北縣三重市竹圍仔街22-3號
自然與生活科技領域 認識太陽能 蘇紋琪、石明玉.
 全能的天才畫家- 李奧納多‧達文西 (西元1452年-1519年) 指導老師:袁淑芬老師 製作人:饒佩芯.
2012版中考二轮复习历史精品课件北师大版 (含2011中考真题) 专题五世界近代史
鄉村尋根-農具篇.
認識我的故鄉_台中市.
网络营销实务 第16讲 搜索引擎优化(1) 主讲人:李小斌.
蓝色图示 — 无动画版.
精忠报国  演唱:屠洪纲 作词:陈涛 作曲:张宏光  狼烟起 江山北望  龙起卷 马长嘶 剑气如霜  心似黄河水茫茫  二十年 纵横间 谁能相抗  恨欲狂 长刀所向  多少手足忠魂埋骨它乡  何惜百死报家国  忍叹惜 更无语 血泪满眶  马蹄南去 人北望  人北望 草青黄 尘飞扬  我愿守土复开疆  堂堂中国要让四方来贺.
樂樂請假了 尊重的故事 資料來源:臺北縣國民小學品德教育手冊 故事來源:臺北縣國民小學品德教育手冊 網路小故事
聽聽那冷雨---重點摘要 二愛 王煜榕.
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
僅首頁出現本title即可 責任的故事(二年級) 生命最美麗動人的本能 簡報製作:瑞柑國民小學 鄭雙慧 文/ 何秀芳.
蓝色PPT图示 1 2.
憲政與民主 應化3A 邱泓明.
分頁.
古蹟知性之旅 我和新港奉天宮有個約 報告人:陳 映 竹 傅 湘 甯.
专题八 欧美代议制的确立与发展 (17—19世纪) 英    美 法 德 选修:日本 俄国.
第1章 HTML基础 主讲人:刘泰然 经济管理学院.
電子表單 簡介 高雄市鳳山區新甲國小 陳信宏.
Presentation transcript:

基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 宣讲:吴鹏飞 邮箱:wupengfei_2000@163.com 山东师范大学传播学院 2006-7-21

主要内容 前言 相关研究工作 系统分层流程图 映射表 网页结构分析 网页内容分析 实验结果 总结

前言 主题文本区 导航区 交互区 主题标签区 噪音区

相关研究工作—网页结构分析 * DOM网页标记树法 * 页面显示实体坐标位置法 * 基于映射表的网页结构内容分析法

网页主题信息提取分层流程图 提取层 识别层 分割层 解析层 顺序读文件 映射表 结构聚类 网页区域 解析器 区域特征提取 启发式规则 区域识别 语义区域 内容量化 滤除噪音 网页主题信息

HTML网页映射表 HTML文档映射表主要是对头部和主体部分中文本条映射,即 头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映 性映射表,即:f(Di ,i∈n)→<Ti ,i∈n>,其中Di为HTML文档集 ,Ti为对应的每个文档的内容属性映射表。

HTML网页映射表 类型 字段名称 描述 头 部 Title 网页标题 Keywords 关键词 Description 网页内容描述 文 Tab.1 Mapping table of HTML page HTML网页映射表 类型 字段名称 描述 头   部 Title 网页标题 Keywords 关键词 Description 网页内容描述 文 本 条 属 性 TextAtrributeId 属性标识号 TextStructure 文本条结构 TextIsAHref 有无超级链接 TextCharCount 文本条内字符的个数 TextCharFontType 文本条内字体的类型 内 容 TextContentId 文本条内容标识号与属性标识号一致 TextContent 文本条内容 TextAHref 文本条超级链接

``` 网页结构分析—结构生成 网页结构生成方法及表示形式 * 基于栈的网页结构生成方法 * 语义字符串分级表示 如A23123,其中A表示主体<BODY>中第一个表格<TABLE>,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记<TR>、单元格标记<TD>;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。

网页结构分析—区域分割 ID 网页结构 网页内容 8 A23123123 首页 9 关于我们 10 荣誉证书 11 产品展示 21 C23123123123 产品列表 22 摩托罗拉 23 诺基 24 索爱 51 C23123123123123 产品名称:三星SGH-W219 52 产品型号:三星SGH-W219 53 产地: 54 付款方式:3860元

网页区域特征 根据网页的区域结构布局特征,设页面P=(A1,A2…An),其中网页区域Ai=(TextItemi1,TextItemi2 …TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。 在一个网页内,每个区域可以用5个变量来表达其语义特征: CountRatio:区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数(均值) FormalDegree:字符的方差(方差) AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCount:区域内文本条字符的最大个数。

启发式规则 启发式规则设计如下(规则中的数据是通过大量不同网页观察与实验得到) IF CountRatio>2 AND LinkAvgCount<=6 AND FormalDegree<=2 THEN Ai为导航区 ELSE IF CountRatio<0.5 OR(0.5=<CountRatio<=2 AND CharMaxCount>=15 AND AvgCountDiff>=5) THEN Ai为主题文本区 ELSE Ai为主题标签区

网页内容分析—区域内容量化 区域内容量化表示采用向量空间模型。向量空间模型(VSM)是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算,采用TF方法,如公式(1),其中tfi是第i个关键词在该区域中的出现频率,n为区域内关键词的个数。假设两个区域U,V,两者的相似度可用向量之间的夹角来度量,相似度计算如公式(2)。 Wi= (1) Sim(V,U)=cos(V,U) = (2)

网页内容分析—滤除噪音 网页标题与网页的上一级链接文本,具有高度的主题概括性,将二者组成新的区域S,利用公式(1)计算S的特征向量的权重。 非主题相关标签过滤:利用公式(2)分别计算每一个主题标签区Ai与S的相似度,把高于相似度阈值的主题标签区保留,其余滤除。 版权区过滤:最后一个区域一般为版权区,通过在此区域查询 “版权所有”等文本向量,如果有,并且主题文本区不唯一,则将其滤除。 导航区过滤:判断如果区域Ai为导航区,直接将其滤除。

实验 数据集:为了验证我们方法的有效性,实验时分别从新浪、搜狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂结构与分布的网页作为测试数据进行测试 。 评价标准:采用人工判断网页区域分割与识别结果和网页主题信息提取结果,其中500个网页一共分割出4205个区域,平均每个网页有8个区域。

Result of web pages’ segmentation and identification 实验结果 网页分割与识别结果 Result of web pages’ segmentation and identification 网页区域 程序处理区域个数 人工判别正确个数 正确率 导航区 1851 1831 99% 主题标签区 1261 1185 94% 主题文本区 1093 972 89%

实验结果 网页主题信息提取结果 Result of web pages’ topical information extraction 网页总数 提取正确的网页数 提取错误的网页数 正确率 500 434 66 87%

实验结果分析 实验结果表明该方法对大多数网页区域分割与识别结果和网页 主题信息提取结果较好。区域分割与识别错误主要是由于网页 HTML文档中不含<TABLE>及其内嵌标记,或者使用了此标记,但 是由于设计者安排的内容有着特殊的作用,在主题文本区域内会有 少量噪音。区域分割与识别结果决定了网页主题信息提取结果的好 坏。

总结 本文结合HTML网页内部特征与外部的结构布局,尝试了采用映 射表这种网页映射模式对网页视图进行变换,基于结构与启发式规 则对网页进行区域分割与识别,并利用向量空间模型对网页内容分 析,从而准确得到具有高语义内聚性的网页主题内容。此方法不改 变网页原有结构布局即按照设计者的意图来对页面区域进行分割与 识别,主题信息提取有着较高的准确性,并且该方法处理速度快。

谢谢各位专家!