一种基于后缀树的中文网页层次聚类方法 指导教师:赵政 学生:史庆伟.

Slides:



Advertisements
Similar presentations
營養午餐 嘉大附小四年二班. 形容詞豐富 鍋燒烏龍麵裡有很多料,有細細長長的麵、翠 綠的青菜、像雨傘的香菇、紅紅的蘿蔔和像圓 月的丸子。每次去盛鍋燒烏龍麵時,我都會聞 到香噴噴的味道,讓我好餓,似乎可以吃下一 頭牛。吃下第一口時,有彈牙的麵、鮮甜的青 菜、 QQ 的香菇、軟軟的丸子,還有脆脆的紅 蘿蔔。每當我吃完第一碗,就還想吃第二碗,
Advertisements

项目四 网店推广与营销 4.1 店内推广与营销. 教学目的: 通过本节内容的学习,帮助学生了解消费者保障服务分类,理解店内活动是运 营店铺时不可缺少的一些营销活动。 知识要求: 1. 了解申请加入消费者保障服务项目的条件 2. 了解店内活动如满就送、限时打折、搭配套餐、优惠券的设置 技能目标: 1.
广西 2014 年 “ 区培计划 ” 学前教育远程培 训 总结简报 南宁马山县幼教 1 班 莫毅.
中职教师省级网络培训 使用说明 南京中华中等专业学校教研处 平台登陆 登录 (江苏教师教育) 在页面右侧找到登录框,填写用户名、密码进入系统.
“ 税融通 ” 业务简要介绍. + 一、什么是 “ 税融通 ” ? + “ 税融通 ” 是指银行金融机构根据中小微企业 纳税情况,向依法诚信的中小微企业提供 一定数额的信用贷款或担保贷款的金融产 品。
学年 江西省教师全员远程培训指南. 培训学习及考核时间安排 学习时间: 2013 年 10 月 年 1 月 15 日 考核时间: 2014 年 3 月 1 日 年 3 月 30 日.
-- 八 (19) 班第二学期期中家长会 、关于期中考试 2 、关于班级常规活动 3 、关于会考、体育 4 、关于自主招生 5 、给家长的一些建议.
山东理工大学成人高等教育 新生入学指南. 如何获悉学院的通知公告等? 1. 网站。所有的通知公告等都通过远程与继 续教育学院网站 发布, 同学们应每周登录 “ 学生工作室 ” 或 “ 函授教育 ” 关注是否有新的通知公告。
此时此刻,我还是爱你?还是不爱? 我想,我不爱你了! 因为我累了, 我爱得累了 …………. 你的好对于我来说 像是一种无形的压力 每次你对我好 我都觉得好难承受 你越是对我好 我就越怕你 总是想逃避。
财务处目前共有 50 人,其中事业编 32 人,非事业编 18 人。分为 6 个科室,分别是会计核算科、资金结算中心、综合管理科、预算管理科、 基建财务科和一卡通中心。 会计核算科主要业务为收入入账、费用报销审核等。 资金结算中心主要业务为资金收付、开具发票、学费管理。 综合管理科主要业务是工资及住房公积金管理、税务管理、收费项目.
心理咨询师的个人品牌建设 徐钧 南嘉心理咨询师部落(俱乐部) 申请 QQ 酒香还怕巷子深 你需要一个 “ 个人品牌 ” 以让别人知道你 你是谁? 你的目标是什么? 你要成为什么样的人? 你能做什么? 你会怎样做? 怎么与你有效沟通?
房地产法 主讲教师:龙慧峰 QQ: 电话: 法律实质上既是物质的又是意识形态的这一 事实是与以下事实相联系的:法律既是从 整个社会的结构和习惯自上而下发展而来, 又是从社会中的统治阶级们的政策和价值 中自上而下移动。 —— 【美】伯尔曼《法律与革命》
某中学一青少年因迷上网络游戏,视力由1. 2下降到0
加强工作室资源建设 提升网络辐射影响力 林月周工作室
和合共美,同修共进 ——工作室三年感言 何伟俊
凉山州2011级一诊考试情况分析 暨后期复习建议 四川省凉山州教育科学研究所 谌业锋.
发挥学科优势 打造“互联网+”党建工作模式
《凉山州中长期教育改革和发展规划纲要》( 年)解读 (讲座幻灯课件请在网上下载,让我们一起思考!)
坚持群众路线 做到“三严三实” 内蒙古直属机关工委党校 裴聚斌 电话:
新所得税申报表如何填写 注册税务师 注册会计师 高级会计师 注册资产评估师 注册土地估价师 注册房地产估价师 主讲人:林溪发
情绪和压力管理 主讲:刘爱国.
校园法治网 ◎传播校园法制文明 ◎营造校园法治环境
人类行为的起源 康复医学系 王海成 医学教授 精神科主任医师 QQ: 手机:
我的未来,我做主之 坚持不懈,直到成功。 电话: QQ: 时间:2013年5月27日 肖亚平.
(讲座幻灯课件请在网上下载,让我们一起思考!)
自读高晓声的小说 《陈奂生上城》 写一篇800以上的感悟文章.
高考成功心理 平凉一中 刘雅娟.
2012江西(九江吉安)事业单位 公共基础知识 备考指导 主讲:罗红军 qq: 新浪微博:罗红军的微博
运筹帷幄 决胜高考 应怎样去做? 湖北黄冈中学 余利平 QQ:
幼儿园环境创设 成智客服QQ:
工作中的九型人格 主讲嘉宾:梁旭 ---九型人格应用系列课程 介绍自己 有多少听过九型 课程纪律 课程时间 工作中的九型人格
授课人:王苗.
客 家 仙 草 台北縣中和市秀山國民小學 五 年 十 班 王 靖 婷.
上海培训班交流材料 顶岗实习考核评价体系研究 辽宁建筑职业技术学院  孙玉红 2010年6月.
计算机基础知识 陈嘉明 玉溪农业职业技术学院.
凝心聚力 弘扬宣传思想工作正能量 ——2015年工委宣传部上半年工作总结.
教体系统“两学一做”辅导报告.
党员服务站宣传册 党站宗旨: 主导精神: 全心全意为同学服务 踏踏实实树党员形象 以人为本 服务为重
一切为了孩子 为了孩子的一切 港中数学网 收集整理 —八(1)班家长会.
高三!我们一起努力,加油! 池河中学高三年级 家长会
制定和执行一标两案的基点 —对技能大赛和教学质量检测工作的认识
淮北一中2014心理班会课1 (给莘莘学子加油) QQ:
加强作风建设 同心共筑 四川省委党校 任春艳.
(讲座幻灯课件请在网上下载,让我们一起思考!)
健康所系,性命相托 ——2012级新生教育管理工作阶段总结 中山大学中山医学院 汇报人:刘少静.
讲好后勤故事 提升后勤形象 淮阴师范学院宣传部副部长 张同刚.
网络研修天地 我与名师同行 ——襄阳高新区小学数学班简报 编辑:王继锋.
第一章 总论(承前) 主要内容: 1.简单介绍了会计的产生的和发展
第四章 中国近代文化 思想 科技 教育 历史 文学 戏剧 百侯中学 QIUHANZHANG制作 QQ: 绘画 退出.
港澳高校调研学习汇报 心理健康教育专题.
2010年个人岗位 精细化管理方案 鸡西大学继续教育部 刘欣悦.
大学生意外事故处理与应对.
譬喻法 可讓文句多采多姿 她跑得像隻黑豹般快速.
资产评估实务 财经学院 童彦成 电话: QQ:
让爱住紫荆 教师师德培训.
长沙神来福小吃培训 1.特色小吃培训 2.特色餐饮培训 3.家常菜培训 4.这种馅饼培训 5.特色面条培训 6.长沙臭豆腐培训 7.早餐培训
2011年梅州市高(完)中校长任职资格培训班 领导、校长莅临指导! 热烈欢迎.
我的母亲 老舍. 我的母亲 老舍 关于作者和写作背景 老舍是中国饮誉世界的小说家、戏剧家,是一位文化巨匠,一位语言艺术大师。  关于作者和写作背景   老舍(1899~1966)满族,原名舒庆春,字舍予,生于北京。 老舍是中国饮誉世界的小说家、戏剧家,是一位文化巨匠,一位语言艺术大师。
第十五章 中国特色社会主义事业的领导核心 王晓莹.
教育部—2011 “知行中国”—初中班主任教师培训项目
(讲座幻灯课件请在网上下载,让我们一起思考!)
江苏省苏州市教育科学研究院 袁卫星 QQ: 中职语文有效教学设计 江苏省苏州市教育科学研究院 袁卫星 QQ:
2010年个人岗位 精细化管理方案 鸡西大学继续教育部 王和鑫.
余国良简介 全国中等职业学校德育教育先进工作者 中国教师发展协会中职师资培训讲师、研究员 北师大教师培训中心特聘讲师
詞彙—物品01 下擺 千斤頂 叉子 口紅 口袋 口罩 大哥大 小椅子 工具 下跤裾 衫仔裾 千斤秤 攕仔 胭脂 橐袋仔 褲袋仔 喙掩 手機仔
国开学习网/形考模块
逆转地理课堂 提高复习效率 鲁迅中学 耿夫相.
广西特级教师工作坊 网络平台建设.
2016—2017年度珠海一中平沙校区 “一师一优课、一课一名师”活动 培训会议 珠海一中平沙校区 2017年4月.
Chameleon: Hierarchical Clustering Using Dynamic Modeling
Presentation transcript:

一种基于后缀树的中文网页层次聚类方法 指导教师:赵政 学生:史庆伟

1 引言 目前的搜索引擎产生的搜索结果过于庞大和杂乱,用户难以从大量的结果集中快速找到自己感兴趣的信息。 为了便于用户浏览,利用文档聚类算法将搜索结果自动聚类,形成一个类似文件夹的层次结构是一种好的方法。 传统的文档聚类算法,所产生的聚类结果簇没有可读性,不适于直接应用于网页的聚类。

有代表性的网页聚类方法包括:Sanderson和Croft提出的根据概念之间包含关系的聚类方法; Lawrie 提出的利用基于条件概率的语言模型聚类的方法; Hua-Jun Zeng提出的利用回归模型将聚类问题转换为分类问题的方法; 这些方法都是建立在对英文网页聚类的基础上的,研究的对象是网页中的英文单词,而中文最大的特点是词与词之间没有分隔符,因此上述方法很难直接应用到中文网页的聚类上; O.Zamir和O.Etzioni采用后缀树(Suffix Tree)数据结构给出了一种网页快速聚类的方法,称为STC(Suffix Tree Clustering)。

2 STC算法 STC算法的主要思想是将每一个文档看成一个字符串,构建后缀树,后缀树中出现的相同的字符被认为是基本类,然后对基本类进行合并。 后缀树的特点是: •只有一个根节点 •中间节点至少有两个子节点 •每条边用子串标识,表示节点到根的路径 •同一节点的边不能有相同的标识 •每个字符串的子串都有相对应的后缀节点

图1是三个字符串 “cat ate cheese”, “mouse ate cheese too” 和 “cat ate mouse too”形成的后缀树的例子。 图中圆形表示节点,每个中间节点表示文档中出现的相同的词,其内容在边上标识,矩形中第一个数字表示子串属于那个文档,第二个数字表示字符串中的第几个子串。

图1 “cat ate cheese”, “mouse ate cheese too” 和 “cat ate mouse too”三个字符串的后缀树

a至f是基本类,在合并基本类时,首先计算两个基本类的相似度,计算方法如下: 给定两个基本类Bm和Bn,如果 且 则Bm和Bn的相似度为1,否则为0 其中 表示同时含有基本类Bm和Bn的文档数, |Bm |表示含有基本类Bm的文档数, |Bn |表示含有基本类Bn的文档数。然后,将相似度为1的基本类连接在一起,完成基本类的合并。

3 STC算法的改进 STC算法中使用二进制的方法计算两个基本类之间的相似度,合并基本类的过程实际上是单链接(Single-Link)方法。STC算法中避免链式效应的代价是降低了精度。 改进方法:使用雅克比系数(Jaccard coefficient)作为计算基本类相似度的方法,结合传统的数据聚类算法变色龙算法(chameleon)实现提高STC算法精度的目的。

2.1 基本类相似度计算 STC算法中基本类相似度的取值,只有0和1两个值,忽略了一些类的相关性,降低了精度。 例如,假设有两个基本类Bm和Bn ,如果Bm包含Bn ,且 , Bm和Bn明显有一定的相关性,而在STC算法中Bm和Bn的相似度为0。STCC算法采用雅克比系数计算基本类相似度,使其取值介于0和1之间,其计算方法如方程1所示。

(1) 其中, 为同时含有Bm和Bn的文档数, 为含有Bm或Bn其中之一的文档数。

2.2 基本类的合并 基本类的合并是将STC算法中产生的基本类作为基本点,采用雅克比系数获得基本类的相似度作为基本点之间边的权重,使用变色龙算法实现基本类的层次聚类。 变色龙算法是一种采用动态模型的聚类算法,只要定义了相似度函数,就可以应用于所有数据类型。 变色龙算法的主要思想是首先通过一个图划分算法将数据对象聚类为大量相对较小的子聚类,然后用凝聚的层次聚类算法反复合并子类来找到真正的结果簇

3 实验 实验数据选自百度搜索中最流行的五个关键词的搜索结果,即跑跑卡丁车、李宇春、qq、迅雷和mp3。 网页预处理 利用HTML DOM API将每个查询结果前500个网页片断的文本取出,然后去掉英文,数字等非汉语元素,一些网页中经常出现的词,如“下一页”,“点击”等,以及一些介词、连词和代词同时也被去掉。 根据标点符号将每一个句子看成一个字符串,构建后缀树,也就是说,处理的最小单位是句子,而不是整篇文档,这样大大节省了构建后缀树的时间和空间。

研究了STC算法和STCC算法的精度。 实验的结果如图2所示。 从图2中可以看出,STCC算法的精度比STC算法提高了将近10%左右,只有第三个查询(qq)的精度相差不大,这是因为其搜索结果中含有大量的特殊符号。

4 结 论 在STC算法基础上,使用雅克比系数计算基本类的相似度,使基本类相似度为介于0和1之间的值,产生基本类相似度矩阵,进而采用变色龙算法完成网页的层次聚类。 实验结果表明该方法提高了聚类精度,同时避免了单链接算法的链式效应。

6 参考文献 [1] O. Zamir, O. Etzioni. Web document clustering: A feasibility demonstration[C]. In: Proceedings of SIGIR, 1998:46–54. [2] G Karypis, EH Han, V Kumar. Chameleon: hierarchical clustering using dynamic modeling [J]. Computer, 1999, 32: 68-75. [3]R. Krishnapuram, K. Kummamuru. Automatic taxonomy generation: Issues and possibilities [J].LNCS: In: Proceedings of Fuzzy Sets and Systems (IFSA), Springer-Verlag Heidelberg, 2003, 2715: 52–63.