陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org 第四讲 WEB检索研究(WEB IR) 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org.

Slides:



Advertisements
Similar presentations
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
Advertisements

信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )
第 7 章 信息检索与利用基础 1.5 学时. 内容提要 掌握一个概念 信息检索 了解一个过程 了解信息检索过程 掌握其中用到的检索方法 和检索途径 常用信息检索工具 传统的 现代的 身边的.
Hu Junfeng 向量空间模型及 k-means 聚类算法 胡俊峰 2016/04/19. Hu Junfeng 在 Trie 树上合并同词干的词集 — 问题分析 词干 + 后缀 词干 - 词尾变形 + 后缀 后缀表生成 结果评价? 2.
103上語音專題第二階段題目.
基于大数据挖掘的电话销售策略 --- 以百姓网电话销售业务为例
信息技术组 因特网信息的查找.
第10章 信息搜索 本 章 内 容 简 介 10.1 通过浏览器搜索信息 10.2 专用搜索引擎 10.3 专用搜索引擎的使用
面向知识图谱的搜索技术 张坤 搜狗搜索.
陆铭 mingler.ccshu.org 现代信息检索 陆铭 mingler.ccshu.org.
网络检索工具 因特网基础知识 网络检索工具基础 搜索引擎实例 网络免费学术或专业信息资源.
信息检索中效率问题的研究 报告人:赵江华 北京大学计算机科学与技术系 网络与分布式系统实验室 2002年4月21日.
信息内容安全技术 网络数据主动获取技术 1.
搜索引擎 佛山科学技术学院信息中心 计算机教学部.
怎样利用搜索引擎检索网络资源 1. 网络的基础知识
第六章 计算机网络基础 PPT电子演示文稿 琼台师专信息技术系.
分類:基本概念、決策樹與模型評估.
Web与信息检索 LJ JUFE-SIT.
Classification of Web Query Intent Using Encyclopedia 基于百科知识的查询意图获取
汽车在公路上行驶.
广州医学院图书馆 医学文献检索教研室 课堂讲授: 课件制作:邓小茹
資料採礦與商業智慧 第四章 類神經網路-Neural Net.
TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design
搜索引擎的检索技巧.
資料探勘(Data Mining)及其應用之介紹
人工智能 Artificial Intelligence 第十一章
搜索引擎优化培训 及交流 武汉市劲捷电子信息有限公司 祁劲松 2007年9月1日
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
学习目的:了解什么是搜素引擎; 会使用搜索引擎。
Handel Cheng, Ph.D. Dr. Jane Formula Tech. CO., LTD.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
Homework 2 : VSM and Summary
海南省琼州学院:胡爱民 联系QQ: 搜索引擎概述          海南省琼州学院:胡爱民    联系QQ:
因特网信息的查找 学习目标 了解搜索引擎的不同分类 利用搜索引擎有效地获取信息.
第21章 信息检索 概述 利用项进行相关性排名 利用超链接的相关性 同义词, 多义词, 本体 文档的索引 检索有效性度量 Web抓取和索引
Some Effective Techniques for Naive Bayes Text Classification
基于书签的校园搜索引擎 Web 2.0时代的网络收藏夹.
文本分类综述 王 斌 中国科学院计算技术研究所 2002年12月.
數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee
網站架構與網頁設計基礎 清雲科技大學資管系 歐陽芳泉.
運籌管理 Chapter 12 資訊科技與運籌管理電子化 祝天雄 博士 99年12月 日.
WEB挖掘算法介绍.
项目一 网络信息搜索  项目实施背景 一 完成项目所要达到的目标 二 完成项目所需要的条件 三.
網路搜尋技巧 講師:郭人豪.
第七章 信息检索与利用基础 信息检索与利用基础.
电子商务 (10) 1.
现代信息检索 Modern Information Retrieval
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
從網路世界大學排名看學校的網頁設計 Speaker:楊國棟 2011/07/05
Google Speaker: 呂瑞麟 國立中興大學資管系教授
第十三章 網路行銷重要議題 網際網路行銷 Web 2.0.
信息采集 参考:W.Bruce Croft等著,刘挺等译. 搜索引擎-信息检索实践. 机械工业出版社,2010.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
语文专题课 执教者: 平望二中 黄小林 视频.
第九章 Web資料採掘 9. 1 非結構化Web資料來源 9. 2 Web採掘分類 9. 3 Web內容採掘 9. 4 Web結構採掘 9
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
Advanced word vector representations
Term Project : Requirement
人社學院 通識教育中心 邱子恒 網際網路資源之檢索與評選 人社學院 通識教育中心 邱子恒
Course 4 分類與預測 Classification and Prediction
Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.
第十章 線上行銷研究.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉
Chapter8 搜尋引擎之使用 網路應用入門(一) Chapter8 搜尋引擎之使用
指導老師:邱登裕老師 組員:B 張萬鈞 B 鄭瑞傑 B 蔡譯陞 B 胡瑜真
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
Term Project : Requirement
Homework 2 : VSM and Summary
Presentation transcript:

陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org 第四讲 WEB检索研究(WEB IR) 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org

内容提要 WEB IR的基本概念 搜索引擎的组成 信息采集 信息分析及索引 信息搜索

WEB IR的定义 基于WEB的信息检索研究 搜索引擎(Search Engine,简称SE)是实现如下功能的一个系统 搜索引擎是最典型的代表 搜索引擎(Search Engine,简称SE)是实现如下功能的一个系统 收集、整理和组织信息并为用户提供查询服务 面向WEB的SE是其中最典型的代表 三大特点:事先下载,事先组织,实时检索 搜索引擎也是信息检索(Information Retrieval) 这门学科的典型应用

WEB搜索引擎和一般IR的区别 检索对象不同 查询方式不尽相同 用户对结果的反应不同 一般检索通常只考虑较高质量自然语言表述的书面文本(如新闻等) 查询方式不尽相同 前者通常为1~3个词的短查询,后者考虑各种方式的查询 用户对结果的反应不同 前者的用户通常只关心前几页的结果,更关注准确度;而后者准确度和全面度并重

Web IR结构图

WEB图中的一些概念 节点(Node) 入度(In degree) 出度(Out degree) 每个Node的入度指的是指向该Node的Node数目 出度(Out degree) 每个Node的出度指的是该Node指向的Node数目

WEB的相关特性(1) Power Law(幂分布定律):WEB的很多属性满足f(x)=x-λ,λ>1

WEB的相关特性(2) Small world(小世界)理论 人类社会的六度分离理论,人类社会至多通过6人可以实现两人的互通 整个WEB虽然庞大,但是任意两点之间的平均距离却不大。有人做过实验,计算出整个WEB的平均距离约为19 人类社会的六度分离理论,人类社会至多通过6人可以实现两人的互通

WEB的相关特性(3) WEB的结构 SCC为连通部分 IN中网页指向SCC SCC指向OUT中网页 非连通部分(Tendrils) 蝴蝶结型(Bow-tie) SCC为连通部分 IN中网页指向SCC SCC指向OUT中网页 非连通部分(Tendrils)

基于WEB特性的一些研究 社区挖掘 社会计算 小世界模型

搜索引擎类型 按照检索机制分类 按照检索内容分类 按照检索工具数量分类 按照检索资源的类型分类 检索型/目录型/混合型 综合型(通用型)/专题型/特定型 按照检索工具数量分类 单独型/集合型(元搜索引擎) 按照检索资源的类型分类 WEB型/非WEB型

检索型/综合型搜索引擎

目录型搜索引擎

专题型搜索引擎

特定型搜索引擎

元搜索引擎

非WEB型搜索引擎

搜索引擎简史回顾 1986年,Internet正式形成 现代搜索引擎的祖先 1990年由加拿大蒙特利尔McGill大学学生Alan Emtage发明的Archie,是对FTP文件名搜索,首次采用“机器人”自动爬行程序 第一个用于监测互联网发展规模的“机器人”程序是1993年MIT的Matthew Gray开发的World wide Web Wanderer 刚开始它只用来统计互联网上的服务器数量,后发展为能够检索网站域名 Lycos 第一个现代意义上的WEB搜索引擎,CMU机器翻译中心的Michael Mauldin于1994年7月创建 Yahoo 斯坦福大学博士生DavidFilo和Jerry Yang(杨致远)创建1995年 Google 斯坦福大学博士生Larry Page与Sergey Brin于1998年9月创建,目前是全世界最受欢迎的搜索引擎 Baidu 超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇发布于2001年10月,是目前最受欢迎的中文搜索引擎之一

搜索引擎基本组成示意图

组成模块的功能 信息收集或采集(Information Gathering) 获取信息,通常是指从Internet上自动获取信息 信息整理和组织(Information Organization) 预处理 文本分析和处理 信息标引——将查询和文档表示成方便检索的某种方式 信息搜索(Information Search) 查询的分析 相似度计算和排序(Ranking) 结果摘要

信息采集的概念 主要是指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程,信息采集系统也常常称为Robot, Spider, Crawler等等 信息采集是搜索引擎获得数据来源的过程,地位相当重要 信息采集的目标:快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程 不同的协议 不同的网络情况 时效性的要求 网页质量的要求 实际上是图的遍历过程 通过种子页面或站点(Seed),获取更多的链接,将它们作为下一步种子,循环 这个过程一般永远不会结束

采集的遍历算法 宽度优先vs. 深度优先 网站采集vs. 全局URL采集 宽度优先:先采集完同一层的网页,再采集下一层网页 深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采集 有研究表明:宽度优先的方法得到的网页集合的重要性更好 网站采集vs. 全局URL采集 网站采集:一个网站一个网站采集 全局URL采集:将所有URL放入一个URL池,从中使用某种方法进行选择 网站采集在支持应用方面灵活性大一些,但是采集效率可能不如全局URL采集,通常的搜索引擎采用全局URL采集的方法

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页,全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增、变化的网页,并删除那些已经不存在的网页 定期重采非常简单,但是浪费带宽,周期也长;增量采集可以节省带宽,网页更新周期相对较短,但是系统的复杂性增大

采集网页的速度保证措施 本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集 单机多程序并行 多进程并行 多线程并行

采集网页的质量保证措施 减少重复页面的采集 保证重要页面的高优先级 URL重复的检测和排除 内容重复的检测和排除 入度高的网页相对重要 含有被别人广泛映像的内容的网页重要

采集中的行为问题 遵守网站上发布的Robot采集限制协议 采集时尽量不要太过密集地采集某个网站,这种密集访问类似于DoS攻击,导致普通用户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为

信息采集的研究趋势 高速、高质量的信息采集 个性化信息采集 基于主题的信息采集 信息的采集及抽取 只采集符合用户的兴趣的数据 采集某个领域的数据 信息的采集及抽取 采集后提取结构化信息

信息分析 对原始数据的预处理 信息分类&聚类 格式分析与转换(html/xml/doc/pdf/rtf) 语种识别、编码识别与转换(GB/BIG5/Unicode) 噪声数据的清洗 冗余数据的处理 信息分类&聚类

分类/聚类基本概念 分类/聚类是大自然的固有现象:物以类聚、人以群分 相似的对象往往聚集在一起 相对不相似的对象往往分开

关于分类 简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label) 男/女、老人/青年

分类无处不在 性别、籍贯、民族、学历、年龄等等,我们每个人身上贴满了“标签” 我们从孩提开始就具有分类能力:爸爸、妈妈;好阿姨、坏阿姨;电影中的好人、坏人等等

关于聚类 简单地说,聚类是指事先没有“标签”而通过某种成团的分析,找出事物之间存在聚集性原因的过程 在一个自习教室,往往发现大家三三两两扎推地坐,经过打听,总能找出扎堆的原因 事先不知道“标签”,根据对象之间的相似情况进行成团分析后,加上“标签”的过程

信息处理中分类和聚类的原因 分类/聚类的根本原因就是因为对象数目太多,处理困难 一些信息处理部门,一个工作人员一天要看上千份信息 分门别类将会大大减少处理难度,提高处理效率和效果

分类/聚类的过程 对对象进行表示 表示方法 特征选择 根据某种算法进行相似度计算 相似度计算方法 分类/聚类方法

文本分类的定义 Text Categorization/Classification 事先给定分类体系和训练样例(标注好类别信息的文本),将文本分到某个或者某几个类别中 计算机自动分类,就是根据已经标注好类别信息的训练集合进行学习,将学习到的规律用于新样本(也叫测试样本)的类别判定 分类是有监督/指导学习(Supervised Learning)的一种

文本分类的模式 从类别数目来分 从是否兼类看分 2类(binary)问题,类别体系由两个互补类构成,一篇文本属于或不属于某一类 多类(multi-class)问题,类别体系由三个或者以上的类别构成,一篇文本可以属于某一个或者多个类别,通常可以通过拆分成多个2类问题来实现,也有直接面对多类问题的分类方法 从是否兼类看分 单标签(single label)问题:一个文本只属于一个类 多标签(multi-label)问题:一个文本可以属于多类,即出现兼类现象

分类体系 分类体系的构建标准可以是按照语义(如:政治、经济、军事…),也可以是按照其他标准(如:垃圾vs. 非垃圾;游戏网站vs. 非游戏网站),完全取决于目标应用的需求 分类体系一般由人工构造,可以是层次结构 Reuters语料分类体系、中图分类、Yahoo分类目录 对于计算机而言,分类体系就是一棵目录树,训练样例文本就是最后的叶子节点。而且对于计算机处理而言,只需要训练样例文本及其对应类别信息,整个过程通常并不会考虑类别标签的意义。也就是说:几篇文档合在一起表示某个类别

分类的应用 垃圾邮件的判定 新闻出版按照栏目分类 词性标注 词义排歧 计算机论文的领域 类别{spam, not-spam} 类别{政治,体育,军事,…} 词性标注 类别{名词,动词,形容词,…} 词义排歧 类别{词义1,词义2,…} 计算机论文的领域 类别ACM system H: information systems H.3: information retrieval and storage

文本分类——人工方法和自动方法 人工方法:人工总结规则 自动的方法(学习):从训练语料中学习规则 优点 缺点 结果容易理解:如足球and 联赛􀃆体育类 缺点 费时费力 难以保证一致性和准确性(40%左右的准确率) 专家有时候凭空想象,没有基于真实语料的分布 代表方法:人们曾经通过知识工程的方法建立专家系统(80年代末期)用于分类 自动的方法(学习):从训练语料中学习规则 快速 准确率相对高(准确率可达60%或者更高) 来源于真实文本,可信度高 结果可能不易理解(比如有时是一个复杂的数学表达式)

文本分类——规则方法和统计方法 规则方法通过得到某些规则来指导分类,而这些规则往往是人可以理解的 统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别,它们都是想得到某种规律性的东西来指导分类,统计方法得到的数学表达式可以认为是某种隐式规则 在目前的文本分类当中,统计方法占据了主流地位

文本分类的过程(1) 两个步骤: 文本表示(text representation) 训练(training) 即从训练样本中学习分类的规律 测试(test或分类classification) 根据学习到的规律对新来的文本进行类别判定 文本表示(text representation) 不管是训练还是测试,都要先分析出文本的某些特征(feature,也称为标引项term),然后把文本变成这些特征的某种适宜处理的表示形式,通常都采用向量表示形式或者直接使用某些统计量

文本分类的过程(2)

特征抽取(Feature Extraction) 预处理 去掉html一些tag标记 禁用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、… 标引项频率统计 TFi,j: 特征i在文档j中出现次数,标引项频率(Term Frequency) DFi: 所有文档集合中出现特征i的文档数目,文档频率(Document Frequency) 数据清洗:去掉不合适的噪声文档或文档内垃圾数据 文本表示 向量空间模型 降维技术 特征选择(Feature Selection) 特征重构(Re-parameterisation,如LSI)

文本表示 向量空间模型(Vector Space Model,VSM) m个无序标引项ti(特征),可以采用词根/词/短语/其他等单位 n个训练文档 每个文档dj可以用标引项向量(每个aij是权重)来表示 (a1j,a2j,…,amj) 通过向量的距离可以计算文档之间的相似度(分类的主要计算目标就是度量两篇文档之间的距离)

文本表示 文档-标引项矩阵(Doc-Term Matrix) 文档之间的相似度计算

Term的粒度 Character,字:中 Word,词:中国 Phrase,短语:中国人民银行 Concept,概念 同义词:开心、高兴、兴奋 相关词cluster,word cluster:葛非/顾俊 N-gram,N元组:中国 国人 人民 民银 银行 某种规律性模式:比如某个window中出现的固定模式 David Lewis等一致地认为:(英文分类中)使用优化合并后的Words比较合适

权重计算方法(1) (Term i在文档j中的)布尔权重 TF-IDF型权重 aij=1(TFij>0) or 0 (TFij=0) TF: aij=TFij TF*IDF: aij=TFij*log(N/DFi) TFC: 对上面进行归一化 LTC: 降低TF的作用

权重计算方法(2) 基于熵概念的权重(Entropy weighting)* ni是term i在整个文档集合中出现的总次数(≠DFi) Entropy(i)称为term i的某种熵 如果term i分布极度均匀:Entropy(i)等于-1 如果只在一个文档中出现:Entropy(i)等于0 *DumaisS T. Improving the retrieval of information from external sources[J]. Behavior ResMeth& Comp, 1991,23:229-236.

特征选择Feature selection(1) 基于DF的选择方法(DF Thresholding) Term的DF小于某个阈值去掉(太少,没有代表性) 信息增益(Information Gain, IG) 该term为整个分类所能提供的信息量(不考虑任何特征的熵和考虑该特征后的熵的差值)

特征选择(2) Term的某种熵 相对熵(not 交叉熵) 该值越大,说明分布越均匀,越有可能出现在较多的类别中;该值越小,说明分布越倾斜,词可能出现在较少的类别中 相对熵(not 交叉熵) 也称为KL距离(Kullback-Leiblerdivergence),反映了在出现了某个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离,该值越大,词对文本类别分布的影响也大

特征选择(3) χ2统计量(念xi, chi) 互信息(Mutual Information,MI) 度量两者(term和类别)独立性的缺乏程度 χ2 越大,独立性越小,相关性越大(N=A+B+C+D) 互信息(Mutual Information,MI) MI越大t和c共现程度越大

特征选择(4) Robertson & SparckJones公式 其他 Odds: Term Strength(TS)

特征重构 特征重构的目的是将现有的特征空间映射到其他更合适的特征空间当中去,以便获得更好的特征表示 隐性语义索引(Latent Semantic Index)是其中最有代表性的方法 另外,PCA(主成份分析)也可以用于特征重构

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归(Regression)方法 Rocchio方法 kNN方法 Naïve Bayes􀂄Online LinearClassifiers 多重神经网络方法Neural Networks 支持向量机SVM 基于投票的方法(Voting methods) 规则方法 统计方法

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用户可迅速理解的簇(cluster),从而使用户可以更快地把握大量文档中所包含的内容,加快分析速度并辅助决策 大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

文本聚类的应用 TDT(TopicDetection and Tracking)中主题事件的检测 检索结果的聚类显示 大规模文档的组织和呈现 将文档进行聚类,从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类,以便用户浏览 大规模文档的组织和呈现

文本聚类流程

聚类算法(1) 层次方法(Hierarchical Methods) 划分方法(Partitioning Methods) 凝聚算法(Agglomerative Algorithms) 分裂算法(Divisive Algorithms) 划分方法(Partitioning Methods) Relocation Algorithms 概率聚类(Probabilistic Clustering) K-中心点算法(K-medoidsMethods) K-平均算法(K-means Methods) 基于密度的算法(Density-Based Algorithms) Density-Based Connectivity Clustering Density Functions Clustering

聚类算法(2) 基于网格的方法(Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning Gradient Descent and Artificial Neural Networkds Evolutionary Methods Scalable Clustering Algorithms Algorithms For High Dimensional Data Subspace Clustering Projection Techniques Co-Clustering Techniques

凝聚式层次聚类(HAC) 算法流程 Step1: 将所有的点各自单独形成一个簇; Step3: 如果只剩下一个簇或者达到终止条件(比如达到需要的簇的数目),聚类结束,否则返回Step2.

k-Means聚类分析 算法流程 Step1: 初始化k个簇中心; Step4: 如果簇变化不大或者满足某种退出条件(达到最大迭代次数、满足某种目标函数等),那么结束聚类,否则返回Step2

BiSectingk-Means聚类(BiSect) 算法流程 Step1: 将所有的点形成一个簇; Step2: 从现有所有的簇中选择包含文档数最大的簇进行拆分,用k-Means算法(k=2)将该簇分成2个簇; Step3: 如果达到了需要的簇的数目则结束

最近邻聚类(Nearest Neighbour) 算法流程 Step1:随机选择一个样本,以该样本为中心建立一个新簇; Step2:取下一个要分析的对象,如果没有对象需要聚类,那么聚类结束; Step3:计算当前对象与当前所有簇的相似度,得到相似度最大的簇及对应的相似度d,如果d>阈值T,那么将该对象分配给选中的簇,更新簇的中心;否则以该对象为中心新建一个簇; Step4:返回Step2

MaxDist算法 算法流程 Step1:从Ds中任取一个样本,例如D1,以D1作为簇中心新建一个簇 Step2:在Ds中找一个与D1最远的样本并以之为中心新建一个簇,从而形成两个簇,记录该最远距离为max,同时算出阈值(可以为max的p倍,1/2<=p<1); Step3: 对于剩下的点顺序扫描,计算该点与所有的簇的距离的最小值; Step4: 如果最小距离大于阈值并且未达到需要的类数,则以该点新建一个簇;返回Step3,否则如果没有点了或者达到需要的类数,结束聚类 Step5:返回Step3

文本聚类评估——纯度 用已有分类结果作为评测集合来评估 对于聚类结果中的类别r,nr是r中文档个数,表示属于分类中第i类在r中的文档个数 整个结果的纯度

文本聚类评估——F值 n(i,r)是属于i类但是分到r类中文档个数,nr是r类文档个数,ni是测试集合中i类中的文档个数,F是R和P的调和平均 最终结果,n是文档总数

分类聚类在搜索引擎中的应用 将检索语料进行事先分类,可以实现更准确的检索,降低检索的消耗,也便于检索结果的组织和显示。 将检索语料进行事先聚类,也可以在降低检索消耗的同时,实现更准确的检索 将检索结果进行事后聚类,便于快速用户定位所需要的结果

信息索引(indexing) 为加快搜索速度,建立特定的数据结构 大规模海量数据的索引常常用倒排表结构 不可能是逐个文档扫描(太慢) 倒排表、后缀树、签名表等等 大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

前向索引(Forward index) 文档1 b d a b b c b a d c 文档2 a b c d a c d b d a b

倒排索引(Inverted index) 文档1 b d a b b c b a d c 文档2 a b c d a c d b d a b

信息搜索 查询的分析 相关度计算—信息检索模型(参见第三章) 查询扩展和相关反馈 摘要生成 词法分析(分词/Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析 相关度计算—信息检索模型(参见第三章) 查询扩展和相关反馈 摘要生成

查询的分析和挖掘 查询的意图分析 查询日志挖掘 查询的意图分类 通过查询的意图分析可以指导后续的工作,是一个新的研究方向 发现用户的兴趣 informational: 中国科学院 navigational: 中国知识产权局主页 transactional: 赴美签证表格下载 通过查询的意图分析可以指导后续的工作,是一个新的研究方向 查询日志挖掘 发现用户的兴趣

查询扩展 对用户的查询进行扩充 查询重构 比如用户输入计算机,我们扩充一个词电脑 同义词扩展 相关词扩展 同义词词典 通过统计构造的同义词词典 相关词扩展 相关词:“2006世界杯”与“德国” 基于全局分析的查询扩展:对文档集合进行分析得到某种相关词典 查询重构 对用户的初始查询进行修改(可以是加词、减词,或者对于向量模型表示的初始查询进行权重的修改等等),是比查询扩展更泛的一个概念

相关反馈 指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等 伪相关反馈 系统假定一些相关的结果,并根据这些结果来进行返回 相关反馈是一种手段,目的可以是查询扩展或者重构,也可以是模型的调整 基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

摘要生成 静态摘要 动态摘要 静态摘要比较简单,但是由于多Topic问题的存在,效果往往不好 一个网页事先生成其摘要 动态摘要 基于Query的摘要,不同的Query会生成不同的摘要 静态摘要比较简单,但是由于多Topic问题的存在,效果往往不好 现代搜索引擎往往采用动态摘要,用户也认可这种方式

信息搜索的研究趋势 更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

Web作弊与反作弊 Web作弊(Web Spam)是指采取一些迷惑、欺骗搜索引擎的手段,使某些Web页面在检索结果中的排名高于实际应得的排名的行为 有人估计WEB中有10%~15%的作弊内容 搜索引擎优化(Search Engine Optimizing) 行业的诞生 正当手段:对网页进行优化(标题、布局) 作弊手段:欺骗搜索引擎的手段 反作弊(anti-spam)是搜索引擎公司的一项重要任务 学术界2005年开始就有AIRWeb Adversarial Information Retrieval的Workshop http://airweb.cse.lehigh.edu/,其中最重要的一个任务就是Web反作弊

Web作弊的危害 降低用户体验的满意程度,降低用户对搜索引擎的信任 搜索引擎公司会因用户的满意度降低而使其商业价值受到损害 作弊或者垃圾页面也消耗了大量时间和空间

Web作弊的方法 各种提高排名的技术 各种隐蔽技术,用于使第一类技术的使用不被发现

利用关键词提高排名 内容匹配仍是大部分搜索引擎排名算法的重要组成部分。TF*IDF仍是基本思想。 作弊方法一 作弊方法二 在网页(标题或者元信息域)中加入大量关键词,使得查询和目标网页匹配上的关键词个数增多,从而提高排名 作弊方法二 在网页中(标题或者元信息域)加入大量与某些查询相关的重复“关键词”,使得网页排名上升

利用链接提高排名(1) 根据搜索引擎所采用的链接分析算法,构造具有某些链接结构的作弊网站,迷惑搜索引擎,提高排名 出链接作弊(破坏HITS算法):在网页上加入大量的出链接指向著名站点,提高本网页的Hub值 如采用目录克隆(directory cloning)方法直接拷贝 如DMOZ Open Directory Project上的全部或者部分目录

利用链接提高排名(2) 入链接作弊: 蜜罐诱饵(honey pot) 渗入Web目录 一组提供有用资源的网页,包含了许多指向目标作弊网页的链接,它们像蜜罐一样引诱其他页面指向它们,从而间接提高的目标作弊网页的排名 渗入Web目录 作弊者提交网页到一些著名的WEB目录,编辑者可能没有严格审查,而上述提交网页中含有指向目标作弊网页的链接,由于WEB分类目录通常具有很高的PageRank和Hub,所以目标网页的排名也能提高

利用链接提高排名(3) 入链接作弊 张贴法:在Blog、BBS、留言板或Wiki上张贴链接指向目标作弊网页 链接交换:作弊者联合作案,作弊网站互相链接 购买过期域名:过期域名指向作弊链接 构造链接农场(link farm):操作大量网站,构造能够提高PageRank的任意网站。现在投资已经很少。 泛域名作弊(二级域名作弊):最低一级域名是随机生成的,这些域名代表的页面要么互相链接,要么指向同一作弊网页,要么重定向到一个作弊页面。如:中文互联网上的oouv.com,881166.com等

隐蔽技术——内容隐藏 浏览器显示页面时,用户看不到作弊的关键词或者链接 通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上 使用脚本技术来隐藏网页中的一些可见成分,如将HTML风格中的Visible属性设为false

隐蔽技术——覆盖(Cloaking) 通过识别网站的访问者是否搜索引擎的爬虫来提供不同的URL。作弊网页被提供给搜索引擎用于建立索引。而用户访问时显示为另一个正常页面

隐蔽技术——重定向 网页在被浏览器载入时自动重定向到另一个URL。这样的网页仍然可以被搜索引擎抓取,但是用户却看不到它 这样作弊网页被抓取,而用户看到的却是重定向后的目标文件 简单的方法就是在网页头部meta中的refresh时间设为0 更高级的方法采用一些脚本技术

一些反作弊技术 TrustRank:为网页建立信任值 改进的PageRank方法:识别链接农场作弊方法。 语言模型方法:根据不同类型网页内容的语言模型的差别进行判别 网页版本差异判断方法:采用浏览器方法和爬虫方法同时抓取 目前这些方法的精度仍然不是很高,因受各种限制,很多方法在搜索引擎中并没大量使用

分类聚类的文献及其他资源 Papers Software Corpus 黄萱菁等,独立于语种的文本分类方法,中文信息学报,2000年第6期 苏金树等,基于机器学习的文本分类技术研究进展,软件学报,Sept. 2006,17(9):1848- 1859 P. Berkhin, Survey of Clustering Data Mining Techniques," Accrue Software,2002. http://citeseer.ist.psu.edu/berkhin02survey.html 刘远超等,文档聚类综述,中文信息学报,2006年第3期 Software Rainbow http://www-2.cs.cmu.edu/~mccallum/bow/ BoosTexter http://www.research.att.com/~schapire/BoosTexter/ 􀂄 TiMBL http://ilk.kub.nl/software.html#timbl C4.5 http://www.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html Corpus http://www.cs.cmu.edu/~textlearning