信息内容安全技术 网络数据主动获取技术 1.

Slides:



Advertisements
Similar presentations
食品安全 行政院長 : 江宜樺. 目錄 1. 什麼油能吃? 2. 椰子油 3. 牛油事件 4. 豬油事件篇 5. 解決問題 6. 心得.
Advertisements

教师队伍建设 组员:王英利 赵香媖 侯娟. 主讲内容 2. 中小学教师队伍建设 1. 职业教育师资队伍建设国际比较 3. 高校教师队伍建设与管理.
提 纲 三次考察与改革的回顾 1 学院三周来的新面貌 及下一步工作思路 2 凝心聚力、团结协作、狠抓落实 3.
强力打造湖北农业信息网 全面推进湖北农村信息化
黄金时代 黄金时代:老子,释迦牟尼,苏格拉底,孔子,庄子,耶稣…… 他们是人类智慧的顶峰,他们用人生展示了智慧与慈爱。
——以通渭县图书馆青树小项目“携老上网游”为例
高雄師範大學103學年度教育學程招生準備方向 高師大師培中心 凃金堂
狙公 劉基.
天主教善導小學 錦繡中華 --- 專題研習報告比賽 實地考察 福建客家土樓的變與同.
第二組 組長:16葛詠馨 組員:8張庭瑋、14葉映歡 17鄭琇文、37黃世宣
第四章 商代之舞蹈 本檔案圖片來源:google圖片.
嗇色園主辦可立小學 故宮 製作日期:2011年3月21日.
漫 步 現 金 流 現金流,這輩子非得瞭解….
搜索引擎 佛山科学技术学院信息中心 计算机教学部.
2013浙江省行测专题 密卷解析及备考冲刺 罗 姮.
歷史思維與社會動脈 秦朝 班級:電子一乙 組長:何明展 組員:王致乾、蔡君彤、耿銘宏、張恆、張書銘.
狂犬病 保護你我,愛護動物 武漢國中 黃憶暄.
指導老師:陳美美 班級:電資一 組長:蔡宗佑 組員:簡偉翔、洪政宏、鍾震、陳思瑾
保良局何壽南小學 使用牙膏對我們生活的影響 六年級專題報告 姓名﹕李燊樺 班別﹕6B 日期﹕
迪士尼動畫 玩具總動員1.
恒泰期货研究所2016年 期债暴跌告一段落,短期波动降低 国债期货周报
中國歷史人物武則天 G組組員 韋紫恩, 余詩琪 蔡煦齡, 黃榮紳,.
課程實錄.
50个经典面试问答 主讲:卢秀峰.
木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿 SEWM 2007中文Web检索测评报告 木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿
第23章 增加点击率 ——网站优化与推广.
動物的繁殖行為.
5,2 新时代的劳动者.
105年臺北市 優先免試入學 高中職免試入學 五專免試入學 報名方式宣導
行動報告人:丁俊源 行動參與人和單位: 我們全家人 社區鄰居、管委會 新北市環保局
学习目的:了解什么是搜素引擎; 会使用搜索引擎。
第三章 心理安全 广西师范大学 罗蕾.
台灣加油!! 決不放棄!! 加油!! 加油!! 馬英九.
劳模的风采.
論文心得報告 冷凍二忠 39號 顏酩修.
日本体贴入微的服务业.
俄语字母的发音体系 阅读规则.
时间管理 -----高一团体辅导.
第十八章 沟通的真理.
單車失竊記心得.
模块七 信息获取与发布 第8章 计算机网络信息的获取与发布.
跨校選課 說明會 主辦人:[國文系學會學權股] 葉軒如、李美玟.
基于书签的校园搜索引擎 Web 2.0时代的网络收藏夹.
WEB挖掘算法介绍.
项目一 网络信息搜索  项目实施背景 一 完成项目所要达到的目标 二 完成项目所需要的条件 三.
第一章 線性方程組.
北極熊 華德學校 田根繩.
稅知多少.
语文专题课 执教者: 平望二中 黄小林 视频.
愛惜生命.
味精的妙用 班別:4A 姓名:盧芷桐(23),吳宝怡 (25),余心 穎,(26).
珊瑚白化和全球化之關係 作者:仲士豪、姜少強.
組員:4960P013 陳佳琪 4960P018 柯琬婷 4960P054 林家瑜 指導老師: 陳碩珮 老師
出生於:1866年11月12日 是中國的革命家,第一任中華民國臨時大總統
瀕臨絕種—北極熊 設計者:吳柏曦 班別:5B1 學校:華德學校.
稅知多少 國家的重要基礎.
105學年第1學期期初校務會議 圖書館工作報告 報告人: 林佩佳主任.
綠色食品的銷售前境 此專題習作乃是我組嘔心瀝血的作品 , 保證史無前例 . 如在任何地方見過此雷同習題 . 請認定他是抄我們的!! 因為呢個電腦部分係全權由全組最精於電腦個個負責! 絕無可能流出市面!! 想知我個組有邊個!? 睇落去就知!
万方数据知识服务平台 论文相似性检测 培训师:何娟
岗位聘任管理系统使用说明 浙江师范大学人事处 咨询电话: 、
如何成立公司 組員:洪鼎鈞 謝宜龍 林永貴 曾賴志行.
閱讀調查- 書本不敵網路魅力 102王婉汝、莊雅鈞.
教育處資訊服務入口 功能簡介.
全陽圓格局位置最好的A6-2樓 面中庭花園3房2廳2衛三面採光 捷運藍線江子翠捷運站1號出口Google距離210公尺
薏仁=益人 20510李佶秝.
第 1 章 設計網頁的準備工作.
行政救濟實務 -行政訴訟 楊東連 行政救濟實務.
學校:德明財經科技大學 系別/班級:國貿系四年甲班 姓名:彭咨錞 2010/08/26
摘要簡報 作品名稱:魔鬼記憶問答 作者:台中市西屯區永安國民小學 葉政德老師、王素珍老師.
Presentation transcript:

信息内容安全技术 网络数据主动获取技术 1

通用网络信息主动获取系统 工作流程 主要技术 聚焦爬虫

工作流程 搜集 预处理 服务 搜集 整理 服务 批量搜集,增量式搜集;搜集目标,搜集策略 关键词提取;重复网页消除;链接分析;索引 查询方式和匹配;结果排序;文档摘要 现代大规模高质量搜索引擎一般采用三段式的工作流程,即: 网页搜集,预处理,和查询服务 1) 定期搜集,每次搜集替换上一次的内容,我们称之为“批量搜集”。 开始时搜集一批,往后只是(1)搜集新出现的网页,(2)搜集那些在上次搜集后有过改变的网页,(3)发现自从上次搜集后已经不再存在了的网页,并从库中删除。我们称之为“增量搜集”。 “目标网页”指的是搜索引擎设计覆盖的网页范围。例如Google是全球,天网是全中国。 2) 对于中文来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了 . 天网在2003年的一次大规模统计分析表明,网页的重复率平均大约为4。 大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据的就是“共有词汇假设”(shared bag of words),即内容所包含的关键词集合,最多加上词频(term frequency 或tf、TF)和词在文档集合中出现的文档频率(document frequency 或df、DF)之类的统计量。而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性,这是有意义的。 搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个问题。 3) 搜索引擎给出的结果是一个有序的条目列表,每一个条目有三个基本的元素:标题,网址和摘要。 3

系统流程

系统结构

主要技术 网络信息搜索系统由搜索器、索引器、检索器和用户接口等四个部分组成。 搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 挑战性问题:搜索效率、命中率、按兴趣搜索、网络信息形式多种多样

① 单机抓取算法 DS: Url_QUEUE uqueue; History_LIST hlist; PROCEDURE: Crawler(seed_url) // seed_url是起始URL队列集合 { in_queue (uqueue , seed_url); while (u=out_queue(uqueue) ) //从uqueue队列中移除url地址 { wpage=http_get(u); // 下载网页 save wpage; // 保存网页 for each url in wpage // 解析网页中的URL,看是否被访问过 { if url not in hlist then in_queue (uqueue , url); } // 未被访问加入到uqueue队列中 }

协调 进程 (节点) 抓取 调度模块 ……

索引器 2.索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种: 客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等; 内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。 内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分 挑战性问题:分类准确性、热点评价、权重评价

以下介绍几种著名的算法: ① PageRank (Google创始人之一拉里·佩奇(Larry Page )算法: PageRank是Google算法的重要内容。2001年9月被授予美国专利. PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想。   算法基本思想概括为,如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为: PR(T)/C(T)   其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T的页面重要性得分值的累加。   该算法的优点是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得,有效减少了在线查询时的计算量,极大降低了查询响应时间。 该算法的不足是,人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低。另外,PageRank有很严重的对新网页的歧视。

② Topic-Sensitive PageRank(主题敏感的PageRank)算法: 基本思想:该算法是针对PageRank对主题的忽略而提出。算法通过离线计算出一个PageRank向量集合,该集合中的每一个向量与某一主题相关,即计算某个页面关于不同主题的得分。主要分为两个阶段,主题相关的PageRank向量集合的计算和在线查询时主题的确定。 该算法的优点是,根据用户的查询请求和相关上下文判断用户查询相关的主题(用户的兴趣)返回查询结果准确性高。 该算法的不足是,没有利用主题的相关性来提高链接得分的准确性。

检索器和用户接口 3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 4.用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。   

通用网络信息主动获取系统 聚焦爬虫 基本概念 主要技术

特定内容的网页爬虫(聚焦爬虫) 根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。 另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 通用爬虫 专用爬虫:垂直搜索; 14

相对于通用网络爬虫,聚焦爬虫需要解决3个主要问题: 1 对抓取目标的描述或定义 2 对URL的搜索策略 3 网页分析与过滤

1 抓取目标描述 分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 1 抓取目标描述 分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 基于目标网页特征(内容或结构特征)的爬虫所抓取、存储并索引的对象一般为网站或网页。 根据种子样本获取方式可分为: 1) 预先给定的初始抓取种子样本; 2) 预先给定的网页分类目录和与分类目录对应的种子 样本,如Yahoo!分类结构等; 3) 通过用户行为确定的抓取目标样例 a 用户浏览过程中显示标注的抓取样本; b 通过用户日志挖掘得到访问模式及相关样本。

基于目标数据模式爬虫:针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。 基于目标领域爬虫:建立领域的本体或词典,用于从语义角度分析不同特征在某一主题中的重要程度。

2 网页搜索策略 网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。 深度优先在很多情况下会导致爬虫的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。

2.1 广度优先搜索策略 广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。 该算法的设计和实现相对简单。 在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。 缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。

2.2 最佳优先搜索策略 按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。 它只访问经过网页分析算法预测为“有用”的网页。 存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。 研究表明,这样的闭环调整可以将无关网页数量降低30%~90%。

3 网页分析算法 分为基于网络拓扑、基于网页内容和基于用户访问行为三种 基于网络拓扑的分析算法 基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。

基于网页内容的网页分析算法 利用网页内容(文本、数据等资源)特征进行的网页评价。 多媒体数据、Web Service等各种网络资源形式也日益丰富,基于网页内容的分析算法也从原来的较为单纯的文本检索方法,发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。

挑战问题 网络信息发布技术多种多样,Webpage、bbs、blog、论坛、BT、PPLive、PPStream、迅雷、Java script等等 音视频信息越来越多 规避爬虫的机制 海量信息处理 关键指标:效率、成功率、穿透、热点的发现能力 网络的开放性:受欢迎的用户越多越好,越多越赚钱----眼球效应;限制不受欢迎的用户,如爬虫; 23

课堂讨论 tcpdump剖析 爬虫(Nutch)剖析 如何实现虚拟世界到物理世界主体、客体的映射?保证物理世界的秩序性?