Download presentation
Presentation is loading. Please wait.
1
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编
2
第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用
大数据应用人才培养系列教材 第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用 5.5 日志分析与挖掘实例 习题
3
5.1 日志概念 西方: 东方: 第五章 综合实战:日志的挖掘与应用
犹日记。 柯岩 《奇异的书简·船长》:“ 贝汉廷 ,这位在他的航海日志上没有误过一天航期的船长……这时却毫不迟疑地答应了。”” 东方: 每天记录。《荀子.强国》:“王者之功名,不可胜日志也。” 杨谅注:“日记识其政事。” 《周礼》注:‘志,古文识;识,记也。’”
4
5.1 日志概念 所谓日志(Log)是指系统所指定对象的某些操作和其操作结果按时间有序的集合。
第五章 综合实战:日志的挖掘与应用 所谓日志(Log)是指系统所指定对象的某些操作和其操作结果按时间有序的集合。 ——百度百科 日志数据的核心就是日志消息或者日志。日志消息就是计算机系统、、设备、软件等在某种刺激下反应生成的东西. ——日志管理与分析权威指南
5
5.1 日志概念 资源管理 入侵检测 故障排除 取证 审计 第五章 综合实战:日志的挖掘与应用
日志记录系统运行状态、软硬件状态、性能容量等资源使用情况信息; 入侵检测 主机日志(不同于NIDS日志)可用于入侵检测分析; 故障排除 日志可用于还原故障现场、梳理故障条例、分析故障根源和系统调试等; 取证 取证是在事件发生后重建“发生了什么”的情景过程; 审计 日志可用于验证系统或过程是否如预期般运行的过程;
6
第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用
大数据应用人才培养系列教材 第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用 5.5 日志分析与挖掘实例 习题
7
5.2 日志处理 生成日志: 传输日志: 存储日志: 分析日志: 第五章 综合实战:日志的挖掘与应用
操作系统、数据库、中间件、应用、硬件设备等生成日志。 传输日志: 日志基于某种协议传输。如:SNMP、Syslog协议。 存储日志: 日志的存储和快速检索分析。 分析日志: 通过某种组合命令、日志工具或系统分析日志信息,挖掘日志“内涵”。
8
5.2 日志处理 拉: 推: 第五章 综合实战:日志的挖掘与应用 日志传输是将日志消息从一个地方转移到另一地方的方式。
日志记录系统获取日志的方式分为两类: 拉: 应用程序从来源拉取日志消息。该方式一般基于C-S模型。通常以专有格式保存日志数据。 例如:拉取CheckPoint防火墙日志。 推: 设备或应用向本地磁盘或者网络发出消息,必须配备一个日志收集器接收消息。 例如:Syslog、SNMP、Windows事件日志。
9
传输协议 日志格式 5.2 日志处理 知名的日志传输协议: 知名的日志格式: 第五章 综合实战:日志的挖掘与应用 Syslog UDP
Syslog TCP 加密Syslog SOAP over HTTP SNMP 传统文件传输方式,如FPT、SCP等。 传输协议 知名的日志格式: W3C扩展日志文件格式(Extended Log File Format ,ELF) Apache访问日志 Cisco SDEE/CIDEE Arc Sight Syslog IDMEF 日志格式
10
5.2 日志处理 日志的存储和快速检索是日志分析的关键问题。 日志文件的Hadoop存储 日志文件的文本存储 日志文件的数据库存储
第五章 综合实战:日志的挖掘与应用 日志的存储和快速检索是日志分析的关键问题。 日志文件的文本存储 优点:低资源消耗 、文本格式可直接读取分析、集成成本低。 缺点:面对大数据、复杂分析无法胜任。 日志文件的数据库存储 优点:可使用SQL直接检索、数据库访问权限健全、集成工具兼容。 缺点:较文本存储模式系统资源开销大(CPU、Mem、存储、网络延迟、文件压缩比等)。 日志文件的Hadoop存储 优点:分布式文件系统(Hadoop’s Distributed File System,HDFS)将数据存储为有结构的扁平文件。性能远优于文本、数据库存储方式。 缺点:日志工具对Hadoop文件系统支持有限。
11
5.2 日志处理 HDFS的读具体步骤为: HDFS的写具体步骤为: 第五章 综合实战:日志的挖掘与应用
HDFS(Hadoop Distributed File System)Hadoop分布式文件系统是其核心组件。 HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失。 HDFS的读具体步骤为:
12
WHO? WHAT? WHERE? WHEN? WHY? HOW?
5.2 日志处理 第五章 综合实战:日志的挖掘与应用 WHO? WHAT? WHERE? WHEN? 日志信息应该包括: WHO(涉及谁?)、WHAT(发生了什么?)、WHERE(发生在哪里?)、WHEN(发生在何时?)、WHY(为什么发生?)、HOW(如何发生?) WHY? HOW?
13
grep awk sed tail 5.2 日志处理 类UNIX操作系统内置了多款命令,可以组合用于日常简单分析日志信息。
第五章 综合实战:日志的挖掘与应用 类UNIX操作系统内置了多款命令,可以组合用于日常简单分析日志信息。 grep grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。 awk “样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。 sed sed是一款强大的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作 tail tail 命令从指定点开始将 File 参数指定的文件写到标准输出。常与如上命令配置使用。
14
5.2 日志处理 Warren Mcculloch Walter Pitts 正则表达式概念来自于神经学。 正则表达式的特点是:
第五章 综合实战:日志的挖掘与应用 在最近的六十年中,正则表达式逐渐从模糊而深奥的数学概念,发展成为在计算机各类工具和软件包应用中的主要功能。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给定一个正则表达式和另一个字符串,我们可以达到如下的目的: 1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”); 2. 可以通过正则表达式,从字符串中获取我们想要的特定部分。 正则表达式的特点是: 1. 灵活性、逻辑性和功能性非常的强; 2. 可以迅速地用极简单的方式达到字符串的复杂控制。 3. 对于刚接触的人来说,比较晦涩难懂。 正则表达式概念来自于神经学。 Warren Mcculloch Walter Pitts 绝大多数日志分析软件均基于正则表达式。
15
日志编码 时间戳 5.2 日志处理 严重等级 换行符 日志轮转 分隔符 … 日志权限 第五章 综合实战:日志的挖掘与应用
在数据中心里,繁杂各异格式的日志成为了日志分析的噩梦。可规范应用系统日志开发及管理过程,进行精准日志实时监控、提升突发故障排错效率、提供丰富信息用于大数据分析、实现应用系统的安全审计功能。 出于不同的目的,业界流传多种日志最佳实践。其中一部分是针对特定行业或日志工具,而大部分最佳实践都是通用的,本处仅讨论普通文本日志,可参照如下指标: 时间戳:表示事件发生的时刻 严重级别:表示事件的紧急程度 分隔符:用于在一个记录中将一个字段与前后相邻字段区分开 日志编码:日志文件的编码格式 换行符:Unix系统里,每行结尾只有“<换行>”,即“\n”;Windows系统里面,每行结尾是“ <回车><换行>”,即“\r\n”;Mac系统里,每行结尾是“<回车>” 日志轮转:基于某个时间周期/预设文件大小/综合考虑的日志轮转 日志权限:日志文件对不同用户的读/写/执行权限 … 严重等级 时间戳 日志权限 换行符 日志编码 分隔符 日志轮转
16
第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用
大数据应用人才培养系列教材 第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用 5.5 日志分析与挖掘实例 习题
17
5.3 日志分析原理及工具 Ross Ihaka 第五章 综合实战:日志的挖掘与应用
R语言最初由Ross Ihaka和Robert Gentleman在新西兰奥克兰奥克兰大学统计系设计开发,并于1993年首次对外公开发布。 如前所述,R语言是用于统计分析,图形表示和报告的编程语言和软件环境。 以下是R语言一些特点: R语言是一种开发良好,简单而有效的编程语言,包括条件,循环,用户定义的递归函数以及输入和输出工具等 R语言有一个有效的数据处理和存储工具 R语言提供了一组运算符,用于对数组,列表,向量和矩阵进行计算 R语言提供了一个大型,一致和集成的数据分析工具集合 R语言提供用于数据分析和直接显示在计算机上或在文档中打印的图形化工具 R语言是世界上使用最广泛的统计学编程语言。 这是数据科学家的第一选择,并由一个充满活力和有才华的贡献者社区支持。 R语言现已在大学中教授,也部署在关键业务应用程序中。 本教程将向您介绍R语言编程的基础知识,如何使用的步骤,以及一些适当示例。 Ross Ihaka
18
5.3 日志分析原理及工具 中间件 数据库 硬件 操作系统 Web 行为 存储 流量 告警/报表 pgFouine/pgBadger……
第五章 综合实战:日志的挖掘与应用 pgFouine/pgBadger…… 泛用日志分析工具 多数监控软件均集成了基于正则表达式的泛用日志监控模块,如ITM 、Zabbix等。 告警/报表 Apache SQL analyser…… 中间件 数据库 硬件 LogAnalyzer/Graylog/Octopussy…… 操作系统 System Director…… Web 存储 行为 TPC…… SkyDB…… 流量 Piwik/Graphite/webalizer/Open Web Analytics…… 专用日志分析工具 专用工具分析深度、广度、性能等均高于泛用日志分析工具。但集成维护要复杂。 phpTrafficA/Webanalyse……
19
商用 开源 5.3 日志分析原理及工具 第五章 综合实战:日志的挖掘与应用 市面上有大量商用和开源日志分析工具
Splunk:与众不同在于支持广泛的日志源、审核活动的实时仪表盘、可自定义报告和仪表盘以及有助于将Splunk集成到安全基础设施的API。 NetIQ Sentinel:包含异常检车和身份管理,作为处理事故响应和事件取证的额外来源。企业版可组织提供完整的安全信息管理。 QRadar:IBM日志管理解决方案。 Loggly:云日志提供商。 商用 开源 OSSEC:出色的开源日志存储和分析工具。支持syslog,支持无代理,甚至可安装在VMware主机系统上。提供许多最佳实践规则,基于Web的用户界面,是一个轻量级的应用。 Scribe:facebook开源的日志收集系统。能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。 Chukwa:非常新的开源项目,属于hadoop系列产品,(用HDFS存储,用mapreduce处理数据),它提供了很多模块以支持hadoop集群日志分析。
20
Elastic search-Cluster
5.3 日志分析原理及工具 第五章 综合实战:日志的挖掘与应用 5.3 日志分析原理及工具 第五章 综合实战:日志的挖掘与应用 Logstash-index1 Elastic search-Cluster Node1 Node2 Logstash-index2 Message Logstash-agent Access-log Error-log ELK由Elasticsearch 、Logstash和Kibana三 部分组件组成; Elasticsearch是个开源分布式搜索引擎。 Logstash是一个完全开源的工具,它可以对你的日志进行收集、分析,并将其存储供以后使用。 kibana 是一个开源和免费的工具,它可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面,可以帮助您汇总、分析和搜索重要数据日志。 Web-Server
21
第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用
大数据应用人才培养系列教材 第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用 5.5 日志分析与挖掘实例 习题
22
5.4 日志挖掘应用 第五章 综合实战:日志的挖掘与应用
Splunk 是一个可运行于各种平台的 IT 数据分析、日志分析、业务数据分析软件,支持的作业平台包含Windows, Linux, Solaris, FreeBSD, AIX, MacOS, HP-UX。与 Google Analytics 这一类的 Web 日志分析软件的不同之处在于,Splunk 可以支持任何 IT 设备(服务器、网络设备、应用程序、数据库等)所产生的日志,其对日志进行处理的方式是进行高效索引之后让管理员可以对日志中出现的各种情况进行搜索,并且通过非常好的图形化的方式展现出来。
23
5.4 日志挖掘应用 第五章 综合实战:日志的挖掘与应用 使用Splunk对web访问日志的分析,可以获取IP地址,耗时,URL数据。
24
5.4 日志挖掘应用 第五章 综合实战:日志的挖掘与应用
使用Splunk,在应用系统的访问日志中,每次客户端发起的请求都记录了用户ID,具体功能点等信息,通过该日志数据,结合用户ID,机构名称,机构类型,同能点说明等数据,就可以从不同维度,去查询,统计用户的行为特征。
25
第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用
大数据应用人才培养系列教材 第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用 5.5 日志分析与挖掘实例 习题
26
5.5日志分析与挖掘实例 第五章 综合实战:日志的挖掘与应用
27
5.5日志分析与挖掘实例 参照前页PPT架构设计思想: 专有专用、没有泛用、集中管理、关联挖掘 关联挖掘 集中管理 没有泛用 专有专用
第五章 综合实战:日志的挖掘与应用 参照前页PPT架构设计思想: 专有专用、没有泛用、集中管理、关联挖掘 基于配置管理库的事件大数据挖掘。通过数据挖掘软件,发现事件间的关联关系。有利于智能运维和事件预测。IBM IOAPI设计思想值得借鉴 关联挖掘 将日志事件集中管理。日志集中有利于监控集中管理、CMDB事件丰富和事件关联分析系统搭建。Omnibus是最佳选择 集中管理 如无专用日志分析软件壳使用泛用的。通过泛用日志分析工具配置对应策略可满足日常日志分析需求。如:Splunk、ITM LFA、ELK 没有泛用 如有专用日志分析软件就使用专用的。专用日志分析工具在分析准确性、复杂度、效率等方面均高于使用泛用软件。如:iMC、TPC 专有专用
28
5.5日志分析与挖掘实例 第五章 综合实战:日志的挖掘与应用
29
第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用
大数据应用人才培养系列教材 第五章 综合实战:日志的挖掘与应用 5.1 日志概念 5.2 日志处理 5.3 日志分析原理及工具 5.4 日志挖掘应用 5.5 日志分析与挖掘实例 习题
30
习题: 1.使用数据库存储日志,数据库系统提供了丰富的接口,能否方便的开发日志分析前端工具?
2.类UNIX系统中Syslog传输日志,日志服务器是使用向客户端“拉”取日志的形式传输日志吗? 3.下列哪项不是日志处理生命周期的阶段( ) A.传输日志 B.克隆日志 C.存储日志 D.分析日志选择题 4.下列哪项正则表达式可用于匹配中国邮政编码(注:6位数字) A.[1-9]d{5}(?!d) B. [1-9]d{6}(?!d) C.d{3}-d{8}d{4}-d{7} D.d{15}|d{18} 5.在CentOS操作系统上使用awk、grep等命令匹配/etc/password中含有nologin的行。 6.参照本章节本章5.3.3,使用VMware Workstation安装CentOS操作系统搭建ELK服务器端应用,并自行搜索相关技术文档,深入了解使用ELK工具分析日志。
31
AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台
32
云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能
微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI
33
手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京
云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站
34
网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台
35
感谢聆听
Similar presentations