Download presentation
Presentation is loading. Please wait.
1
資料探勘工具 - Splunk介紹 報告者:曾彥志 報告日期:2015/09/18
2
目錄 Splunk是什麼? 什麼機器資料? 機器資料的來源 Splunk的版本
Hunk®:Splunk Analytics for Hadoop Hunk® 導覽 Hunk® 6.2新功能
3
Splunk是什麼? Splunk 是專門設計用於處理機器資料的平台。
IT人員可以透過瀏覽器針對企業的各種機器資料進行關鍵字搜尋,快速獲得所需要的關鍵資料,然後透過 Splunk 將搜尋所得的結果立即做運算處理,來產生各種報告、圖表與警示。 Splunk 還可以設定進行排程定時搜尋,並將結果以 或簡訊等方式通知相關人員。 它會收集您所有 IT 系統和基礎結構(實體、虛擬以及在雲端中)所產生的機器資料,並編製索引加以利用。 不必耗時費日,即可在幾分鐘內解決問題和偵測安全事件。監視點對點基礎結構,以避免服務效能降低或中斷。以較低成本符合法規遵循要求。聯繫並分析跨越多個系統的多重事件。
4
什麼是機器資料? 機器資料包含客戶、使用者、交易、應用程式、伺服器、網路以及行動裝置之所有活動與行為的記錄。
也包含設定、API 中的資料、訊息佇列、變更事件、診斷命令的輸出、通聯記錄與產業系統中的感應器資料等。
5
機器資料的來源(1/4) 資料類型 何處尋找 能告訴您什麼 應用程式記錄
本機記錄檔、log4j、log4ne、Weblogic、WebSphere、JBoss、.NET、PHP 使用者活動、詐騙偵測、應用程式效能 商業程序記錄 商業程序管理記錄 跨通路、購買、帳戶變更、問題報告的客戶活動 通聯記錄 電信業者與網路交換器所記錄的通聯記錄 (CDR)、收費資料記錄、事件資料記錄 計費、收益保證、客戶保證、合作夥伴結算、行銷情報 點擊流記錄 Web 伺服器、路由器、Proxy 伺服器、廣告伺服器 可用性分析、數位行銷與一般研究 設定檔 系統設定檔 基礎結構如何設定、偵錯失敗、後門攻擊、定時炸彈
6
機器資料的來源(2/4) 資料類型 何處尋找 能告訴您什麼 資料庫稽核記錄 資料庫記錄檔、稽核表格
如何隨時間修改資料庫資料,以及誰進行了這些變更 檔案系統稽核記錄 儲存在共用檔案系統中的敏感資料 監控與稽核敏感資料的讀取存取權 管理與記錄 API 檢查點防火牆會透過 OPSEC Log Export API (OPSEC LEA) 以及 VMware 與 Citrix 中的其他廠商特定 API 記錄 管理資料與記錄事件 訊息佇列 JMS、RabbitMQ 與 AquaLogic 複雜應用程式中的偵錯問題,且作為為應用程式記錄架構的骨幹使用
7
機器資料的來源(3/4) 資料類型 何處尋找 能告訴您什麼 封包/流量資料
tcpdump 與 tcpflow,這會產生 pcap 或流量資料以及其他實用封包層級與工作階段層級資訊 效能降低、逾時、瓶頸或指出網路可能會遭受威脅或遠端攻擊目標的可疑活動 SCADA 資料 監督控制與資料擷取 (SCADA) 識別 SCADA 基礎結構中的趨勢、模式與異常情況,也可用於驅動客戶價值 感應器資料 會根據監控環境條件 (例如溫度、聲音、壓力、動力、水量等) 產生資料的感應器裝置 水量監控、機器運作情況監控與情報型家庭監控 系統記錄 您的路由器、切換器與網路裝置中的系統記錄 疑難排解、分析、資訊安全稽核
8
機器資料的來源(4/4) 資料類型 何處尋找 能告訴您什麼 Web 存取記錄 Web 存取記錄會報告由 Web 伺服器處理的每個要求
Web Proxy 記錄 Web Proxy 會記錄使用者透過 Proxy 做出的每一個 Web 要求 監控及調查服務條款與資料洩漏事件 Windows 事件 Windows 應用程式、資訊安全與系統事件記錄 偵測業務關鍵的應用程式、安全性資訊與使用模式的問題。 線路傳輸數據 DNS 查閱及記錄、含標頭的通訊協定層級資訊、內容與流量記錄 主動監控應用程式的效能與可用性、使用者體驗、事件調查、網路、威脅偵測、監控與法規遵循
9
Splunk的版本 Splunk® Enterprise Splunk Cloud Splunk Light
Hunk® :Splunk Analytics for Hadoop Splunk MINT™ Splunk App for Enterprise Security Splunk App for Stream
10
Hunk® Hunk 是一個巨量資料分析平台,能在 Hadoop 及 NoSQL 資料存放區中快速探索、分析及視覺化資料。
Hunk 需在64位元的 Linux 上執行。 Hunk 可將 NoSQL 與 Apache Accumulo、Apache Cassandra、Couchbase、MongoDB 及 Neo4j 等資料存放區中的資料進行串流,以探索與分析巨量資料架構間的資料。
11
Hunk® 導覽(1/12) 互動式搜尋 Hunk 的結構描述可快速提供針對 Hadoop 資料執行查詢的彈性。
可用於 Apache Hadoop 大多數商業化的主要預設套裝平台,包括Cloudera、Hortonworks、IBM、MapR 和 Pivotal,且可支援第一代的 MapReduce 和 YARN。
12
Hunk® 導覽(2/12) 圖1、互動式搜尋
13
Hunk® 導覽(3/12) 立即預覽結果 在 Hunk 執行查詢時,它會立即串流回過渡期結果,同時MapReduce 工作會繼續在背景中執行。 提供更快速、互動程度更高的體驗,也可以暫停並縮小查詢範圍,無須等候完整的 MapReduce 工作完成。
14
Hunk® 導覽(4/12) 圖2、立即預覽結果
15
Hunk® 導覽(5/12) 分析原始資料 Hunk 可以分析 Hadoop 及 NoSQL 資料存放區中的原始資料,透過「資料模型」描述基本原始資料的關係,使資料更具意義並提升可用性。 使用樞紐分析介面快速產生圖表、視覺化內容與儀表板。
16
Hunk® 導覽(6/12) 圖3、分析原始資料
17
Hunk® 導覽(7/12) 編輯儀表板與檢視 儀表板編輯器可以建立與編輯、整合多種圖表與檢視的儀表板,以滿足眾多業務單位和IT人員的需求。
甚至可以將圖表及儀表板嵌入第三方商務應用程式。
18
Hunk® 導覽(8/12) 圖4、編輯儀表板與檢視
19
Hunk® 導覽(9/12) 豐富的開發環境 Hunk 包含了標準的網站架構、呼叫 REST API 及利用C#、Java、JavaScript、Python、PHP 與 Ruby 的軟體開發套件。 串流資源資料庫讓開發人員能夠從 NoSQL 及 Apache Accumulo、Apache Cassandra、MongoDB 與 Neo4j 等其他資料存放區串流資料,以便在 Hunk 中進行探索、分析與視覺化。
20
Hunk® 導覽(10/12) 圖5、豐富的開發環境
21
Hunk® 導覽(11/12) Splunk虛擬索引技術
可將 Splunk 儲存層從資料存取層和分析層解耦分離,以便 Hunk 將要求通透地派送至不同的資料存放節點。 Splunk 搜尋處理語言 (SPLTM) 可提供分析層在各種大型資料集中取得互動式資料探索。
22
Hunk® 導覽(12/12) 圖6、Splunk虛擬索引技術
23
Hunk®6.2新功能(1/3) 與 Amazon EMR 整合:
直接從 Amazon EMR 主控台,以 Amazon EMR 與 S3 的每小時資料定價來自動利用 AWS 提供的已設定 Hunk 執行個體。 Hunk 應用套件: 透過預先包裝的連線 (包括 MongoDB 版 Hunk 應用套件與 Hunk 版 Sqrrl 應用套件 (Apache Accumulo))搜尋、分析與視覺化 NoSQL 及其他資料存放區中的資料。
24
Hunk®6.2新功能(2/3) Splunk Enterprise 的封存:
將 Splunk Enterprise 中的歷史資料封存至 HDFS 與 Amazon S3 上的商品存放區。利用聯合查詢將來自 Splunk Enterprise 的即時資料與 Hunk 中的歷史資料相關聯。 Hunk Sandbox: 逐步教學與範例儀表板,讓您可以快速瞭解 Hunk 互動式搜尋與分析,而無須設定 Hadoop 叢集。
25
Hunk®6.2新功能(3/3) Data Explorer:
視覺化精靈可讓您瀏覽並選取相關資料集,並為 Hadoop 中的分析準備原始資料。 事件模型偵測: 透過自動分組類似事件來探索基礎資料中具意義的模式,以加快分析速度。
26
謝謝各位耐心地聆聽 THANKS FOR YOUR LISTENING.
Similar presentations