資料探勘工具 - Splunk介紹 報告者:曾彥志 報告日期:2015/09/18
目錄 Splunk是什麼? 什麼機器資料? 機器資料的來源 Splunk的版本 Hunk®:Splunk Analytics for Hadoop Hunk® 導覽 Hunk® 6.2新功能
Splunk是什麼? Splunk 是專門設計用於處理機器資料的平台。 IT人員可以透過瀏覽器針對企業的各種機器資料進行關鍵字搜尋,快速獲得所需要的關鍵資料,然後透過 Splunk 將搜尋所得的結果立即做運算處理,來產生各種報告、圖表與警示。 Splunk 還可以設定進行排程定時搜尋,並將結果以 Email 或簡訊等方式通知相關人員。 它會收集您所有 IT 系統和基礎結構(實體、虛擬以及在雲端中)所產生的機器資料,並編製索引加以利用。 不必耗時費日,即可在幾分鐘內解決問題和偵測安全事件。監視點對點基礎結構,以避免服務效能降低或中斷。以較低成本符合法規遵循要求。聯繫並分析跨越多個系統的多重事件。
什麼是機器資料? 機器資料包含客戶、使用者、交易、應用程式、伺服器、網路以及行動裝置之所有活動與行為的記錄。 也包含設定、API 中的資料、訊息佇列、變更事件、診斷命令的輸出、通聯記錄與產業系統中的感應器資料等。
機器資料的來源(1/4) 資料類型 何處尋找 能告訴您什麼 應用程式記錄 本機記錄檔、log4j、log4ne、Weblogic、WebSphere、JBoss、.NET、PHP 使用者活動、詐騙偵測、應用程式效能 商業程序記錄 商業程序管理記錄 跨通路、購買、帳戶變更、問題報告的客戶活動 通聯記錄 電信業者與網路交換器所記錄的通聯記錄 (CDR)、收費資料記錄、事件資料記錄 計費、收益保證、客戶保證、合作夥伴結算、行銷情報 點擊流記錄 Web 伺服器、路由器、Proxy 伺服器、廣告伺服器 可用性分析、數位行銷與一般研究 設定檔 系統設定檔 基礎結構如何設定、偵錯失敗、後門攻擊、定時炸彈
機器資料的來源(2/4) 資料類型 何處尋找 能告訴您什麼 資料庫稽核記錄 資料庫記錄檔、稽核表格 如何隨時間修改資料庫資料,以及誰進行了這些變更 檔案系統稽核記錄 儲存在共用檔案系統中的敏感資料 監控與稽核敏感資料的讀取存取權 管理與記錄 API 檢查點防火牆會透過 OPSEC Log Export API (OPSEC LEA) 以及 VMware 與 Citrix 中的其他廠商特定 API 記錄 管理資料與記錄事件 訊息佇列 JMS、RabbitMQ 與 AquaLogic 複雜應用程式中的偵錯問題,且作為為應用程式記錄架構的骨幹使用
機器資料的來源(3/4) 資料類型 何處尋找 能告訴您什麼 封包/流量資料 tcpdump 與 tcpflow,這會產生 pcap 或流量資料以及其他實用封包層級與工作階段層級資訊 效能降低、逾時、瓶頸或指出網路可能會遭受威脅或遠端攻擊目標的可疑活動 SCADA 資料 監督控制與資料擷取 (SCADA) 識別 SCADA 基礎結構中的趨勢、模式與異常情況,也可用於驅動客戶價值 感應器資料 會根據監控環境條件 (例如溫度、聲音、壓力、動力、水量等) 產生資料的感應器裝置 水量監控、機器運作情況監控與情報型家庭監控 系統記錄 您的路由器、切換器與網路裝置中的系統記錄 疑難排解、分析、資訊安全稽核
機器資料的來源(4/4) 資料類型 何處尋找 能告訴您什麼 Web 存取記錄 Web 存取記錄會報告由 Web 伺服器處理的每個要求 Web Proxy 記錄 Web Proxy 會記錄使用者透過 Proxy 做出的每一個 Web 要求 監控及調查服務條款與資料洩漏事件 Windows 事件 Windows 應用程式、資訊安全與系統事件記錄 偵測業務關鍵的應用程式、安全性資訊與使用模式的問題。 線路傳輸數據 DNS 查閱及記錄、含標頭的通訊協定層級資訊、內容與流量記錄 主動監控應用程式的效能與可用性、使用者體驗、事件調查、網路、威脅偵測、監控與法規遵循
Splunk的版本 Splunk® Enterprise Splunk Cloud Splunk Light Hunk® :Splunk Analytics for Hadoop Splunk MINT™ Splunk App for Enterprise Security Splunk App for Stream
Hunk® Hunk 是一個巨量資料分析平台,能在 Hadoop 及 NoSQL 資料存放區中快速探索、分析及視覺化資料。 Hunk 需在64位元的 Linux 上執行。 Hunk 可將 NoSQL 與 Apache Accumulo、Apache Cassandra、Couchbase、MongoDB 及 Neo4j 等資料存放區中的資料進行串流,以探索與分析巨量資料架構間的資料。
Hunk® 導覽(1/12) 互動式搜尋 Hunk 的結構描述可快速提供針對 Hadoop 資料執行查詢的彈性。 可用於 Apache Hadoop 大多數商業化的主要預設套裝平台,包括Cloudera、Hortonworks、IBM、MapR 和 Pivotal,且可支援第一代的 MapReduce 和 YARN。
Hunk® 導覽(2/12) 圖1、互動式搜尋
Hunk® 導覽(3/12) 立即預覽結果 在 Hunk 執行查詢時,它會立即串流回過渡期結果,同時MapReduce 工作會繼續在背景中執行。 提供更快速、互動程度更高的體驗,也可以暫停並縮小查詢範圍,無須等候完整的 MapReduce 工作完成。
Hunk® 導覽(4/12) 圖2、立即預覽結果
Hunk® 導覽(5/12) 分析原始資料 Hunk 可以分析 Hadoop 及 NoSQL 資料存放區中的原始資料,透過「資料模型」描述基本原始資料的關係,使資料更具意義並提升可用性。 使用樞紐分析介面快速產生圖表、視覺化內容與儀表板。
Hunk® 導覽(6/12) 圖3、分析原始資料
Hunk® 導覽(7/12) 編輯儀表板與檢視 儀表板編輯器可以建立與編輯、整合多種圖表與檢視的儀表板,以滿足眾多業務單位和IT人員的需求。 甚至可以將圖表及儀表板嵌入第三方商務應用程式。
Hunk® 導覽(8/12) 圖4、編輯儀表板與檢視
Hunk® 導覽(9/12) 豐富的開發環境 Hunk 包含了標準的網站架構、呼叫 REST API 及利用C#、Java、JavaScript、Python、PHP 與 Ruby 的軟體開發套件。 串流資源資料庫讓開發人員能夠從 NoSQL 及 Apache Accumulo、Apache Cassandra、MongoDB 與 Neo4j 等其他資料存放區串流資料,以便在 Hunk 中進行探索、分析與視覺化。
Hunk® 導覽(10/12) 圖5、豐富的開發環境
Hunk® 導覽(11/12) Splunk虛擬索引技術 可將 Splunk 儲存層從資料存取層和分析層解耦分離,以便 Hunk 將要求通透地派送至不同的資料存放節點。 Splunk 搜尋處理語言 (SPLTM) 可提供分析層在各種大型資料集中取得互動式資料探索。
Hunk® 導覽(12/12) 圖6、Splunk虛擬索引技術
Hunk®6.2新功能(1/3) 與 Amazon EMR 整合: 直接從 Amazon EMR 主控台,以 Amazon EMR 與 S3 的每小時資料定價來自動利用 AWS 提供的已設定 Hunk 執行個體。 Hunk 應用套件: 透過預先包裝的連線 (包括 MongoDB 版 Hunk 應用套件與 Hunk 版 Sqrrl 應用套件 (Apache Accumulo))搜尋、分析與視覺化 NoSQL 及其他資料存放區中的資料。
Hunk®6.2新功能(2/3) Splunk Enterprise 的封存: 將 Splunk Enterprise 中的歷史資料封存至 HDFS 與 Amazon S3 上的商品存放區。利用聯合查詢將來自 Splunk Enterprise 的即時資料與 Hunk 中的歷史資料相關聯。 Hunk Sandbox: 逐步教學與範例儀表板,讓您可以快速瞭解 Hunk 互動式搜尋與分析,而無須設定 Hadoop 叢集。
Hunk®6.2新功能(3/3) Data Explorer: 視覺化精靈可讓您瀏覽並選取相關資料集,並為 Hadoop 中的分析準備原始資料。 事件模型偵測: 透過自動分組類似事件來探索基礎資料中具意義的模式,以加快分析速度。
謝謝各位耐心地聆聽 THANKS FOR YOUR LISTENING.