DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)

Slides:



Advertisements
Similar presentations
Web Maple— 云端计 算 数学学院刘海洋 胡婷婷. 需求 什么是 Web Maple ? Maple : “ 数学家的软件 ” 符号和数值计算 动态编程语言 集成编辑环境与图形输出 Web Maple :网页上的数学家 完整的 Maple 功能 云端计算 网页独特的输入输出格式.
Advertisements

校園資訊安全與防火牆架設 嘉義市育人國小 黃士騰.
中华字库的云输入法 王勇 基础软件国家工程研究中心
第三章 駭客入侵流程解析.
系統分析與設計 第九章 資料設計.
Big Data Ecosystem – Hadoop Distribution
第五章 資訊科技基礎建設與新興科技.
第四章 電腦軟體 課前指引 實體的電腦裝置,我們稱之為「硬體」(Hardware),至於軟體則是個抽象的概念,軟體是經由人類以各種不同的程式語言撰寫而成,以達到控制硬體、進行各種工作的抽象化(例如文書處理)等動作。有些讀者經常迫不及買了一台新電腦,就以為可以開始使用!事實不然,一部配備齊全的電腦,如果沒有合適的軟體來控制與搭配,絕對也是英雄無用武之地。一般來說,我們將軟體分「系統軟體」(System.
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
创新实验 课程说明 计算机学院 孙彤 计算机学院 张明.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
BOTNET Detection and Prevention
网格 及其应用的一些相关技术 高能所计算中心 于传松
巨量資料平台: Hadoop的生態系.
计算机网络安全技术实验 启动虚拟机、GIF、measpoilt、.
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
第2章 计算机网络的协议与体系结构 2.1 计算机网络体系结构的形成 2.2 协议与划分层次 2.3 计算机网络的原理体系结构
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
第8章 系統架構.
網頁技術簡介.
操作系统结构.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
第11讲 IDS技术(一).
基于hadoop的数据仓库技术.
计算机系统安全 第10章 常用攻击手段.
一种基于Hadoop的视频大数据分布式解码方法 冯强
Introduction to MapReduce
YARN & MapReduce 2.0 Boyu Diao
学习目标: 1)理解包和包过滤 2)理解包过滤的方法 3)设置特殊的包过滤规则
基于书签的校园搜索引擎 Web 2.0时代的网络收藏夹.
Core Switch 設定 Port的開啟與關閉 Virtual LAN建立 將Port指定到Virtual LAN
分布式系统中的关键概念及Hadoop的起源、架构、搭建
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
計中「多媒體與網路應用」短期訓練課程 FTP server 架設 (in Windows)
校园网 IPv6 应用迁移 上海交通大学网络信息中心 姜开达.
數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee
佐登妮斯大樓監控系統簡介 圓 泰 科 技 1.
第3讲 网络安全协议基础 此为封面页,需列出课程编码、课程名称和课程开发室名称。
(C) Active Network CO., Ltd
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
Arena System Technology Architecture 系统技术架构 1、Database V2(Lotus Notes)V3(Oracle8i) 2、Application Server SilverStream2.53 (Java as server side programming.
基于Hadoop的数据仓库Hive.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
課程名稱:資料庫系統 授課老師:李春雄 博士
網站內容建置實務 報告人:電資官鄒堡旬少校   .
CHAPTER 6 認識MapReduce.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
Hadoop平台與應用規劃實作 報告者:劉育維.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Cloud Computing Google云计算原理.
Android盤點系統 組別:第九組 組員:四資工三B 4980E046 宋佩鴻 四資工三B 4980E054 詹典易
「寬頻匯流網路管理」教材 模組四: 第一章 網路管理架構
软件工程基础 云计算概论 刘 驰.
軟體工程:如何開發軟體? 把它看成是一件工程。 那麼就會有一些工具、技術、方法,也有管理的議題。
第二章 資訊管理的科技觀點.
Access Security on Cloud Computing Implemented in Hadoop System
应用型本科院校大数据专业 实践教学环境改革与探索
Real-Time System Software Group Lab 408 Wireless Networking and Embedded Systems Laboratory Virtualization, Parallelization, Service 實驗室主要是以系統軟體設計為主,
读秀中文学术搜索
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
豪雅科技股份有限公司 iSeries Professional Consultant P. 1
實驗(一)學習如何使用WireShark
Speaker : 翁瑄伶 Advisor : 柯開維 博士 Date: 2016/07/31
課程名稱:資料庫系統 授課老師:李春雄 博士
11 Overview Cloud Computing 2012 NTHU. CS Che-Rung Lee
個資法對台糖公司應用系統所帶來的衝擊與防範
Operating System Software School of SCU
第1章 WWW和LAMP基本觀念.
Presentation transcript:

DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)

2 Two Topics ICAS : IDS-Log Analysis System Based on Hadoop and HBase NutchEz : An Easy Way to Crawl Web Pages by Nutch

3 ICAS IDS-Log Analysis System Based on Hadoop and HBase

4 網路型入侵偵測系統

5 警訊格式 [**] [1:538:15] NETBIOS SMB IPC$ unicode share access [**] [Classification: Generic Protocol Command Decode] [Priority: 3] 09/04-17:53: :1051 -> :139 TCP TTL:128 TOS:0x0 ID:4000 IpLen:20 DgmLen:138 DF ***AP*** Seq: 0x2E589B8 Ack: 0x642D47F9 Win: 0x4241 TcpLen: 20 [**] [1:1917:6] SCAN UPnP service discover attempt [**] [Classification: Detection of a Network Scan] [Priority: 3] 09/04-17:53: :1032 -> :1900 UDP TTL:1 TOS:0x0 ID:80 IpLen:20 DgmLen:161 Len: 133 [**] [1:1917:6] SCAN UPnP service discover attempt [**] [Classification: Detection of a Network Scan] [Priority: 3] 09/04-17:53: :1032 -> :1900 UDP TTL:1 TOS:0x0 ID:82 IpLen:20 DgmLen:161 Len: 133 ……….

6 Network IDS Interface

7 1. 重複的資訊太多 2. 難以瞭解全部的事件 3. 易忽略重要的訊息 These Events are MIS’s Nightmare !!!!

8 The Security Events Center  資訊安全事件中心  收集、整合、關聯惡意入侵警訊,於一個提供資安事 故訊息呈現的平台  主要功能  收集資訊  分析並整合事件

9 SEC Overview SEC

10 Alert Merge Example

11 What’s problem about the SEC ? 1. 大量的資料將導致效能變差 2. 資料庫毀損 3. 執行分析時,系統資源忙碌

12 ICAS ICAS, IDS Cloud Analysis System 透過雲端運算  Higher capability  Fault tolerance 主要分析功能  Reducing redundancy  Merge relation

13 ICAS Overview ICAS

14 System Architecture ICAS Component Overview

15 Program Procedure

16 Change SEC to ICAS (Architecture)

17 Change SEC to ICAS (components) MySQL Core Procedure Single Machine HBase Map-Reduce Multiple Machine Hadoop + LinuxLinux

18 Core ProcedureMap-Reduce Format Transfer Unit  Setup Snort logging to MySQL  Setup MySQL client logging to remote MySQL server Core Procedure Unit  Fuse redundant data  Merge data as event Program language  Shell & PHP

19 Regular Parser  Parsing original snort log and transfer to HDFS (hadoop file system) Analysis Procedure  Dispatch job if pool is not empty and insert the result into database Data Mapper  mapping Data Reducer  Core ProcedureMap-Reduce

20 MySQLHBase sec_event 關聯式資料庫: 透過主鍵可與其他資 料表作關聯

21 MySQLHBase 雲端資料庫: 格式為三個維度 (Row Key, TimeStamp, Column) 搭配雲端運算架構

22 實驗環境 Machine: X6  CPU : Intel quad-core, Memory : 2g, OS : Linux : Ubuntu 8.04 server Software : version  Hadoop :  Hbase :  Java : 6 Alerts Data Sets  MIT Lincoln Laboratory, Lincoln Lab Data Sets  Computer Security group at UCDavis, tcpdump file

23 Experimental Result The Calculation Time of Each Number of Data Sets

24 Experimental Result Throughput Data Overall

25 ICAS : 結論 由實驗結果可看出,雲端運算處理資料格式相 似且資料量大的情況下,能展現其效益,並提供 高容錯率、低獨占系統資源、多工作同時執行等 能力 ICAS 的特性適用於 Map/Reduce 演算法,故即 使都是一個運算節點的環境下, ICAS 也在大資 料量的分析有較好得效率 Hadoop 不適用要求即時性高、或是 latency 低 的系統,且每個版本的 API 差異大 關聯式資料庫對小量資料的讀寫的效率較好, 並且支援的語言也較多(如下頁)

26 ICAS : 結論 (2)

27 NutchEz : An Easy Way to Crawl Web Pages by Nutch

28 公司內部文件問題 有些內部資料雖放在網路上,但不適合 對外公開,僅在內部網路中的員工可以讀 取  搜尋引擎.. X => 靠印象找資料..O 新人 … 囧 rz 方法:  建立資料庫文件查詢系統: MIS=> 資料庫  用分類法建立樹狀資料結構:容易誤會 以上缺點:無法全文查詢

29 解決辦法 建立屬於公司內部的搜尋引擎  解析網頁內容  支援各種網頁格式 html, php, jsp…  統一的搜尋窗口  不同網站於不同主機,同一窗口  不用選擇資料類別  成本小  無痛  保密

30 全自動的搜尋解決方案 安裝簡單、操作方便 效率高、支援格式多、功能強大 開放原始碼 NutchEz

31 NutchEz 系統架構 Hadoop Nutch GUI Web Server NutchEz 使用者 管理者

32 What's Nutch 以 Java 來實做的 open source 搜索引擎 與 Hadoop 為同一創始者 以 Hadoop 為運算平台 目標:  一個月抓取幾十億網頁  為這些網頁維護索引  對索引文件進行每秒上千次的搜索  提供精準的搜索結果  以最小的成本運作

33 NutchEz : Nutch 的整合套件 簡易  安裝與操作都很簡便 透明  Opensource ,資訊不隱藏 廣泛  可分析不同檔案格式 隱私  可應用於搜尋內部資料 客製化  可設計成專用的 data mining 工具

34 可分析的格式與網路協定 text ext html js mp3 zip rtf msword msexcel msppt pdf rss openoffice swf file ftp http https 分析檔案格式網路協定

35 安裝

36 使用 - 建構搜尋內容 (1/5)

37 使用 - 建構搜尋內容 (2/5)

38 使用 - 建構搜尋內容 (3/5)

39 使用 - 建構搜尋內容 (4/5)

40 使用 - 建構搜尋內容 (5/5)

41 Running …

42 控制 – 網頁伺服器

43 實例: 機器: CPU Quad 4 2.4G / 4G mem 運作時系統平均使用率 :  CPU 19% 、 MEM 20% 搜尋內容:  699 doc, 322 pdf, 9 ppt, 13 odt. 費時: 11 min Demo:

44 結論: NutchEz Nutchez 是一套 Opensource 的搜尋引 擎套件,核心為強大的 Nutch ,建構於 Hadoop 之上 適用於建立內部資料的索引、分析各 種檔案格式,且不會存放原始檔案 目前不支援搜索需登入帳號密碼的網 站,也無提供搜尋後統計資料

45 DATE:4/14/09 Thank You ! & Question ?