Download presentation
Presentation is loading. Please wait.
1
指導教授:黃三益 教授 學生 洪瑞麟 m964020015 蔡育洲 m964020034 陳怡綾 m964020041
Data mining Project 2 指導教授:黃三益 教授 學生 洪瑞麟 m 蔡育洲 m 陳怡綾 m
2
Outline Introduction Data mining procedure Conclusion Background
Motivation Data mining procedure Conclusion
3
Background 從美國聯邦調查局電腦研究所調查報告, 可發現90%的企業在過去一年當中曾偵 測其電腦遭受到惡意的攻擊入侵。
在入侵事件發生前或是惡意攻擊者發動 攻擊時,要盡可能的及早發現,並且偵 測出來,加以防禦,所以需要有效的偵 測方式,透過偵測防禦可以降低入侵攻 擊事件的發生比率。
4
Motivation 入侵防禦系統 (Intrusion Prevention System, IPS),其目的是分析主機及網 路的行為,並判斷其是否有入侵攻擊的 行為發生,是屬於比較積極主動的安全 控管機制,能彌補防火牆及防惡意程式 的軟體對於分析與觀察主機及網路行為 的不足。 在實驗中,利用中美和石化公司所提供 的IPS資料,根據其欄位進行分類動作, 並找出其相關性。
5
Data mining procedure Translate biz opportunity (problem) into DM opportunity (problem) 由於組織內部架設許多主機,同時儲存許 多重要私密資料,因此希望能有配套措施 來保護組織內部網路的機密性與安全性, 並能抵擋網路上常見的攻擊。轉換成Data Mining的解決方法,亦即將架設於防火牆 外的IPS所收集到的流量進行classification, 並訓練出攻擊的規則,希望藉由此規則對 網路流量進行是否為DOS攻擊之判斷
6
Data mining procedure 取自 Oracle 資料庫 於SQLPlus中利用以下指令匯出資料‘
SQL> set pagesize //將螢幕長度設為每頁50000行 SQL> set linesize //將螢幕寬度設為每行1000個字元 SQL> spool data.csv //將螢幕的內容輸出到data.csv SQL> select * from table; //從table中拉出資料 SQL> spool off
7
Data set 欄位 意義 例 AID 編號 1 ACK Tcp-flag TIME 日期時間
04-2月 下午 ATTACK 攻擊方式 ICMP: Nachi-like Ping、 HTTP: Internet Media、 UDP: Host Sweep、 Tunneling through HTTP、 WORM: Possible Worm Detected in Attachment SEVERITY 危險程度 MEDIUM、 HIGH SOURCEIP 來源IP
8
Data set SOURCEPO 來源連接埠 4221 TARGETIP 目標IP 128.128.128.38 SENSOR
感應裝置(虛擬) sensorkhh TARGETPO DOMAIN 目標連接埠網域 /CAPCO_KHH、 /CAPCO_KHH INTER TYPE 入侵方式 Exploit、 Host Sweep APPLICATIONPROTOCOL 協定 icmp、http、dns RESULTSTATUS 處理結果 Blocked、 Suspicious Maybe Successful ATTACKCOUNT 攻擊次數 1 DIRECTION 流量方向 Inbound、Outbound CATEGORY 分類 Policy Violation SUBCATEGORY 子分類 dos、 restricted-application、 host-sweep DETECTIONMECHANISM 偵測架構 signature、 protocol-anomaly VULNERABILITYRELEVANCE 弱點關聯 Unknown VLANID vlan的編號 -NA-
9
Data mining procedure Select appropriate data
一開始拿到資料先以肉眼判斷不適合或對訓練無用之欄位 AID:儲存流水號之欄位,因此判斷對攻擊之訓練無用。 ACK:屬於TCP -Flag,在此dataset中全部數值為0,判斷對攻 擊判斷之訓練無用。 Del:屬於TCP-Flag,在此dataset中全部數值為0,因此判斷 對攻擊判斷之訓練無用。 SENSOR:儲存用來收集的sensor名稱,在此dataset中全部值 為sensorkhh,因此判斷對攻擊判斷之訓練無用。 VULNERABILITYRELEVANCE:儲存弱點關聯,在此dataset 中全部數值為Unknown,因此判斷對攻擊判斷之訓練無用。 VLANID: 在此dataset中全部數值為-NA-,因此判斷對攻擊 判斷之訓練無用。
10
Data mining procedure Get to know the data
11
Data mining procedure Create a model set 利用以下欄位的搭配,可以找出DOS的特徵 ATTACK
SEVERITY SOURCEIP SOURCEPO TARGETIPTARGETPO DOMAIN INTER TYPE APPLICATIONPROTOCOL RESULTSTATUS ATTACKCOUNT DIRECTION CATEGORY SUBCATEGORY DETECTIONMECHANISM
12
Data mining procedure Fix problems with the data
這裡使用的為C4.5演算法做classify,所以可以直接處 理missing data不用另外處理 Transform data to bring information to the surface 在這裡我們不另外對data做其他的處理
13
Data mining procedure Build models CATEGORY = Exploit
ATTACK = ICMP: Nachi-like Ping: dos ( ) ATTACK = NETBIOS-SS: Windows DDN DoS: dos (3147.0) ATTACK = RDP: Microsoft Windows RDP Server Abnormal Termination: dos (18.0) ATTACK = DCERPC: Microsoft SPOOLSS Service Denial of Service: dos (34.0) ATTACK = MSRPC: Windows Registry Remote Write Attempt: dos (6882.0) ATTACK = SMB: SRV.SYS Null Pointer Dereference: dos (9.0) ATTACK = NETBIOS-NS: Windows Name Conflict: dos (1.0) ATTACK = DDoS: TFN2k ICMP Possible Communication: ddos- agent-activity (2.0)
14
Data mining procedure
15
Results Time taken to build model Correctly Classified Rate
Test data set Training data set 0.5 seconds % 50% 0.53 seconds % 33.3% 66.6% 0.48 seconds % 25% 75% % 20% 80%
16
Conclusion 由實驗中可得知,藉由實際收集IPS的 流量資訊並加以訓練之後,對一般流量 進行分類,準確率高達99.97%以上。
Similar presentations