Presentation is loading. Please wait.

Presentation is loading. Please wait.

IEBLOCKER個人版 不當網站防制系統

Similar presentations


Presentation on theme: "IEBLOCKER個人版 不當網站防制系統"— Presentation transcript:

1 IEBLOCKER個人版 不當網站防制系統
邱志傑 王明習 謝錫堃 賴溪松* 國立成功大學 計算機與網路中心 *國立成功大學 電機工程學系 報告人:邱志傑   2006年11月

2 大綱 前言 不當網站資料庫系統 IEBLOCKER功能架構 IEBLOCKER功能簡介 資料庫數量及阻擋成效 結論

3 前言(一) 在2004年6月的Internetpolicy中指出,全球色情網站大約有四千六百多萬的網頁,而隨著網路頻寬的增加,瀏覽網頁不再受限於以往的網路頻寬過慢,反而更以多媒體聲音及動畫影片來突顯網頁的豐富性。 各區網中心代理伺服器瀏覽統計中,每日瀏覽次數前一百大排名的網站平均約有四個網站是屬於不適合存取網站。 全台各區網中心平均每天約有一百五十六個不當網站被使用者所瀏覽,平均每日約有七萬多次的瀏覽次數及965MB的網頁下載量 。

4 前言(二) Region Webpages Europe 28,430,600 Pacific 12,352,600 Asia
3,193,000 Latin America 1,048,600 Africa 389,400 Canada 283,600 Caribbean 255,000 Middle East 77,800 Total 46,030,600 資料來源:Internetpolicy分析全球色情網頁

5 教育部之防制措施 教育部電算中心主導TANet技術整合

6 不當網站資料庫系統架構圖

7 搜尋引擎過濾結果 利用Google、Gais及Yahoo搜尋400個不當關鍵字辭,每個關鍵字詞取前100大排名。
搜尋結果有37,978筆資訊,分別為29,567筆不重複網頁及6,465筆不重複網站。 過濾結果 4,936筆正常網站 783筆空白網站 416筆不當網站 330筆無效網站

8 網站分析系統(一) Website Analysis System(WAS)
檔案數量 所佔比例(%) .htm(.html) 5430 70.95 .asp 508 6.64 .php 597 7.80 .txt 1038 13.56 .cgi 67 0.88 .pl 7 0.09 .jsp .cfm 6 0.08 分析1000個網站副檔名的比例

9 網站分析系統(二) 自動擷取該網站下所有內容 快速整合該網站下所有符合htm、html、txt、asp及php的網頁成一個網站內容資料庫
WAC處理整合後的資訊 下載 分析附檔名格式 整合 資料庫分類

10 網站分析核心(一) Website Analysis Core (WAC)
關鍵字詞(keyword)資料庫 計算該網站出現哪些不當關鍵字詞 中文詞彙(chinese)資料庫 分析該網站有多少中文詞彙 網站名稱(dns)資料庫 偵測網頁原始檔中包含哪些伺服器主機名稱 內部相關網頁鏈結(link)資料庫 偵測網頁原始檔中有哪些頁面在本身網站下面 外部相關網頁鏈結(friend) 資料庫 偵測網頁原始檔中有哪些頁面不在本身網站下面 圖檔鏈結(gif)資料庫 偵測網頁原始檔中包含哪些圖檔網頁位址 網站分級(icra)資料庫 偵測網頁原始檔中是否包含有註明網站分級之資訊或電子郵件位址

11 網站分析核心(二) 檔案內容 資料數量 Keyword Chinese Dns Link Friend Gif Icra
teen 1(個) Chinese 站內導覽 系所介紹 74(列) Dns 4(筆) Link 137(筆) Friend Gif 79(筆) Icra 1(筆)

12 網站分析核心(三) 本系統軟硬體設備 支援平行處理 平行處理四個WAC之畫面 WAS平行擷取100網站內容之畫面
MS Windows2000 Server Dual Xeon2.8G及2G ECC Memory,105Gb HD Apache(1.329)+Php(4.34)+Mysql(4.016), C, BCB. 支援平行處理 平行處理四個WAC之畫面 WAS平行擷取100網站內容之畫面

13 WAS效率分析 下載1000個不當網站 下載google之18,240筆網站 下載5000個不當網站 運算時間接近於一個工作天
分成25個批次檔同時執行 檔案總大小為1.2Gb,當中包含59,007個檔案、6,378個資料夾、9,602張jpg圖檔及7,947張gif圖檔。 下載google之18,240筆網站 花費時間約小於五個工作天 分成100個批次檔同時執行 檔案總大小為48.6Gb,當中包含1,462,835個檔案及238,147個資料夾。 下載5000個不當網站 花費時間約小於三個工作天 檔案總大小為2.53Gb,當中包含139,619個檔案及30,929個資料夾。

14 WAC效率分析 1000個網站之檔案資料庫(Content DB)總大小為912MB。
WAC處理完畢後資料庫大小為260MB。 1200MB 912MB 260MB

15 網站之關鍵字詞比對流程 擷取網頁內容與關鍵字詞資料庫比對 計算每個網頁之不當關鍵字詞個數 計算每個網頁之不當權重 計算每個網站之平均不當權重
權重設限為3.38 擷取網頁內容與關鍵字詞資料庫比對 計算每個網頁之不當關鍵字詞個數 計算每個網頁之不當權重 計算每個網站之平均不當權重

16 關鍵字詞代理器實驗結果 精準率為0.96(確實為不當網站/被認定為不當網站) 召回率為0.86(確實為正常網站/被認定為正常網站)
偵測率為0.85(1000個不當網站偵測出852個) 誤判率為0.04(1000個正常網站偵測出47個) 檢測率為0.90(如下定義)

17 圖片偵測代理器(Graphic Agent)
搜尋網站下特定格式與副檔名之圖片 色彩空間轉換 RGB =>YCbCr 圖片膚色特徵 膚色特徵之強化 動態人種膚色門檻值 膚色強化及動態人種膚色 計算該網站目錄下之膚色圖片比例 計算該網站膚色權重

18 膚色分佈 82個不當網站之膚色權重 85個正常網站之膚色權重

19 網站連結代理器(Link Agent) Link Agent 100個正常網站平均權重為0.84 100個不適合存取網站平均權重為2.59
分析該網站被連結與連結的權重分數 100個正常網站平均權重為0.84 100個不適合存取網站平均權重為2.59

20 網站分類及評分系統(WRACE) 採用SVM (Support Vector Machine)演算法 SVM訓練樣本 SVM測試樣本
本研究採用Radial Basis Function Kernel來做訓練及測試的樣本 SVM採向量方式處理訓練及測試資料 SVM可處理線性不可分割的問題 SVM在分類上有極佳之效果 SVM訓練樣本 100筆正常網站 100筆不正常網站 SVM測試樣本 100筆隨機網站 訓練與測試過程 svmscale.exe -l -1 -u 1 -s train.range train.txt >train.scale svmtrain train.scale svmscale.exe -l -1 -u 1 -s test.range test.txt >test.scale svmpredict test.scale train.scale.model result.txt

21 判斷結果 精準率為0.95、召回率為0.96、檢測率為0.95。 偵測率為0.88、誤判率為0.04。 46 54 4 96 88 12
資料來源 偵測為不適合網站 偵測為正常網站 100筆隨機網站 46 (46筆當中有46筆 為不適合存取網站) 54 (54筆當中有52筆 為正常網站) 100筆正常網站 4 96 100筆不當網站 88 12

22 不適合存取網站國別分佈 五萬筆不適合存取網站的分佈圖

23 國內不當網站分佈狀況 95年四月提供 教育部603筆 架設於台灣 之不當網站

24 國內不當網站分佈狀況

25 IEBLCOKER個人版防制軟體 動機與目的 網路上色情資訊、賭博等不當資訊氾濫,對未成年的青少年來說,無疑是身心上之一大傷害。
本系統的功能主要是針對使用者的瀏覽器,防止Internet上有關色情、賭博、暴力等不當資訊透過瀏覽器顯示於使用者的電腦畫面上。 可偵測TICRF網站分級標籤的功能。 可統計使用者被阻擋的紀錄。 已完成新版安裝介面。

26 瀏覽器使用分佈表 成大計網中心提供流覽成大網站單日LOG。 本單位將LOG資訊量化。 使用IE瀏覽器比例超過七成。 MSIE 1401644
72.3% KKman 465210 24.0% FireFox 36879 1.9% MyIE2 10404 0.5% Opera 1042 0% Others 22045 1.1% Total 1,937,224 100% 成大計網中心提供流覽成大網站單日LOG。 本單位將LOG資訊量化。 使用IE瀏覽器比例超過七成。

27 IEBLCOKER個人版防制軟體 IEBLOCK 安裝畫面及阻擋畫面 舊版安裝畫面 新版安裝前 隱藏檔 安裝檔 滑鼠點選安裝檔 安裝完成

28 可自訂阻擋資料庫

29 IEBLOCKER運作流程

30 IEBLCOKER個人版防制軟體 新增IEBLOCKER回報阻擋機制 可紀錄使用者阻擋之網頁。 可紀錄使用者電腦之IP
可紀錄阻擋網頁之日期與時間

31 IEBLCOKER個人版防制軟體 新增符合新聞局TICRF META偵測功能 可阻擋網頁內含TICRF META之網頁。
META格式為 <meta http-equiv="PICS-Label" content='(PICS-1.1 " l gen true for “your website" r (s 3 l 0 v 3 o 0))'>

32 IEBLOCKER使用狀況 IEBLOCKER被 阻擋的網站排名 IEBLOCKER被 阻擋的IP排名

33 IEBLCOKER個人版防制軟體 安裝IEBLOCKER後的阻擋動作,包含使用者IP、使用者瀏覽的日期時間及被阻擋的網站,都會回傳給伺服器統計(自95年4月開始統計)。 至95年9月13日止,共有1,934人次下載IEBLOCKER軟體。 在阻擋不當網站的次數一共有17,256次,阻擋網站內容含有不當分級標籤共有3,371次,以上一共有20,627次阻擋使用者瀏覽不當網站之紀錄。 在阻擋紀錄資料庫中共有1,596個網站被阻擋。

34 結論 建立不當網站資料庫系統 開發IEBLOCKER個人版不當網站防制系統 網站搜尋 網站擷取 網站分析 網站過濾 網站評分 網站分類
阻擋不當網站 阻擋含有限制級網站標籤的網站 統計阻擋狀況 提供申訴檢舉網站

35 問題與討論


Download ppt "IEBLOCKER個人版 不當網站防制系統"

Similar presentations


Ads by Google