垃圾郵件過濾之初步研究 邱炫盛 2019/1/15.

Slides:



Advertisements
Similar presentations
第七节 心 悸 郑祖平. 一、概述 心悸是一种自觉心脏跳动的不适感或心 慌感。当心率加快时感到心脏跳动不适, 心率缓慢时则感到搏动有力。心悸时,心 率可快、可慢,也可有心律失常,心率和 心律正常者亦可有心悸。 一般认为与心肌收缩力心搏量的变化及 患者的精神状态注意力是否集中等多种因 素有关。
Advertisements

台北縣私立多芮咪托兒所 家 長 手 冊. 序言 親愛的家長 : 關心寶貝與學前教育的過程,是您我共同的 責任;為寶貝創造更美好的明天,是我們共同 的心願。歡迎您的寶貝來本園就讀,並感謝您 對我們的信任與支持。為了使您更了解本園所 的一切,我們特別寫這篇家長手冊,以便您隨 時可以參考,並與學校配合,了解學校的教學.
1/67 美和科技大學 美和科技大學 社會工作系 社會工作系. 2/67 社工系基礎學程規劃 ( 四技 ) 一上一下二上二下三上 校訂必修校訂必修 英文 I 中文閱讀與寫作 I 計算機概論 I 體育 服務與學習教育 I 英文 II 中文閱讀與寫作 II 計算機概論 II 體育 服務與學習教育 II.
佛教陳榮根紀念學校 姜曉霞老師、吳麗媚老師 元朗區小學教師發展日 二年級喜閱寫意校本整合 寫作教學.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
失竊的童年 主講人 : 洪嘉宏 社工員 國立中正大學社會福利學研究所畢業 勵馨基金會 目睹暴力兒童暨青少年方案負責人.
聖若翰天主教小學 聖若翰天主教小學歡迎各位家長蒞臨 自行分配中一學位家長會 自行分配中一學位家長會.
認識食品標示 東吳大學衛生保健組製作.
SARS今冬可能捲土重來 流感與SARS流行期重疊 每年約10%人口(200萬)受感染
后勤保卫竞聘讲演报告 竞聘岗位: 后勤保卫副科长 竞聘人: XX 2014年5月2日.
第八章 互换的运用.
发明专利 申请文件的撰写 机械发明审查部流体机械处 李晋珩.
MATLAB 程式設計 時間量測 清大資工系 多媒體資訊檢索實驗室.
颞下颌关节常见病.
「健康飲食在校園」運動 2008小學校長高峰會 講題:健康飲食政策個案分享 講者:啟基學校-莫鳳儀校長 日期:二零零八年五月六日(星期二)
致理科技大學保險金融管理系 實習月開幕暨頒獎典禮
司法体制改革与律师执业前景瞻望 黄太云
脊柱损伤固定搬运术 无锡市急救中心 林长春.
2013年二手车市场环境分析.
結腸直腸腫瘤的認知.
經歷復活的愛 約翰福音廿一1-23.
郭詩韻老師 (浸信會呂明才小學音樂科科主任)
电气与信息工程学院 学科建设情况汇报
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
公務員廉政倫理規範與案例介紹 報告人:法務部 廉政署 防貪組 社會參與科 科長 陳敏森 2017/3/19 1.
務要火熱服事主.
作业现场违章分析.
蒙福夫妻相处之道 经文:弗5:21-33.
2. 戰後的經濟重建與復興 A. 經濟重建的步驟與措施 1.
好好學習 標點符號 (一) 保良局朱正賢小學上午校.
湖南省贸易状况 杨薇弘 谭建 苏琪惠 苏健萍.
陳維魁 博士 儒林圖書公司 第九章 資料抽象化 陳維魁 博士 儒林圖書公司.
Views ,Stored Procedures, User-defined Function, Triggers
2014創新創業教育研習營 本梯次限額50名,以報名順序額滿為止!! 課程內容及時間:
學生:蔡耀峻、許裕邦 座號:23號、21號 指導老師:黃耿凌 老師
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
4. 聯合國在解決國際衝突中扮演的角色 C. 聯合國解決國際衝突的個案研究.
6.5滑坡 一、概述 1.什么是滑坡? 是斜坡的土体或岩体在重力作用下失去原有的稳定状态,沿着斜坡内某些滑动面(滑动带)作整体向下滑动的现象。
新陸書局股份有限公司 發行 第十九章 稅捐稽徵法 稅務法規-理論與應用 楊葉承、宋秀玲編著 稅捐稽徵程序.
民法第四章:權利主體 法人 楊智傑.
類別(class) 類別class與物件object.
TTS (文字轉語音) Roger Jang (張智星)
四年級 中 文 科.
排列组合 1. 两个基本原理 分类加法计数原理 分步乘法计数原理.
網頁程式設計 本章投影片錄自HTML5、CSS3、RWD、jQuery Mobile跨裝網頁設計 陳惠貞 著 碁峰資訊股份有限公司出版
第二章 商业银行资本管理.
聖本篤堂 主日三分鐘 天主教教理重温 (94) (此簡報由聖本篤堂培育組製作).
第 19 章 XML記憶體執行模式.
第五章 三角比 二倍角与半角的正弦、余弦和正切 正弦定理、余弦定理和解斜三角形.
聖誕禮物 歌羅西書 2:6-7.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
第三节 常见天气系统.
田口方法應用於語音辨識 報告者:李建德.
挑戰C++程式語言 ──第8章 進一步談字元與字串
小數除法.
最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究
賽門鐵克安全系統進化史-正確選用賽門鐵克防護系統
 多項式的除法 x3 + 2x2 – 5x + 6 = (x – 1)(x2 + 3x – 2) + 4 被除式 除式 商式 餘式
指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08
第二十章 贝塞尔函数 柱函数 在用分离变量法一章介绍了拉普拉斯方程在柱坐标系下分离变量得到了一种特殊类型的常微分方程:贝塞尔方程.
內壢國中102學年度 2/21世界母語日 宣導活動.
陳重佑 Ph.D. 國立臺灣體育學院體育學系(所)助理教授
國立台灣師範大學資訊工程研究所 語音實驗室研究簡介
二項分配-Binomial 伯努利試驗(Bernoulli Trial) 每一次試驗皆僅有兩種可能結果,不是成功(S),就是失敗(F)。
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
依撒意亞先知書 第一依撒意亞 公元前 740 – 700 (1 – 39 章) 天主是宇宙主宰,揀選以民立約,可惜他們犯罪遭
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
非負矩陣分解法介紹 報告者:李建德.
基督是更美的祭物 希伯來書 9:1-10:18.
經文 : 創世紀一章1~2,26~28 創世紀二章7,三章6~9 主講 : 周淑慧牧師
Presentation transcript:

垃圾郵件過濾之初步研究 邱炫盛 2019/1/15

大綱 垃圾郵件過濾簡介 過濾模型介紹 實驗 結論與未來展望 規則導向過濾 機械學習導向過濾 貝氏分類器 潛藏語意分析 隱藏式馬可夫模型 2019/1/15 Speech Lab. NTNU

垃圾郵件過濾簡介:規則導向過濾 規則導向過濾: 可能遇到的問題: 亦可以自動學習規則: 事先定義好關鍵字,如果新郵件有部分符合,則認定為垃圾郵件 可能遇到的問題: 人工定義費時費力 中文斷詞問題 關鍵字定義是否明確 亦可以自動學習規則: RIPPER演算法 2019/1/15 Speech Lab. NTNU

垃圾郵件過濾簡介:機械學習導向過濾 郵件過濾模型: 本論文著重於此類型過濾 貝氏分類器(Bayesian Classifier) 潛藏語意分析(Latent Semantic Analysis, LSA) 隱藏式馬可夫模型(Hidden Markov Model, HMM) 本論文著重於此類型過濾 提出隱藏式馬可夫模型,並與其他模型作比較效果 2019/1/15 Speech Lab. NTNU

貝氏分類器 貝氏分類器從貝氏網路簡化而來 rooF: a new binary variable concerning cat making noise on the roof. CPT: Conditional Probability Table 2019/1/15 Speech Lab. NTNU

貝氏分類器 2019/1/15 Speech Lab. NTNU

貝氏分類器 2019/1/15 Speech Lab. NTNU

貝氏分類器 w2 C w1 w3 wn w2 C w1 w3 wn … … 簡單貝式分類器 複雜貝式分類器 2019/1/15 Speech Lab. NTNU

貝氏分類器 求取新郵件d屬於某類別Ck的機率: 求 與 求 可分成多變量伯努利事件與多項式事件模型 2019/1/15 求    與 求 可分成多變量伯努利事件與多項式事件模型 2019/1/15 Speech Lab. NTNU

貝氏分類器:多變量伯努利模型 多變量伯努利模型: 給定類別Ck產生郵件d的機率: 給定類別產生詞wt的機率: 假設郵件d是由連續|V|次的伯努利試驗所產生 郵件d是|V|維的向量,每個維度t,其值Id,t為0或1 給定類別Ck產生郵件d的機率: 給定類別產生詞wt的機率: I(wt,di)表示某一個詞wt是否出現在郵件郵件di 2019/1/15 Speech Lab. NTNU

貝氏分類器:多項式模型 多項式模型: 給定類別Ck產生郵件d的機率: 給定類別產生詞wt的機率: 假設郵件d由一連串詞w組成,為多項式分布,詞w來自詞典V 郵件d是|V|維的向量,每個維度t,其值nd,t為詞出現次數 給定類別Ck產生郵件d的機率: 給定類別產生詞wt的機率: 2019/1/15 Speech Lab. NTNU

貝氏分類器 求給定郵件d屬於哪一類Ck的機率較大的類別 2019/1/15 Speech Lab. NTNU

潛藏語意分析 潛藏語意分析: 根據潛藏在文字中的語意來作郵件過濾 三步驟:建立特徵矩陣、奇異值分解運算(SVD)與產生語意指標(Semantic Anchor)及文件分類 2019/1/15 Speech Lab. NTNU

潛藏語意分析:第一步 建立特徵矩陣M 正規化熵值: 矩陣M,第一行向量為合法郵件向量,第二行是垃圾郵件向量,每一列表示某一個詞wt 第t列第k行,其值 正規化熵值: 使出現相同次數的詞wt有不同的權重 2019/1/15 Speech Lab. NTNU

潛藏語意分析:第二步 奇異值分解(SVD) 產生三個矩陣:U、S、V 產生了兩個語意上的映射:合法郵件映射與垃圾郵件映射, 表示合法郵件, 表示垃圾郵件。 2019/1/15 Speech Lab. NTNU

潛藏語意分析:第三步 郵件過濾: 測量方式 新郵件d也轉換成向量 ,與建矩陣方式相同。 郵件d投影到潛藏語意空間S 餘弦測量 2019/1/15 Speech Lab. NTNU

隱藏式馬可夫模型 隱藏式馬可夫模型假設類別中有屬於該類的生成模型 訓練三個語言模型 以詞為特徵:語言模型 合法郵件模型、垃圾郵件模型、通用郵件模型 使用SRILM toolkit 三種型態:單連、二連模型 2019/1/15 Speech Lab. NTNU

隱藏式馬可夫模型 型I: 型II: 型III: 2019/1/15 Speech Lab. NTNU

實驗 實驗語料: 表 1 Ling-Spam郵件語料資料表 表 2 中文訓練郵件語料資料表 表 3 中文測試郵件語料資料表 類別 合法郵件 垃圾郵件 數量 2412 481 總詞數 1,531,209 439,040 平均長度 634.83 912.77 收錄時期 ~July 17, 2000 表 2 中文訓練郵件語料資料表 表 3 中文測試郵件語料資料表 類別 合法郵件 垃圾郵件 數量 1188 430 總詞數 157,861 74,197 平均長度 132.88 172.55 收錄時期 ~March 2005 ~June 2005 類別 合法郵件 垃圾郵件 數量 171 83 總詞數 11,844 5,174 平均長度 69.26 62.34 收錄時期 April 2005 July 2005 2019/1/15 Speech Lab. NTNU

實驗 特徵選取: 交互資訊: 多變量伯努利模型: 多項式模型: 透過交互資訊(Mutual Information)選出部份詞當新的特徵     :訓練語料中某類別中包含詞的郵件數除以所有類別郵件總數    :某一類別的郵件數除以所有類別的郵件總數    :所有類別中包含詞的郵件數除以所有類別的郵件總數。 多項式模型:     :訓練語料中某類別中詞的詞頻數數除以兩類別總詞數    :某一類別的總詞數除以所有類別總詞數    :所有類別中詞頻數除以有類別總詞數 2019/1/15 Speech Lab. NTNU

實驗 實驗一:特徵數量與正確率的關係 正相關 2019/1/15 Speech Lab. NTNU

表 4 LSA維度與正確率實驗結果(使用Ling-Spam語料) 實驗二:潛藏語意分析維度與正確率的關係 表 4 LSA維度與正確率實驗結果(使用Ling-Spam語料) 合法郵件正確率(%) 垃圾郵件正確率(%) 整體正確率(%) d=2604, r=25 85.49 66.34 82.31 d=2604, r=100 85.66 68.42 82.79 d=2604, r=250 85.74 82.86 d=2604, r=500 85.78 82.89 d=2, r=2 94.36 91.07 93.81 d表示訓練郵件總數,r表示SVD的維度 2019/1/15 Speech Lab. NTNU

表 5 隱藏式馬可夫模型各類型比較(使用Ling-Spam語料) 實驗 實驗三:隱藏式馬可夫模型三種型式與正確率的關係 表 5 隱藏式馬可夫模型各類型比較(使用Ling-Spam語料) 合法郵件正確率(%) 垃圾郵件正確率(%) 整體正確率(%) 型I 99.42 96.68 98.96 型II 99.96 97.30 99.52 型III 98.34 99.69 2019/1/15 Speech Lab. NTNU

表 6 各種模型正確率(使用Ling-Spam語料) 實驗 實驗結果: 表 6 各種模型正確率(使用Ling-Spam語料) 合法郵件正確率(%) 垃圾郵件正確率(%) 整體正確率(%) MVB 99.50 64.67 93.71 MN 99.42 97.73 99.14 LSA 94.36 91.07 93.81 HMM 99.96 98.34 99.69 2019/1/15 Speech Lab. NTNU

實驗 實驗結果: 表7 各種模型正確率(使用中文語料) 合法郵件正確率(%) 垃圾郵件正確率(%) 整體正確率(%) MVB 99.42 49.40 86.12 MN 98.25 60.02 88.15 LSA 67.47 90.93 HMM 74.70 91.99 2019/1/15 Speech Lab. NTNU

結論與未來展望 找強建性特徵的方法 建立模型的方法 語音辨識與文件分類技術結合應用 PLSA TMM ME 2019/1/15 Speech Lab. NTNU