中文垃圾邮件过滤系统 的实现和评估 田莹 北京 清华大学 网络中心

Slides:



Advertisements
Similar presentations
教務處註冊組 /7 (二) 10 : 00 至 15 : 00 止 ★ 6/8 彙整報名資料後, 6/9 向高中承 辦學校報名 ★ 因校內作業時間緊迫,逾時恕不 受理。 校內報名時間.
Advertisements

企业文化与核心价值观 主讲:孟凡驰 教授 中交四航局. 2 目 录 一、企业文化的目的价值恒久性与工具价值实践性 二、企业文化管理学特征 三、企业文化与企业发展战略 四、企业文化整合、提炼、培育和建设的目的 五、集团文化与分公司文化 六、企业核心价值观.
港股通首单分拆合并业务技术培训. 恒发洋参 4 : 1 合并股份 根据恒发洋参控股有限公司(恒发洋参)之股份合并建议,每 4 股每股面值 港元之现有股份( “ 现有股份 ” )将合并为 1 股每股面值 港元之股份 (“ 合并股份 ”) 。合并股份的开始买卖日期预计为 2016.
2010 新聞局影視幕後人才培訓課程 電視節目的類型解析 講師:高光德教授. 電視節目主要類型  新聞氣象節目  體育節目  綜合娛樂節目.
105 年度 4 月份擴大行政會議 時間 :105 年 3 月 28 日 ( 星期一 ) 上午 10 時 30 分 地點 : 本校 2 樓會議室.
低年段语文跨越式教学中的问题及对策 圆桌会议讨论
三水区安监局 企业安全用电 2013年4月.
看不見的聲音 唐代女性文學.
童詩教學 爬格子工作坊 互動過程 童詩教學法 教學教案 相關資源 心得 林士翔
企业价值收益法评估 ----财务报表调整 主讲人:阮咏华 1.
提高社会组织的自律能力 履行社会组织的社会责任
软件学院11级实习前培训-论文和学位申请 任皖英 Tel: (办)
第八章 组织文化的整合 ——并购中的文化整合(二) 小组成员:浦若蓉、朱谷一、贾彦彦.
五所交大是一家 演讲: 孔谐和 尹天威.
广西师范大学教科院马佳宏 电 话 0773- (O) 高校教师资格认定考试的若干事项 广西师范大学教科院马佳宏 电 话 0773- (O)
我的現代詩名片.
附中科學班 招生說明會 多元附中 第一選擇.
快乐猜猜猜 “旧四大件”? (缝纫机、自行车、手表、收音机) 改革开放 “新四大件”? (彩电、冰箱、洗衣机、空调)
审计案例研究 第一讲 辅导教师 周桂芝.
讓人看了難忘的故事 中藥房轉載 分享人生積極正面訊息 創造宇宙合諧快樂能量.
二十世纪外国文学专题 章丘电大 李颜.
职 业 礼 仪 讲师:刘巍女士.
第4章 电子商务的法律问题 4.1 电子商务法律环境 国际电子商务法律环境 国际电子商务立法的特点 国际电子商务立法主要内容
第二次世界大戰與美國—創建聯合國與戰時會議
亚洲国家一流大学建设的国际化道路: 体制改革的视角
李建民 教授 北京百川健康科学研究院 脊柱健康技术研究中心
從民主與經濟的發展談國家 認同的規範性與工具性變化
一年級評估安排.
公关协调 能力目标 初步学会对内及对外公众关系协调的基本方法。 知识目标 掌握组织内外公众协调的原理和方法。
我喜爱的一本书 魔法小仙子之梦境批发站 作者:晓玲叮当 一个色彩斑斓的仙境 一群精灵古怪的仙子 一次奇妙的心灵历险 一生受用美的熏陶
(安徽建筑工业学院法政学院 栗胜华副教授)
勞動權益 教師:黃益中.
串台词和广告词.
三大自然区的内部差异 地理 全日制普通高级中学教科书(选修) 第二册 人民教育出版社地理社会室 编著 人民教育出版社 关于.
第二节 工业地域的形成 工业联系 工业集聚 工业地域
项目进度管理.
當代國際企業.
102學年度 彰化縣國中新生編班作業 說明會 聯絡電話: #221(註冊組長) #223(資訊組長)
权力的行使:需要监督 北京市京源学校 冯 悦.
報告人:古博文 彰師大運動健康研究所副教授 人權教育基金會執行長 100年8月
面对经济全球化.
台灣高鐵 指導教授:李建中 教授 組 員:張英鈺 張凱帆 邱俊銘 楊志偉 報告日期:97/05/15.
第三、四章 企業經營與國際環境 管理學 張緯良 著 方順展 授課.
快樂志工向前行 -晨光補救教學辛苦談- 臺北市中山區 懷生國小輔導室.
授課大綱 第一章 緒 論 第一節 應用文的意義 第二節 應用文的種類 第二章 書 信 第一節 書信的種類 第二節 書信的結構 第三章 便 條
关于知识产权与品牌战略思考 中国科学技术法学会会长 段 瑞 春 2008年11月14日.
产品功能 办理流程 客户服务 走高速排队缴费! 通行费还不便宜! 去办理ETC要花400元买电子标签! 谁能帮我解决这些问题?
慈濟大學資源教室 特殊學生的關懷與協助
通过外网访问邮件系统的说明 信息中心.
第9章 影響市場上四大成本高低的主要因素.
关于“十三五”规划的思考 水利部农村饮水安全中心 张汉松 2014年10月 昆明.
新生與傳承 不同世代諮商心理師的交會 臺北市諮商心理師公會 107年度公會主辦研習課程.
如何检索统计申请与在研项目(科研人员) “科研之友”技术支持小组
新竹縣108學年度第1次國小以上 特殊教育鑑定安置說明會
進修學院與我.
教育概論 答題要訣.
知识产权在中小企业中的作用 讲座内容 一、知识产权在发达国家及知名企业中的地位 二、知识产权的基本概念及其特点
移位寄存器及其应用研究 实验目的 实验原理 实验内容 注意事项.
网络营销管理及市场机会探讨 冯英健 2005年4月9日 首页.
慈惠醫護管理專科學校圖書館 館際合作使用方法.
105-2學輔會議 輔導中心報告 輔導主任 湯雅玲.
設計新銳能量輔導- 實習期中 感想 實習生:安若靜.
动态扫描显示(实验四) 查询式键盘(实验五)
“上海市教师教育课程资源共享管理平台” 学分银行操作指南
公文辦理注意事項.
~建構有創意的教學策略~ 培養學生創意思考與創造力
自然语言处理培训课程提纲 Find Real Matter.
项目6 培育忠诚客户 1.
國立臺灣師範大學附屬高級中學 102學年度第一學期 家長日 校務方針報告
Presentation transcript:

中文垃圾邮件过滤系统 的实现和评估 田莹 北京 清华大学 网络中心 Email:tianying00@mails.tsinghua.edu.cn

概要 引言 研究背景 中文垃圾邮件过滤系统的实现 中文垃圾邮件过滤系统的评估 最新研究进展及结论

引言 垃圾邮件的定义 垃圾邮件的危害 反垃圾邮件的意义 Email,短信,VoIP电话…… 垃圾邮件的特性

反垃圾邮件的方法 黑白名单 关键字匹配 贝叶斯 SVM Etc.

基于内容的过滤器的流程图

英文垃圾邮件的贝叶斯过滤流程 收集两个数据库 在每一个数据库中,学习并定义出一些关键词,计算这些关键词的概率 垃圾邮件数据库 正常邮件数据库 在每一个数据库中,学习并定义出一些关键词,计算这些关键词的概率 新邮件到来时,计算出新到来的邮件中包含的关键词的联合概率 通过联合概率判断新到来的邮件是否是垃圾邮件

中文邮件的预处理 中文分词的概念 分词算法 中文分词的词典 基于字符串匹配 基于理解 基于统计 基于整词二分 基于TRIE索引树 基于逐字二分

实验数据来源 CCERT提供 训练用邮件数 测试用邮件数 http://www.ccert.edu.cn/spam/index.htm 5000 测试用邮件数 500

评估指标 定义L为正常邮件,S为垃圾邮件。S→L表示将垃圾邮件判定为正常邮件,同理,L→S表示将正常邮件判定为垃圾邮件。 在文本分类问题中,有两个评估指标被经常使用。 Acc称为正确率。Err称为错误率。这里 表示将正常邮件判断为正常邮件的个数。 的含义可以类推。 和 分别表示待判定的正常邮件和垃圾邮件的总个数。

评估指标(续1) 考虑到L→S和 S→L分别会有不同的代价,并设L→S的代价是S→L的代价的λ倍,我们定义两个新的评估指标,分别是WAcc(加权的正确率)和WErr(加权的错误率) 在没有过滤的情况下(无论是正常邮件还是垃圾邮件一律通过),我们得到基准WAcc和基准WErr分别为:

评估指标(续2) 为了方便比较,定义比率R为 不难看出R越大,过滤的效果越好。R如果小于1,意味着过滤比不过滤效果还差

参数说明 我们的算法中有两个重要的参数 用于训练的样本个数n 在过滤中计算最终概率的特征数目m 实验中,主要研究R和n以及R和m之间的相互关系。

实验结果 图1 R-m关系图 图2 R-m关系图 图3 R-m关系图 图4 R-n关系图

实验结果说明 在过滤中计算最终概率的特征数目m以及用于训练的样本个数n都存在某个最优值 当用于训练的样本个数逐渐超过这个最优值时,过滤效果会略微下降并趋于一致。

最新研究进展 相关会议 MIT spam conference CEAS(电子邮件和反垃圾邮件会议)

贝叶斯过滤发展方向 从单一关键词到关键词链 从线性到非线性 从单一用户到综合多用户 从客户端到服务器 利用电子邮件网络 Etc.

系统和产品 微软公司:SmartProof IBM公司:SpamGuru Etc.

结论 反垃圾邮件的挑战

谢谢大家 Q & A