Bayesian Method 陈子豪 ACM Honored Class July 17th,2014.

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
第 1 章第 1 章 新生命的誕生 1-3 有性生殖. 阿德的眼睛長得像爸爸、臉型長得像媽媽, 而阿德的妹妹嘴型長得像爸爸、鼻子長得 像媽媽。請問:為什麼會這樣? Warm Up 參考解答 爸爸的睪丸及媽媽的卵巢分別藉由減 數分裂產生含半數染色體(遺傳物質)的 精子及卵子,所以經受精作用誕生的阿德.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
2017/2/ /2/25 1 公職考試與證照考試簡介 考選部 1.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
比亚迪集成创新模式探究 深圳大学2010届本科毕业论文答辩 姓名:卓华毅 专业:工商管理 学号: 指导老师:刘莉
如何撰写青年基金申请书 报 告 人: 吴 金 随.
点击输 入标题 点击输入说明性文字.
國際志工海外僑校服務 越南 國立臺中教育大學 2010年國際志工團隊.
痰 饮.
學分抵免原則及 學分抵免線上操作說明會.
教 学 查 房 黄宗海 南方医科大学第二临床医学院 外科学教研室.
评 建 工 作 安 排.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
首都体育学院 武术与表演学院 张长念 太极拳技击运用之擒拿 首都体育学院 武术与表演学院 张长念
现行英语中考考试内容与形式的利与弊 黑龙江省教育学院 于 钢 2016, 07,黄山.
第5讲:比较安全学的创建 吴 超 教授 (O)
彰化縣西勢國小備課工作坊 新生入學的班級經營 主講:黃盈禎
重庆市西永组团K标准分区基本情况介绍.
西貢區歷史文化 清水灣 鍾礎營,楊柳鈞,林顥霖, 譚咏欣,陳昭龍.
所得稅扣繳法令與實務 財政部北區國稅局桃園分局 102年12月19日 1 1.
角 色 造 型 第四章 欧式卡通造型 主讲:李娜.
走进校园流行 高二15班政治组 指导老师:曾森治老师.
医院文化建设 广东省中医院 2011年3月26日.番禺.
案例:海底捞模式 ——把服务做到极致.
医疗法律法规培训 连云港市东辛农场医院 周卫平 二0一四年十二月.
史泰博出货检验员面试中·········
09英本2班 罗芬.
个人所得税 扣缴申报表填报讲解.
主講人:孫台義 教授 哈薩克大學國際關係學院 客座教授
土地增值税清算业务培训 主讲人:吴金娟 怀集地税.
实训报告 财务管理二班 第三小组 组长:董文芳 执笔人:王瑾 组员:汲伦 庞宁宁 姜美.
义务教育英语(7—9年级) 教学指导意见.
Http://
資源中心辦理補救教學之推動重點 服務單位:國立新竹教育大學 演 講 者:林志成教授.
外科护理学 沧州医学高等专科学校.
增值税相关知识 莱西市国家税务局 刘冬梅.
第九章 多元函数微分法 及其应用 一元函数微分学 推广 多元函数微分学 注意: 善于类比, 区别异同.
九十八學年度第一學期期末 校務會議學務處業務報告
两个变量的线性相关 琼海市嘉积中学 梅小青.
Presentation transcript:

Bayesian Method 陈子豪 ACM Honored Class July 17th,2014

Origin 所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。 接下来我们来回顾一下贝叶斯定理

Bayesian Theorem 这是贝叶斯方法的核心

The theorem is trivial. 概率论只不过是把常识用数学公式表达了出来 ——拉普拉斯 对于早期的概率论,现在我们看来确实是这个样子的

Warm-up 一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗? 很无聊的一个问题,我们跳过,来看点有趣的。

Example 1 拼写纠正

Example 1 Input: thew Hypothesis: the ? thaw ?

Definition Hypothesis: h1, h2 , ... ,hn Data: D h是词库里的单词 P(D)在这里是不重要的

Example 1 Why? 为什么要用贝叶斯公式? 为什么可以用贝叶斯公式

Example 1 Edit Distance(编辑距离): Minimum number of operations required to transform one string into the other. 为什么不从与D编辑距离的大小来判断? 为什么不从键盘的位置来判断?

Example 1 先验概率。最大似然估计是不考虑先验概率,只考虑后面的第二项 最大似然估计

Example 1 Input:Tkp Hypothesis:Tip ? 0.00220% Top ? 0.0120% (data from Google Books Ngram Viewer) 用最大似然的问题在于,即使一个猜测与数据很好的符合,也并不代表这是一个好的猜测,比如有n个几乎在一条直线上的点.....

The girl saw the boy with a telescope. 这个关于自然语言二义性的例子也说明了同样的问题 注意我这里给的例子,其实也说明了贝叶斯方法可以用于解决自然语言二义性的问题上

Example 2 最小二乘法 不知道大家是否想过,在做直线拟合的时候为什么要一偏移量平方的和最为判断拟合直线优劣的根据呢,贝叶斯方法可以提供一个完美的解释

Example 2 最小二乘法 h为那条曲线,D为n个数据点 要找直线 h 使得 最大 对于一个曲线 以及若干个点(x1,y1), (x2, y2), (x3, y3), ... ,(xn, yn) 对于横坐标为xi的所有点,他们的纵坐标的频率关于 呈正态分布 h为那条曲线,D为n个数据点 要找直线 h 使得 最大

Example 2 最小二乘法

Example 3 中文分词 中国航天官员应邀到美国与太空总署官员开会 中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会 最早的中文分词 从左往右扫,查询词典。 这种方式比较廉价,也能基本解决七八成问题 但是如果遇到了二义性问题吗,这种方法就行不通了

Example 3 中文分词 发展中国家 发展/中国/家 发展/中/国家 最早的中文分词 从左往右扫,查询词典。 这种方式比较廉价,也能基本解决七八成问题 但是如果遇到了二义性问题吗,这种方法就行不通了 发展/中/国家

Example 3 中文分词 令X为字串,Y为词串 即要寻找使得 最大的Y

Example 3 中文分词 对于词串 假设句子中的一个词的出现概率只与其之前k个单词相关(k语言模型) 当词串长度大时就会因为数据稀疏性的原因无法工作,因此,有人提出简化 这里k一般不超过3 假设句子中的一个词的出现概率只与其之前k个单词相关(k语言模型)

Example 4 贝叶斯垃圾邮件过滤器 给定一封由n个单词所组成的邮件D,要判断其是否为垃圾邮件。 记 h- 表示正常邮件,h+ 表示垃圾邮件。 即要求 即要求

Example 4 贝叶斯垃圾邮件过滤器

Example 4 Naive Bayesian Method(朴素贝叶斯方法) 贝叶斯垃圾邮件过滤器 独立假设是一个比较强的假设,但是在许多方面却十分有用 除此之外,关于贝叶斯方法,还有一个十分有名而且很有用的叫做贝叶斯网络。贝叶斯网络大致就是一种对马尔科夫链的一种推广,在这里就不详细介绍了

Reference http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/平凡而又神奇的贝叶斯方法 Wikipedia 数学之美 吴军 人民邮电出版社 2012年6月第一版 https://books.google.com/ngrams

Q & A

Thank you!