Bagging & Boosting.

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
颈椎病.  概述  西医认识  病因病机  临床表现  针灸治疗  预防调护 主要内容.
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
Some theoretical notes on boosting
区域教育信息中心工作的思考与探索 ----抓好应用建设 提升服务水平.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
麻醉病人的护理.
日月光·伯爵居项目介绍.
香港故事之 三年零八個月的艱苦歲月 組員: 梁珮瑩 吳遠莉 李琪 李青儀 方松皓.
谷雨节气模板.
MORE THAN HONEY 采 得 百 花 成 蜜 后 吕超逸
脊柱结核 三峡大学仁和医院 郑之和.
我的故事 ————往事回首.
郭子光教授从肺肾虚损辨治早中期慢性肾功能不全的经验
女生成功靠什么? 09英本四班 傅柏双.
国际投资环境罗氏评级法 美国.
社会保障学 第5章 失业保险.
第九章 建设中国特色社会主义政治.
主 题 班 会 团 结   协 作    力 量.
理想.
第四章 集成学习与弱可学习理论.
固定与搬运技术 义乌市中心医院 陈红卫.
中鸣虚拟搜救比赛项目 (一人) 现场主题创作(40%)(一人) 3D虚拟搜救(60%)(一人).
提纲 前期调研 AdaBoost原理 一些问题.
案例分析 胎记美容记 第6小组
辦理建教合作注意事項 國立台灣師範大學 鄭慶民
人生五色臉 年輕十歲必學的小動作,九個保持身體健康的的小訣竅 人們常在不經意間做些小動作,並認為這是身體的本能反應,
创办紫金矿业学院 为培养中国一流的矿业人才助力 ——合作创办紫金矿业学院的思路与实践
Boosting原理及在分类上的应用 电子工程系 刘辉 2002 年 12 月 9 日.
学籍异动学生选课辅导 学年第1学期.
Introduction To Mean Shift
SOA – Experiment 3: Web Services Composition Challenge
Introduction to AI and ML
Online job scheduling in Distributed Machine Learning Clusters
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
2019/2/22 批销商品组套培训指导
如何讓孩子成為明日之星 芃芃森林幼稚園 許玉芳 園長.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
C语言程序设计 主讲教师:陆幼利.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
集成网络概述 刘雪飞.
模型分类问题 Presented by 刘婷婷 苏琬琳.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
数据集的抽取式摘要 程龚, 徐丹云.
第 四 章 迴歸分析應注意之事項.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
基于最大margin的决策树归纳 李 宁.
两个变量的线性相关 琼海市嘉积中学 梅小青.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
基础信贷法律知识 讲解人:岳杨.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
入侵检测技术 大连理工大学软件学院 毕玲.
《神经网络与深度学习》 第10章 模型独立的学习方式
Presentation transcript:

Bagging & Boosting

分类 决策树分类: ID3 C4.5 贝叶斯分类 后向传播分类 其它分类

分类法的准确性 评估分类法的准确率 提高分类法的准确率 保持(holdout) K-次交叉验证(k-fold cross validation) 提高分类法的准确率 bagging boosting

评估分类法的准确率 保持(holdout) 划分为两个独立的数据集: 通常:训练集 (2/3),测试集(1/3) 变形:随机子选样 划分为两个独立的数据集: 通常:训练集 (2/3),测试集(1/3) 变形:随机子选样 评估准确性 导出分类法 训练集 数据 测试集

评估分类法的准确率 ··· K-次交叉验证 将数据集分为k个子集; 用k-1个子集作训练集,1个子集作测试集,然后k次交叉验证; S1 Sk

提高分类法的准确率 Bagging Boosting 新数据 样本 C1 数据 C2 类预测 组合得票 ··· Ct

Bagging 基本思想: 给定一个弱学习算法,和一个训练集; 单个弱学习算法准确率不高; 将该学习算法使用多次,得出预测函数序列,进行投票; 最后结果准确率将得到提高.

Bagging 算法: For t = 1, 2, …, T Do 从数据集S中取样(放回选样) 训练得到模型Ht 对未知样本X分类时,每个模型Ht都得出一个分类,得票最高的即为未知样本X的分类 也可通过得票的平均值用于连续值的预测

Bagging … … C* c*(x) = maxcntt ct(x) x C1 C2 CT train c1(x) c2(x) S1 S2 ST

Bagging Bagging要求“不稳定”的分类方法; 比如:决策树,神经网络算法 不稳定:数据集的小的变动能够使得分类结果的显著的变动。 “The vital element is the instability of the prediction method. If perturbing the learning set can cause significant changes in the predictor constructed, then bagging can improve accuracy.” (Breiman 1996)

Boosting原理及在分类上的应用 背景 Boosting原理 Boosting算法 Boosting应用 总结

背景 游戏理论(Game theory) R P S 锤子 布 剪子 锤子 ½ 1 0 布 0 ½ 1 剪子 1 0 ½ 锤子 布 剪子 锤子 ½ 1 0 布 0 ½ 1 剪子 1 0 ½ 游戏者1(row player): RSPPSRS… (损失最小化) 游戏者2(column player): SRRPSRP… (损失最大化)

三个臭皮匠,胜过诸葛亮 背景 Boosting思想源于 Finding many rough rules of thumb can be a lot easier and more effective than finding a single, highly prediction rule.

Boosting—concepts(1) 机器学习(Machine Learning):将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题 。 人脸识别 文本分类 网络安全 生物信息工程 学习机(learner):机器学习得到的规则或者模型。 样本:所研究问题的实例,一般在训练集中包括正样本和负样本。 一张人脸图像,一篇文章,一个病毒代码,一个生物的遗传编码 训练:采用某种方法,用已知属性的样本作为输入,得到相应规则的过程。 训练集:由已知属性的样本组成的集合,作为训练过程的输入数据。 测试集:由已知属性的样本组成的集合,作为测试过程的输入数据。 假设:学习机对样本做出的判断,即是否符合需要判定的事实。 某张脸是否是张三的,某篇文章是否属于新闻类别

Boosting—concepts(2) 特征选取:从实际数据中抽取反映其本质规律的属性。 人脸图像向量做PCA变换得到特征向量的投影系数 对文本进行语法分析后表示成关于词的特征向量 机器学习系统结构表示

Boosting—concepts(3) 弱学习机(weak learner): 对一定分布的训练样本给出假设(仅仅强于随机猜测) 根据有云猜测可能会下雨 强学习机(strong learner): 根据得到的弱学习机和相应的权重给出假设(最大程度上符合实际情况:almost perfect expert) 根据CNN,ABC,CBS以往的预测表现及实际天气情况作出综合准确的天气预测 弱学习机 强学习机 Boosting

Boosting流程(loop1) 加权后的训练集 原始训练集 强学习机 弱学习机 弱假设 X>1?1:-1 加权后的假设

Boosting流程(loop2) 加权后的训练集 原始训练集 强学习机 弱学习机 弱假设 Y>3?1:-1 加权后的假设

Boosting流程(loop3) 加权后的训练集 原始训练集 强学习机 弱学习机 弱假设 Z>7?1:-1 加权后的假设

流程描述 Step1: 原始训练集输入,带有原始分布 Step2: 给出训练集中各样本的权重

核心思想 样本的权重 弱学习机的权重 循环控制:损失函数达到最小 没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N 每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大, 使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。 弱学习机的权重 准确率越高的弱学习机权重越高 循环控制:损失函数达到最小 在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。

简单问题演示(Boosting训练过程)

算法—问题描述 训练集 { (x1,y1), (x2,y2),…, (xN,yN) } xi Rm, yi {-1,+1} Dt 为第t次循环时的训练样本分布(每个样本在训练集中所占的概率, Dt总和应该为1) ht:X{-1,+1} 为第t次循环时的Weak learner,对每个样本给出相应的假设,应该满足强于随机猜测: wt为ht的权重 为t次循环得到的Strong learner

算法—样本权重 思想:提高分错样本的权重 反映了strong learner对样本的假设是否正确 采用什么样的函数形式?

算法—弱学习机权重 思想:错误率越低,该学习机的权重应该越大 为学习机的错误概率 采用什么样的函数形式? 和指数函数遥相呼应:

算法--Adaboost

理论分析--最优化 如何求弱学习机的权重? 最基本的损失函数表达形式 为了便于计算,采用以下的目标函数 Boosting的循环过程就是沿着损失函数的负梯度方向进行最优化的过程。通过调整样本的分布Dt和选择弱学习机的权重wt来达到这个目的。每循环一次,增加一项 ,使损失函数以最快速度下降。

总结 Boosting的思想源泉: Boosting的数学实质: Boosting的理论联系: Boosting的应用 三个臭皮匠,胜过诸葛亮 将一系列粗略的规则加权组合起来得到高度精确的规则。 Boosting的数学实质: 对目标函数(损失函数)的最优化问题。 Boosting的理论联系: 最优化 熵映射 Boosting的应用 人脸识别 文本分类

参考资料 Internet站点 推荐论文 www.boosting.org http://mathworld.wolfram.com A Brief Introduction to Boosting Experiments with a New Boosting Algorithm Additive Logistic Regression: a Statistical View of Boosting The Boosting Approach to Machine Learning: an overview Game Theory, On-line Prediction and Boosting Boosting as Entropy Projection Logistic Regression, AdaBoost and Bregman Distances 以上论文均可在www.boosting.org下载

研究方向 Bagging和boosting非常相似,是否存在统一的理论框架. Boosting发生overfit的条件.

Thank you! Have a good supper! End  Thank you! Have a good supper!