提纲 前期调研 AdaBoost原理 一些问题.

Slides:



Advertisements
Similar presentations
质数和合数 中心小学 顾禹 人教版小学五年级数学下册 一、激趣导入 提示:密码是一个三位 数,它既是一个偶数, 又是 5 的倍数;最高位是 9 的最大因数;中间一位 是最小的质数。你能打 开密码锁吗?
Advertisements

因数与倍数 2 、 5 的倍数的特征
3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
因数与倍数 2 、 5 的倍数的特征 绿色圃中小学教育网 扶余市蔡家沟镇中心小学 雷可心.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
重庆市九龙坡区走马小学 邓华. 一、复习导入,揭示课题 下面哪些数是 2 的倍数?哪些数是 5 的倍数? 2,5的倍数的特征:只看个位上数就能进行判断。 2的倍数:个位上是0,2,4,6,8的数。
阻塞操作. 在 linux 里,一个等待队列由一个 wait_queue_head_t 类型的结构来描述 等待队列的初始化: static wait_queue_head_t testqueue; init_waitqueue_head(&testqueue);
(一)辦桌文化起始略說: 1. 祭祀宗教 2. 生命禮儀 3. 外燴 --- 老師、師公、師傅、總鋪師 4. 搬桌搬椅時代 (二) 食物食材 1. 靠山考海 2. 基本:炒米粉、糍、檳榔 3. 小吃搬上桌 (三) 變變變 1. 調味不同 2. 師承不同 3. 地點也變.
第4章 交易性金融资产与可供出售金融资产 学习目标
精神疾病与社区处理.
(4F01) 陳可兒 (4F03) 張令宜 (4F05) 何秀欣 (4F14) 潘美玲
Some theoretical notes on boosting
创新大赛经验浅谈 高二(18)班 黄佳淇.
第三章 調整與編表.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
6.9二元一次方程组的解法(2) 加减消元法 上虹中学 陶家骏.
“淡雅浓香 中国风尚” 山东低度浓香白酒整合传播侧记
Bagging & Boosting.
小学《人•自然•社会》 五年级教材解读 浙江省教育厅教研室 李 荆 -
輕歌妙舞送黃昏 組員名單 組長:程鵬飛 組員:黎達華 劉展鵬 邱迦欣.
期考議題 單元一:資訊科技(eg上網活動)與人際關係 單元二:青少年社政參與(80後) 單元二:郊野公園與房屋政策/問題
大學多元入學方案 財務金融二 王詩茹.
10.2 立方根.
第四章 集成学习与弱可学习理论.
人地關係 ── 熱帶雨林 人文活動對環境的影響.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
伯裘書院 環保廣告能否有效 地推動環保意識.
4H (1)歐宛曈 (9)李熹漩 (12)吳紀芙 (14)唐曉筠
在PHP和MYSQL中实现完美的中文显示
Introduction To Mean Shift
机器学习研究及最新进展 谭营 教授 北京大学智能科学系 视觉与听觉信息处理国家重点实验室
SOA – Experiment 3: Web Services Composition Challenge
Cyclic Hanoi问题 李凯旭.
计算机数学基础 主讲老师: 邓辉文.
Online job scheduling in Distributed Machine Learning Clusters
第七单元 小数的初步认识 简单的小数加、减法 安徽省黄山市黟县碧阳小学 叶群芳.
数据挖掘工具性能比较.
动态规划(Dynamic Programming)
基于规则抽取的 时间表达式识别.
动名词(续2).
Ensemble Learning (集成学习)
Lecture 12 Object Recognition
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
简单介绍 用C++实现简单的模板数据结构 ArrayList(数组, 类似std::vector)
集成网络概述 刘雪飞.
模型分类问题 Presented by 刘婷婷 苏琬琳.
Three stability circuits analysis with TINA-TI
HITSCIR-TM zkli-李泽魁 March. 24, 2015
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
12.2全等三角形的判定(2) 大连市第三十九中学 赵海英.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
定理21.9(可满足性定理)设A是P(Y)的协调子集,则存在P(Y)的解释域U和项解释,使得赋值函数v(A){1}。
设岗申请 审核发布 岗位申请 助教培训 津贴发放 工作考核 授课教师 岗位要求 工作内容 开课单位 确定课程、岗位 发布需求 研究生
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
基于最大margin的决策树归纳 李 宁.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
Module 9 Unit 2 Happy Birthday
_07多连接之select模型 本节课讲师——void* 视频提供:昆山爱达人信息技术有限公司 官网地址:
第十七讲 密码执行(1).
第十二讲 密码执行(上).
聖經的獨特.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
IT 方法 INTOSAI IT 审计培训.
Presentation transcript:

提纲 前期调研 AdaBoost原理 一些问题

前期调研 PAC学习模型[2-3] 机器学习中,训练样本再大也不能代表某类事物本身,所以从训练样本中学习得到“规则”不能对某类事物完全适用,总有失效的情况出现,所以机器学习的目标是概率逼近正确学习! 1984年 Valiant提出PAC(Probably Approximately Correct)学习模型文中提出强学习和弱学习两个概念。

Valiant的贡献 Valiant指出弱学习转换为强学习的可行性! 实际运用中,人们根据生产经验可以较为容易的找到弱学习方法,但是很多情况下要找到强学习方法是不容易的。有时候人们倾向于通过先找到弱学习然后把它转换为强学习的方式获取强学习方法,而Valiant证明了这种方式的可行性。

怎样实现弱学习转为强学习 核心思想:通过组合使弱学习互补。 学习是不适定问题,在有限的样本上,不同的学习方法得到不同的“规则”,并在不同的情况下失效,没有一种学习算法总是在任何领域产生最好的分类效果。

例如:学习算法A在a情况下失效,学习算法B在b情况下失效,那么在a情况下可以用B算法,在b情况下可以用A算法解决。这说明通过某种合适的方式把各种算法组合起来,可以提高准确率。 为实现弱学习互补,面临两个问题: (1)怎样获得不同的弱分类器? (2)怎样组合弱分类器?

怎样获得不同的弱分类器 使用不同的弱学习算法得到不同基学习器 参数估计、非参数估计… 使用相同的弱学习算法,但用不同的超参数 K-Mean不同的K,神经网络不同的隐含层… 相同输入对象的不同表示 不同的表示可以凸显事物不同的特征 使用不同的训练集 装袋(bagging) 提升(boosting)

怎样组合弱分类器 多专家组合 一种并行结构,所有的弱分类器都给出各自的预测结果,通过“组合器”把这些预测结果转换为最终结果。 eg.投票(voting)及其变种、混合专家模型 多级组合 一种串行结构,其中下一个分类器只在前一个分类器预测不够准(不够自信)的实例上进行训练或检测。 eg. 级联算法(cascading)

小结 通过前期调研我比较关注是boosting原理。 bagging在给定样本上随机抽取(有放回)训练子集,在每个训练子集上用不稳定的学习算法训练分类不同弱分类器。boosting在前一个弱分类器错分的实例在后续的弱分类器上得到更大的重视。从训练子集的获取方式上看: bagging靠“运气”,boosting有“依据”! 所谓不稳定学习算法是指训练集很小的变化会引起所产生的分类器变化很大,即学习算法高方差。例如,决策树。

AdaBoost原理 AdaBoost的由来 ?

AdaBoost的核心思想 “关注”被错分的样本,“器重”性能好的弱分类器 怎么实现 (1)不同的训练集调整样本权重 (2)“关注”增加错分样本权重 (3)“器重”好的分类器权重大 (4)样本权重间接影响分类器权重

原始AdaBoost

1995年Freund 提出AdaBoost算法,1999年Schapire在一篇会议论文上对Freund的AdaBoost重新表述,基本原理不变但是更易理解,下面以Schapire的版本介绍AdaBoost。

Schapire AdaBoost Algorithm Given: m examples (x1, y1), …, (xm, ym) where xiÎX, yiÎY={-1, +1} Initialize D1(i) = 1/m For t = 1 to T 1. Train learner ht with min error 2. Compute the hypothesis weight The weight Adapts. The bigger et becomes the smaller at becomes. 3. For each example i = 1 to m Boost example if incorrectly predicted. Output Zt is a normalization factor. Linear combination of models.

AdaBoost的收敛性证明 整个证明的核心: ,不等 左边是最终强分类器的错误率 证明过程:

至此,看到AdaBoost的错误率上限,接下来的目标就是使这个上限尽可能小!

怎么使 尽量小 看到 是关于 的函数,要使 最小显然需要研 究 ! 在原始的AdaBoost算法中采用贪婪算法,每次的 都是最小的保 证 收敛到满意的结果。 在原始AdaBoost算法中h值域是{-1,1},问题是怎么找到最佳的

这时候

前面证明原始AdaBoost算法的收敛性,但是原始 更快的?有,Schapire提出了Real AdaBoost收 敛更快!

再次明确一下目标: 使尽量小! 对于原始的AdaBoost,前文讨论过其h是“定死” 的,失去了“讨价还价”的余地,进而确定了 的选择方法,所以在Real AdaBoost不在“定死”

Real AdaBoost Algorithm

? 到这里介绍完AdaBoost原理,接下来就是我学习中的一些困惑。

一些问题 AdaBoost泛化能力的证明 Adaboost中对h选择 接下来学习的方向

AdaBoost泛化能力的证明 目前对AdaBoost泛化能力的证明是各家各言,没有定论。 Freund的证明已经被实践推翻; Schapire的证明被人证明是有缺陷的; …… 我比较关注的是Freund和Schapire的证明,他们都用到一个概念叫VC维度。我查了很多文献,都没能理解这个概念,所以目前我对AdaBoost泛化能力的证明无能为力。

AdaBoost对h的选择 是h和alpha的二元函数,为什么考虑的时候都考虑alpha,没考虑h? 在原始的AdaBoost算法中用错误率最小来确定h至少还有个说法,在Real AdaBoost中直接把h和alpha整合成一个参数h’了,那么Real AdaBoost算法中对alpha的讨论又有什么意义呢?

接下来学习的方向 不管是变种AdaBoost其功能都是把弱学习提升为强学习,直观上我的感觉是AdaBoost性能好坏取决于弱学习? 那么我们应该怎么选择弱学习方法?我在文献中看到有决策树、神经网络、svm、k-mean。。。等,AdaBoost作者用的是C4.5决策树。Viola第一个用AdaBoost做人脸检测,他采用是单层的决策树(stump)做弱学习。

看到这么多的weak learn算法,我不知道我改用那一种,也不知道要提高AdaBoost检测速度是不是该从weak learn入手?