第二部分:统计推断 Chp6:统计推断概述 Chp7:非参数推断 Chp8:Bootstrap Chp9:参数推断 Chp10:假设检验

Slides:



Advertisements
Similar presentations
南 通. 南通概述 南通,位于江苏省东部, 东抵黄海,南望长江。 “ 据江 海之会、扼南北之喉 ” ,隔江 与中国经济最发达的上海及 苏南地区相依,被誉为 “ 北上 海 ” 。 南通也是中国首批对 外开放的 14 个沿海城市之一 ,被称为 “ 中国近代第一城 ” 。 南通面临海外和内陆两大经 济辐射扇面,素有.
Advertisements

1 天天 5 蔬果 國立彰化特殊教育學校 延杰股份有限公司營養師:陳婷貽. 2 蔬果彩虹 579 蔬果彩虹 歲以內兒童,每天 攝取五份新鮮蔬菜水 果,其中應有三份蔬 菜兩份水果 蔬菜份數水果份數總份數 兒童 325 女性 437 男性 549.
高等学校英语应用能力考试 考务培训 兰州文理学院教务处 2014 年 12 月. 考务培训 21 日请监考人员上午 8:00 (下午 2:30 )到综合楼 205 教室集合,查看 监考安排,由考务负责人进行考务 培训。
政治全球化 促進國際間的了解, 抑或加劇了種族、宗教、文化和政 治實體之間的衝突 ?. 政治全球化 指一個國家或國際的政治事務,由一國或少數國家決定的模 式,逐漸過渡至複雜的跨國以至全球決策模式 政治活動和政治決策跨越國家界限.
2 Chp1 知识概述 一、莆田概况 1 、位置 位于北纬 25° ,东经 119° , 背山面海,北依省会福州市, 南邻泉州市。东南靠濒海,与 台湾省隔海相望。 2 、面积 全市陆地面积约为 3781 平 方千米。海域面积 1.1 万平方 千米。
語言與文化通識報告 - 台日年菜差異 - 指導老師 : 葉蓁蓁 小組 : 日本微旅行 組員 :4a21b032 吳采玲 4a21b037 沈立揚 4a 洪雅芳 4a 陳楚貽 4a 王巧稜.
統計學 : 應用與進階 第 11 章 : 點估計.  點估計  類比原則  最大概似法  不偏性  有效性  一致性.
均衡推进,确保质量 08学年第一学期教学工作会议 广州市培正中学
全国青少年科技创新大赛 科技辅导员项目组织与实施
黑木耳.
投資權證13問 交易所宣導資料(104) 1.以大盤指數為標的之權證,和大盤指數的連動性,為什麼比和期交所期指的連動性差?
如何把作文写具体.
第一章 人口与环境 第一节 人口增长模式.
第一节 人口与人种 第一课时.
解读我党发展史 思索安惠美好明天 主讲人:王辰武.
第5课 长江和黄河.
銓敘部研究規劃自願退休公務人員月退休金起支年齡延後方案座談會
瓦罐湯 “瓦缸煨汤”是流行于南方民间的一种风味菜肴。它采用一种制特的大瓦缸,其缸底可以烧火,缸内置有铁架,厨师将装有汤的小瓦罐一层层地码入缸内的铁架上,然后点燃木炭,借用木炭火产生的高温将瓦罐内的汤煨熟。
1.數學的難題 如下圖所示,你知道表格中的問號應填入什麼數字嗎?
第八章 收益分配决策补:案例,习题 本章结构、主要内容、重点难点: 收益分配的原则;程序 收益分配的政策: 影响股利的因素 股利政策的种类
第九章 欧氏空间 §1 定义与基本性质 §2 标准正交基 §3 同构 §4 正交变换 §5 子空间 §6 对称矩阵的标准形
第九章 欧氏空间 §1 定义与基本性质 §6 对称矩阵的标准形 §2 标准正交基 §7 向量到子空间的 距离─最小二乘法 §3 同构
合肥学院外国语言系2012年度 学生工作表彰大会.
105年基北區高中職適性入學宣導 教育會考後相關作業說明
真题模拟 主讲:凌宇 时间:6月9日.
树立信心,沉着应战,吹响中考冲锋号 ——谈语文学科的复习备考及考试技巧.
请大家欣赏龙岩, 新罗区 上杭,武平, 连城,长汀, 永定,漳平 小吃和特产.
湖南省科学技术奖励 推荐工作要求.
游 泳 理 论 课 位育中学 高蓉.
行政公文 纪 要 讲授人: 安学珍 铜仁职业技术学院.
二代健保補充保費 代扣項目說明 簡報.
1.某公司需购一台设备,有两个方案,假定公司要求的必要报酬率为10%,有关数据如下:
第4课 “千古一帝”秦始皇.
第一节 人口与人种 光山一中 屈应霞.
概率论与数理统计 课件制作:应用数学系 概率统计课程组.
第五章 二次型.
第二章:随机变量 上节课内容 本节课内容 概率理论 随机变量及其分布 随机变量变换 常见分布族 多元随机向量的分布 概率公理及推论
抚宁县第五中学 教学暨新课改推进工作会.
《社会体育指导员讲座》课程整体设计介绍 席永 副教授 2015 年 6 月
第一节 平均数与标准差的概念 第二节 平均数和标准差在体育中的应用 第三节 百分位数及其应用
专项建设检查工作总结 本科试卷 毕业论文(设计) 合格课程 专项检查工作基本情况 专项建设的工作内容 专项建设检查工作情况
企业所得税几项热点难点 业务问题讲析 湛江市地税局税政科 钟胜强.
房地产开发企业 土地增值税清算 (基础篇).
班級老師:潘盈仁 班級:休閒三甲 學號:4A0B0124 學生:柯又瑄
告状 一位叫杨鲁的孩子,告他父亲杨庆的状。他极其认真地向父亲所在的工厂党委书记指控,说父亲不让儿子“游戏人间”,每天“画地为牢”,要儿子“咬文嚼字”,稍不满意,还要“入室操戈”。他声称父亲打他总是“重于泰山”,不象母亲打他“轻如鸿毛”。并且表示“庆父不死,鲁难不已”。
學校社工師服務與家訪技巧 三峽區駐區學校社工師 陳若喬.
第三部分 区域可持续发展 第二单元 区域可持续发展 第7课 资源跨区域调配. 第三部分 区域可持续发展 第二单元 区域可持续发展 第7课 资源跨区域调配.
在系統完成資料填報後 系統產生所有表件請全數印出 如下載的表件為「空白」文件,請安裝PDF中文字型 ★系統參考畫面:
五年級上學期 體育課教學方案 設計者:吳文芳.
广东省高新技术企业培育库入库企业认定(第二批)工作介绍
文学名作与影视改编 郁达夫文学作品及相关影视赏析 授课教师 胡芳.
甄選入學招生 第二階段集體及個別報名系統 系統開放時間:102/6/3 10:00~ 102/6/7 17:00止
关注空巢老人的心理健康 525宿舍.
6.2 常態機率分配 常態機率分配(normal probability distribution)可以說是最重要的連續機率分配。
Chp7:非参数估计 CDF估计 点估计 区间估计 统计函数估计.
抽樣分配 Sampling Distributions
全文检索 墨香简介 平台功能 产品优势 产品对比
中汇会计师事务所(特殊普通合伙)无锡分所
107年 國中教育會考 准考證資料處理系統 學校版 (集體報名單位) 操作說明
108新課綱教學目標與特色 (一)強化務實致用 (二)落實課程連貫 (三)深化基本職能 (四)符應產業需求 考招連動配套 部定實習科目
抽样理论 与 参数估计 主讲人:孟迎芳.
CH13 超越描述統計:推論統計.
第四章 常用概率分布 韩国君 教授.
鋼液冶煉製程介紹.
新疆维吾尔自治区高校科研计划项目网络管理平台项目申报操作指南
第七章 计量资料的统计分析.
2 Chapter 預測 2-1 銷售預測與生產決策之關係 2-2 預測的一般考慮及步驟 2-3 預測技術的分類 2-4 預測的評估與控制.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
新疆维吾尔自治区高校科研计划项目网络管理平台项目申报操作指南
大學考招新方案與銜接配套措施 【十二年國民基本教育課程綱要宣講】 教育部 大學招生委員會聯合會 108 年 9月.
Presentation transcript:

第二部分:统计推断 Chp6:统计推断概述 Chp7:非参数推断 Chp8:Bootstrap Chp9:参数推断 Chp10:假设检验

Chp6:统计推断 统计推断/学习 统计推断的基本问题: 利用数据来推断产生数据的分布的过程 我们观测到数据 ,要推断(估计或学习)F 或 F 的某些性质(如均值和方差)。 概率 数据产生过程 观测到的数据 统计推断

参数模型 参数模型 当 为向量,而我们只对其中一部分参数感兴趣,则其余参数称为冗余参量(nuisance parameters ) 可用有限个参数参数化,如 也可记为 一般形式 当 为向量,而我们只对其中一部分参数感兴趣,则其余参数称为冗余参量(nuisance parameters )

非参数模型 非参数模型 粗略地说,非参数模型不能用有限个参数参数化 如

例:参数推断 6.1例(一维参数估计)设 是独立的Bernoulli(p)观测,问题在于如何估计参数p。 6.2例(二维参数估计)假设 且PDF , 如 则有两个参数 。 目标是从数据中获得参数。如果仅对μ感兴趣,那么μ是感兴趣参数,而 σ 是冗余参量。

例:非参数推断 6.3例(CDF的非参数估计)设 是来自CDF F 的独立观测。问题是在假设 的条件下估计F。

例:非参数推断 6.4例(非参数密度估计)设 是CDF F 的独立观测,令 是其PDF。 假设我们要估计f 。在只假设 的条件下,不可能估计出 f。我们需要假设f的平滑性。 例如,可假设 ,其中 是满足下述条件的所有概率密度函数的集合 类 称为Sobolev 空间;是 “波动不大” 的函数的集合。

例:非参数推断 6.5例(函数的非参数估计):令 ,我们要估计 , 仅假设μ存在。 均值μ可被认为是F的函数,可写成 6.5例(函数的非参数估计):令 ,我们要估计 , 仅假设μ存在。 均值μ可被认为是F的函数,可写成 通常,任意F 的函数可认为统计函数/统计泛函。 方差: 中值:

例:监督学习 假设有成对的观测数据 , X:特征/独立变量/预测子/回归子 Y:输出/依赖变量/响应变量 :回归函数 假设有成对的观测数据 , 如 为第i个人的血压, 为其寿命 X:特征/独立变量/预测子/回归子 Y:输出/依赖变量/响应变量 :回归函数 参数回归模型: ,其中 为有限维 如线性回归: 为直线集合, 非参数回归模型: ,其中 为无限维 如核回归:

例:监督学习(续) 预测:给定新的X的值,估计Y的值 分类:当Y为离散值时的预测 回归/曲线拟合/曲线估计:估计函数 回归模型:

统计推断方法 频率推断 贝叶斯推断

注意 在参数模型中,若 为参数模型,我们记 下标θ表示概率或期望是与 有关,而不是对θ求平均

点估计 点估计是指对某个感兴趣的量的真值 做一个最佳估计,这个估计称为 或 ,因为它取决于数据,所以 是一个随机变量。 点估计是指对某个感兴趣的量的真值 做一个最佳估计,这个估计称为 或 ,因为它取决于数据,所以 是一个随机变量。 但 θ为固定值,虽然未知 如果 X1, …,Xn 是从某个分布F的IID数据点,参数θ的点估计为X1, … ,Xn 的函数:

抽样分布(Sampling Distribution) 的分布称为抽样分布 的标准差 (standard deviation)称为标准误差 (standard error) 标准误差的估计值称为

估计量的评价标准 一个好的估计有什么性质? 无偏性 一致性 有效性 估计的偏差(bias)为 对分布 求期望,而不是对θ平均 若 ,则该估计是无偏估计。 一致性 若 ,则该点估计是一致的。 有效性 无偏估计中,方差较小的一个更有效(收敛速度更快) 对分布 求期望,而不是对θ平均 偏差:系统误差 一致性:相容性、相合性

偏差—方差分解 点估计的性能有时通过均方误差(MSE, mean squared error)来评价: MSE可分解为 对无偏估计,bias=0,所以 估计的偏差/正确性 估计的变化程度/精度 无偏估计的MSE不一定最小,还需考虑估计的方差

偏差—方差分解

偏差—方差分解 若 时, 且 ,则 是一致的,即 证明: 所以 所以 (qm收敛定义) 所以

例:Bernoulli分布中的参数估计 令 为p无偏估计 标准误差为 所以 , 为一致估计 估计的标准误差为

置信区间 参数的1-α置信区间为区间 ,其中 和 是数据的函数,使得 区间(a,b)以1-α的概率覆盖θ 参数的1-α置信区间为区间 ,其中 和 是数据的函数,使得 区间(a,b)以1-α的概率覆盖θ 1-α:置信区间的覆盖度(coverage) 置信区间表示了我们对未知参数的不确定程度 置信区间宽,表示若要对参数有个比较确定的解,需要更多样本数据

渐近正态性 如果满足 则该估计是渐近正态的(asymptotically normal)。 如果一个估计是渐近正态的,可以比较方便地得到其置信区间。

基于正态分布的置信区间 假设 , 令 , 即 且 其中 , 令 则 如对95%的置信区间, 则95%的置信区间约为

例:二项分布的置信区间 令 其中 则根据Hoeffding不等式 对每个p, 所以 为1-α置信区间。 根据CLT, 则1-α置信区间为 所以 为1-α置信区间。 根据CLT, 则1-α置信区间为 基于正态的区间比基于Hoeffding不等式的区间小,但CLT只是近似(在大样本时)

假设检验 假设检验:从缺省理论-零假设/原假设(null hypothesis)开始 问题:数据是否提供了足够多的证据以拒绝该理论 是:拒绝原假设 否:接受原假设

例:检验硬币是否公正 假设 表示n次独立的抛硬币试验,我们想知道该硬币是否公正 原假设 :硬币是公正的 备择假设 :硬币是不公正的 记为: 原假设 :硬币是公正的 备择假设 :硬币是不公正的 记为: 当 较大时,拒绝 问题:T应为多大?(拒绝域/接受域/显著水平) 一般不能轻易拒绝

总结 统计推断的基本概念 一个好的估计: 模型、模型估计、估计的评价 偏差小 方差/标准误差小 MSE小 一致性 鲁棒性(当样本数据有噪声时,仍能得到一个好的估计) ……. 对同一个未知量,我们可以用不同的模型和不同的推断方法来得到其估计,这些估计的性质可能不一样 参数模型/非参数模型 频率推断/Bayesian推断 如不同的分类器、不同的回归方法、不同的概率密度估计方法 重点掌握偏差、标准误差和MSE的计算