现代统计分析方法概述 2019/5/20 知识管理与数据分析实验室.

Slides:



Advertisements
Similar presentations
高三英语有效复习策略 程国学. 一、高考备考的方向把握 1. 认真研究普通高中《英语课程标准》和《福建 省考试说明》关注高考命题原则和发展方向,定 准复习教学起点 1. 认真研究普通高中《英语课程标准》和《福建 省考试说明》关注高考命题原则和发展方向,定 准复习教学起点 一是明确高考英语可能考什么,我们应该怎样准.
Advertisements

考纲研读 语言知识要求 语言运用能力 附录 1: 语音项目表 附录 2: 语法项目表 附录 3: 功能意念项目表 附录 4: 话题项目表 附录 5: 词汇表 听力 阅读 写作 口语.
1 4.5 高斯求积公式 一般理论 求积公式 含有 个待定参数 当 为等距节点时得到的插值求积公式其代数精度至少 为 次. 如果适当选取 有可能使求积公式 具有 次代数精度,这类求积公式称为高斯 (Gauss) 求积公式.
100 學年度 勞委會就業學程 國際企業管理學系-物業管理學程介紹. 何謂物業管理? 以台灣物業管理學會 所述,物業管理區分為 「物」、「業」、「人」三區塊。台灣物業管理學會 「物」係指傳統的建物設備、設施 「業」為不動產經營的資產管理 「人」則以生活服務、商業服務為主,並以人為 本位連結物與業,形成今日物業管理三足鼎立新.
图书馆管理实务.
行政命令.
共产党领导的多党合作和政治协商制度: 中国特色的政党制度.
主讲:材料工程学院党总支宣传委员、党务秘书 教工党支部书记 王国志 2015年12月7日
普通高中新课程实验 若干问题 广东省教育厅教研室 吴惟粤 2004年4月29日 广州.
前言 採購程序每一環節所涉及人員,無論是訂定招標文件、招標、審標、決標、訂約、履約管理、驗收及爭議處理,如缺乏品德操守,有可能降低採購效率與品質,影響採購目標之達成,甚有違法圖利情事發生,致阻礙政府政策之推動並損害公共利益。因此,較之一般公務人員,採購人員更需遵循較高標準之道德規範。 主講人:林中財.
欢迎新同学.
2015年新课标高考历史试题分析 暨考试方向研判 李树全 西安市第八十九中学.
课题四 以天池、博斯腾湖 为重点的风景旅游区
張偉豪 三星統計服務有限公司 執行長 Amos 亞洲一哥
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
“健康的基督徒” 入门.
南台科技大學電子工程系 指導老師:楊榮林 老師 學生姓名:蔡博涵 巨物索餌感測裝置(第II版)
2015年汕头一模质量分析会 34(1)题分析 濠江区河浦中学 詹金锋 34(2)题分析 汕头市实验学校 董友军
士師逐個捉(II) 石建華牧師 24/07/2016.
概率论与数理统计 课件制作:应用数学系 概率统计课程组.
高考地理全国卷和安徽卷 的对比分析及备考策略
快乐生活,快乐学习 《中国古代诗歌散文欣赏》.
班級經營之再思 香港班級經營學會 黃鳳意
佛法原典研習 五陰誦 (II) 2007/5/13 整理此報告的方式 : 主要節錄 果煜法師說法之重點.
2014年度合肥市中小学生学业质量 绿色指标测试相关情况说明及考务工作要求
普通高中课改方案介绍.
曾一 陈策 重庆大学计算机学院基础科学系 重庆
高三物理后期复习策略 秦皇岛市实验中学 刘苏祥.
理想与现实 有一所大学叫做“社会”,它教会人们奉承比自己强的,挤兑和自己差不多的,欺凌比自己弱的。
101學年度第二學期 呼吸治療學系 師生座談會 102年5月15日.
第七章 机械加工工艺规程的制定.
家庭教育與服務學習.
压缩语段 II.
普通高中课程改革的方案与推进策略 安徽省教育厅 李明阳.
15 簡單迴歸分析與相關分析  學習目的.
高校人才培养与学科建设的一些探索 徐哲峰 西北大学数学学院 2015年6月30日.
新课程背景下 高中教务主任工作的思考 南京市教学研究室 陆静.
精彩纷呈的 桂剧和彩调 ——桂林地方戏曲赏析.
網路填報系統學生異動轉銜操作及科技化評量6月 成長測驗施測說明
機械工程學系課程地圖 先進材料與精密製造組 設計分析組 校訂共同必修課程 機械系訂 必修課程 組訂 必修課程 畢業專題 工學院訂必修課程
生命轉化 (II) 天父的心 石建華牧師 13/09/2015.
全国高考语文试卷解析 与备考建议 张彬福.
普通高中校本课程开发与实施 崔允漷 教授、博导 普通高中新课程国家级通识研修专题之一 华东师范大学课程与教学研究所副所长
2015年高考病句题 1.(安徽)下列各句中,没有语病的一句是(4分)( )
*§8 反常二重积分 与反常定积分相同, 二重积分亦有推广到积分区域是无界的和被积函数是无界的两种情形, 统称为反常二重积分.
合肥市第47中学 李 恒
帝國主義 法國大革命 、美國革命.
马克思主义基本原理概论 总复习 孔祥旭
相對量數與標準分數 Relative Measures and Standard Scores
摩西五經系列:申命記.
檢調機關函調、搜索、約談訊問之認識 (含教師因公涉訟輔助)
第十二章 變異數分析 陳順宇 教授 成功大學統計系.
传媒学院2013年度团委工作 总结分析报告
日本觀光旅館實習 期間: 2012年7月5日~9月5日 成員: 學生30名+帶隊老師2名.
民法第五章:權利客體 楊智傑.
盡情的敬拜 耶穌,聖潔公義救主, 彰顯神的智慧能力, 祢的愛是何等長闊高深, 滿有豐富無窮的恩典。 耶穌,權柄統管萬有,
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
高级微观经济学 东北大学工商管理学院 向涛.
研究沙崇學生對生活藝術科的安排的意見及建議
第六章 假設檢定 6.1 假設檢定概論 6.2 檢定統計量 6.3 假設檢定的形式與步驟 6.4 單一樣本之假設檢定
第三章 指數與對數 3-2 指數函數及其圖形.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 4 主讲人 陶育纯 医学统计学方法 4 主讲人 陶育纯 流行病与卫生统计学教研室
海 商 法.
第八課: 常見的企業保險保障 II 介紹課題 這是承接上一個關於常見的企業保險保障的課題.
四季現象成因 瞭解造成四季變化的成因.
單雙音節考題評析 台中教育大學 歐秀慧.
第七单元 苏联的社会主义建设 新经济政策; “斯大林模式”。 考试说明: “战时共产主义”政策; 14.俄国十月革命与苏联社会主义建设
社会科学统计软件及应用 马秀麟 2016年5月.
第5章 即期匯率的決定(II).
桃園市108學年度國民中學資賦優異學生鑑定家長說明會
Presentation transcript:

现代统计分析方法概述 2019/5/20 知识管理与数据分析实验室

主要内容 现代统计分析方法介绍 常用统计分析方法举例 2019/5/20 知识管理与数据分析实验室

现代统计分析方法介绍 从高斯(C. F. Gauss)描述天文观测的误差而引进正态分布,并使用最小二乘法作为一种估计方法至今,现代统计的发展已有200多年的历史。统计学在分析数据、探索数据规律性、研究现实问题中已形成许多各具特点的思想方法。从研究问题的角度,可将现代统计分析方法分为四大类:分类分析方法、结构简化方法、相关分析方法、预测决策方法。

统计分析方法应用的步骤及其流程 对统计分析方法的应用应从实际问题出发,明确具体问题和目标,然后确定理论以及相应的指标,在收集和整理数据的基础上构造满足需求的模型并进行统计计算,在对模型进行检验的基础上,对模型加以推广应用。

常用统计分析方法举例 正态分布 区间估计和假设检验 回归分析 方差分析

正态分布 正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。因其曲线呈钟形,因此人们又经常称之为钟形曲线。 其数学定义如下: 若随机变量X的密度函数为 。 则称X服从正态分布,称X为正态变量,记作 正态分布 的分布函数为

正态分布的历史 正态分布最早是棣莫佛在1734年发表的一篇关于二项分布文章中提出的。拉普拉斯在1812年发表的《分析概率论》(Theorie Analytique des Probabilites)中对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛-拉普拉斯定理。 拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。

正态分布的应用 正态分布是很多统计方法的理论基础,正态分布在现实中的应用也是最为广泛的,包含自动控制、质量管理、医学管理、经济分析及评价、风险评估等多个方面。 正态分布在自动控制、优化设计、包装或加工零件的精度等方面有着广泛的应用。正态分布的均值就是自动控制的设定值,方差就是自动控制的精度;方差越小,精度越高,系统的性能越好 质量控制方面,为了控制实验中的测量(或实验)误差,常以3σ作为上、下警戒值,以3σ作为上、下控制值。这样做可以保证正常情况下测量(或实验)误差服从正态分布 医学应用方面,某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理 经济分析及风险评估方面,正态分布在投入产出、经济分析、风险收益、风险价值度量等诸多方面的应用越来越广泛,为经济分析、经济评价以及风险评估提供了多样的方法选择,使评估结果更加科学

区间估计和假设检验 参数的区间估计和假设检验是两种最重要的统计推断形式,掌握这两种方法对做出正确的统计推断至关重要 区间估计 假设检验 设 是总体的一个参数, 假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断 是样本,所谓区间估计就是要找两个统计量 和 ,使得 ,在得到样本观测值之后,就把 估计在区间 内

区间估计 置信区间: 设 是总体的一个参数,其参数空间为 , 是来自该总体的样本, 对给定的一个 ,若有两个统计量 和 若对任意的 ,有 ,则称随机区间 为 的置信水平 为 的置信区间 置信水平 的频率解释: 在大量重复使用 的置信区间 时,每次得到的样本观测值是不同的, 从而每次得到的区间估计值也是不一样的,对一次具体的观测值而言, 可能在 内,也可能不在。平均而言,在这大量的区间估计观测值中,至少有 包含

假设检验 假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立 应注意的问题 假设检验的一般步骤: 1、做假设检验之前,应注意资料本身是否有可比性。 2、当差别有统计学意义时应注意这样的差别在实际应用中有无意义。 3、根据资料类型和特点选用正确的假设检验方法。 4、根据专业及经验确定是选用单侧检验还是双侧检验。 5、当检验结果为拒绝无效假设时,应注意有发生I类错误的可能性,即错误地拒绝了本身成立的H0,发生这种错误的可能性预先是知道的,即检验水准那么大;当检验结果为不拒绝无效假设时,应注意有发生II类错误的可能性,即仍有可能错误地接受了本身就不成立的H0,发生这种错误的可能性预先是不知道的,但与样本含量和I类错误的大小有关系。 6、判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能性。 7、报告结论时是应注意说明所用的统计量,检验的单双侧及P值的确切范围。

参数的区间估计与假设检验的关系 参数的区间估计与假设检验的关系 二者之间的联系 二者之间的区别 1、参数估计解决的是多少(或范围)问题,假设检验则判断结论是否成立。前者解决的是定量问题,后者解决的是定性问题。 2、两者的要求各不相同。区间估计确定在一定概率保证程度下给出未知参数的范围。而假设检验确定在一定的置信水平下,未知参数能否接受已给定的值。 3、两者对问题的了解程度各不相同。进行区间估计之前不了解未知参数的有关信息,而假设检验对未知参数的信息有所了解,但做出某种判断无确切把握。因而在实际应用中,究竟选择哪种方法进行统计推断,需要根据实际问题的情况确定相应的处理方法 参数的区间估计与假设检验的关系 二者之间的联系 参数的区间估计与参数的假设检验虽然提法不同,但解决问题的途径是相通的,统计推断的思想方法是一样的,都是基于样本信息来推断总体的性质,即用部分来推断总体。它们都是选取一个统计量,然后使这个统计量落在某个已知区间上的概率很小由此得到的结果 二者之间的区别

回归分析 回归分析的概念及分类 回归分析提出的背景 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析 早在19世纪,英国生物学家兼统计学家高尔顿在研究父与子身高的遗传问题时,观察了1078对父与子,用x表示父亲身高,y表示成年儿子的身高,发现将(x, y)点在直角坐标系中,这1078个点基本在一条直线附近,并求出了该直线的方程,这便是子代的平均高度有向中心回归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到数理统计的其他分支中。随着计算机的发展,各种统计软件的出现,回归分析的应用越来越广泛

回归分析的主要内容: ①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。 ②对这些关系式的可信程度进行检验。 ③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。 ④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便 回归分析的应用: 应用回归分析模型可以探求出两个变量之间的影响关系,最初时在身高遗传问题上应用一元线性回归分析模型,随着社会的不断发展,系统的复杂性不断增加,应用一元线性回归分析已经不能满足需求,于是出现了多元线性回归分析以及多元非线性回归分析模型。这些分析模型在分析复杂系统下一种现象的影响因素方面有很好的应用性,目前研究的方面包括临床统计数据分析、多因素影响下的回归分析、经济增长下的多因素影响分析等,涉及到经济社会发展的多个方面

常见回归分析模型 一元线性回归分析模型 所谓一元线性回归分析,就是研究具有线性关系的两个变量相关关系的方法。在实际预测时,选取与预测量(Y)关系最紧密的一个影响因素作为自变量(X),建立回归方程拟合回归曲线,对参数进行统计检验,对预测值进行精度检验和置信区间的估计。在预测量(Y)的众多影响因素中选取一个关系最密切的因素作为自变量(X)。得到回归方程 其中, 和 为待估参数, 称为随机误差(指除X对Y的线性影响外的其他 各因素对Y的影响)。如果随机误差总体服从正态分布 且相互独立, 我们可在X与Y的观测样本下以最小二乘法拟合回归曲线。这样的回归曲线 满足残差平方和,

方差分析 方差分析(Analysis of variance,简称ANOVA)是将总变异分裂为各个因素的相应变异,做出其数量估计,从而发现各个因素在变异中所占的重要程度,而且除了可控制因素所引起的变异后,其剩余变异又可提供试验误差的准确而无偏的估计,作为统计假设测验的依据 方差分析是判断多组数据( K≥3 )之间平均数差异是否显著的一种假设测验方法。2个样本平均数可用 t 或U测验的方法来评定其差数的显著性。如果有K个平均数,且K≥3,若仍然用两两比较的方法来测验,则需要作K(K-1)/2次测验,如果K=10,则需要45次测验,不但测验程序繁琐,而且在理论上,其显著水平已经扩大了。因此,对于多样本平均数的假设测验,需采用一种更为合适的统计方法,即方差分析法(Fisher, 1923)

方差分析的分类 方差分析主要有单因素方差分析、多因素方差分析以及协方差分析三种 单因素方差分析 单因素方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析 单因素方差分析原理:  在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的

  单因素方差分析基本步骤: 单因素方差分析的进一步分析: 1、提出原假设:H0——无差异;H1——有显著差异 2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。 3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。 4、给定显著性水平,并做出决策  在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。  方差齐性检验是对控制变量不同水平下各观测变量总体方差是否相等进行检验。SPSS单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是:各水平下观测变量总体的方差无显著差异。  多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。

多因素方差分析 基本思想:多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合 多因素方差分析的其他功能: 例子:  在SPSS中,利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法,它将控制变量不同水平下的观测变量值看作来自不同总体的样本,并依次检验这些总体的均值是否与某个指定的检验值存在显著差异  分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。

协方差分析 基本思想:不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响 原理:协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价