第十九章 直线相关和回归分析.

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
第二章 导数与微分 习题课 主要内容 典型例题 测验题. 求 导 法 则求 导 法 则 求 导 法 则求 导 法 则 基本公式 导 数 导 数 微 分微 分 微 分微 分 高阶导数 高阶微分 一、主要内容.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
§3.4 空间直线的方程.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
3.4 空间直线的方程.
第六章 回归分析.
生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.
第十章 相关与回归分析 PowerPoint 统计学.
第六章 相关与回归分析 本章主要内容 1.相关分析的基本问题 2.相关关系的测度 3.回归分析的基本问题 4.回归分析模型的建立
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第十一章 两变量关联性分析.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
预测与决策分析 Forecasting and Decision Analysis
相关与回归分析 目 录 一 相关分析概述 二 一元线性回归分析 小 结 三.
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
田间试验和统计方法 第九章 直线回归与相关.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
第三节 函数的求导法则 一 函数的四则运算的微分法则 二 反函数的微分法则 三 复合函数的微分法则及微分 形式不变性 四 微分法小结.
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 导数与微分 习 题 课 主要内容 典型例题.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第十一章 线性相关与回归.
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
计量经济学 第三章 多元线性回归模型.
第十章 回归分析预测法 第一节 相关分析 第二节 一元线性回归预测法 第三节 多元线性回归预测法 第四节 非线性回归预测法.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第15章 相关分析与回归分析 (续).
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
第一节 引言 第二节 一元线性回归模型 第三节 多元线性回归模型 第四节 虚拟变量回归模型 第五节 非线性回归模型 本章小节 主要内容.
第八章 相关分析和回归分析 第一节:相关的意义、概念和种类 第二节:相关图表和相关系数 第三节:回归分析
线性相关分析.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
第十章 方差分析.
医学统计学 6 主讲人 陶育纯 医学统计学 6 主讲人 陶育纯
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第十三章 直线相关与直线回归.
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
第4课时 绝对值.
第三章 两变量线性回归.
第四章 多元线性回归分析.
第四节 多个样本均数的两两比较 多个样本均数的两两比较又称多重比较(multiple comparison),其目的是推断究竟哪些总体均数之间存在差别。
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
数学模型实验课(二) 最小二乘法与直线拟合.
Presentation transcript:

第十九章 直线相关和回归分析

双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关 简单、基本——直线回归、直线相关

目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。

第一节 直线相关 一、线性相关的基本概念 直线相关(linear correlation):是研究两个变量之间是否存在相关关系的一种统计方法。 适用条件:线性、双变量正态分布资料。 相关分析是用于分析两变量间的互依关系。

例19-1 为研究中年女性体重指数和收缩压之间的关系,随机测量了16 名40 岁以上的女性的体重指数和收缩压,见表19-1,试绘制散点图。

图19-1 16名中年女性体重指数与收缩压散点图

图19-2 相关示意图

二、直线线性相关系数 相关系数又称积差相关系数(coefficientof product-moment correlation),它说明两变量之间线性关系的密切程度与方向的统计指标。样本用r表示,总体用ρ。 -1≤r≤1 (19-1)

相关系数对样本相关关系的计量

计算例19-1的相关系数 (19-2)

三、线性相关系数的假设检验 第一种方法:t检验法

1、建立假设:H0:=0 H1:≠0 =0.05 2、计算检验统计量 3、确定P值,作出统计推论

第二种方法:查表法 1、建立假设:H0:=0 H1:≠0 =0.05 2、计算检验统计量 n=16,r=0.91097,自由度=16-2=14。 3、查r界值表,得统计结论 查r界值表(附表19-1),得r0.01(14)=0.623,因为r> r0.01(14),故P<0.01,按=0.05水准拒绝H0,接受H1,可以认为体重指数与收缩压之间存在正相关关系。

第二节 直线回归 一、线性回归的概念 目的: 在因变量Y和自变量X之间建立一个数学模型,根据这个模型可以根据自变量的变动预测因变量的变动。

区别于函数关系和统计关系 函数关系: 两变量的数量表现在一定条件下是完全确 定的。 如: 圆的面积和半径的关系 统计关系(相关关系):两变量的数量表现尽管存在着密切关系,但却不是完全确定的。 如:成本和利润的关系

简单线性回归模型 样本线性回归方程 为给定X 时Y 的估计值。

a 为回归直线在 Y 轴上的截距 即x 取0时,y 的平均估计值

b 的统计学意义是:X 每增加(减)一个单位, 平均改变b个单位 b>0,直线从左下方走向右上方,Y 随 X 增大而增大 b<0,直线从左上方走向右下方,Y 随 X 增大而减小 b=0,表示直线与 X 轴平行,X 与Y 无直线关系 b 的统计学意义是:X 每增加(减)一个单位, 平均改变b个单位

建立 线性回归模型的步骤 1、确定研究的问题 2、设样本回归模型(如: ) 3、搜集样本资料(数据资料) 4、估计未知参数(计算统计量) 5、得到样本回归方程 6、用模型预测因变量

建立 样本线性回归模型的方法 --最小二乘法 实际观察值与样本回归线上 的点的距离的平方和最小 最小 Y e2 e1 e4 e3 X

(19-6) (19-7) 回归系数 (19-8) 截距(intercept)

例19-1 为研究中年女性体重指数和收缩压之间的关系,随机测量了16 名40 岁以上的女性的体重指数和收缩压,见表19-1,试进行回归分析。 二、直线回归方程的求法 例19-1 为研究中年女性体重指数和收缩压之间的关系,随机测量了16 名40 岁以上的女性的体重指数和收缩压,见表19-1,试进行回归分析。

1、做散点图 考察线性、 异常值 图19-1 16名中年女性体重指数与收缩压散点图

2、求回归系数与常数项

3、列出回归方程

4. 作回归直线 在自变量X的实测值范围内取相距较远且对 易于计算的两个X值,代入方程,求出两个Y值,连接两点的连线,既得直线。

三、线性回归方程的假设检验 回归系数的假设检验 检验总体回归系数β是否为零可用方差分析或与其等价的t检验。

t检验 1、建立假设: H0:=0 H1: ≠0 =0.05

2、计算检验统计量: 3、确定P值,作出统计推论: 查t界值表,得P<0.01,拒绝H0。

四、 直线相关和回归应注意的事项 (一)相关分析注意的事项 1、要有实际意义,不能把毫无关联的两种现象勉强作分析。且相关系数的意义仅限于样本资料中变量的取值范围。 2、相关关系不一定是因果关系,可能仅是表面上的伴随关系,或两个变量同时受另一因素的影响。但对原因一无所知时,有助于寻找事物的原因。

3、不能只根据相关系数绝对值的大小来推断两事物现象之间有无相关以及相关的密切程度,而必须进行相关系数的显著性检验。 4、关于相关分析的样本的合并与分层问题,应审慎对待。

5、散点图在相关分析中具有重要作用,要充分利用,注意观察有无离群值。 当且仅当分层情形下,两变量的关系不会因为合并而被歪曲时才可考虑合并。 (a)(b)无相关相关 (c)相关无相关 (d)正相关负相关 5、散点图在相关分析中具有重要作用,要充分利用,注意观察有无离群值。

(二)回归分析的注意事项 1、要有实际意义,不能把毫无关联的两种现象,随意进行回归分析。 2、要求Y是来自正态分布总体的随机变量,X可以是正态随机变量,也可以是精确测量和严格控制的值。 3、应先绘制散点图。判断直线或曲线趋势。 4、若出现离群值,应及时核查测定、记录或录入的错误。 5、回归直线不要外延。

1、区别: (三) 直线回归与相关的区别和联系 1、资料要求不同 因变量服从正态分布---Ⅰ型回归 因变量与自变量服从双变量正态分布---Ⅱ型回归,可做直线相关分析。 2、应用情况不同 回归说明依存数量关系,相关说明互依关系。

2、联系 1、方向一致 2、假设检验等价tr=tb 3、用回归解释相关 决定系数(coefficient of determination)r2:指回归平方和SS回占总离均差平方和SS总的比例。用于评价在y的总变异中,由线性回归方程所能解释的比例。

4、r、b可互相推导

第三节 等级相关 适用条件: 1、不服从双变量正态分布 2、总体分布型未知 3、原始数据用等级表示的资料

例19-6 为探讨硒与大骨节病之间的关系,分别检测了1990-1999 年某地7-12 岁儿童中大骨节病X 射线阳性检出率和发硒的平均水平如表19-2,试对其进行等级相关分析。

一、Spearman等级相关 基本思想: 计算公式: 19-12

总体等级相关系数s的检验 1、n≤50时,用查表法(附表12) 2、n>50时, 用直线相关的t检验

3、查rs界值表,得统计结论 查rs界值表(附表19-2),得r0.01(9)=0.833,因为 r> r0.01(9) ,故P<0.01,按=0.05水准拒绝H0,接受H1,可以认为儿童大骨节病阳性检出率与发硒的含量有关系。

附表11 r界值表(双侧尾部面积) 自由度 ν 1 概率 P 单侧: 双侧 0.25 0.50 0.10 0.20 0.05 0.025 0.01 0.02 0.005 0.0025 0.001 0.002 0.0005 0.707 0.951 0.988 0.997 1.000 2 0.500 0.800 0.900 0.950 0.980 0.990 0.995 0.998 0.999 3 0.404 0.687 0.805 0.878 0.934 0.959 0.974 0.986 0.991 4 0.347 0.608 0.729 0.811 0.882 0.917 0.942 0.963 5 0.309 0.551 0.669 0.755 0.833 0.875 0.906 0.935 6 0.281 0.507 0.621 0.789 0.834 0.870 0.905 0.925 7 0.260 0.472 0.582 0.666 0.750 0.798 0.836 0.898 8 0.242 0.443 0.549 0.632 0.715 0.765 0.847 0.842 9 0.228 0.419 0.521 0.602 0.685 0.735 0.776 0.820 10 0.216 0.398 0.497 0.576 0.658 0.708 0.795 0.823

附表11 r界值表(双侧尾部面积) 自由度 ν 11 概率 P 单侧: 双侧 0.25 0.50 0.10 0.20 0.05 0.025 0.01 0.02 0.005 0.0025 0.001 0.002 0.0005 0.281 0.380 0.476 0.553 0.634 0.684 0.726 0.772 0.801 12 0.260 0.365 0.457 0.532 0.612 0.661 0.703 0.750 0.780 13 0.242 0.351 0.441 0.514 0.592 0.641 0.683 0.730 0.760 14 0.228 0.338 0.426 0.497 0.574 0.623 0.664 0.711 0.742 15 0.216 0.327 0.412 0.482 0.558 0.606 0.647 0.694 0.725 16 0.206 0.317 0.400 0.468 0.542 0.590 0.631 0.678 0.708 17 0.197 0.308 0.389 0.456 0.529 0.575 0.616 0.662 0.693 18 0.189 0.299 0.378 0.444 0.515 0.561 0.602 0.648 0.679 … 50 0.096 0.181 0.231 0.273 0.322 0.354 0.384 0.419 0.443

附表12 rs界值表 自由度 ν 4 概率 P 单侧: 双侧 0.25 0.50 0.10 0.20 0.05 0.025 0.01 0.02 0.005 0.0025 0.001 0.002 0.0005 0.600 1.000 5 0.500 0.800 0.900 6 0.371 0.657 0.829 0.886 0.943 7 0.321 0.571 0.714 0.786 0.893 0.929 0.964 8 0.310 0.524 0.643 0.738 0.833 0.881 0.905 0.952 0.976 9 0.267 0.483 0.700 0.783 0.867 0.917 0.933 10 0.248 0.455 0.564 0.648 0.745 0.794 0.830 0.879 0.903 11 0.236 0.427 0.534 0.618 0.709 0.755 0.845 0.873 … 50 0.096 0.181 0.231 0.273 0.322 0.354 0.384 0.419 0.443

END