Download presentation
Presentation is loading. Please wait.
1
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室
2
线性相关 直线相关:又称简单相关(simple correlation),用于描述两个变量之间的线性相关程度。
经典相关分析要求X与Y都是随机变量,而且服从双变量正态分布。 相关关系的统计量使人们对变量间的相关关系是否成立、相关的性质和强弱等有了量化依据。 2017/9/11 公共卫生学院.卫生统计学教研室
3
线性相关 相关系数(correlation coefficient),又称积差相关系数或 Pearson 相关系数(软件中常用此名称)以及spearman相关系数; 定量描述线性相关程度的一个常用指标,说明相关的密切程度和方向。 计算公式 2017/9/11 公共卫生学院.卫生统计学教研室
4
线性相关 关系数的特点: 相关系数r是表示两个随机变量之间直线相关强度和方向的统计量,是一个无量纲的数值,取值范围-1≤ r ≤ 1;
r的正负值表示两变量之间直线相关的方向,即 r>0为正相关,r<0为负相关,r=0为零相关;r与回归系数b的符号相同; r的绝对值大小表示两变量之间直线相关的密切程度,|r|越接近于1,说明密切程度越高,|r|越接近于0,说明密切程度越低。 2017/9/11 公共卫生学院.卫生统计学教研室
5
线性相关 相关系数的假设检验: r≠0原因:① 由于抽样误差引起,ρ=0 ② 存在相关关系, ρ≠0
② 存在相关关系, ρ≠0 检验方法:① 直接查表法(r界值表),② t 检验; 公式 Sr---- 相关系数的标准误 2017/9/11 公共卫生学院.卫生统计学教研室
6
定义 线性回归 用直线方程表达X(自变量,independent variable)
和Y(应变量, dependent variables)之间的数量关系。 Y(实测值)的预测值(predictive value),b是直线的斜率,即X每变化一单位,Y相应的变化b个单位。a为截距,即X为0时Y值的大小。 2017/9/11 公共卫生学院.卫生统计学教研室
7
直线回归的前提假设(LINE) 线性回归 线性 Linearity 反应变量均数 与X间呈线性关系:Y|X= α + X
独立 Independence 每一观察值之间彼此独立 正态 Normality 对于任何给定的 X:Y均服从正态分布 等方差 Equal variance 对于任何X值,随机变量Y的标准差 Y|X相等 2017/9/11 公共卫生学院.卫生统计学教研室
8
回归直线的建立主要是基于最小二乘法(least-squares ,LS),即各实测点与拟合直线之间纵向距离的平方和最小。
线性回归 回归直线的建立主要是基于最小二乘法(least-squares ,LS),即各实测点与拟合直线之间纵向距离的平方和最小。 线性回归的主要运用:统计预测与统计控制 统计预测:给定X值,估计Y; 统计控制(逆估计):要求Y在一定范围内波动,可通过X的取值来实现。 2017/9/11 公共卫生学院.卫生统计学教研室
9
线性回归 注意: 方法一:t检验 做直线回归之前,先做散点图,是确定两变量之间是否有关系的最简单的好方法。 回归系数(b)的假设检验
判断直线回归方程是否成立,需要检验总体回归系数β是否为0。 方法一:t检验 两种方法等价, 方法二:F检验 只有当β ≠0,才能认为直线回归方程成立(具有统计学意义) 2017/9/11 公共卫生学院.卫生统计学教研室
10
相关与回归的区别和联系 区别 1. 资料: 回归 —— Y为正态随机变量,X为固定的非随机变 量
相关 —— X、Y均为随机变量,且服从双变量正态分布 2.意义与应用: 回归 —— 反映两变量间的依存关系 相关 —— 反映两变量间的相互关系 3.回归系数与原度量单位有关,而相关系数无关 2017/9/11 公共卫生学院.卫生统计学教研室
11
相关与回归的区别和联系 联系 2017/9/11 公共卫生学院.卫生统计学教研室
12
相关与回归应用的注意事项 1. 根据分析目的选择变量及统计方法 直线相关用于说明两变量之间直线关系的方向和密切程 度,X与Y 没有主次之分
直线回归则进一步用于定量刻画应变量Y 对自变量X 在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y例如用身高估计体表面积 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析 2017/9/11 公共卫生学院.卫生统计学教研室
13
相关与回归应用的注意事项 2. 进行相关、回归分析前应绘制散点图—第一步 散点图可考察两变量是否有直线趋势 可发现异常点(outlier)
散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。 2017/9/11 公共卫生学院.卫生统计学教研室
14
相关与回归应用的注意事项 3. 资料的要求 直线相关分析要求 X与Y 服从双变量正态分布
直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同 2017/9/11 公共卫生学院.卫生统计学教研室
15
相关与回归应用的注意事项 4. 结果解释及正确应用 反应两变量关系密切程度或数量上影响大小的统计量
应该是回归系数或相关系数的绝对值,而不是假设检 验的P值 P值越小只能说越有理由认为变量间的直线关系存在, 而不能说关系越密切或越“显著” 不能任意“外延”;直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围 2017/9/11 公共卫生学院.卫生统计学教研室
16
表1 12名健康儿童的发硒与血硒的测量值(单位:1000ppm)
例题(相关与回归) 例题1 在某克山病区测量12名健康儿童头发中的硒含量与血液中的硒含量,其结果如表1所示。问儿童头发中的硒含量与血液中的硒含量是否相关,是否能求出以血液中的硒含量为因变量的回归方程。 表1 12名健康儿童的发硒与血硒的测量值(单位:1000ppm) 编号 发硒值 血硒值 1 74.2 13.5 2 66.6 10.5 3 88.8 13.8 4 69.5 11.0 5 91.0 16.6 6 73.5 9.8 7 7.8 8 96.0 14.0 9 58.8 5.8 10 10.0 11 64.8 7.6 12 78.6 11.5 2017/9/11 公共卫生学院.卫生统计学教研室
17
spss操作步骤(相关) 二、对X/Y变量做正态性检验 三、相关spss步骤 一、 绘制散点图 有线性趋势 X/Y变量均成正态分布
2017/9/11 公共卫生学院.卫生统计学教研室
18
spss操作步骤(相关与回归) Graphs Legacy dialogs Scatter/Dot… Simple Scatter
2017/9/11 公共卫生学院.卫生统计学教研室
19
spss操作步骤(相关) 等级相关系数 非参数方法 Kendall’s 相关系数:用于反映分类变量一致性的指标,
相关过程步 Analyze Correlate Bivariate Correlations 等级相关系数 非参数方法 Kendall’s 相关系数:用于反映分类变量一致性的指标, 只能在两个变量均为有序分类时使用。 2017/9/11 公共卫生学院.卫生统计学教研室
20
相关分析(结果) 散点图结果 有线性趋势 正态性检验结果 发硒值(X)、血硒值(Y)的P>0.05,均成正态分布。 2017/9/11
公共卫生学院.卫生统计学教研室
21
相关分析(结果) 结果解释: 相关系数r=0.880,双侧Pearson检验p<0.001,有统计学意义,可认为血硒值与发硒值呈正相关关系。 2017/9/11 公共卫生学院.卫生统计学教研室
22
是否能求出以血液中的硒含量为因变量的回归方程?
例题(相关与回归) 问题: 是否能求出以血液中的硒含量为因变量的回归方程? 2017/9/11 公共卫生学院.卫生统计学教研室
23
spss操作步骤(回归) 回归过程步 正态性、散点图 Analyze Regression Linear 2017/9/11
公共卫生学院.卫生统计学教研室
24
给出复相关系数R、决定系数R2 调整决定系数及方差分析结果
spss操作步骤(回归) 给出复相关系数R、决定系数R2 调整决定系数及方差分析结果 检验残差序列是否存在相关关系 2017/9/11 公共卫生学院.卫生统计学教研室
25
参数解释 “DEPENDNT”因变量。 “ZPRED”标准化预测值。 “ZRESID”标准化残差。 “DRESID”删除残差。
“ADJPRED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。 2017/9/11 公共卫生学院.卫生统计学教研室
26
回归分析(结果) 结果解释 相关系数R=0.880,R2=0.774,表示血硒值(因变量)的变异中77.4%可由发硒值(自变量)来解释,说明血硒值的变化能较好的运用发硒值的变化来解释。 2017/9/11 公共卫生学院.卫生统计学教研室
27
回归分析(结果) 结果解释 经F检验,F=34.156,P<0.001,差异有统计学意义,即此回归方程有意义. 2017/9/11
公共卫生学院.卫生统计学教研室
28
回归分析(结果) 2017/9/11 公共卫生学院.卫生统计学教研室
29
回归分析(结果) 学生化残差散点图 以血硒值为纵轴,学生化残差为横轴的散点图显示:
可认为散点图无明显变化趋势,且各学生化残差的绝对值都不大于2,未发现极端值; 可用回归方程描述发硒值和血硒值之间的关系。 2017/9/11 公共卫生学院.卫生统计学教研室
30
Thank You !
Similar presentations