Download presentation
Presentation is loading. Please wait.
1
第十三章 直线相关与直线回归
2
某市1995年104名男童身高(cm)资料如下 117.3 119.6 121.9 125.1 117.0 115.4 124.7 120.1 123.0 122.8 120.6 121.5 125.0 125.9 123.2 126.6 122.0 127.6 119.5 126.1 126.4 125.6 118.9 130.4 124.9 125.8 1 20.9 116.1 124.0 124.6 118.7 119.1 118.0 114.6 123.9 116.0 125.3 123.6 115.5 119.2 114.0 123.4 113.6 120.5 130.2 128.3 118.2 122.4 118.8 123.1 122.7 127.8 110.5 124.8 115.2 119.4 128.0 116.7 132.4 129.3 121.7 115.0 120.4 122.1 127.0 135.3 125.7 111.2 124.3 124.2 121.3 124.1 119.9 113.8 129.9 128.5 126.5 122.5 127.7 123.3 120.3
3
表1 不同饲料组大鼠肝中维生素A含量(IU/g)
大鼠对号 正常饲料组 维生素 E 缺乏组 ( 1 ) 2 3 3550 2450 2000 2400 3000 800 4 3950 3200 5 3800 3250 6 3750 2700 7 3450 2500 8 3050 1750 合计 26550 20050
4
表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果
患者号 血清IL-6 脑脊液IL-6 1 22.4 134.0 2 51.6 167.0 3 58.1 132.3 4 25.1 80.2 5 65.9 100.0 6 79.7 139.1 7 75.3 187.2 8 32.4 97.2 9 96.4 192.3 10 85.7 199.4
5
SAH患者血清和脑脊液IL-6散点图
6
第一节 直线相关 (linear correlation)
直线相关分析:描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法 条件:两变量(x,y)都是来自正态分布的随机变量
7
直线相关示意图 一、直线相关的概念 r =1 r = -1 -1< r <0 0< r <1 零相关r = 0
完全正相关 r = -1 完全负相关 -1< r <0 负相关 0< r <1 正相关
8
直线相关系数:又称积差相关系数,是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。 r
二、相关系数的意义与计算 直线相关系数:又称积差相关系数,是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。 r
9
二、相关系数的意义与计算 范围: 大小: 符号:
10
例13.1(P212) 在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(IL-6)水平是影响诊断与预后分析的一项重要指标,但脑脊液在临床上有时又不容易采集到。某医生欲了解急性脑血管病病人血清IL-6(pg/ml)与脑脊液IL-6 (pg/ml)水平,随机抽取了某医院确诊的10例蛛网膜下腔出血(SAH)患者24小时内血清IL-6和脑脊液IL-6数据如表2,问SAH患者血清IL-6和脑脊液IL-6间是否有直线相关关系存在?
11
直线相关分析步骤 1、绘制散点图: 2、计算: lxx=6104.664 lyy=16242.101 lxy=7201.698
r=0.7232
12
三、相关系数的假设检验 1、tr检验 =n-2
13
例13.1 SAH患者血清IL-6和脑脊液IL-6间相关系数的假设检验步骤:
H0 :=0 即SAH患者血清IL-6和脑脊液IL-6间无直线相关关系 H1 : ≠0即SAH患者血清IL-6和脑脊液IL-6间有直线相关关系 =0.05
14
r=0.7232, n=10, 代入公式 计算得 t=…=2.962 根据=10-2=8查t界值表得0.01< P < 0.02,按=0.05的检验水准,拒绝H0,接受H1 ,可认为SAH患者血清IL-6和脑脊液IL-6间有直线相关关系
15
2、查表法 根据r值及=n-2查附表13-1(P222) 相关系数r界值表
三、相关系数的假设检验 2、查表法 根据r值及=n-2查附表13-1(P222) 相关系数r界值表
16
1.相关分析一定要有实际意义 2.进行相关分析前要先绘制散点图 3.分析相关的密切程度时样本含量要足够大
相关分析应用中应注意的问题 1.相关分析一定要有实际意义 2.进行相关分析前要先绘制散点图 3.分析相关的密切程度时样本含量要足够大
17
第 二 节 直线回归 Linear Regression
18
表2 孕妇尿中雌三醇含量与产儿的体重 编号 (1) 尿雌三醇 mg/24h(2 产儿体重 kg(3) 尿雌三醇mg/24h(2) 1 7
编号 (1) 尿雌三醇 mg/24h(2 产儿体重 kg(3) 尿雌三醇mg/24h(2) 1 7 2.5 17 3.2 2 9 18 25 3 19 27 3.4 4 12 2.7 20 15 5 14 21 6 16 22 3.5 2.4 23 8 3.0 24 10 3.1 26 3.6 11 3.7 28 3.8 13 29 4.0 2.8 30 3.9 31 4.3
19
表3 12名一年级女大学生体重与肺活量 编号 体重 ( kg ) 肺活量 L 1 42 2.55 2 2.2 3 46 2.75 4 2.4
表3 12名一年级女大学生体重与肺活量 编号 体重 ( kg ) 肺活量 L 1 42 2.55 2 2.2 3 46 2.75 4 2.4 5 2.8 6 50 2.81 7 3.41 8 3.1 9 52 3.46 10 2.85 11 58 3.5 12
20
回归的由来 英国统计学家Pearson K(1857~1936)1903年搜集了1078个家庭人员的身高、前臂长等指标的记录,发现儿子身高(Y,英寸)与父亲身高(X,英寸)存在线形关系: = X
21
回归的由来 即高个子父亲儿子的平均身高虽然比矮个子父亲儿子的平均身高要高一些,但稍矮于其父亲的平均身高;而矮个子父亲儿子的平均身高虽然比高个子父亲儿子的平均身高要矮一些,但稍高于其父亲的平均身高。英国人类学家Galton F(1822~1911)将这种趋向于种族稳定的现象称之为“回归”。
22
直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归方程.
直线回归的概念 在实际生活当中,由于其它因素的干扰,许多双变量之间的关系呈直线趋势,但并不是严格的直线关系,为了区别于两变量间的直线关系,我们称这种关系为直线回归。 直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归方程. 在数学上两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的关系可用直线方程来表示,叫它们是直线关系,它们之间的关系式叫直线方程。
23
一、两变量的散点图
24
一、两变量的散点图
25
SAH患者血清和脑脊液IL-6散点图
26
医学上,还有许多现象之间也都有类似的或强或弱的相互依存的关系,例如:身高与体重、体温与脉搏、年龄与血压、胰岛素与血糖水平、毒物剂量与动物的存活时间等等
27
二、直线回归方程 直线回归方程: A、b的大小及其含义 如果a、b已知,代入上式,就可求得直线回归方程。 b:回归系数 b0:截距
28
x y
29
回归系数与截距的计算
31
表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果
例13.2 对例13.1进行回归分析 表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果 患者号 血清IL-6 脑脊液IL-6 1 22.4 134.0 2 51.6 167.0 3 58.1 132.3 4 25.1 80.2 5 65.9 100.0 6 79.7 139.1 7 75.3 187.2 8 32.4 97.2 9 96.4 192.3 10 85.7 199.4
32
1、绘制散点图: 2、求回归系数b和截距b0 :
33
计算x、y、lxx、lyy、lxy x=59.26 y=142.87 lxx= lyy= lxy=
35
列出回归方程:
36
表3 12名一年级女大学生体重与肺活量 例:某地一年级12名女大学生的体重与肺活量数据如下,试分析肺活量与体重关系 编号 体重 ( kg )
表3 12名一年级女大学生体重与肺活量 编号 体重 ( kg ) 肺活量 ( L ) 1 42 2.55 2 42 2.2 3 46 2.75 4 46 2.4 5 46 2.8 6 50 2.81 7 50 3.41 8 50 3.1 9 52 3.46 10 52 2.85 11 58 3.5 12 58 3
37
1、绘制散点图: 2、求回归系数b和截距b0 :
38
计算x、y、lxx、lyy、lxy x=49.33 y=2.9025 lxx= lyy=1.8892 lxy=18.04
40
列出回归方程:
41
在自变量X的实测范围内任取相距较远且易读数的两X值代入回归方程求得两点坐标、连线即得其回归直线
直线回归方程的图示 在自变量X的实测范围内任取相距较远且易读数的两X值代入回归方程求得两点坐标、连线即得其回归直线 截距和均值点可验证回归直线绘制的正确性
42
三、直线回归的统计推断 (一)总体回归系数的估计与假设检验 1、总体回归系数的区间估计 bt/2,sb
43
2、回归系数的假设检验 方差分析 t检验
44
回归系数的假设检验:方差分析法 方差分析的基本思想:
把总的离均差平方和(即总变异)分解为至少两个部分,其中有一部分表示处理因素的效应,有一部分表示抽样误差的影响,然后比较两者的均方,计算F值,若F值远大于1,可认为处理有效应,否则认为处理无效应。
45
应变量Y的离均差平方和的分解 X Y Q
46
应变量Y的离均差平方和的分解 SS总 = SS回 + SS剩
47
SS总 =lYY SS回 =blXY =lXY2/lXX SS剩= SS总- SS回= lYY - lXY2/lXY
回归系数的方差分析 SS总 = SS回 + SS剩 总 = n – 1 回= 1 剩= n - 2 SS总 =lYY SS回 =blXY =lXY2/lXX SS剩= SS总- SS回= lYY - lXY2/lXY
48
例13.3:对例13.2建立的回归方程的回归系数进行假设检验
H0:β=0 H1:β≠0 α=0.05 计算统计量F,求得概率值P 做出推断:
49
回归系数方差分析表 变异来源 SS DF MS F P 回归 剩余 总变异 8495.8737 1 8.7742 0.018
8 总变异 9
50
回归系数的假设检验: t检验法 = n - 2 其中Sy.x表示去除X影响后Y的变异大小
51
(二)应变量条件均数的区间估计 :是总体中x取某定值时Y的条件均数
52
四、直线回归的应用 1、描述两变量之间的依存关系: 2、利用回归方程进行预测预报: 3、用容易测量的指标估计不容易测量的指标:
估计值的置信区间: 个体值的预测区间: 4、利用回归方程进行统计控制
53
应用直线回归的注意事项 (1)回归分析前应先作出散点图; (2)做回归分析要有实际意义; (3)应注意建立线性回归模型的基本假定
(4)两变量间有直线关系时不一定是因果关系 (5)应对回归系数作假设检验 (6)回归直线不宜外延。 (7)要注意离群值对回归效果的影响
54
区别:1. 相关说明相关关系,回归 说明依存关系; 2. r与b有区别; 3. 资料要求不同。
直线相关与回归的区别与联系 区别:1. 相关说明相关关系,回归 说明依存关系; r与b有区别; 资料要求不同。
55
联系:1. r与b正负号一致; r与b的假设检验等价; 3.可用回归解释相关。 决定系数:即相关系数的平方r2,是回归平方和与总的离均差平方和之比。 故回归平方和是引入相关变量后总平方和减少的部分。
56
相关分析: analyze→correlate →bivariate correlations →variables: x →ok y
SPSS的应用: 相关分析: analyze→correlate →bivariate correlations →variables: x →ok y
57
SPSS的应用: 样本相关系数 相关系数的假设检验P值
58
SPSS的应用: 回归分析: analyze→regression →linear regression
→ dependent: y →ok Independent: x
59
SPSS的应用: 样本回归系数 回归系数假设检验的P值
60
SPSS的应用: 总体回归系数β的可信区间
61
作业: P514 计算分析题 1.1
Similar presentations