双变量关联性分析
单变量分析方法(univariate analysis) 主要是比较同一变量各组间的差异 双变量分析方法(bivariable analysis) :相关与回归分析
两个变量之间的关系 血压-年龄 肺活量-体重 动物死亡率-毒物剂量 相关: 研究两变量间是否有联系及联系程度如何 血压与年龄是否有联系?联系程度如何? 肺活量与体重是否有联系?联系程度如何? 回归: 研究两变量的数量变化关系 人群中,平均而言,血压如何随年龄变化? 肺活量如何随体重变化? 毒性研究中,动物死亡率如何随毒物剂量变化? 前面学习的t检验、方差分析、卡方检验、非参数检验仅仅涉及一个分析变量的关系,今天要学习两个变量之间的关系。 相关与回归是两个不同但有联系的问题,都是讨论两个变量之间的关系。 回归要找出定量关系,用一个变量来预测另一个变量。 我们要学习的是线性相关
关联性分析的目的 推断从某一总体中随机抽取的同一份样 本观测出的两个变量间是否存在关联性, 以及这种关联性的方向和密切程度如何。
美国国家航空航天局描述全球空气颗粒物污染情况的新地图 中国目前采用的空气污染指数(API)并没有对PM2.5进行监控。即使世界各国发现PM2.5对人体的危害极大,纷纷更新各国的空气质量标准,严格监控 PM2.5浓度之时,中国有关部门仍坚称监测PM10更“符合国情”,对于PM2.5则以世卫组织“最不发达国家”的标准来律己——于是人们依然每日活在 “被达标”的“质量优良空气”当中。
上线为10月18日-25日,每日上午9点美国驻华大使馆自测的pm2
2011年10月20日,北京,你找得到******吗?
图 英国肺癌死亡率和烟草消耗量.(1950,Doll&Hill)
图 美国肺癌的监测数据年及美国烟草消耗量的数据(American Cancer Society 2005)
直线相关 linear correlation
问题的提出 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,如下表。据此回答两变量是否有关联?其方向与密切程度如何?
最直观方法: 绘制散点图(scatter plot)
直线相关的定义 统计学上两个随机变量之间呈直线趋势的关系被称为直线相关。 直线相关系数(linear correlation coefficient ):定量描述两变量间直线关系的方向和密切程度的指标。
直线相关系数(linear correlation coefficient ) 又称Pearson 积矩相关系数(product moment correlation coefficient),样本相关系数用 r 表示,总体相关系数用 表示 离均差乘积和
相关系数的性质 1、相关系数没有单位,其值为-1≤r≤1,其正负表示两变量间直线相关的方向; 完全正相关: r=+1 正相关:0< r <1 完全负相关: r=-1 负相关:-1< r <0 零相关:r =0 2、r的绝对值大小表示两变量之间直线相关的密切程度。r的绝对值越接近于1,说明相关密切程度越高;绝对值越接近0,说明相关密切程度越低。
直线相关的具体步骤 1、首先绘制散点图观察两变量间是否有直线趋势。 2、计算相关系数 3、总体相关系数的假设检验 用样本计算出来的相关系数r是一个样本统计量,存在抽样误差,需要对总体相关系数 是否为0做假设检验。包括t检验和查表法。
(类似于样本均数与总体均数比较的t检验) 3、相关系数的假设检验 (类似于样本均数与总体均数比较的t检验) 1. t检验 (1)建立假设检验,确定检验水准 ,即体重和双肾体积之间无直线相关关系 ,即体重和双肾体积之间有直线相关关系
(2)计算检验统计量
查t界值表,得 ,按 =0.05水准,拒绝 ,接受 ,相关系数有统计学意义,可以认为体重和双肾体积之间有直线相关关系。 (3)确定P值并作出统计推断 查t界值表,得 ,按 =0.05水准,拒绝 ,接受 ,相关系数有统计学意义,可以认为体重和双肾体积之间有直线相关关系。
2. 查表法(n≤50) 直接查相关系数界值表, , =0.514, =0.760, ,结果与 t 检验法一致。
总体相关系数 的区间估计 样本相关系数b只是总体回归系数 的一个点估计值,没有考虑抽样误差的大小,因此还需要估计总体回归系数 的置信区间。 总体相关系数 的区间估计 样本相关系数b只是总体回归系数 的一个点估计值,没有考虑抽样误差的大小,因此还需要估计总体回归系数 的置信区间。 z变换
注意事项 观察例数较少(如n<15)时,相关系数容易受个别 1、进行相关分析前应先绘制散点图 2、出现离群点时慎用相关 有无线性关系 有无离群点(outlier) 2、出现离群点时慎用相关 观察例数较少(如n<15)时,相关系数容易受个别 观察对象的特殊值影响。
(a)
注意事项 3、线性相关分析要求两个随机变量服从二元正态分布。
注意事项 4、相关关系不一定是因果关系 。 如树高和身高,冰淇淋和游泳
5、分层资料不可盲目合并 (c) (b)
注意事项 6、在有相关关系时,根据相关系数的大小判断两变量相关的密切程度。 假设检验是回答两变量间的相关关系是否具有统计学意义,P值越小并不表示相关性越强。
直线回归分析
在1926年美国经济学家乔治·泰勒(George Taylor)创造了裙摆指数理论
所谓裙摆理论,就是指在经济的繁荣程度和女性的裙摆长度成正比例关系。简单通俗的说就是:经济繁荣时代,女性的裙摆会越来越短;经济一旦进入衰退,短裙则随之变成长裙。 http://www.techcn.com.cn/index.php?edition-view-152123-0
年轻女性通过裙摆的高度来反映她们的生活态度。经济繁荣,女性乐观而自信,愿意展示自己美好的身体,而自家庭预算中划分出添置一条迷你裙——彻底的奢侈品——的钱,不存在任何困难;经济不景气,女性失去了自由自在的心情,包裹式的长裙给她们以安全感,说到家庭预算,如果必须添置新衣,那只能是实用的,可以在很多场合出现的——长裙。
小腿一瞥会给人一种独立感和信心;扫帚裙子则是谦逊和朴素的迹象。
而现在,要在具有个性化特征的中国通过观察女性裙摆长度来判断股市更是难上加难,那些前卫的女孩你根本不知道她们穿的是什么,进一步说,对于好多前卫女生,你连她是男是女也分不清。
主要内容 直线回归方程的建立 直线回归的统计推断 直线回归的应用 直线回归需注意的问题 直线回归与直线相关的联系与区别
相关系数可用来说明两变量之间伴随而呈现线性变化的趋势和关联程度,并不能用其中一个变量来预测另一个变量的值。 在实际工作中,研究者常常需要通过易测的变量对另一个难测的变量进行估测,如用腰围、臀围、体重指数等简易体脂参数来估测腹腔内脂肪含量,此时可采用回归分析。
回归的背景 回归分析起源于生物学研究,英国生物学家Galton在19世纪末叶研究遗传特性时,发现父亲的身高与儿子身高之间有较密切的联系。一般说来,父亲的身材高大,其儿子也比较高大,父亲矮小,儿子也偏于矮小。 但是,在大量的研究资料中,又发现身高有一种向平均数回归的倾向,即身材很高的父亲,其儿子比父亲略矮;反之,很矮的父亲,其子比父亲略高。这种身高倾向与平均数的特性,就称回归(regression)。 Galton在1989年发表的著作《自然的遗传》中,提出了回归分析的方法,很快得到广泛的应用。目前,回归分析的理论与应用,均已达到了成熟的阶段。
医学领域里常常需要研究两个变量之间的关系,例如:人的身高与体重,体温与脉搏次数,年龄与血压,药剂量与疗效,体表面积与肺活量,身高与臂长…… 两变量关系的密切程度可以用直线相关衡量; 两变量的数量变化关系可以用直线回归衡量。 51
直线回归概念 直线回归(linear regression)用来研究两个连续型变量之间数量上的线性依存关系。 因变量(dependent variable) 常用y表示 自变量(independent variable) 常用x表示
例14.1 某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对20名男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm2),结果如表14.1所示。试建立腹腔内脂肪面积和腰围的直线回归方程。
为了直观了解腹腔内脂肪面积与腰围的关系,以这20名男性志愿者的腰围为横坐标,腹腔内脂肪面积为纵坐标绘制散点图
腹腔内脂肪面积 (cm2) 腰围 (cm) 图14.1 两变量直线回归关系散点图
函数关系与回归关系 函数关系:自变量取某一数值时,应变量有一个完全确定的数值与之对应,如:y=2x+1 回归关系:变量间虽然存在一定的关系,但关系不是十分确定,如本例。
直线回归方程: 为自变量的取值 为当 取某一值时应变量y的平均估计值 为截距(intercept),即当 时y的平均估计值 b为回归系数(regression coefficient),表示改变一个单位 时y的平均改变量。
a>0 a=0 a<0
b>0: 每增加(减少)一个观测单位, 增加(减少)b个单位。
b<0 b<0: 每增加(减少)一个观测单位, 减少(增加)|b|个单位。
b=0 b=0: 与 没有直线回归关系。
回归方程的估计 原理:最小二乘法(least square method) 各实测点到直线的纵向距离平方之和达到最小
计算公式
其中
本例
故所求回归方程为:
直线回归的统计推断 样本回归系数b 总体回归系数β 对β的两种假设检验方法: 方差分析法 t检验法
方差分析法
总变异的分解 即:
:总离均差平方和 (不考虑回归关系的总变异) :回归平方和(总变异中可以用回归关系所 解 释的部分。值越大,说明回归效果越好。) :残差平方和(总平方和中无法用回归关系解 释的部分—随机误差)
自由度的分解
构造F统计量
方差分析表 来源 平方和SS 自由度 均方MS 总 总=n-1 回归 回=1 MS回=SS回/1 残差 残=n-2 统计量F MS回/MS残 残差 残=n-2 MS残=SS残/(n-2)
本例 1.建立检验假设,确定检验水准
2.计算检验统计量
3.确定P值,作出统计推断 P<0.01,按照0.05检验水准拒绝H0。回归方程有统计学意义,可以认为腹腔内脂肪面积与腰围之间有直线回归关系。
t检验法 公式: 其中:
本例
查t界值表 ,得P<0.001,结论与方差分析法一致
总体回归系数的区间估计 本例:
决定系数(coefficient of determination) 反映了回归贡献的相对程度,即在因变量y的总变异中用y与x回归关系所能解释的比例。在实际应用中,常用决定系数来反映回归的实际效果。本例决定系数为0.581
直线回归分析的应用 因变量总体条件均数的置信区间估计 应变量个体y值的预测区间
总体条件均数的置信区间估计 点估计: 是在给定x=xp下的条件平均值的点估计 的1-α的置信区间估计 公式为: 其中:
应变量个体y值的预测区间 对于给定的x=xp,y值的预测区间 计算公式为: 其中:
二者的区别(置信带和预测带)
直线回归分析需注意的问题 回归分析前应绘制散点图(必需有直线趋势时,才适宜作直线回归分析。应注意资料有无离群点(outlier)及离群点的处理。
模型假设条件的考察(残差图)
结果的解释及正确应用 反映自变量对应变量数量上影响大小的是回归系数 ,而非P值。 内插与外推
直线回归与直线相关分析的联系与区别
联系 对于服从双变量正态分布的同一组数据,既可作直线相关分析又可作直线回归分析,相关系数与回归系数正负号一致。本例:r=0.762 b=2.11 对于同一样本,相关系数与回归系数的假设检验等价 。tb=tr
对于服从双变量正态分布的同一组资料 用回归可以解释相关:
区别 资料要求:直线相关要求双变量正态分布,直线回归要求给定自变量值时,因变量服从正态分布 应用及意义:相关系数说明两变量间相互关系的方向与密切程度 ;回归系数说明两变量的数量依存关系
计算公式: 取值范围: 单位:相关系数无单位,回归系数有单位