Download presentation
Presentation is loading. Please wait.
1
第九章 Logistic回归分析
2
9.1Logistic回归分析概述 问题1:研究消费者的不同特征如何影响是否购买小轿车时,消费者的年龄、年收入、职业、性别等因素将作为解释变量,是否购买作为被解释变量,此时的被解释变量是一个二分类变量。 问题2:在研究消费者特征对某种商品的品牌选择取向时,品牌作为被解释变量,由于候选品牌多样,因此是一个多分类问题。
3
问题3:在流行病学的研究中,有一类常见问题是探索某疾病的危险因素,同时根据危险因素预测某疾病发生的概率。例如,想探讨胃癌发生的危险因素,选择两组人群,一组胃癌患者,另一组非胃癌患者,这形成了因变量。两组人群肯定有不同的体征和生活方式,自变量可以包括很多,例如:年龄、性别、饮食习惯、幽门螺杆菌感染等。 注:以上问题的共同点是因变量不是连续型变量,而是分类变量。
4
若因变量是被解释变量,则一般线性模型会出现以下问题:
对于任意给定的 值,残差 也变成了离散型变量,不是正态分布,因此导致无法进行相应的统计推断。 对于任意给定的 值,残差 也不再满足 即当被解释变量出现分类变量时,如果建立普通的回归模型会违背回归模型的前提假设。此时采用的建模
5
方法是Logistic回归分析。 Logistic回归分析 二项Logistic回归分析: Y为二分类 多项Logistic回归分析: Y为多分类
6
1967年Truelt J,Connifield J和Kannel W在
《Journal of Chronic Disease》上发表了冠心病危险因素的研究,较早将Logistic回归用于医学研究。
7
9.2二项Logistic回归分析 二项Logistic回归方程: 设 ,称 为发生比(Odds)或相对风险,则定义
8
模型的评价: 二项Logistic回归模型很好的体现了概率P值和解释变量之间的非线性关系。 二项Logistic回归模型本质是一个二分类的线性概率模型。 通过模型计算P(Y=1)和P(Y=0)的概率,经过比较两个概率的大小,可以对样本进行类别预测。
9
发生比(相对风险,胜算,odds)的意义:
比。 例如:考上大学的概率为0.25, 则考上大学的odds为0.25/0.75=0.3333:1=1:3,可以解释为考上与考不上之比为1:3 同理,可以计算考不上大学的odds为0.75/0.25=3:1,可以解释为考不上与考上之比为1:3
10
相对风险比(胜算比,odds ratio)的意义
例如:大公司成功经营的概率为10/11,小公司成功经营的概率为2/13, 则大公司成功经营的胜算为(10/11)/(1/11)=10 小公司成功经营的胜算为(2/13)/(11/13)=0.182 即Odds ratio=10/0.182=55, 即可以解释为大公司的成功胜算为小公司成功胜算的55倍。
11
二项Logistic回归方程系数的含义:
因为 , 当自变量 增加一个单位时,则有 于是: 即表明:当其它解释条件不变时, 增加一个单位时所导致的相对风险是原来相对风险的 倍。即控制其它变量不变时,x增加一个单位的相对风险比 即x在不同水平时的,二者的Odds radio是 。
12
二项Logistic回归方程的参数估计:
估计就是使Ln(L)达到最大的 。
13
二项Logistic回归方程的检验 回归方程的显著性检验 目的:检验解释变量全体与LogitP 的线性关系是否显著,是否可以用线性模型拟合。
检验思想:设没有引入任何解释变量的回归方程的似然函数为 ,引入解释变量之后回归方程的似然函数值为 ,则似然比为 。显然, ,且 越接近于1,则表明模型中的解释变量对模型总体没有显著贡献;反之,越接近于0,则表明引入变量对模型具有显著贡献。
14
方法:似然比卡方检验 统计量的观测值越大越好,或观测值对应的概率p值,p<a,拒绝原假设,认为回归方程整体显著;p>a,接受原假设,认为回归方程整体不显著。
15
回归系数的显著性检验 目的:需要对每个回归系数的显著性进行检验。 检验思想:通过构造Wald统计量进行检验,Wald统计量和似然比统计量都是极大似然估计方法中常用的检验统计量。 方法:
16
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的程度,即线性回归的部分能解释LogitP的程度,这一点与一般线性回归分析是相同的;第二,由回归方程得到的概率进行分别判别的准确率。 方法: 第一目的: 统计量和 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验
17
统计量= ,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值越大表明模型的拟合优度越高。不足之处在于其取值范围无法确定,不利于模型之间的比较。 统计量= 该统计量的取值范围为0~1,值越大表明模型拟合程度越高,越接近于0说明模型拟合优度越低。
18
混淆矩阵(错判矩阵) 总体正确率 代表了预测正确的样本所占的比例,当然该值越大表明预测能力越强。错判矩阵是一种常用的评价各种分类判别模型优劣的方法。
19
Hosmer—Lemeshow检验:通过模型可以计算出给定解释变量取值时被解释变量取1的概率预测。如果模型拟合较好,则应给实际值为1的样本以较高的概率,给实际值为0的样本以低的概率预测值。于是对概率预测值进行分位数分组(通常为10分位数,将样本分为10组),预测概率大小分得的10组和实际观测值0/1类别分组形成了交叉列联表。由观测频数和期望频数计算卡方统计量,即Hosmer—Lemeshow统计量,它服从自由度为n-2的卡方分布,n为组数。
21
Hosmer—Lemeshow检验的原假设:观测频数的分布与期望频数分布无显著差异。 Hosmer—Lemeshow统计量的值越小,p>a,拟合效果越好;反之,则拟合效果不好。
22
设置虚拟变量 通常在线性回归分析中,作为解释变量的自变量是数值型变量,它对被解释变量有线性解释作用。在实际应用中,尤其在二项Logistic回归模型中,自变量也有可能是分类型的变量。 由于分类型的变量各个类别之间是非等距的,通常不能像数值型那样直接作为解释变量进入回归方程,一般需要将其转化为虚拟变量(也称哑变量)后再参与分析。这样可以更好的研究各类别对解释变量影响的差异性。
23
虚拟变量:将分类的各个类别分别以0/1二值变量的形式重新编码,用1表示属于该类,1表示不属于该类。
例如: (1)“性别”需要一个虚拟变量,值1定义为“男”,则值0定义为“女”。 (2)“满意度”需要2个虚拟变量,两个变量值为 (1,0)定义为“高”,(0,1)定义为“中”, (0,0)定义为“低”。
24
注:对于具有n个类别的分类变量,需要n-1个虚拟变量即可。
参照类别:虚拟变量值全部定义为0的类别是参照类别。例如上一个例子中的“女”,“低”。 在Logistic回归模型中各虚拟自变量回归系数的含义是相对于参照类别,其它各类别对被解释变量平均贡献的差。进而可以研究各类别间对被解释变量的平均贡献差异。
25
应用举例 例:为研究和预测某商品消费特点和趋势,收集了以往的消费数据,变量有是否购买、年龄、性别和收入水平。除年龄外,其余变量都是分类变量。是否购买是被解释变量,其余都是解释变量。分析目标:建立客户购买的预测模型,分析影响因素。
26
被解释变量 解释变量栏 可以产生交互项 筛选变 量策略
27
注:个人喜欢使用相对简单明了的Indicator方法,至于哪一个类别作为参考类别,会因具体问题而定。
28
注:在Logistic回归分析中,如果不关心迭代的历史和筛选变量的过程,可以不做选择。
29
注:在保存变量中一般最关心概率的预测值和类别的预测值。一般以0. 5为分割点,预测概率大于0. 5,预测为Y=1;预测概率小于0
注:在保存变量中一般最关心概率的预测值和类别的预测值。一般以0.5为分割点,预测概率大于0.5,预测为Y=1;预测概率小于0.5,预测为Y=0。
30
注:因变量和哑变量的编码是非常重要的信息,对于模型参数的解读和模型的分析都非常中重要。
31
注:初始模型,一般从全模型开始。Age没有通过检验,income这一类变量通过了,但是其中某一个哑变量没有通过,经验做法是这一类哑变量全部保留。
32
注:模型整体的线性没通过检验,但是拟合指标显示,模型的拟合程度并不好。Logistic回归模型的参数估计值是采用迭代算法获得,因此需要迭代收敛
33
注:因为p>a,所以认为样本实际值得到的分布与预测值得到的分布无显著差异,模型拟合优度较好。
34
注:模型整体的准确度不高,对不购买人群的准确率极高,对购买人群的准确率很低。
35
注:预测类别图上可以看出,预测概率在0.4附近的样本预测准确率相对最低。事实上,无论用什么分类方法,这类样本身就是最难预测的。
36
注:这是采用向前LR的筛选策略进行变量选择。目前保存在模型中的变量都是通过了参数的显著性检验。
37
注:从拟合效果看,前后两个模型并没有太大差别。
38
注:虽然模型整体的准确度略有下降,但是对于购买人群预测的准确率提高了。从应用角度看第二个模型较第一模型的应用性略强些。
39
模型评价: 模型表达式,并结合发生比,得知:相同性别中,中等收入的发生比是低等收入的1.101倍,高等收入的发生比是低等收入的2.139倍,可见中等收入的购买概率优势不明显,高等收入优势明显。相同收入中,女性的发生比是男性的1.656倍,女性更倾向于购买该产品。
Similar presentations