第九章 Logistic回归分析.

第九章 Logistic回归分析

9.1Logistic回归分析概述问题1：研究消费者的不同特征如何影响是否购买小轿车时，消费者的年龄、年收入、职业、性别等因素将作为解释变量，是否购买作为被解释变量，此时的被解释变量是一个二分类变量。问题2：在研究消费者特征对某种商品的品牌选择取向时，品牌作为被解释变量，由于候选品牌多样，因此是一个多分类问题。

问题3：在流行病学的研究中，有一类常见问题是探索某疾病的危险因素，同时根据危险因素预测某疾病发生的概率。例如，想探讨胃癌发生的危险因素，选择两组人群，一组胃癌患者，另一组非胃癌患者，这形成了因变量。两组人群肯定有不同的体征和生活方式，自变量可以包括很多，例如：年龄、性别、饮食习惯、幽门螺杆菌感染等。注：以上问题的共同点是因变量不是连续型变量，而是分类变量。

若因变量是被解释变量，则一般线性模型会出现以下问题：
对于任意给定的值，残差也变成了离散型变量，不是正态分布，因此导致无法进行相应的统计推断。对于任意给定的值，残差也不再满足即当被解释变量出现分类变量时，如果建立普通的回归模型会违背回归模型的前提假设。此时采用的建模

方法是Logistic回归分析。 Logistic回归分析二项Logistic回归分析： Y为二分类多项Logistic回归分析： Y为多分类

1967年Truelt J，Connifield J和Kannel W在
《Journal of Chronic Disease》上发表了冠心病危险因素的研究，较早将Logistic回归用于医学研究。

9.2二项Logistic回归分析二项Logistic回归方程：设，称为发生比（Odds）或相对风险，则定义

模型的评价：二项Logistic回归模型很好的体现了概率P值和解释变量之间的非线性关系。二项Logistic回归模型本质是一个二分类的线性概率模型。通过模型计算P(Y=1)和P(Y=0)的概率，经过比较两个概率的大小，可以对样本进行类别预测。

发生比（相对风险，胜算，odds）的意义：
比。例如：考上大学的概率为0.25，则考上大学的odds为0.25/0.75=0.3333：1=1:3，可以解释为考上与考不上之比为1：3 同理，可以计算考不上大学的odds为0.75/0.25=3:1，可以解释为考不上与考上之比为1：3

相对风险比（胜算比，odds ratio）的意义
例如：大公司成功经营的概率为10/11，小公司成功经营的概率为2/13，则大公司成功经营的胜算为（10/11）/（1/11）=10 小公司成功经营的胜算为（2/13）/（11/13）=0.182 即Odds ratio=10/0.182=55，即可以解释为大公司的成功胜算为小公司成功胜算的55倍。

二项Logistic回归方程系数的含义：
因为，当自变量增加一个单位时，则有于是：即表明：当其它解释条件不变时，增加一个单位时所导致的相对风险是原来相对风险的倍。即控制其它变量不变时，x增加一个单位的相对风险比即x在不同水平时的，二者的Odds radio是。

二项Logistic回归方程的参数估计：
估计就是使Ln(L)达到最大的。

二项Logistic回归方程的检验回归方程的显著性检验目的：检验解释变量全体与LogitP 的线性关系是否显著，是否可以用线性模型拟合。
检验思想：设没有引入任何解释变量的回归方程的似然函数为，引入解释变量之后回归方程的似然函数值为，则似然比为。显然，，且越接近于1，则表明模型中的解释变量对模型总体没有显著贡献；反之，越接近于0，则表明引入变量对模型具有显著贡献。

方法：似然比卡方检验统计量的观测值越大越好，或观测值对应的概率p值，p<a，拒绝原假设，认为回归方程整体显著；p>a,接受原假设，认为回归方程整体不显著。

回归系数的显著性检验目的：需要对每个回归系数的显著性进行检验。检验思想：通过构造Wald统计量进行检验，Wald统计量和似然比统计量都是极大似然估计方法中常用的检验统计量。方法：

模型拟合优度的评价与检验目的：第一，回归方程能够解释被解释变量变差的程度，即线性回归的部分能解释LogitP的程度，这一点与一般线性回归分析是相同的；第二，由回归方程得到的概率进行分别判别的准确率。方法：第一目的：统计量和统计量第二目的：混淆矩阵（错判矩阵）和 Hosmer-Lemeshow检验

统计量= ，N为样本容量。该统计量类似于一般线性模型中的R方，统计量的值越大表明模型的拟合优度越高。不足之处在于其取值范围无法确定，不利于模型之间的比较。统计量= 该统计量的取值范围为0～1，值越大表明模型拟合程度越高，越接近于0说明模型拟合优度越低。

混淆矩阵（错判矩阵）总体正确率代表了预测正确的样本所占的比例，当然该值越大表明预测能力越强。错判矩阵是一种常用的评价各种分类判别模型优劣的方法。

Hosmer—Lemeshow检验：通过模型可以计算出给定解释变量取值时被解释变量取1的概率预测。如果模型拟合较好，则应给实际值为1的样本以较高的概率，给实际值为0的样本以低的概率预测值。于是对概率预测值进行分位数分组（通常为10分位数，将样本分为10组），预测概率大小分得的10组和实际观测值0/1类别分组形成了交叉列联表。由观测频数和期望频数计算卡方统计量，即Hosmer—Lemeshow统计量，它服从自由度为n-2的卡方分布，n为组数。

Hosmer—Lemeshow检验的原假设：观测频数的分布与期望频数分布无显著差异。 Hosmer—Lemeshow统计量的值越小，p>a，拟合效果越好；反之，则拟合效果不好。

设置虚拟变量通常在线性回归分析中，作为解释变量的自变量是数值型变量，它对被解释变量有线性解释作用。在实际应用中，尤其在二项Logistic回归模型中，自变量也有可能是分类型的变量。由于分类型的变量各个类别之间是非等距的，通常不能像数值型那样直接作为解释变量进入回归方程，一般需要将其转化为虚拟变量（也称哑变量）后再参与分析。这样可以更好的研究各类别对解释变量影响的差异性。

虚拟变量：将分类的各个类别分别以0/1二值变量的形式重新编码，用1表示属于该类，1表示不属于该类。
例如：（1）“性别”需要一个虚拟变量，值1定义为“男”，则值0定义为“女”。（2）“满意度”需要2个虚拟变量，两个变量值为（1，0）定义为“高”，（0，1）定义为“中”，（0，0）定义为“低”。

注：对于具有n个类别的分类变量，需要n-1个虚拟变量即可。
参照类别：虚拟变量值全部定义为0的类别是参照类别。例如上一个例子中的“女”，“低”。在Logistic回归模型中各虚拟自变量回归系数的含义是相对于参照类别，其它各类别对被解释变量平均贡献的差。进而可以研究各类别间对被解释变量的平均贡献差异。

应用举例例：为研究和预测某商品消费特点和趋势，收集了以往的消费数据，变量有是否购买、年龄、性别和收入水平。除年龄外，其余变量都是分类变量。是否购买是被解释变量，其余都是解释变量。分析目标：建立客户购买的预测模型，分析影响因素。

被解释变量解释变量栏可以产生交互项筛选变量策略

注：个人喜欢使用相对简单明了的Indicator方法，至于哪一个类别作为参考类别，会因具体问题而定。

注：在Logistic回归分析中，如果不关心迭代的历史和筛选变量的过程，可以不做选择。

注：在保存变量中一般最关心概率的预测值和类别的预测值。一般以0. 5为分割点，预测概率大于0. 5，预测为Y=1；预测概率小于0
注：在保存变量中一般最关心概率的预测值和类别的预测值。一般以0.5为分割点，预测概率大于0.5，预测为Y=1；预测概率小于0.5，预测为Y=0。

注：因变量和哑变量的编码是非常重要的信息，对于模型参数的解读和模型的分析都非常中重要。

注：初始模型，一般从全模型开始。Age没有通过检验，income这一类变量通过了，但是其中某一个哑变量没有通过，经验做法是这一类哑变量全部保留。

注：模型整体的线性没通过检验，但是拟合指标显示，模型的拟合程度并不好。Logistic回归模型的参数估计值是采用迭代算法获得，因此需要迭代收敛

注：因为p>a，所以认为样本实际值得到的分布与预测值得到的分布无显著差异，模型拟合优度较好。

注：模型整体的准确度不高，对不购买人群的准确率极高，对购买人群的准确率很低。

注：预测类别图上可以看出，预测概率在0.4附近的样本预测准确率相对最低。事实上，无论用什么分类方法，这类样本身就是最难预测的。

注：这是采用向前LR的筛选策略进行变量选择。目前保存在模型中的变量都是通过了参数的显著性检验。

注：从拟合效果看，前后两个模型并没有太大差别。

注：虽然模型整体的准确度略有下降，但是对于购买人群预测的准确率提高了。从应用角度看第二个模型较第一模型的应用性略强些。

模型评价：模型表达式，并结合发生比，得知：相同性别中，中等收入的发生比是低等收入的1.101倍，高等收入的发生比是低等收入的2.139倍，可见中等收入的购买概率优势不明显，高等收入优势明显。相同收入中，女性的发生比是男性的1.656倍，女性更倾向于购买该产品。

第九章 Logistic回归分析.

Similar presentations

Presentation on theme: "第九章 Logistic回归分析."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第九章 Logistic回归分析.

Similar presentations

Presentation on theme: "第九章 Logistic回归分析."— Presentation transcript:

Similar presentations

About project

反馈