第九章 Logistic回归分析.

Slides:

Advertisements

Similar presentations

许瑞云医师你已经很努力地注意饮食、作息、运动, 为什么身体还不能恢复健康 ? 细节答案就在「细节」裡，唯有掌握关键的一步, 养生才能达到真正的功效 ! 现在就让我们跟着曾是全球知名的哈佛医院主治医师的许瑞云, 学习最正确的养生方法, 轻松打下健康满分的基础 !

Advertisements

第二章疾病概论健康与疾病的概念病因学发病学疾病的转归. 一、健康（ health ）健康至少应具备强健的体魄和健全的心理和精神状态。二、疾病（ disease ）疾病是机体在一定条件下由病因与机体相互作用而产生的一个损伤与抗损伤斗争的有规律过程，体内有一系列功能、代谢和形态的改变，临床出现许多症状与体征，机体与外环.

東亞的宗教與社會. 絲路北方陸上絲路是從黃河中下游到達西域，共有兩種路線：草原森林絲路、沙漠綠洲絲路。前者於先秦時期已存在，後者繁榮於路線漢唐南方陸上絲路稱為「蜀‧身毒道」，多穿行山區，又稱「高山峽谷絲路」。約在西元前四世紀，蜀地（今川西平原）與身毒（印度）間開闢。初期中原人士不知道（又稱祕密.

等可能性事件的概率（二）上虞春晖中学数学组欢迎你! 1 本课件制作于 §10.5 等可能事件的概率 ( 二 )

病例对照研究 case － control study 也称回顾性研究（ retrospective study ）

醫用氧氣及活力氧氣百點之介紹藥師邱建強. 慢性肺阻塞張先生的故事常來藥局領藥住台中的ＣＯＰＤ患者張先生，日前接到在台北 30 年老朋友的娶媳婦喜帖，非常想去參加，可是十分猶豫，害怕外出時間過長造成血氧過低有危險。後來藥局幫他準備小容量氧氣，讓他順利出遠門完成心事！之後張先生便常帶著小型氧氣與家人出門旅遊，大大的.

刘小清广东省心血管病研究所先心流行病学研究. 流行学美国 2006 年 -- 全球出生缺陷报告全球每年新增出生缺陷 >800 万人 90% 发生在中低收入国家每年大约有 330 万 5 岁以下儿童死于出生缺陷 320 万的儿童终生残疾其中，先天性心脏病位居出生缺陷的首位.

中国部分农村地区肺结核发病因素的病例对照研究陈伟中国疾控中心结核病预防控制中心北京.

綜援, 生果金, 全民養老金的比較黃洪博士香港中文大學社會工作學系香港社會服務聯會從「生果金」看長者入息保障研討會 ( )

第十課人類的感官.

SCI 论文网 SCI论文写作 ——诊断试验类.

运动神经元病（Motor Neuron Disease）

從中醫看蔬果的療效濟生中醫院長張維鈞醫師請按鍵換頁.

妝點歌曲的神奇彩衣 part2 六年一班設計與教學：陳映蓉.

600年前，鄭和率領世界上最強大的艦隊，浩浩蕩蕩的駛入印度洋，展開一場「文化帝國」的海上大秀。

呼吸系统疑难病选方用药技巧（人民军医出版社）王付.

3.1.1 随机事件的概率（一）.

科學論文鰂魚涌街的衛生情況作者：廖梓芯學校：北角官立上午小學班級：P.5A.

2013年优质固定收益类产品分析哈尔滨道东大直街证券营业部.

二元羅吉斯迴歸 9.1 前言 9.2 二元羅吉斯迴歸之原理 9.3 參數校估原理 9.4 SPSS之操作 9.5 多元自變數與虛擬變數

中医对眼底出血性疾病的研究成都中医药大学附属医院眼科王明芳教授.

糖尿病腎臟日常生活保健林秀雯護理師 2015年3月26日.

高层民用建筑设计孙淑萍 2008年3月.

合肥学院外国语言系学年第二学期学生工作表彰大会

Chapter 15 複迴歸.

人口结构徐铭东南京人口学院教务处第24期全国地（州、市）人口计生委主任专业知识培训班.

第一讲选题的若干概念.

乳腺疾病—红颜杀手湖南邵阳市中心医院外五科.

导入新课　　我们生活的地球是一个蔚蓝色的星球。厚厚的气体包围坚实的土地，养育保护着地球上的生命。这厚厚的气体人们通常称为大气层。

這真是默默的一群，默默的表現著一個勞動者那種敦厚樸實的風範，她們的名字不會被人知道，可是在我的心目中，她們是有資格被稱之為「人物」的一群。那默默的一群作者：張騰蛟.

《成佛之道》序～第三章圓融 /

第5章利润质量与所有者权益变动表分析利润表的格式与结构利润表收入的确认与计量利润表费用类项目及其他项目的确认与计量利润质量分析

第一章疾病概论.

意想不到的作用第十章压强与浮力一、压强.

慢性咽炎 Chronic pharyngitis.

Dept. of Medical Statistics General Hospital Of PLA

正确保养皮肤的原则皮肤的保养要依肤质进行皮肤保养要分区进行根据季节变化适时调整保养计划依据年龄进行皮肤保养肌肤保养还要分时进行

教学目的：了解食用菌与其它微生物种类和害虫的关系，掌握消毒、灭菌的各种方法，避免造成环境污染的注意事项。

医学统计学 8 主讲人陶育纯医学统计学 8 主讲人陶育纯

2013暑期社会实践指导及动员大会信息学院社会实践指导及青年志愿者中心

血压偏高护士人群的饮食行为研究学生：吴修龙指导老师：胡传来教授专业：预防医学学号：

大气的受热过程周南中学.

第一章体育统计的基本知识主讲教师：王丽艳徐栋.

实验2.4 用拉伸法测金属丝杨氏模量.

第七章固定资产第一节固定资产概述第二节固定资产的确认和初始计量第三节固定资产的后续计量第四节固定资产清查与期末计价

3.1.2 概率的意义.

场景：100万即开型福利彩票摸奖现场小丽中了100万大奖!税后拿到80万。想一想：小丽该怎么合理安排这笔钱？

回归分析线性回归 Logistic回归对数线性模型

《推拿学》主讲：王新军新疆医科大学中医学院中医骨伤推拿教研室.

9.3 大气压强.

十六章慢性病的社区防治.

SPSS軟體與迴歸分析南台科技大學企管系呂金河.

25.3 用频率估计概率快走啊听老师讲“用频率估计概率”哦.

巴克豪斯 • 埃里克森 • 普林克 • 王煦逸 • 威伯多元统计分析方法 — 用SPSS工具

類別資料分析(Categorical Data Analysis)

统计软件应用 7 主讲人陶育纯 SPSS统计分析统计软件应用 7 主讲人陶育纯教案.

第 12 章物料與供應鏈管理授課教師：__________ 工業工程與管理概論陳潭,洪堯勳,姚銘忠,黃欽印著前程文化出版.

主講人陳陸輝特聘研究員兼主任政治大學選舉研究中心美國密西根州立大學博士

學生：黃文娟、陳湘茹、吳伊珊、阮嘉玲、柯昱志指導老師：鍾懿芳老師

第五讲从常用连续分布到二维变量分布本次课讲授：第二章的；下次课讲第三章的 ;

第九章浮力第一节认识浮力.

東華三院“Radio-i-Care” 友心情網上電台

東華三院“Radio-i-Care” 友心情網上電台

教育部98年國中畢業生多元進路宣導專員研習會議

慢性病飲食指南商務科技管理系實務專題報告學生：蔡依珊( ) 胡育萍( )

第 6 課總結.

Logistic回归 Logistic regression 研究生《医学统计学》.

台灣慢性阻塞性肺病學會暨台灣氣喘學會學會簡介

綠覆率【Ratio of green cover】

農產配銷商業務電子化指導老師：林則孟、陳飛龍教授梁予怡林于婷李文駒蘇芳裕.

Presentation transcript:

第九章 Logistic回归分析

9.1Logistic回归分析概述问题1：研究消费者的不同特征如何影响是否购买小轿车时，消费者的年龄、年收入、职业、性别等因素将作为解释变量，是否购买作为被解释变量，此时的被解释变量是一个二分类变量。问题2：在研究消费者特征对某种商品的品牌选择取向时，品牌作为被解释变量，由于候选品牌多样，因此是一个多分类问题。

问题3：在流行病学的研究中，有一类常见问题是探索某疾病的危险因素，同时根据危险因素预测某疾病发生的概率。例如，想探讨胃癌发生的危险因素，选择两组人群，一组胃癌患者，另一组非胃癌患者，这形成了因变量。两组人群肯定有不同的体征和生活方式，自变量可以包括很多，例如：年龄、性别、饮食习惯、幽门螺杆菌感染等。注：以上问题的共同点是因变量不是连续型变量，而是分类变量。

若因变量是被解释变量，则一般线性模型会出现以下问题：对于任意给定的值，残差也变成了离散型变量，不是正态分布，因此导致无法进行相应的统计推断。对于任意给定的值，残差也不再满足即当被解释变量出现分类变量时，如果建立普通的回归模型会违背回归模型的前提假设。此时采用的建模

方法是Logistic回归分析。 Logistic回归分析二项Logistic回归分析： Y为二分类多项Logistic回归分析： Y为多分类

1967年Truelt J，Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究，较早将Logistic回归用于医学研究。

9.2二项Logistic回归分析二项Logistic回归方程：设，称为发生比（Odds）或相对风险，则定义

模型的评价：二项Logistic回归模型很好的体现了概率P值和解释变量之间的非线性关系。二项Logistic回归模型本质是一个二分类的线性概率模型。通过模型计算P(Y=1)和P(Y=0)的概率，经过比较两个概率的大小，可以对样本进行类别预测。

发生比（相对风险，胜算，odds）的意义：比。例如：考上大学的概率为0.25，则考上大学的odds为0.25/0.75=0.3333：1=1:3，可以解释为考上与考不上之比为1：3 同理，可以计算考不上大学的odds为0.75/0.25=3:1，可以解释为考不上与考上之比为1：3

相对风险比（胜算比，odds ratio）的意义例如：大公司成功经营的概率为10/11，小公司成功经营的概率为2/13，则大公司成功经营的胜算为（10/11）/（1/11）=10 小公司成功经营的胜算为（2/13）/（11/13）=0.182 即Odds ratio=10/0.182=55，即可以解释为大公司的成功胜算为小公司成功胜算的55倍。

二项Logistic回归方程系数的含义：因为，当自变量增加一个单位时，则有于是：即表明：当其它解释条件不变时，增加一个单位时所导致的相对风险是原来相对风险的倍。即控制其它变量不变时，x增加一个单位的相对风险比即x在不同水平时的，二者的Odds radio是。

二项Logistic回归方程的参数估计：估计就是使Ln(L)达到最大的。

二项Logistic回归方程的检验回归方程的显著性检验目的：检验解释变量全体与LogitP 的线性关系是否显著，是否可以用线性模型拟合。检验思想：设没有引入任何解释变量的回归方程的似然函数为，引入解释变量之后回归方程的似然函数值为，则似然比为。显然，，且越接近于1，则表明模型中的解释变量对模型总体没有显著贡献；反之，越接近于0，则表明引入变量对模型具有显著贡献。

方法：似然比卡方检验统计量的观测值越大越好，或观测值对应的概率p值，p<a，拒绝原假设，认为回归方程整体显著；p>a,接受原假设，认为回归方程整体不显著。

回归系数的显著性检验目的：需要对每个回归系数的显著性进行检验。检验思想：通过构造Wald统计量进行检验，Wald统计量和似然比统计量都是极大似然估计方法中常用的检验统计量。方法：

模型拟合优度的评价与检验目的：第一，回归方程能够解释被解释变量变差的程度，即线性回归的部分能解释LogitP的程度，这一点与一般线性回归分析是相同的；第二，由回归方程得到的概率进行分别判别的准确率。方法：第一目的：统计量和统计量第二目的：混淆矩阵（错判矩阵）和 Hosmer-Lemeshow检验

统计量= ，N为样本容量。该统计量类似于一般线性模型中的R方，统计量的值越大表明模型的拟合优度越高。不足之处在于其取值范围无法确定，不利于模型之间的比较。统计量= 该统计量的取值范围为0～1，值越大表明模型拟合程度越高，越接近于0说明模型拟合优度越低。

混淆矩阵（错判矩阵）总体正确率代表了预测正确的样本所占的比例，当然该值越大表明预测能力越强。错判矩阵是一种常用的评价各种分类判别模型优劣的方法。

Hosmer—Lemeshow检验：通过模型可以计算出给定解释变量取值时被解释变量取1的概率预测。如果模型拟合较好，则应给实际值为1的样本以较高的概率，给实际值为0的样本以低的概率预测值。于是对概率预测值进行分位数分组（通常为10分位数，将样本分为10组），预测概率大小分得的10组和实际观测值0/1类别分组形成了交叉列联表。由观测频数和期望频数计算卡方统计量，即Hosmer—Lemeshow统计量，它服从自由度为n-2的卡方分布，n为组数。

Hosmer—Lemeshow检验的原假设：观测频数的分布与期望频数分布无显著差异。 Hosmer—Lemeshow统计量的值越小，p>a，拟合效果越好；反之，则拟合效果不好。

设置虚拟变量通常在线性回归分析中，作为解释变量的自变量是数值型变量，它对被解释变量有线性解释作用。在实际应用中，尤其在二项Logistic回归模型中，自变量也有可能是分类型的变量。由于分类型的变量各个类别之间是非等距的，通常不能像数值型那样直接作为解释变量进入回归方程，一般需要将其转化为虚拟变量（也称哑变量）后再参与分析。这样可以更好的研究各类别对解释变量影响的差异性。

虚拟变量：将分类的各个类别分别以0/1二值变量的形式重新编码，用1表示属于该类，1表示不属于该类。例如：（1）“性别”需要一个虚拟变量，值1定义为“男”，则值0定义为“女”。（2）“满意度”需要2个虚拟变量，两个变量值为（1，0）定义为“高”，（0，1）定义为“中”，（0，0）定义为“低”。

注：对于具有n个类别的分类变量，需要n-1个虚拟变量即可。参照类别：虚拟变量值全部定义为0的类别是参照类别。例如上一个例子中的“女”，“低”。在Logistic回归模型中各虚拟自变量回归系数的含义是相对于参照类别，其它各类别对被解释变量平均贡献的差。进而可以研究各类别间对被解释变量的平均贡献差异。

应用举例例：为研究和预测某商品消费特点和趋势，收集了以往的消费数据，变量有是否购买、年龄、性别和收入水平。除年龄外，其余变量都是分类变量。是否购买是被解释变量，其余都是解释变量。分析目标：建立客户购买的预测模型，分析影响因素。

被解释变量解释变量栏可以产生交互项筛选变量策略

注：个人喜欢使用相对简单明了的Indicator方法，至于哪一个类别作为参考类别，会因具体问题而定。

注：在Logistic回归分析中，如果不关心迭代的历史和筛选变量的过程，可以不做选择。

注：在保存变量中一般最关心概率的预测值和类别的预测值。一般以0. 5为分割点，预测概率大于0. 5，预测为Y=1；预测概率小于0 注：在保存变量中一般最关心概率的预测值和类别的预测值。一般以0.5为分割点，预测概率大于0.5，预测为Y=1；预测概率小于0.5，预测为Y=0。

注：因变量和哑变量的编码是非常重要的信息，对于模型参数的解读和模型的分析都非常中重要。

注：初始模型，一般从全模型开始。Age没有通过检验，income这一类变量通过了，但是其中某一个哑变量没有通过，经验做法是这一类哑变量全部保留。

注：模型整体的线性没通过检验，但是拟合指标显示，模型的拟合程度并不好。Logistic回归模型的参数估计值是采用迭代算法获得，因此需要迭代收敛

注：因为p>a，所以认为样本实际值得到的分布与预测值得到的分布无显著差异，模型拟合优度较好。

注：模型整体的准确度不高，对不购买人群的准确率极高，对购买人群的准确率很低。

注：预测类别图上可以看出，预测概率在0.4附近的样本预测准确率相对最低。事实上，无论用什么分类方法，这类样本身就是最难预测的。

注：这是采用向前LR的筛选策略进行变量选择。目前保存在模型中的变量都是通过了参数的显著性检验。

注：从拟合效果看，前后两个模型并没有太大差别。

注：虽然模型整体的准确度略有下降，但是对于购买人群预测的准确率提高了。从应用角度看第二个模型较第一模型的应用性略强些。

模型评价：模型表达式，并结合发生比，得知：相同性别中，中等收入的发生比是低等收入的1.101倍，高等收入的发生比是低等收入的2.139倍，可见中等收入的购买概率优势不明显，高等收入优势明显。相同收入中，女性的发生比是男性的1.656倍，女性更倾向于购买该产品。