Presentation is loading. Please wait.

Presentation is loading. Please wait.

参见郭志刚主编,《社会统计分析方法—SPSS软件应用》

Similar presentations


Presentation on theme: "参见郭志刚主编,《社会统计分析方法—SPSS软件应用》"— Presentation transcript:

1 参见郭志刚主编,《社会统计分析方法—SPSS软件应用》
第四章 Logistic 回归 第一节 从多元线性回归到logistic回归 第二节 logistic回归模型的建立 第三节 logistic回归结果的解释 第四节 logistic回归模型的检验 第五节 研究实例 参见郭志刚主编,《社会统计分析方法—SPSS软件应用》 第六章,中国人民大学出版社1999

2 第一节 从多元线性回归到logistic回归
一、违反假定 若我们所研究的因变量为分类变量时,线性回归的假设条件往往不能成立。 回顾:线性回归的主要条件 1、间距变量 2、自变量之间不能完全相关 3、关于误差项: (1)e与任何一个自变量无关,且均值为0 (2)对应不同自变量xi的各ei有不变的方差 (3)在各个观测自变量点xi上的误差ei之间无关 (4)ei正态分布 OLS求解前提 高斯-马尔可夫假设 统计推论的前提

3 ——OLS估计不是最佳 因变量为分类变量时,出现的主要问题: 以 =a+bx为例 对任一 ,y只能等于0或者1, 当y=0时, =0-
Ei方差出现系统变动 ——OLS估计不是最佳

4 ——在为只限于0和1之间的概率选用模型时,LPM不适合
自变量对因变量的作用是线性的 将模型因变量理解为概率 1、实际情况y为0、1,但线性回归方程结果不是如此 2、与实际情况不同(等速与变速) ——在为只限于0和1之间的概率选用模型时,LPM不适合

5 第二节 logistic回归模型的建立 要考虑的情况: 1、自变量的影响两端小而中间大 2、概率模型(因变量总是取0或1)
选择曲线模型更合适 (Logistic回归)

6 Robert B. Pearl and Lowell J. Reed 果蝇口研究 1920
一、logistic函数及其性质 exp(x)用来计算以e为底的x次方值 又称增长函数 Robert B. Pearl and Lowell J. Reed 果蝇口研究 1920 t:时间 P:时间t上的人口数 L:P的最大极限值 a和b 分别为有关参数

7 补充:有关数学知识 指数函数 与对数函数y= 互为反函数. 定义形如 的函数叫幂函数,其中α为常数
定义形如 的函数叫幂函数,其中α为常数 指数函数, (a>0,且a≠1),注意与幂函数的区别. 对数函数y= (a>0,且a≠1). 指数函数 与对数函数y= 互为反函数.

8 (2)指数函数与对数函数的图象和性质如表1-2. 

9 一般对数的底可以为任意不等于1的正数。 对数的底如果为超越数e(e=2.718),我们就把这样的对数叫作自然对数,用符号“ln”表示。 “1”是对数“logarithm”的第一个字母,“n”是自然“nature”的第一个字母,把两个字母合在一起,就表示自然对数。 ln1=0 ln100= “lg”表示以10为底的对数

10

11 logistic概率函数 此式子突出了两个有用参数: b以及-a/b

12 由图示可知: 1、b表示自变量的作用方向 (b为正数,logsitic函数随x值增加而单调增加;反之亦然) 2、-a/b是曲线的中心,在这一点上概率函数整好取值0.5。 函数以拐点(-a/b,0.5)为中心对称,在这一点上曲线的变化率最大,而距离这一点越远,曲线变化率越小,在趋近函数的上限或下限时,曲线的变化率接近于零 3、b的绝对值越大,曲线在中段上升或下降的速度越快(越陡峭)。 这意味着主要变化部分被压缩在x轴上对应拐点的附近范围内。

13 这也是logistic函数的常用表达式之一
为表达便利,将多元线性组合 以 表示 ,再令z= ,于是,logistic函数可以表示为: 如果将上式分子分母同乘以exp(z),有: 这也是logistic函数的常用表达式之一

14 二、logistic回归模型因变量的不同形式
对上式继续转换: p[1+exp(z)]=exp(z) p+p*exp(z)=exp(z) p=exp(z) -p*exp(z) p=(1 –p)exp(z)

15 可见:事件概率以自变量的非线性表达可以转换为事件概率的函数用自变量来线性表达
最后对等式两边取对数,得到了概率的函数与自变量的线性表达式 可见:事件概率以自变量的非线性表达可以转换为事件概率的函数用自变量来线性表达

16 三、有关概念 1、事件发生的概率 p=p (y=1) 2、事件不发生的概率 1-p=1-p (y=1)=p (y=0)
3、发生比(odds) = 4、对数发生比(log odds)=ln 相对风险 P的罗吉特转换

17 例:分析被调查妇女为文盲的可能性与其他因素之间的关系
因变量 WENMNG:本人为文盲取值1,其他为0 自变量 民族:汉族为1,少数民族为0 居住地:农村居民为1,城市为0 婚姻状况:未婚为1,其他为0 年龄:定距变量或分年龄组的定序变量(15~49岁)

18 自变量 回归参数 b 显著性(p值) 发生比率 eb 汉族 1.079 .193 2.942 未婚 -.457 .103 .633 农村居民 2.296 <.0005 9.936 15~19岁 (参照组) 20~24岁 .665 .048 1.944 25~29岁 .948 .014 2.581 30~34岁 1.261 .001 3.530 35~39岁 2.006 7.433 40~44岁 2.916 18.465 45~49岁 3.196 24.443 常数项 -6.041 .002

19 第三节 logistic回归系数的意义 一、问题 多元线性回归的表达方式(回顾) logistic回归中,xi与logit p有线性关系,但与p却不是线性关系——xi变化对p的作用难以确切表达 通过logtistic回归系数可以得到各自变量对事件概率作用的笼统认识,但无法一般性地表示确切的变化关系 ——报告xi对logit p的作用

20 二、以发生比的指数表达式来解释回归系数 发生比具有实际意义,表示一种相对风险
如果我们要分析x2变化一个单位对于发生比的影响幅度,可以用(x2+1)表示,并将其代入上式表示新的发生比值

21 三、发生比率(相对风险比) 把两个发生比集中在一起,有: ——我们称这一变化前后的两个发生比之比 为发生比率 (odds ratio),或称相对风险比(relative risk ratio):可测量自变量一个单位的增加给原来的发生比所带来的变化

22 请注意准确表达: 参照前例: 农村调查对象与具有相同特征(民族、婚姻状况、年龄组)的城市妇女相比更有可能是文盲,农村的发生比是城市的10倍左右。 未婚调查对象与具有相同特征(民族、城乡、年龄组)的已婚者相比更不可能是文盲,未婚者的发生比是已婚者的三分之二左右。

23 二、Logistic 回归的系数标准化 标准化的

24 一、对模型的总体评价 第四节 logistic回归模型的检验
Logistic回归方程求解参数是采用最大似然估计方法,因此其回归方程的整体检验通过似然函数值(likelihood) 似然函数:一种概率——假设拟合模型为真实情况时,能够观察到这一特定样本的概率,取值在0、1之间 L或lnL都可以作为判断模型优劣的指标,但其统计性质不明确

25 补充2:最大似然法 最大似然估計是一種统计方法,它用來求一個样本集的相关概率密度函数的參數。這個方法最早是遗传学家以及统计学家罗纳德·费舍尔在1912年至1922年间开始使用的。 「似然」是對likelihood 的一種較為貼近文言文的翻譯,「似然」用現代的中文來說即「可能性」。故而,若稱之為「最大可能性估計」則更加通俗易懂。

26 考慮一個拋硬幣的例子。 假設這個硬幣正面跟反面輕重不同。 我們把這個硬幣拋80次(即,我們獲取一個採樣並把正面的次數記下來,正面記為H,反面記為T). 並把拋出一個正面的機率記為p, 拋出一個反面的機率記為1 − p(因此,這裡的p即相當於上邊的θ). 假設我們拋出了49個正面,31 個反面,即49次H,31次T。

27 假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣拋出正面的機率分別為p = 1 / 3, p = 1 / 2, p = 2 / 3. 這些硬幣沒有標記,所以我們無法知道哪個是哪個。
使用最大似然估計, 通過這些試驗數據(即採樣數據),我們可以計算出哪個硬幣的可能性最大。這個可能性函數取以下三個值中的一個:

28 我們可以看到當時,可能性函數取得最大值。這就是p的最大似然估計.

29 最大似然法的基本思想: 假定一个样本取自某已知分布形式的总体,但是我们并不知道总体的参数。我们可以“任取”一些值把它们“当成”是总体的参数,然后计算在这些情况下,从该总体中抽取到已知样本的可能性有多大。我们最终要选择的参数就是使这种可能性是最大的参数估计,并称为最大似然估计。

30 最大似然法都是根据已知分布的形式(包含未知参数)以及从此总体中抽取一个样本,构造一个含未知参数的所谓“似然函数”,求使该似然函数达到最大值时参数应取的值,这就是最大似然解。

31

32 检验标准: 1、2 Log Likelihood (–2LL值) -2LL 越接近 0 则模拟效果越好;值越大,意味着回归方程的似然值越小,标志模型的拟合程度越差

33 模型总体的卡方检验: Model Chi-square
至少一个 df=自变量个数

34 2、虚拟确定系数 Cox & Snell Nagelkerke R2
其中 L(0) 是只有常数项的模型统计量, L(B) 当前模型的统计量。 Nagelkerke R2

35 3、交互分类表与预测正确率

36 报告分析结果时一般选用 预测正确率(如有必要还应当加以解释) 卡方检验或虚拟确定系数(说明是哪一个)

37 二、回归系数的显著性检验 Wald statistic
——解决方案:比较两个模型lnL,差距大,说明变量影响大

38 总结 1、以logistic函数(增长函数)为依据,先根据实际观测案例的事件发生情况及其各自变量的观测值求解各偏回归系数
2、利用logistic函数的已知数学性质对于logistic回归的参数估计进行统计检验 3、对事件发生概率p进行罗吉特转换,使logit p以自变量线性表达,便于理解 4、用 表示自变量变化对发生比的影响

39 第五节 研究实例 日常生活与家庭权力 ——家庭权力自我评价的影响因素分析 郑丹丹


Download ppt "参见郭志刚主编,《社会统计分析方法—SPSS软件应用》"

Similar presentations


Ads by Google