参见郭志刚主编,《社会统计分析方法—SPSS软件应用》

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
第二章 导数与微分 习题课 主要内容 典型例题 测验题. 求 导 法 则求 导 法 则 求 导 法 则求 导 法 则 基本公式 导 数 导 数 微 分微 分 微 分微 分 高阶导数 高阶微分 一、主要内容.
第四节 复合函数求导 法则及其应用 一、复合函数求导法则 二、初等函数的求导问题 三、一阶微分的形式不变性 四、隐函数的导数 五、对数求导法 六、参数形式的函数的求导公式.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
3.4 空间直线的方程.
非线性时间序列模型 一般非线性时间序列模型介绍 条件异方差模型 上海财经大学 统计与管理学院.
二元羅吉斯迴歸 9.1 前言 9.2 二元羅吉斯迴歸之原理 9.3 參數校估原理 9.4 SPSS之操作 9.5 多元自變數與虛擬變數
第六章 回归分析.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第二章 二次函数 第二节 结识抛物线
10.2 立方根.
《高等数学》(理学) 常数项级数的概念 袁安锋
参见郭志刚主编,《社会统计分析方法—SPSS软件应用》
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
全 微 分 欧阳顺湘 北京师范大学珠海分校
第三章 导数与微分 习 题 课 主要内容 典型例题.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
全国高校数学微课程教学设计竞赛 知识点名称: 导数的定义.
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
元素替换法 ——行列式按行(列)展开(推论)
用函数观点看方程(组)与不等式 14.3 第 1 课时 一次函数与一元一次方程.
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第一章 函数与极限.
人教版五年级数学上册第四单元 解方程(一) 马郎小学 陈伟.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
6.4不等式的解法举例(1) 2019年4月17日星期三.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第五节 缓冲溶液pH值的计算 两种物质的性质 浓度 pH值 共轭酸碱对间的质子传递平衡 可用通式表示如下: HB+H2O ⇌ H3O++B-
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
数据统计与分析 秦 猛 南京大学物理系 第11讲 办公室:唐仲英楼A
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
幂 函 数.
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
三角 三角 三角 函数 余弦函数的图象和性质.
一元一次方程的解法(-).
Presentation transcript:

参见郭志刚主编,《社会统计分析方法—SPSS软件应用》 第四章 Logistic 回归 第一节 从多元线性回归到logistic回归 第二节 logistic回归模型的建立 第三节 logistic回归结果的解释 第四节 logistic回归模型的检验 第五节 研究实例 参见郭志刚主编,《社会统计分析方法—SPSS软件应用》 第六章,中国人民大学出版社1999

第一节 从多元线性回归到logistic回归 一、违反假定 若我们所研究的因变量为分类变量时,线性回归的假设条件往往不能成立。 回顾:线性回归的主要条件 1、间距变量 2、自变量之间不能完全相关 3、关于误差项: (1)e与任何一个自变量无关,且均值为0 (2)对应不同自变量xi的各ei有不变的方差 (3)在各个观测自变量点xi上的误差ei之间无关 (4)ei正态分布 OLS求解前提 高斯-马尔可夫假设 统计推论的前提

——OLS估计不是最佳 因变量为分类变量时,出现的主要问题: 以 =a+bx为例 对任一 ,y只能等于0或者1, 当y=0时, =0- Ei方差出现系统变动 ——OLS估计不是最佳

——在为只限于0和1之间的概率选用模型时,LPM不适合 自变量对因变量的作用是线性的 将模型因变量理解为概率 1、实际情况y为0、1,但线性回归方程结果不是如此 2、与实际情况不同(等速与变速) ——在为只限于0和1之间的概率选用模型时,LPM不适合

第二节 logistic回归模型的建立 要考虑的情况: 1、自变量的影响两端小而中间大 2、概率模型(因变量总是取0或1) 选择曲线模型更合适 (Logistic回归)

Robert B. Pearl and Lowell J. Reed 果蝇口研究 1920 一、logistic函数及其性质 exp(x)用来计算以e为底的x次方值 又称增长函数 Robert B. Pearl and Lowell J. Reed 果蝇口研究 1920 t:时间 P:时间t上的人口数 L:P的最大极限值 a和b 分别为有关参数

补充:有关数学知识 指数函数 与对数函数y= 互为反函数. 定义形如 的函数叫幂函数,其中α为常数 定义形如 的函数叫幂函数,其中α为常数 指数函数, (a>0,且a≠1),注意与幂函数的区别. 对数函数y= (a>0,且a≠1). 指数函数 与对数函数y= 互为反函数.

(2)指数函数与对数函数的图象和性质如表1-2. 

一般对数的底可以为任意不等于1的正数。 对数的底如果为超越数e(e=2.718),我们就把这样的对数叫作自然对数,用符号“ln”表示。 “1”是对数“logarithm”的第一个字母,“n”是自然“nature”的第一个字母,把两个字母合在一起,就表示自然对数。 ln1=0 ln100=4.605170 “lg”表示以10为底的对数

logistic概率函数 此式子突出了两个有用参数: b以及-a/b

由图示可知: 1、b表示自变量的作用方向 (b为正数,logsitic函数随x值增加而单调增加;反之亦然) 2、-a/b是曲线的中心,在这一点上概率函数整好取值0.5。 函数以拐点(-a/b,0.5)为中心对称,在这一点上曲线的变化率最大,而距离这一点越远,曲线变化率越小,在趋近函数的上限或下限时,曲线的变化率接近于零 3、b的绝对值越大,曲线在中段上升或下降的速度越快(越陡峭)。 这意味着主要变化部分被压缩在x轴上对应拐点的附近范围内。

这也是logistic函数的常用表达式之一 为表达便利,将多元线性组合 以 表示 ,再令z= ,于是,logistic函数可以表示为: 如果将上式分子分母同乘以exp(z),有: 这也是logistic函数的常用表达式之一

二、logistic回归模型因变量的不同形式 对上式继续转换: p[1+exp(z)]=exp(z) p+p*exp(z)=exp(z) p=exp(z) -p*exp(z) p=(1 –p)exp(z)

可见:事件概率以自变量的非线性表达可以转换为事件概率的函数用自变量来线性表达 最后对等式两边取对数,得到了概率的函数与自变量的线性表达式 可见:事件概率以自变量的非线性表达可以转换为事件概率的函数用自变量来线性表达

三、有关概念 1、事件发生的概率 p=p (y=1) 2、事件不发生的概率 1-p=1-p (y=1)=p (y=0) 3、发生比(odds) = 4、对数发生比(log odds)=ln 相对风险 P的罗吉特转换

例:分析被调查妇女为文盲的可能性与其他因素之间的关系 因变量 WENMNG:本人为文盲取值1,其他为0 自变量 民族:汉族为1,少数民族为0 居住地:农村居民为1,城市为0 婚姻状况:未婚为1,其他为0 年龄:定距变量或分年龄组的定序变量(15~49岁)

自变量 回归参数 b 显著性(p值) 发生比率 eb 汉族 1.079 .193 2.942 未婚 -.457 .103 .633 农村居民 2.296 <.0005 9.936 15~19岁 (参照组) 20~24岁 .665 .048 1.944 25~29岁 .948 .014 2.581 30~34岁 1.261 .001 3.530 35~39岁 2.006 7.433 40~44岁 2.916 18.465 45~49岁 3.196 24.443 常数项 -6.041 .002

第三节 logistic回归系数的意义 一、问题 多元线性回归的表达方式(回顾) logistic回归中,xi与logit p有线性关系,但与p却不是线性关系——xi变化对p的作用难以确切表达 通过logtistic回归系数可以得到各自变量对事件概率作用的笼统认识,但无法一般性地表示确切的变化关系 ——报告xi对logit p的作用

二、以发生比的指数表达式来解释回归系数 发生比具有实际意义,表示一种相对风险 如果我们要分析x2变化一个单位对于发生比的影响幅度,可以用(x2+1)表示,并将其代入上式表示新的发生比值 =

三、发生比率(相对风险比) 把两个发生比集中在一起,有: ——我们称这一变化前后的两个发生比之比 为发生比率 (odds ratio),或称相对风险比(relative risk ratio):可测量自变量一个单位的增加给原来的发生比所带来的变化

请注意准确表达: 参照前例: 农村调查对象与具有相同特征(民族、婚姻状况、年龄组)的城市妇女相比更有可能是文盲,农村的发生比是城市的10倍左右。 未婚调查对象与具有相同特征(民族、城乡、年龄组)的已婚者相比更不可能是文盲,未婚者的发生比是已婚者的三分之二左右。

二、Logistic 回归的系数标准化 标准化的

一、对模型的总体评价 第四节 logistic回归模型的检验 Logistic回归方程求解参数是采用最大似然估计方法,因此其回归方程的整体检验通过似然函数值(likelihood) 似然函数:一种概率——假设拟合模型为真实情况时,能够观察到这一特定样本的概率,取值在0、1之间 L或lnL都可以作为判断模型优劣的指标,但其统计性质不明确

补充2:最大似然法 最大似然估計是一種统计方法,它用來求一個样本集的相关概率密度函数的參數。這個方法最早是遗传学家以及统计学家罗纳德·费舍尔在1912年至1922年间开始使用的。 「似然」是對likelihood 的一種較為貼近文言文的翻譯,「似然」用現代的中文來說即「可能性」。故而,若稱之為「最大可能性估計」則更加通俗易懂。

考慮一個拋硬幣的例子。 假設這個硬幣正面跟反面輕重不同。 我們把這個硬幣拋80次(即,我們獲取一個採樣並把正面的次數記下來,正面記為H,反面記為T). 並把拋出一個正面的機率記為p, 拋出一個反面的機率記為1 − p(因此,這裡的p即相當於上邊的θ). 假設我們拋出了49個正面,31 個反面,即49次H,31次T。

假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣拋出正面的機率分別為p = 1 / 3, p = 1 / 2, p = 2 / 3. 這些硬幣沒有標記,所以我們無法知道哪個是哪個。 使用最大似然估計, 通過這些試驗數據(即採樣數據),我們可以計算出哪個硬幣的可能性最大。這個可能性函數取以下三個值中的一個:

我們可以看到當時,可能性函數取得最大值。這就是p的最大似然估計.

最大似然法的基本思想: 假定一个样本取自某已知分布形式的总体,但是我们并不知道总体的参数。我们可以“任取”一些值把它们“当成”是总体的参数,然后计算在这些情况下,从该总体中抽取到已知样本的可能性有多大。我们最终要选择的参数就是使这种可能性是最大的参数估计,并称为最大似然估计。

最大似然法都是根据已知分布的形式(包含未知参数)以及从此总体中抽取一个样本,构造一个含未知参数的所谓“似然函数”,求使该似然函数达到最大值时参数应取的值,这就是最大似然解。

检验标准: 1、2 Log Likelihood (–2LL值) -2LL 越接近 0 则模拟效果越好;值越大,意味着回归方程的似然值越小,标志模型的拟合程度越差

模型总体的卡方检验: Model Chi-square 至少一个 df=自变量个数

2、虚拟确定系数 Cox & Snell Nagelkerke R2 其中 L(0) 是只有常数项的模型统计量, L(B) 当前模型的统计量。 Nagelkerke R2

3、交互分类表与预测正确率

报告分析结果时一般选用 预测正确率(如有必要还应当加以解释) 卡方检验或虚拟确定系数(说明是哪一个)

二、回归系数的显著性检验 Wald statistic ——解决方案:比较两个模型lnL,差距大,说明变量影响大

总结 1、以logistic函数(增长函数)为依据,先根据实际观测案例的事件发生情况及其各自变量的观测值求解各偏回归系数 2、利用logistic函数的已知数学性质对于logistic回归的参数估计进行统计检验 3、对事件发生概率p进行罗吉特转换,使logit p以自变量线性表达,便于理解 4、用 表示自变量变化对发生比的影响

第五节 研究实例 日常生活与家庭权力 ——家庭权力自我评价的影响因素分析 郑丹丹