次数依变量模型 (Models for Count Outcomes)

Slides:



Advertisements
Similar presentations
类别资料分析 Categorical Data Analysis 王德育 (T. Y
Advertisements

教育社会学 主讲人 李慧玲.
第九章 证券投资组合管理 东北财经大学金融学院.
Basic concepts of structural equation modeling
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
How to Use SPSS in Biomedical Data analysis
資料探勘應用於英雄聯盟(League of Legends)匹配系統可能性之研究
Excel Functions and Probability Distribution
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
多元迴歸 Multiple Regression
Routing Protocols and Concepts – Chapter 3
第三章 隨機變數.
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
Analysis of Variance 變異數分析
Population proportion and sample proportion
Descriptive statistics
Chapter 2 簡單迴歸模型.
Vendors’ Model of Credit Risk
第五讲 数据的分组、合并与转换.
第七章 SPSS的非参数检验.
Continuous Probability Distributions
多元回歸及模型 Multiple Regression Model Building
Properties of Continuous probability distributions
Stochastic Relationships and Scatter Diagrams
Sampling Theory and Some Important Sampling Distributions
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
非均一性的誤差變異數 and SERIAL CORRELATION
Logistic Regression Appiled Linear Statistical Models,由Neter等著
Chapter 14 Simple Linear Regression
第六章 機率分配.
第一章 敘述統計學.
Tel: 第11章 SPSS在时间序列预测中的应用 周早弘 旅游与城市管理学院
Interval Estimation區間估計
These Views Are Not Necessarily
消費者偏好與效用概念.
第八章 報酬與風險.
The Nature and Scope of Econometrics
第7章 機率分配 離散型機率分配 連續型機率分配.
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
Chap 9 Testing Hypotheses and Assessing Goodness of Fit
生物統計 1 課程簡介 (Introduction)
抽樣分配 Sampling Distributions
相關統計觀念復習 Review II.
線性規劃模式 Linear Programming Models
Simple Regression (簡單迴歸分析)
The Bernoulli Distribution
第二章 经典线性回归模型: 双变量线性回归模型
Nucleon EM form factors in a quark-gluon core model
統計學回顧 區國強.
医学统计学 (Medical Statistics)
第八章 均值比较与检验 2019/5/10.
國金期末報告 股價指數與匯率之間的動態關係: 以台灣、日本、韓國為例 授課老師:楊奕農 學生:郭俊旻.
(四)标准差(standard deviation)
统计软件应用 2 主讲人 陶育纯 SPSS 统计软件应用 2 主讲人 陶育纯 教案.
品質管理與實習 : MIL-STD-105E 何正斌 國立屏東科技大學工業管理學系.
5. Combinational Logic Analysis
Logistic回归 Logistic regression 研究生《医学统计学》.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
Multiple Regression: Estimation and Hypothesis Testing
第三节 多重共线性的检验 本节基本内容: ● 简单相关系数检验法 ● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法.
线性分类 方匡南 教授 博士生导师 耶鲁大学博士后 厦门大学数据挖掘研究中心 副主任 厦门大学经济学院统计系 中华数据挖掘协会(台湾) 顾问
Chapter 1 函數 1.1 函數的定義 1.2 基本函數 1.3 函數的運算 1.4 函數的圖形.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
§2.2.1对数与对数运算.
Gaussian Process Ruohua Shi Meeting
SAS 統計程序實作 PROC MEANS (一個母體)
Presentation transcript:

次数依变量模型 (Models for Count Outcomes)

Models for Count Outcomes (计次变量模型) Count variables indicate how many times something has happened. 美国总统否决法案的次数 某教授发表论文的篇数 非洲国家发生政变的次数 2 2

Nonsensical predictions Estimates from the linear regression models are inefficient, inconsistent, and biased Functional form Nonsensical predictions 3 3

A frequently adopted remedy for linear regression model is to make a natural logarithmic transformation of the dependent variable so that a log-linear function is acquired Because zero is one of the observed values, a constantc is often added to the dependent variableYi, i.e., ln(Yi +c) 4 4

Example: Article Counts(论文 篇数) example (file name:couart2): the data on the number of publications produced by Ph.D. biochemists are used 5 5

Poisson Regression Model (PRM泊松模型) Count Models Poisson Regression Model (PRM泊松模型) Negative Binomial Regression Models(负二 项模型) 6 6

泊松分布(Poisson Distribution) 若依变数 y 是计数(count)在某 个时段内感兴趣的事件(event) 共发生了几次, ,其值 为包含0在内之正整数,且在 学理上并无上限,这类型变量 的分布属于泊松分布(Poisson distribution)

泊松分布的一大特色是: 期望值 ,其变异量亦 为 泊松分布的连接函数为对 数函数(log link)

泊松分布的变异量是随平 均数之大小而定,此一特 性常称为「变异量与期望 值相等」(equidispersion)

Poisson Regression Model (PRM 泊松回归模型):将GLM之「系 统部分」设为自变数的线性组合 后,代入连接函数中:

the probability of counts:prvalue predicted count:prtab Interpretation of PRM the expected value of the count variable (rate of occurrence):listcoef, prchange the probability of counts:prvalue predicted count:prtab 11 11

1. Change in for changes in the independent variables Interpretation of PRM 1. Change in for changes in the independent variables factor ( or percent) change in expected count using  listcoef 在其他变数固定不变的情形下,女性 科学家的平均论文数是男性科学家的 女性科学家的0.8倍(或,少20%) 12 12

在其他变数固定不变的情形下,指 导教授的论文数增加一个标准差, 科学家的平均论文数会增加27% For a standard deviation increase in the mentors’ productivity, a scientist's mean productivity increases by 27 percent, holding all other variables constant 13 13

在一般情形下(其他变数保持 在平均值),女性科学家的平均 论文数会比男性少0.36篇 Marginal and Discrete change in (predicted rate) using prchange 在一般情形下(其他变数保持 在平均值),女性科学家的平均 论文数会比男性少0.36篇 14 14

2. creating ideal types with prvalue and prtab: 15 15

Negative Binomial Model(负二项模型 ) 变异量过大问题 泊松回归在理论模型中均设定变异量等于期望值 16 16

实际上,经验资料的变异量往 往大于理论的预期,即 ,称为变异量过大 (overdispersion)问题 若不校正,系数之标准误会被 低估,使得检定比实际更容易 在统计上显著,造成推论上的 误判

造成变异量过大的诸多原因 之一,就是事件发生率 除 了受已观测到的引数影响之 外,还有研究者「未观测到 的异质」(unobserved heterogeneity)

处理方式有二: 不采用泊松回归本身的标 准误,而另行计算不会低 估的变异量及共变数矩阵 (variance-covariance matrix of the estimator, VCE),以 估计强韧标准误(robust standard error)

设定事件发生率 本身亦 为随机变数,呈迦玛 (gamma)概率分布,将之 代回泊松分布后,二者合 成新的「负二项」概率模 型

重估泊松回归之强韧标准误 在Stata,于 poisson 指令 后,加上 vce(robust) 之次 指令,即可估算系数强韧 之标准误: poisson y x1 x2 x3, vce(robust)

两个「负二项」回归模型 (Negbin 2或NB2) 上式显示负二项分布的条件 期望值与泊松回归模型相同; 但条件变异量则不同

(Negbin 1或NB1) 上式显示负二项分布的条件 期望值与泊松回归模型相同; 但条件变异量则不同

检定: 当 时,负二项分布的 变异量等于泊松分布本身 的变异量,则泊松模型适 用 但只要是 ,负二项分 布的变异量就大于泊松分 本身的变异量(过度离散), 则负二项模型适用

在报表下方有变异量参数( alpha )的估计值及LR的检定值。如拒斥H0,表示变异量在统计上显著地大于期望值,故应采负二项回归。 Stata内建负二项回归模型指令: nbreg y x1 x2 x3 在报表下方有变异量参数( alpha )的估计值及LR的检定值。如拒斥H0,表示变异量在统计上显著地大于期望值,故应采负二项回归。 25 25

Stata之nbreg指令是设为NB2模型。若要以NB1模型估计,则需在加上 dispersion (constant)的次指令 26 26

the probability of counts: prvalue predicted count: prtab Interpretation of NBM the expected value of the count variable (rate of occurrence): listcoef, prchange the probability of counts: prvalue predicted count: prtab 27 27

在其他变量固定不变的情形下, 女性科学家的平均论文数是男性 科学家的0.8倍(或,少20%) Interpretation of NBR 1. Change in for changes in the independent variables factor ( or percent) change in expected count usinglistcoef 在其他变量固定不变的情形下, 女性科学家的平均论文数是男性 科学家的0.8倍(或,少20%) 28 28

在一般情形下(其他变量保持 在平均值),女性科学家的平均 论文数会比男性少0.34篇 Marginal and Discrete change in (predicted rate) usingprchange 在一般情形下(其他变量保持 在平均值),女性科学家的平均 论文数会比男性少0.34篇 29 29