How can multiple regression handle nonlinear relationships? 為何迴歸稱之為”線性”迴歸? 當我們不知道真正關聯的型式時,我們從最簡單的關係著手。 即使真正的關連形式不是線性,線性關係往往也是真正關係形式很好的近似值。 我們可以很容易修改線性關係來代表非線性關係的形式。 2019/4/24 Copyright©Kuo-Hsien Su 2002
Proportion and percentages 百分比:二位整數 例:男性所佔的比例為.82,男性佔82% 2019/4/24 Copyright©Kuo-Hsien Su 2002
Proportionate change or relative change Proportionate change (比例變動): divide the change of x by its initial value. Percentage change (百分比變動): Percentage point change (百分點的變動):兩個百分比分數的差距 2019/4/24 Copyright©Kuo-Hsien Su 2002
Proportionate change or relative change 調薪之後,蘇老師的薪水從75000變成77250,今年的加薪幅度為(77250-75000)/75000 = 0.03或100(0.03)% 蘇老師的家庭負擔從60000漲成69525,從原來的80%變成90%,百分點的變動增加了10個百分點。 家庭負擔的比例變動為 增加了百分之12.5 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 The natural logarithm 在之前的電腦練習中,我們曾經介紹過如何將非常態分配的變數(如收入)透過log的轉換之後變成常態分配。 一般而言,在做log轉換時,我們同常使用以e (e=2.71828)為底的自然對數natural log。 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 The natural logarithm 將等號兩邊取exponential。 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 The natural logarithm 將依變數取log有幾個優點: 常態化 有些變數的值不可能為負(如收入),取log之後可以確保無論B及X的數值為何,y的預測值永遠為正。 X對Y的影響解釋有特殊的意涵 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 The natural logarithm 在普通線性關係中,迴歸係數的解釋為每增加一單位x1,對於y值所造成的絕對量的變動。 將y取log後,迴歸係數可以解釋成每單位X的改變,對Y所造成的百分比的變動。 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 The natural logarithm 其他條件不變,年資每增加一年,收入增加8.9千元。 其他條件不變,教育年數每增加一年,收入增加3.3萬元 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 The natural logarithm gen lnincome=ln(income) 假設年資為0,教育程度從9年增加成10年,收入增加多少?此一年的收入增加了多少百分比(比起教育程度為9年的收入)? 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 The natural logarithm 教育程度10年的收入 教育程度9年的收入 20.313 百分比變動=20.313/308.3391 = 6.5879% 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 The natural logarithm 假設年資為0,教育程度從16年增加成17年,收入增加多少?此一年的收入增加了多少百分比(比起教育程度為16年的收入)? 教育程度17年的收入 教育程度16年的收入 31.7492 百分比變動=31.7492/328.6522 = 6.5879% 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 The natural logarithm 教育程度從9年增加成10年,收入增加20.313 教育程度從16年增加成17年,收入增加31.749 但兩者所造成的百分比變動皆為: 當依變數取log後,迴歸係數可以解釋成對Y所造成百分比的變動 2019/4/24 Copyright©Kuo-Hsien Su 2002
Models involving polynomials 在迴歸方程式中,有時自變數以二次項(parabola)或三次項(cubic polynomial)的型態出現。 收入 X 年資 2019/4/24 Copyright©Kuo-Hsien Su 2002
Quadratic Function二次函數 當B1>0 B2<0時,此曲線有極大值,且極大值為: 我們稱上述函數為具有遞減邊際效果(diminishing marginal effect),其斜率為: 其斜率不是一個固定值,隨x值不同而有變化。 2019/4/24 Copyright©Kuo-Hsien Su 2002
Quadratic Function二次函數 2019/4/24 Copyright©Kuo-Hsien Su 2002
Quadratic Function二次函數 X=3, slop = -4 X=1, slop = 4 X=2, slop = 0 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 二次式模型 2019/4/24 Copyright©Kuo-Hsien Su 2002
二次式模型 gen agesqr = age*age
Copyright©Kuo-Hsien Su 2002 二次式模型 2019/4/24 Copyright©Kuo-Hsien Su 2002
How can I check for nonlinearity? 從scatterplots看資料分佈的情形。 加入二次項檢視其迴歸係數是否顯著。 以dummy variable 來檢查非線性關係。 練習:檢查教育程度與收入是否具有非線性關係? 2019/4/24 Copyright©Kuo-Hsien Su 2002
How can I check for nonlinearity? 2019/4/24 Copyright©Kuo-Hsien Su 2002
How can I check for nonlinearity? qfit :quadratic prediction plot 2019/4/24 Copyright©Kuo-Hsien Su 2002
How can I check for nonlinearity? 2019/4/24 Copyright©Kuo-Hsien Su 2002
二次項顯著表示非線性的適合度可能較好
Copyright©Kuo-Hsien Su 2002 以dummy來檢驗非線性關係 omit category 為0-6年的教育程度。 recode educ (7/9=2)(else=0), gen(ed2) recode educ (10/12=1)(else=0), gen(ed3) recode educ (13/16=1)(else=0), gen(ed4) recode educ (17/max=1)(else=0), gen(ed5) 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 以dummy來檢驗非線性關係 2019/4/24 Copyright©Kuo-Hsien Su 2002
Copyright©Kuo-Hsien Su 2002 練習 分析年資與性別對於收入的影響。 控制性別後,年資是否對於收入有非線性的影響?加入年資的二次式來檢定非線性的關係。 2019/4/24 Copyright©Kuo-Hsien Su 2002
二次式模型+Dummy variables 2019/4/24 Copyright©Kuo-Hsien Su 2002
二次式模型+Dummy variables 2019/4/24 Copyright©Kuo-Hsien Su 2002