Presentation is loading. Please wait.

Presentation is loading. Please wait.

相關與迴歸 Correlation and Regression

Similar presentations


Presentation on theme: "相關與迴歸 Correlation and Regression"— Presentation transcript:

1 相關與迴歸 Correlation and Regression
量化研究法二 統計原理與分析技術 第15章 相關與迴歸 Correlation and Regression

2 相關分析 相關係數是兩個連續變項之間線性關聯強度的指標,相關係數越大,表示線性關聯越強,相關係數可以說是連續變項關係檢驗的「描述統計量」,可以用來反應變項關聯的基本性質與變化趨勢,但不是用來理解變項間實質關係與實務意義等統計決策的適合策略

3 線性關係的分析原理 線性關係(linear relationship) 線性關係可以散佈圖的方式來表現 指兩個變項的關係呈現直線般的共同變化
數據的分佈可以被一條最具代表性的直線來表達的關聯情形 。 該直線之方程式為Y=bx+a,b為斜率(即Δy/Δx,每單位的X變動時,在Y軸上所變動的量) 線性關係可以散佈圖的方式來表現

4 五種不同的相關情形 完全正相關(perfect positive correlation)
完全負相關(perfect negative correlation) 正相關(positive correlation) 負相關(negative correlation) 零相關(zero correlation)

5 五種不同的相關情形圖示

6 五種不同的相關情形圖示

7 相關分析的圖示

8 積差相關的假設考驗 相關係數是否具有統計上的意義,則必須透過統計考驗(t-test)來判斷 從樣本得到的r是否來自於相關為0的母體,即H0:ρXY=(ρ0=0) 相關係數的t檢定的自由度為N-2,因為兩個變項各取一個自由度進行樣本變異數估計

9 相關係數的特質 隨著共變數的大小與正負向,相關係數可以分為正相關(完全正相關)、負相關(完全負相關)、零相關五種情形。
相關的大小需經顯著性檢定來證明是否顯著(是否有統計上的意義)。 相關係數介於-1至1之間。 相關情形的大小非與r係數大小成正比 相關並不等於因果 相關係數沒有單位, 可以進行跨樣本的比較

10 相關係數的強度大小與意義

11 點二系列相關係數 (point-biserial correlation coefficient)
適用於二分變數的相關係數計算 rpb的係數數值介於1.0之間,絕對值越大,表示兩個變項的關係越強 當rpb係數為正時,表示二分變項數值大者,在連續變項上的得分越高 當rpb係數為負時,表示二分變項數值小者,在連續變項上的得分越高 當p與q數值為越接近0.5時,rpb的數值才有可能接近1.0 二分變項也可以視為一種連續變項,其與其他任何連續變項的相關,即等於Pearson’s r

12 二系列相關 (biserial correlation coefficient;rb)
適用於當兩個變項為連續變項,但是將其中一個連續變項二分化(dichotomized),也就是將該變項從某一個切割點切成兩段,轉換成二分變項時 例如將學業成績切割為及格與不及格兩個類別。此時,此二分類別變項雖只有兩個數值,但是仍具有常態分配的特性 y為機率為p時所對應的常態分配機率密度值,也就是常態曲線中切割為p與q兩個區域的X軸所對應的縱座標數值

13 eta係數 適用於一個類別變項與連續變項的相關,可以反應非線性關係的強度
原理是計算類別變項的每一個數值(類別)下,連續變項的離散情形佔全體變異量的比例 各類別中,在連續變項上的組內離均差平方和,佔總離均差平方和的百分比(以X無法解釋Y的誤差部分),比例越小,表示兩變項的關聯越強 η係數數值類似積差相關係數,介於0至1之間,取平方後稱為η2,具有削減誤差百分比(PRE)的概念,又稱為相關比(correlation ratio)

14 偏相關(partial correlation)與部分相關(part correlation)
偏相關與部分相關 偏相關(partial correlation)與部分相關(part correlation) 計算兩個變項的相關係數時,把第三變項的影響加以控制的技術 C C X Y X Y X Y (a) (b) (c) C C X Y X Y (d) (e)

15 淨相關與部份相關 線性關係的統計控制 淨相關 部份相關
如果兩個連續變項之間的關係,可能受到其他變項的干擾之時,或研究者想要把影響這兩個變項的第三個變項效果排除,可以利用控制的方式,將第三變項的效果進行統計的控制。 淨相關 在計算兩個連續變項X1與X2的相關之時,將第三變項(X3)與兩個相關變項的相關r13與r23予以排除之後的純淨相關,以r12.3來表示。 部份相關 計算X1與X2的單純相關,如果在計算排除效果之時,僅處理第三變項與X1與X2當中某一個變項的相關之時,所計算出來的相關係數,稱之為部份相關,或稱為半淨相關(semipartial correlation)

16 相關分析的目的在描述兩個連續變數的線性關係強度,而迴歸則是在兩變項之間的線性關係基礎上,進一步來探討變項間的解釋與預測關係的統計方法
迴歸分析 相關分析的目的在描述兩個連續變數的線性關係強度,而迴歸則是在兩變項之間的線性關係基礎上,進一步來探討變項間的解釋與預測關係的統計方法

17 均值迴歸(regression toward the mean)
1855年,英國學者Galton以“Regression toward mediocrity in heredity stature”,分析孩童身高與父母身高之間的關係 父母的身高可以預測子女的身高 當父母身高越高或越矮時,子女的身高會較一般孩童高或矮 當父母親身高很高或很矮(極端傾向)時,子女的身高會不如父母親身高的極端化,而朝向平均數移動(regression toward mediocrity)

18 迴歸原理 迴歸原理 將連續變項的線性關係以一最具代表性的直線來表示,建立一個線性方程式Y’=bX+a ,b為斜率,a為截距 透過此一方程式,代入特定的X值,求得一個Y的預測值。 此種以單一獨變項X去預測依變項Y的過程,稱為簡單迴歸(simple regression) 最小平方法與迴歸方程式 配對觀察值(X,Y),將X值代入方程式,得到的數值為對Y變項的預測值,記為Y’ 差值Y-Y’稱為殘差(residual),表示利用迴歸方程式無法準確預測的誤差 最小平方法:求取殘差的平方和最小化的一種估計迴歸線的方法 利用此種原理所求得的迴歸方程式,稱為最小平方迴歸線

19 迴歸方程式與未標準化迴歸係數 迴歸方程式 的斜率與截距 以Y預測X (Y→X) 兩條方程式的斜率關係

20 標準化迴歸係數 (standardized regression coefficient)
將b值乘以X變項的標準差再除以Y變項的標準差,即可去除單位的影響,得到一個不具特定單位的標準化迴歸係數 標準化迴歸係數稱為(Beta)係數。係數是將X與Y變項所有數值轉換成Z分數後,所計算得到的迴歸方程式的斜率 係數具有與相關係數相似的性質,數值介於-1至+1之間 絕對值越大者,表示預測能力越強,正負向則代表X與Y變項的關係方向

21 迴歸誤差與可解釋變異 觀察值Y=bX+a+e 迴歸方程式為 誤差為兩者之差:e=Y- Y’

22 迴歸解釋變異量 迴歸解釋變異量(R2) 表示使用X去預測Y時的預測解釋力(獨變項對於依變項的解釋力) 即Y變項被自變項所削減的誤差百分比

23 調整迴歸解釋變異量 R2無法反應模型的複雜度(或簡效性) 簡效性( parsimony )問題 調整後R2 (adjusted R2)
如果研究者不斷增加獨變項,不一定增加模型解釋力,但是R2並不會減低(R2為獨變項數目的非遞減函數) 研究者為了提高模型的解釋力,不斷的投入獨變項,每增加一個獨變項,損失一個自由度,最後模型中無關的獨變項過多,自由度變項,失去了簡效性 調整後R2 (adjusted R2) 為了處罰增加獨變項所損失的簡效性,將自由度的變化作為分子與分母項的除項加以控制,可以反應因為獨變項數目變動的簡效性損失的影響 當獨變項數目(p)越多,adjR2越小 當樣本數越大,對於簡效性處罰的作用越不明顯

24 迴歸模型的顯著性考驗 R2的基本原理是變異數,因此對於R2的檢定可利用F考驗來進行

25 估計標準誤 預測誤差e是一個呈現常態分配的隨機變數,平均數為0,標準差為se 估計標準誤的計量性質是標準差,因此可用以反應誤差分配的離散情形
標準誤越大,估計誤差越大 標準誤越小,估計誤差越小 估計標準誤 取誤差變異的平方和除以自由度(N-k-1)的開方,亦即F考驗當中的誤差均方(MSe)的開方

26 迴歸模型的參數估計 個別的迴歸係數b或可以用以說明預測變項對於依變項的解釋力 迴歸係數數值的統計意義需經過假設考驗來檢驗 迴歸係數的考驗
R2的顯著性考驗是迴歸分析的整體考驗(overall test) 迴歸係數的考驗可視為事後考驗(post hoc test) 迴歸係數的考驗 H0:=0 利用t檢定,自由度為N-p-1:

27 迴歸係數的區間估計 b係數為未標準化係數,用以反應獨變項對於依變項的影響程度 b係數可以得知獨變項的變動在依變項的變動情形 利用模型的迴歸係數標準誤,b係數的區間估計可用來推估母數出現的範圍 利用b係數的95%信心估計區間是否涵蓋0,來檢驗b係數是否顯著不等於0


Download ppt "相關與迴歸 Correlation and Regression"

Similar presentations


Ads by Google