本章重點: 1.迴歸分析及相關分析的意義及方法 2.利用最小平方法來估計迴歸方程式 3.相關分析與迴歸分析的關係 第七章 簡單相關與廻歸分析 本章重點: 1.迴歸分析及相關分析的意義及方法 2.利用最小平方法來估計迴歸方程式 3.相關分析與迴歸分析的關係
係金ㄟ? 英國媽媽認為粉紅色助長公主病而抵制 很多女孩子喜歡粉紅色,一些玩具商為了賺小女孩的錢,也把許多玩具和飾品塗成粉紅色,不過英國有個媽媽,認為粉紅色會造成女孩子價值觀偏差,會得公主病,因此發起一項「反粉紅運動」,抵制粉紅色玩具。 據英國「每日電訊報」報導,這個媽媽說,玩具應該是要幫助小孩擴大想像力及創意的,不過實際上卻是強化性別觀念,所以一些給小女孩玩的東西,可以看到粉紅色玩具洗衣機,甚至還有粉紅色的地球儀,可說是走火入魔。 這個媽媽說,她希望她的女兒從遊戲中,真正學到活潑開朗的個性,而不是一個只懂打扮外表的公主(奇摩新聞網,2009/12/02)。
“關係”,有這麼嚴重嗎? 顏色與價值觀,有“關係”嗎? 在把這兩個綁在一起而認為有關係「之前」的「那個想法」,究竟是什麼? 如果有關係,為何粉紅色跟“公主”或“王子”又有關係? 如果以上兩者都“沒關係”,那怎麼成立“因果關係”?
在建立兩者因果之前,必須先有相關:相關分析(correlation analysis) 相關分析並未嘗試去定義自變數與依變數(即因果關係)。 相關程度: r≥.80以上 非常高相關 r=.60-.80 高相關 r= .40-.60 中度相關 r=.20-.40 低弱相關 r≤.20 非常低相關
Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ μy μy μy μχ μχ μχ (a) ρ> 0 正相關 (b) ρ< 0 負相關 (c) ρ= 0 無相關
象限 (χ-μχ) (y-μy) (χ-μχ) (y-μy) Ⅰ + Ⅱ - Ⅲ Ⅳ
正相關:落在第Ⅰ及Ⅲ象限的點數 > 落在第Ⅱ及Ⅳ象限的點數 負相關:落在第Ⅰ及Ⅲ象限的點數 < 落在第Ⅱ及Ⅳ象限的點數 無相關:落在第Ⅰ及Ⅲ象限的點數 = 落在第Ⅱ及Ⅳ象限的點數
相關係數 (Karl Pearson Coefficient) r= ∑ Zx.Zy / N = ∑xy/ NSxSy →∑xy/N=共變數(covariance),是決定r大小的重要指標。 當∑xy/N = SxSy, r=1; 當∑xy/N=0, r=0
x y r = 1 x y r = -1 (a)完全正相關 (b)完全負相關
x y 0 < r < 1 x y -1 < r < 0 (a)不完全正相關 (b)不完全負相關
r = 0 r = 0 y y x x (a)無相關 (b)曲線關系
表一 某縣市高中生數學能力表現與大學數學能力表現之相關研究 (請求出兩者的相關係數) 表一 某縣市高中生數學能力表現與大學數學能力表現之相關研究 (請求出兩者的相關係數) 學生 高中數學成績(x) 大學數學成績(Y) χ у χ² у² χу A 74 84 B 76 80 C 90
相關係數的解釋 有相關並不一定有因果關係。 相關的意義與樣本大小有關,當樣本很小,雖得到很高的相關,但可能是機遇造成的。(例如若N=2,r=1的情形很大) 當分數的全距變小的時候,相關係數通常會變小(例如探討智商與學業成績的關係,若我們選擇的都是“高智商”學生,則兩者的相關變低)
簡單迴歸分析
簡單迴歸分析:迴歸分析的意義與方法 迴歸分析(Regression Analysis)是一種統計分析方法,它利用一組預測變數(或稱獨立變數)的數值,對某一準則變數(或稱應變數)做預測,它也可以做為評估預測變數對準則變數的影響程度。很不幸地,迴歸(Regression)的名字取得不理想,從字面上並不能表現出這種方法的重要性及其應用,取名實際上來自於1885年高登(Galton)所寫的論文“Regression Toward Mediocrity in Heredity Stature”。大致來說,其意義為:如果一些未知的獨立變數之影響程度消失,其應變異數應些一迴歸線。 迴歸分析是用來分析一個或一個以上自變數與依變數間的數量關係,以了解當自變數為某一水準或數量時,依變數反應的數量或水準。
迴歸分析的意義與方法 區分簡單迴歸分析(simple regression)與複回歸分析 (multiple regression)。前者為一個自變數與一個依變數。後者為二個或以上的自變數與一個依變數。 迴歸的主要目的是做預測,目標是發展一種能以一個或多個預測變數的數值來做為應變數預測的方法。本單元將探討“簡單”線性迴歸模式,也就是只用一個獨立變數x去預測應變數y的模式。
迴歸方程式建立的理由 當討論兩變數的資料時,我們會問兩個問題,第一個問題是這兩個變數間有無關係,如有關係,它的關係有多大(相關係數)。另一個問題是一變數對另一變數有何影響(迴歸分析)。迴歸的目的就是要找出變數間的關係式,即找函數f,使應變數y(Dependent Variable,或稱準則變數)與獨立變數x(Independent Variable或稱預測變數)間有: y=f(x)的關係式,最簡單的函數f是線性函數,即 f(x)=a+bx,我們稱這種線性關係式 , 我們稱之為簡單線性迴歸模式(Simple Linear Regression Model)
直線廻歸與預測 Y X 獨立變數 直線方程式:Ŷ=a+bx(透過x→y,Ŷ是y的預測值 ) 如何畫出迴歸線?採取最小平方法(The Method of Least Square,簡寫成LS) ,找出一條迴歸線使各點到此線的平行於Y軸的距離平方和最小。 ∑(Y-Ŷ)²=最小→ ∑(Y-a-bx)²=最小 b= ∑xy ∑x² 獨立變數 X Y
練習1: 有一項針對幼稚園教師的工作態度(x)及工作績效(y)的研究,若10名受試者在兩項變項的得分如下表。某研究人員透過迴歸分析,得到迴歸係數為0.66301,常數為17.00110,請根據此等資料回答下列問題: 1. 請建立此迴歸方程式 2. 此研究人員可根據迴歸方程式做何種工作? 3. 當某一教師的工作態度為88分,則他的工作績效為多少? 受試者 1 2 3 4 5 6 7 8 9 10 工作態度 95 82 90 81 99 93 87 工作績效 78 70 76 83 79 80 77
練習:5位學生的成就動機分數(x)學業分數(Y),利用表一演算的資料,回答下列問題: 1. X與Y相關係數 2.. 由X預測Y的迴歸係數 b 3. 由x預測Y的截距 4. 由x預測y的迴歸預測方程式 5. SSt, SSreg, SSres各是多少? 學生 X Y Ŷ Y-Ỹ Y-Ŷ Ŷ-Ỹ A 11 12 B 10 9 C 6 D 5 7 E 3 ∑x=? ∑y=? ∑x² ∑y²
迴歸分析:決定係數(r²)的意義 觀念:我們在“總變異=被解釋變異+非被解釋變異”的公式中(SSt= SSreg+ SSres),或者我們在預測的工作中,最希望的是被解釋的變異要越多越好,也就是∑( Ŷ-Ỹ)² 要越多越好,而預測錯誤的部分越少越好,也就是 ∑(Y-Ŷ)²越少越好,如此預測才會越準確。 被解釋的變異佔整個總變異的百分比的比值,我們稱之為決定係數。換言之,這表示“在預測大學入學成績(Y)的總變異當中,究竟有多少的百分比是可以由高中入學成績(X)來預測的?” r²= SSreg / SSt(決定係數)(意思是:預測正確的部份佔平均數預測Y變項的誤差有多少?) 1-r²(疏離係數²),疏離係數=(1-r²)的開根號。
估計標準誤(Standard Error of Estimate)與 等分散性(homoscedasticity) 在上述的回歸分析中,我們相對的希望預測誤差的值越小越好∑(Y-Ŷ)²= min 。然而,我們每預測一次,就會形成一個誤差,預測N次,就會形成N個誤差.許多個誤差所形成分配中的標準差,我們稱之為“估計標準誤”(SEe)。換言之,我們關心這個誤差的“單位”是多少?我們將這個誤差的單位稱之為“估計標準誤”。 SY•X = √SSreg/N 在推論統計中,當Y變項成常態分配,X變項也成常態分配的時候,所預估的Ŷ也會成常態分配.不管預測變項的分數高或低,估計標準誤都是一樣大的時候,我們稱之為等分散性。
估計標準誤的特性 當r =±1的時候,表示預測變項Y都落在迴歸線上,預測完全沒有誤差。 當r=0的時候,表示使用Ỹ預測Y與Ŷ預測Y的誤差是一樣的,此時,使用迴歸線來預測完全無效。 當r的絕對值越大,估計標準誤越小,反之亦然。
估計標準誤的實際應用 某研究者編製完成一份「學業性向測驗」,採用學業平均成績為效標(criterion).大量選取具有代表性的受試者之後,求得平均成績的標準差 ∂=5.49,效標關聯效度rxy= .87.以某學生學業性向測驗成績(X)代入預測公式,得到Ŷ= 83,問該學生學業成績的真正分數可能落在哪一個範圍?
練習 某校三年級學生智商的平均分數為104,標準差為15,數學的平均分數為74,標準差為8,且智商與數學的相關係數r=.60,試求: 以智商預測數學成績的迴歸方程式(Regression Equation) 此種預測的估計標準誤(SEe)為多少? 試求兩者的疏離係數?