Download presentation
Presentation is loading. Please wait.
1
第11章 線性相關
2
前言 「龍生龍,鳳生鳳,老鼠的兒子會打洞。」
第這個諺語裡,可以用智商(或學歷、或職業、收入等)為指標,來看看兒女的智商和父母的智商是不是有關連。如果發現父母的智商越高,其子女的智商也越高,也就驗證了這個諺語。 在第十章裡,介紹了列聯相關、f相關等,這些是用於反映兩個「類別變項」間的關連強度。在本章裡,則是兩個「量變項」間的關連。首先介紹共變數,然後是各種相關係數的統計檢定與區間估計。
3
第一節 共變數(1) 共變數就是兩個變項如X和Y,共同改變的情形。
如果X的改變和Y的改變沒有關連,那麼共變數的值就是0。如果X變得越大,Y也跟這變得越大,共變數就大於0。如果X變得越小,Y卻變得越大,共變數就小於0。 當共變數等於0時,這兩個變項是零相關。如果共變數是正的,它們有正相關。如果共變數是負的,這兩個變項就有負相關。
4
第一節 共變數(2) 母體共變數: 其中mX和mY分別是X和Y變項的平均數。共變數的概念和變異數的概念是相通的。只不過在變異數裡,只針對一個變項而已。但在共變數裡,針對兩個變項。例如X的母體變異數公式是
5
第一節 共變數(3) 母體共變數 樣本共變數 共變數的概念和變異數相通。在變異數裡,只針對一個變項而已。在共變數裡,針對兩個變項。例如X的母體變異數公式是
6
第一節 共變數(4) 例子1 研究者隨機抽樣5位成年女性的身高和體重,如表1所示。求身高和體重的共變數。
7
第一節 共變數(5) 共變數為52 / 4 = 13 > 0,身高和體重為正相關。
8
第一節 共變數(6) 定理11.1、11.2 X和Y的變異數為 和 ,共變數為 。則
9
第二節 皮耳森積差相關(1) 共變數的大小會隨著單位的不同而不同,所以無法用以判斷關連強度。為了要能互相比較,解決之道就是將每個變項標準化,使其平均數為0,標準差為1。然後重新計算共變數。這種作法相當於將共變數除以這兩個變項的標準差。 這樣的值稱為相關係數,或稱皮耳森積差相關係數,以紀念首先提出這個公式的學者Karl Pearson( )。
10
第二節 皮耳森積差相關(2) 母相關係數 樣本相關係數
母相關係數 樣本相關係數 相關係數介在 1之間。如果是0表示沒有關連,+1表示完全的正相關,-1是完全的負相關,介在0和+1之間通稱為正相關,介在0和-1之間通稱為負相關。
12
第二節 皮耳森積差相關(3) 計算皮耳森積差相關係數,必須假設X變項和Y變數的聯合分佈為雙變項常態分佈,其機率密度函數為:
13
第二節 皮耳森積差相關(4) 定理11.3 如果X和Y為雙變項常態分佈,相關係數為r,則X和Y互為獨立,若且唯若r = 0。
14
第二節 皮耳森積差相關(5) 單變項常態分佈的形狀,類似一個壓扁的銅鐘或平面的一座山,X軸為變項,Y軸為機率密度。
雙變項常態分佈則是立體圖,X軸為X變項,Y軸為Y變項,Z軸為機率密度。 如果r = 0,那麼雙變項常態分佈就是一般的銅鐘。隨著r離 0越遠,該銅鐘越被壓扁。直到壓成一片,此時r = 1。
15
第二節 皮耳森積差相關(6) 通常以皮耳森積差相關係數r估計r ,可惜r不是r 的不偏估計式。因此若要估計r ,可用
其中n是樣本數。雖然不是不偏估計式,但比用r來得好。根號內可能出現負值,而無法計算。
16
第三節 相關係數的假設檢定(1) 母體相關係數為0 如果母體r = 0,且n很大,r趨近平均數0,變異數1/n的常態分佈。則 近似Z分佈。
若n不大,r趨近平均數0,變異數 的常態分佈,因此 是自由度為n – 2的t分佈。
17
第三節 相關係數的假設檢定(2) 例子5 作法 假設抽樣調查80位學童近視度數與學業成績的關係,結果求得r = 0.1,近視是否與成績有關?
虛無假設為r = 0,對立假設為r 0。
18
第三節 相關係數的假設檢定(3) 例子6 作法 承例子5,如果樣本數變為800,結果會如何?
由於樣本數非常大,即便樣本相關係數只有0.1,仍可拒絕虛無假設。
19
第三節 相關係數的假設檢定(4) 母體相關係數等於不是0的某個值
從母體相關係數r = a(a 0),隨機抽取樣本,計算r,r不是常態分配,必須經過Ronald A. Fisher的費雪z轉換。即 母體相關係數r也要經過z轉換稱作zr。
20
第三節 相關係數的假設檢定(5) 如果樣本數大於10,zr的樣本分佈會很接近常態分佈,其平均數為zr,變異數為 ,則
會近似Z分佈。這個求得的z值,就可用來和Z分佈的臨界值比較,以進行假設檢定。
21
第三節 相關係數的假設檢定(6) 例子7 依照過去理論,學業成績與智商的關連為0.6。研究者抽樣20位大學生,樣本相關為0.2,可否推翻這個理論? 作法 超過臨界值1.96,拒絕虛無假設 。
22
第三節 相關係數的假設檢定(7) 兩母體相關係數差異的假設檢定
有的時候,我們想探討這兩個獨立母體的相關係數是否相等,或是差異是否等於某個值。 這就類似兩獨立母體平均數差異檢定,不同的是要檢定相關係數而不是平均數。
23
第三節 相關係數的假設檢定(8) 現有兩個獨立樣本,每個r經費雪轉換,得到zr1和zr2,其各自抽樣分佈的平均數為zr1和zr2,變異數為 和 。 zr1-zr2的抽樣分佈也會近似常態分佈,平均數為zr1-zr2,變異數為 趨近標準常態分佈 。所以 (11.12) 趨近標準常態分佈。這個求得的z值,就可用來和Z分佈的臨界值比較。
24
第三節 相關係數的假設檢定(9) 例子9 抽樣20位大學生,發現學業成績與智商的相關為0.2。抽樣50位小學生,得到相關0.62。大學生和小學生的相關係數是否是否有異? 作法 大學生zr1=0.203。小學生
25
第四節 相關係數的區間估計(1) 一個母體相關係數 近似Z分佈,因此 介於- 和 的機率為1-a: 母體zr的(1-a)100%信賴區間是:
26
第四節 相關係數的區間估計(2) 母體zr的(1-a)100%信賴區間是:
上述公式是計算zr的信賴區間,因此還要將zr將轉換回r。轉換的公式為:
27
第四節 相關係數的區間估計(3) 例子10 作法 承例子7,抽樣20位大學生,發現成績與智商的關連為0.2。求母體相關係數的95%信賴區間。
< zr < 0.678。利用公式(11.15)當zr= 時,r = 。 當zr= 0.678時,r = 0.590。95%信賴區間為(-0.266, 0.590)。
28
第四節 相關係數的區間估計(4) 兩個母體相關係數的差異 近似Z分佈,因此 介於 和 的為1-a:
29
第四節 相關係數的區間估計(5) zr1 - zr2的(1-a)100%信賴區間是:
30
第四節 相關係數的區間估計(6) 例子11 作法 承例子9,求大學生和小學生的母體相關係數差異的95%信賴區間。
由例子9知zr1為0.203,zr2為0.725。zr1-zr2的95%信賴區間為: r1-r2的95%信賴區間為(-0.797, 0.045)。
31
第五節 相關係數的一些現象(1) 影響相關係數大小的因素 1. 變異數的大小。
32
第五節 相關係數的一些現象(2) 2. 異質的次團體。如果擔心樣本中,可能存在著異質的次團體,就該針對這些次團體逐一進行相關分析。然後檢定是否有顯著差異。如無差異或差異甚小可以忽略,則可以合併分析。 3. 測量誤差。測量誤差會削弱了變項間的關連。這種因為測量誤差弱化了相關係數,這在社會科學中尤其值得重視。
33
第五節 相關係數的一些現象(3) 相關係數的解釋
1. 在計算積差相關係數之前,應該先繪製雙變項的散佈圖,確定兩者是直線關係,而非曲線關係時,積差相關才有意義。 2. 有相關並不表示有因果關係。 3. 相關係數必須經過假設檢定。如果樣本數非常大,即便樣本相關係數非常接近0,也會拒絕母體相關係數為0的虛無假設。反之,如果樣本數非常小,即便樣本相關係數相當大,也無法拒絕虛無假設。
34
第五節 相關係數的一些現象(4) 4. 絕對值相等的正負號相關係數代表兩變項的關連強度是一樣的,只不過方向不同而已。
5. 相關係數並沒有倍數的意義。 6. 即使積差相關係數等於0,並不見得表示兩變項無關(除非兩變項是雙變項常態分佈),而只是意味著兩變項沒有線性(直線)關連。
36
第五節 相關係數的一些現象(5) 7. r2代表著某個變項的變異可以被另一個變項解釋的百分比。例如大學生的學業成績與智商的積差相關為0.6,就表示學業成績的變異數中有36%可以用智商來解釋。
37
第六節 其他類似的相關係數(1) 點二系列相關 如果在X和Y變項中,其中一個變項的二元量尺。此時X和Y變項間的相關,稱作點二系列相關rpb。
雖然名稱不同,但其計算方法、假設檢定、區間估計和積差相關相同。
38
第六節 其他類似的相關係數(2) 調查男女的身高。每個受試者會有兩個變項。X變項為性別,其中1為男生,0為女生。Y變項為身高。X變項是二元量尺。 可利用兩常態母體的平均數差異檢定,計算T值並檢定之。如果T值超過臨界值,就拒絕虛無假設,而宣稱男女的身高平均數有異。 也可以利用點二系列相關。如果計算出來的係數經過統計檢定,發現相關係數不等於0,就宣稱性別與身高有關。 「性別與身高有關」與「男女身高有別」的意義是一樣的。
39
第六節 其他類似的相關係數(3) 這兩種分析方法,存在著以下關連:
進行任何一種分析,可透過這個公式轉換為另一種。點二系列相關差異分析多出了一個優點:Y變項的變異數中,可以被X變項解釋的部份。
40
第六節 其他類似的相關係數(4) 例子12 下表列著10個人的身高和性別,男女生身高是否不同?性別與身高的關連有多大?
41
第六節 其他類似的相關係數(5) 作法 將性別改為任何兩個數字,例如男生為1,女生為0。計算積差相關得rpb = 0.768。
= 0.59,表示身高的變異數中,有59%可以被性別解釋,剩下41%,被其它因素決定。
42
第六節 其他類似的相關係數(6) 二系列相關 如果不是自然二元變項,而是人為的二元變項,如及格、不及格,同意、不同意等。那就該用二系列相關。
在二系列相關裡,仍假設X變項和Y變項原都為連續變項,且為雙變項常態分佈。但由於某種原因,將其中一個變項X,被切割成二元量尺。
43
第六節 其他類似的相關係數(7) 二系列相關rb與點二系列相關rpb的關係為
其中y為標準常態分佈中,將整個分佈切割成p和1-p的z值的機率密度。
44
第六節 其他類似的相關係數(8) 例子13 承例子12,假設表5中的性別改為籃球成績,分為及格和不及格,(男為及格,女為不及格),求籃球成績與身高的二系列相關。 作法 rpb = 0.768,在樣本中及格人數佔50%,則z值為0,機率密度y為0.3989。則
45
第六節 其他類似的相關係數(9) 等級相關 有時對兩變項的測量,只能達到排名而已,此時,兩者的關連性稱為史皮爾曼等級相關,而不是皮耳森積差相關。 等級相關的計算和積差相關完全一樣。如果所分析的原始資料未經排序,必須先經排序後,以名次計算等級相關。
46
第六節 其他類似的相關係數(10) 例子14 有10件參賽作品,兩位評審獨立給分。表6中記載了這兩位評審對10件作品的分數。求等級相關。
47
第六節 其他類似的相關係數(11) 作法 兩種等級的積差相關為0.84,這就是等級相關。原始分數的積差相關為0.77。
Similar presentations