第11章 線性相關.

Slides:



Advertisements
Similar presentations
工職數學 第四冊 第一章 導 數 1 - 1 函數的極限與連續 1 - 2 導數及其基本性質 1 - 3 微分公式 1 - 4 高階導函數.
Advertisements

©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
不定積分 不定積分的概念 不定積分的定義 16 不定積分的概念 16.1 不定積分的概念 以下是一些常用的積分公式。
大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
智力測驗計分與解釋 輔導老師 黃曉樺.
第10章 類別資料分析.
第9章 假設檢定.
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
期望值 變異數 共變異數與相關係數 變異數與共變異數之性質 柴比雪夫不等氏 動差與動差生成函數
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
第16章 複迴歸.
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
假設檢定之基本概念 單一母體平均數之假設檢定 假設檢定與信賴區間之相關性 兩母體平均數之假設檢定  
第 8 章 一組樣本 單變項推論方法.
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
17 類別資料的分析  學習目的.
認識倍數(一) 設計者:建功國小 盧建宏.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
估計.
5.1 自然對數函數:微分 5.2 自然對數函數:積分 5.3 反函數 5.4 指數函數:微分與積分 5.5 一般底數的指數函數和應用 5.6 反三角函數:微分 5.7 反三角函數:積分 5.8 雙曲函數.
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
第六章 平均數比較 6-1 平均數比較(各種 T Test 的應用) 6-2 Means 平均數分析 6-3 單一樣本 T 檢定
Regression for binary outcomes
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
課程九 迴歸與相關2.
11.1單一母體變異數的推論 前幾章中,我們以樣本變異數
單一分配 Uniform distribution
相關與迴歸 Correlation and Regression
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
第十一章 相關研究法.
相關分析 7.1 連續變項之相關係數:Pearson 積差相關 7.2 質化變項之相關係數
統計學 指導老師: 郭燿禎 Date: 2/14/12.
第十章 順序資料之假設檢定 10.1 順序資料檢定概論 10.2 符號檢定 10.3 符號秩檢定(成對樣本檢定)
信心水準與信賴區間的解讀.
第 13 章 實驗設計與變異數分析 Part A ( ).
第一章 直角坐標系 1-3 函數圖形.
第 7 章 推論方法.
估計與假設檢定.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
小學四年級數學科 8.最大公因數.
大綱:加減法的化簡 乘除法的化簡 去括號法則 蘇奕君 台灣數位學習科技股份有限公司
7-2 抽樣分配(sampling distribution)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
Chapter 4 迴歸分析. Chapter 4 迴歸分析 迴歸分析原理 迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式),用這個函數代表應變數和自變數之間的關係 多變量分析—管理上的應用.
Parameter Estimation and Statistical Inference
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
二項分配-Binomial 伯努利試驗(Bernoulli Trial) 每一次試驗皆僅有兩種可能結果,不是成功(S),就是失敗(F)。
第十四章名義資料的數字 描述:關連測量 © Copyright 版權所有:學富文化事業有限公司。本光碟內容僅提供教師於教學上使用,非經本公司許可,禁止複製 (給學生)。感謝老師的配合。
第四章 門檻值決定與區域分割.
R教學 t檢定R指令與範例 羅琪老師.
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
1-1 二元一次式運算.
Chapter 3 相關與變異數分析. Chapter 3 相關與變異數分析 變數的內涵 屬量變數 屬質變數 當一個變數可以量化、計算,而且其值的大小可以做有意義的比較時,則稱為屬量變數 當一個變數的內容是屬於敘述性的(如:快樂/憂鬱、男/女),則即使我們可以將其量化,這些量化之後的數值不但在邏輯上不能運算,其大小的比較也沒有意義,這種變數即稱為屬質變數.
因數與倍數.
參考書籍:林惠玲與陳正倉(2002),《應用統計學第二版》。台北:雙葉書廊有限公司。
Test for R Data Processing & Graphics
政治大學財政所與東亞所選修--應用計量分析--中國財政研究 黃智聰
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
第三十單元 極大與極小.
第十七講 重積分 應用統計資訊學系 網路教學課程 第十七講.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

第11章 線性相關

前言 「龍生龍,鳳生鳳,老鼠的兒子會打洞。」 第這個諺語裡,可以用智商(或學歷、或職業、收入等)為指標,來看看兒女的智商和父母的智商是不是有關連。如果發現父母的智商越高,其子女的智商也越高,也就驗證了這個諺語。 在第十章裡,介紹了列聯相關、f相關等,這些是用於反映兩個「類別變項」間的關連強度。在本章裡,則是兩個「量變項」間的關連。首先介紹共變數,然後是各種相關係數的統計檢定與區間估計。

第一節 共變數(1) 共變數就是兩個變項如X和Y,共同改變的情形。 如果X的改變和Y的改變沒有關連,那麼共變數的值就是0。如果X變得越大,Y也跟這變得越大,共變數就大於0。如果X變得越小,Y卻變得越大,共變數就小於0。 當共變數等於0時,這兩個變項是零相關。如果共變數是正的,它們有正相關。如果共變數是負的,這兩個變項就有負相關。

第一節 共變數(2) 母體共變數: 其中mX和mY分別是X和Y變項的平均數。共變數的概念和變異數的概念是相通的。只不過在變異數裡,只針對一個變項而已。但在共變數裡,針對兩個變項。例如X的母體變異數公式是

第一節 共變數(3) 母體共變數 樣本共變數 共變數的概念和變異數相通。在變異數裡,只針對一個變項而已。在共變數裡,針對兩個變項。例如X的母體變異數公式是

第一節 共變數(4) 例子1 研究者隨機抽樣5位成年女性的身高和體重,如表1所示。求身高和體重的共變數。

第一節 共變數(5) 共變數為52 / 4 = 13 > 0,身高和體重為正相關。

第一節 共變數(6) 定理11.1、11.2 X和Y的變異數為 和 ,共變數為 。則

第二節 皮耳森積差相關(1) 共變數的大小會隨著單位的不同而不同,所以無法用以判斷關連強度。為了要能互相比較,解決之道就是將每個變項標準化,使其平均數為0,標準差為1。然後重新計算共變數。這種作法相當於將共變數除以這兩個變項的標準差。 這樣的值稱為相關係數,或稱皮耳森積差相關係數,以紀念首先提出這個公式的學者Karl Pearson(1857-1936)。

第二節 皮耳森積差相關(2) 母相關係數 樣本相關係數 母相關係數 樣本相關係數 相關係數介在 1之間。如果是0表示沒有關連,+1表示完全的正相關,-1是完全的負相關,介在0和+1之間通稱為正相關,介在0和-1之間通稱為負相關。

第二節 皮耳森積差相關(3) 計算皮耳森積差相關係數,必須假設X變項和Y變數的聯合分佈為雙變項常態分佈,其機率密度函數為:

第二節 皮耳森積差相關(4) 定理11.3 如果X和Y為雙變項常態分佈,相關係數為r,則X和Y互為獨立,若且唯若r = 0。

第二節 皮耳森積差相關(5) 單變項常態分佈的形狀,類似一個壓扁的銅鐘或平面的一座山,X軸為變項,Y軸為機率密度。 雙變項常態分佈則是立體圖,X軸為X變項,Y軸為Y變項,Z軸為機率密度。 如果r = 0,那麼雙變項常態分佈就是一般的銅鐘。隨著r離 0越遠,該銅鐘越被壓扁。直到壓成一片,此時r = 1。

第二節 皮耳森積差相關(6) 通常以皮耳森積差相關係數r估計r ,可惜r不是r 的不偏估計式。因此若要估計r ,可用 其中n是樣本數。雖然不是不偏估計式,但比用r來得好。根號內可能出現負值,而無法計算。

第三節 相關係數的假設檢定(1) 母體相關係數為0 如果母體r = 0,且n很大,r趨近平均數0,變異數1/n的常態分佈。則 近似Z分佈。 若n不大,r趨近平均數0,變異數 的常態分佈,因此 是自由度為n – 2的t分佈。

第三節 相關係數的假設檢定(2) 例子5 作法 假設抽樣調查80位學童近視度數與學業成績的關係,結果求得r = 0.1,近視是否與成績有關? 虛無假設為r = 0,對立假設為r  0。

第三節 相關係數的假設檢定(3) 例子6 作法 承例子5,如果樣本數變為800,結果會如何? 由於樣本數非常大,即便樣本相關係數只有0.1,仍可拒絕虛無假設。

第三節 相關係數的假設檢定(4) 母體相關係數等於不是0的某個值 從母體相關係數r = a(a  0),隨機抽取樣本,計算r,r不是常態分配,必須經過Ronald A. Fisher的費雪z轉換。即 母體相關係數r也要經過z轉換稱作zr。

第三節 相關係數的假設檢定(5) 如果樣本數大於10,zr的樣本分佈會很接近常態分佈,其平均數為zr,變異數為 ,則 會近似Z分佈。這個求得的z值,就可用來和Z分佈的臨界值比較,以進行假設檢定。

第三節 相關係數的假設檢定(6) 例子7 依照過去理論,學業成績與智商的關連為0.6。研究者抽樣20位大學生,樣本相關為0.2,可否推翻這個理論? 作法 超過臨界值1.96,拒絕虛無假設 。

第三節 相關係數的假設檢定(7) 兩母體相關係數差異的假設檢定 有的時候,我們想探討這兩個獨立母體的相關係數是否相等,或是差異是否等於某個值。 這就類似兩獨立母體平均數差異檢定,不同的是要檢定相關係數而不是平均數。

第三節 相關係數的假設檢定(8) 現有兩個獨立樣本,每個r經費雪轉換,得到zr1和zr2,其各自抽樣分佈的平均數為zr1和zr2,變異數為 和 。 zr1-zr2的抽樣分佈也會近似常態分佈,平均數為zr1-zr2,變異數為 趨近標準常態分佈 。所以 (11.12) 趨近標準常態分佈。這個求得的z值,就可用來和Z分佈的臨界值比較。

第三節 相關係數的假設檢定(9) 例子9 抽樣20位大學生,發現學業成績與智商的相關為0.2。抽樣50位小學生,得到相關0.62。大學生和小學生的相關係數是否是否有異? 作法 大學生zr1=0.203。小學生

第四節 相關係數的區間估計(1) 一個母體相關係數 近似Z分佈,因此 介於- 和 的機率為1-a: 母體zr的(1-a)100%信賴區間是:

第四節 相關係數的區間估計(2) 母體zr的(1-a)100%信賴區間是: 上述公式是計算zr的信賴區間,因此還要將zr將轉換回r。轉換的公式為:

第四節 相關係數的區間估計(3) 例子10 作法 承例子7,抽樣20位大學生,發現成績與智商的關連為0.2。求母體相關係數的95%信賴區間。 -0.272 < zr < 0.678。利用公式(11.15)當zr= -0.272時,r = -0.266。 當zr= 0.678時,r = 0.590。95%信賴區間為(-0.266, 0.590)。

第四節 相關係數的區間估計(4) 兩個母體相關係數的差異 近似Z分佈,因此 介於- 和 的為1-a:

第四節 相關係數的區間估計(5) zr1 - zr2的(1-a)100%信賴區間是:

第四節 相關係數的區間估計(6) 例子11 作法 承例子9,求大學生和小學生的母體相關係數差異的95%信賴區間。 由例子9知zr1為0.203,zr2為0.725。zr1-zr2的95%信賴區間為: r1-r2的95%信賴區間為(-0.797, 0.045)。

第五節 相關係數的一些現象(1) 影響相關係數大小的因素 1. 變異數的大小。

第五節 相關係數的一些現象(2) 2. 異質的次團體。如果擔心樣本中,可能存在著異質的次團體,就該針對這些次團體逐一進行相關分析。然後檢定是否有顯著差異。如無差異或差異甚小可以忽略,則可以合併分析。 3. 測量誤差。測量誤差會削弱了變項間的關連。這種因為測量誤差弱化了相關係數,這在社會科學中尤其值得重視。

第五節 相關係數的一些現象(3) 相關係數的解釋 1. 在計算積差相關係數之前,應該先繪製雙變項的散佈圖,確定兩者是直線關係,而非曲線關係時,積差相關才有意義。 2. 有相關並不表示有因果關係。 3. 相關係數必須經過假設檢定。如果樣本數非常大,即便樣本相關係數非常接近0,也會拒絕母體相關係數為0的虛無假設。反之,如果樣本數非常小,即便樣本相關係數相當大,也無法拒絕虛無假設。

第五節 相關係數的一些現象(4) 4. 絕對值相等的正負號相關係數代表兩變項的關連強度是一樣的,只不過方向不同而已。 5. 相關係數並沒有倍數的意義。 6. 即使積差相關係數等於0,並不見得表示兩變項無關(除非兩變項是雙變項常態分佈),而只是意味著兩變項沒有線性(直線)關連。

第五節 相關係數的一些現象(5) 7. r2代表著某個變項的變異可以被另一個變項解釋的百分比。例如大學生的學業成績與智商的積差相關為0.6,就表示學業成績的變異數中有36%可以用智商來解釋。

第六節 其他類似的相關係數(1) 點二系列相關 如果在X和Y變項中,其中一個變項的二元量尺。此時X和Y變項間的相關,稱作點二系列相關rpb。 雖然名稱不同,但其計算方法、假設檢定、區間估計和積差相關相同。

第六節 其他類似的相關係數(2) 調查男女的身高。每個受試者會有兩個變項。X變項為性別,其中1為男生,0為女生。Y變項為身高。X變項是二元量尺。 可利用兩常態母體的平均數差異檢定,計算T值並檢定之。如果T值超過臨界值,就拒絕虛無假設,而宣稱男女的身高平均數有異。 也可以利用點二系列相關。如果計算出來的係數經過統計檢定,發現相關係數不等於0,就宣稱性別與身高有關。 「性別與身高有關」與「男女身高有別」的意義是一樣的。

第六節 其他類似的相關係數(3) 這兩種分析方法,存在著以下關連: 進行任何一種分析,可透過這個公式轉換為另一種。點二系列相關差異分析多出了一個優點:Y變項的變異數中,可以被X變項解釋的部份。

第六節 其他類似的相關係數(4) 例子12 下表列著10個人的身高和性別,男女生身高是否不同?性別與身高的關連有多大?

第六節 其他類似的相關係數(5) 作法 將性別改為任何兩個數字,例如男生為1,女生為0。計算積差相關得rpb = 0.768。 = 0.59,表示身高的變異數中,有59%可以被性別解釋,剩下41%,被其它因素決定。

第六節 其他類似的相關係數(6) 二系列相關 如果不是自然二元變項,而是人為的二元變項,如及格、不及格,同意、不同意等。那就該用二系列相關。 在二系列相關裡,仍假設X變項和Y變項原都為連續變項,且為雙變項常態分佈。但由於某種原因,將其中一個變項X,被切割成二元量尺。

第六節 其他類似的相關係數(7) 二系列相關rb與點二系列相關rpb的關係為 其中y為標準常態分佈中,將整個分佈切割成p和1-p的z值的機率密度。

第六節 其他類似的相關係數(8) 例子13 承例子12,假設表5中的性別改為籃球成績,分為及格和不及格,(男為及格,女為不及格),求籃球成績與身高的二系列相關。 作法 rpb = 0.768,在樣本中及格人數佔50%,則z值為0,機率密度y為0.3989。則

第六節 其他類似的相關係數(9) 等級相關 有時對兩變項的測量,只能達到排名而已,此時,兩者的關連性稱為史皮爾曼等級相關,而不是皮耳森積差相關。 等級相關的計算和積差相關完全一樣。如果所分析的原始資料未經排序,必須先經排序後,以名次計算等級相關。

第六節 其他類似的相關係數(10) 例子14 有10件參賽作品,兩位評審獨立給分。表6中記載了這兩位評審對10件作品的分數。求等級相關。

第六節 其他類似的相關係數(11) 作法 兩種等級的積差相關為0.84,這就是等級相關。原始分數的積差相關為0.77。