STATISTICA統計軟體的應用 第二講:廻歸與ANOVA 南台科技大學企管系 呂金河
六、相關係數 七、迴歸分析
六、相關係數 例如 1. 經理想了解產品價格與銷售量是否有相關? 2. 教育學者想了解 IQ成績與教學成績是否有相關? 1. 經理想了解產品價格與銷售量是否有相關? 2. 教育學者想了解 IQ成績與教學成績是否有相關? 3.醫生想了解人出生時的體重與壽命是否有相關? 4. 房地產公司想了解房價與物價是否有相關?
連續變數間的相關係數常用Pearson 相關係數描述,次序型變數的相關係數常用Spearman秩相關係數描述, Pearson r= -1≦r≦1,r=1時,x 與y成一斜率為正的直線,稱為完全正相關; r= -1時,x 與y成一斜率為負的直線,稱為完全負相關。 r > 0 表 x 值增加時,y值有增加的傾向; r < 0 表 x值增加時,y 值有減少的傾向。 r = 0 表x 與y 無線性相關,x 與y可能有U形曲線相關
變數間有〝相關〞不一定有〝因果關係〞 STATISTICA操作: 點選 統計(Statistics) 基本統計/表格 (Basic Statistics/Tables) 相關係數矩陣(Correlation matrices) 確定(OK) 單一變數表列(One variable list) 選取要分析的變數 按確定(OK) 按選項欄(Option),勾選包含r,p-levels與樣本數(Display r, p-levels and N’s) (做檢定) 按摘要(Summary)
七、迴歸分析 目的:找出一個線性方程式,用來說明一組預測變數( Xi )與效標變數( Y )的關係。目的在探求Y與Xi的關係式
§7.1迴歸分析的步驟 1.選定反應變數(Y)與解釋變數 ,(複)線性迴歸模式為 且互相獨立 其中,α與β為迴歸母數(i=1, 2, ……, n),ε為誤差項。 在迴歸分析中,如果預測變數(Xi)只有一個,則稱之為簡單迴歸分析。如果預測變數有二個以上,則稱為多元迴歸或複迴歸分析。
資料格式
選擇重要自變數 (用逐步迴歸法) 估計 的值,並對每一個βi 檢定βi=0 否 (t檢定) (各別邊際檢定) 在ANOVA表上,檢定 否 (總檢定,F檢定) ,以瞭解整體關係是否達到顯著水準 用調整後判定係數 (>0.18) 判定模式合格否 (配適度) 用判定係數 判定總變異被迴歸解釋的百分比,以瞭解這個方程式的預測能力如何。
殘差分析,檢查 是否滿足 (1)常態性 (用Wilk-Shapiro W檢定或常態機率圖), (2)變異數恆常性(用ei對Xk的殘差圖,或ei2對每一Xk作迴歸,看β1 =0否), (3)獨立性(用Durbin-Watson檢定,D-W值介在1.5至2.5表示無自我相關)等三個假設條件 若殘差分析證明模式不合適,可能需做變數轉換,去除離群值,增減變數等以修正模式 模式解釋
迴歸分析STATISTICA操作法 (1)一般多元迴歸 點選 統計(Statistics) 多元迴歸(Multiple Regression) 按在快速欄(Quick)的變數(Variables) 選取反應變數(Dependent)與獨立變數(Independent) 確定(OK)確定(OK) 按快速欄(Quick)的摘要(Summary): 迴歸分析結果按進階欄(Advanced)的變異數分析(ANOVA) 按殘差/假設/預測欄(Residual/assumptions/prediction)在預測值欄(Predict values),勾選計算信賴區間(Compute confidence limits)或計算預測區間(Compute prediction limits),按反應變數之的預測值(Predict dependent variable)輸入自變數的值 按確定(OK) 按殘差/假設/預測欄(Residual/assumptions/prediction) 按執行殘差分析(Perform residual analysis)按摘要(Summary)在進階欄(Advanced)按Durbin-Watson統計量,在散佈圖欄(Scatterplots)按各式殘差圖,在機率圖(Probability plots)欄按殘差之常態機率圖
(2)逐步迴歸 點選 統計(Statistics) 多元迴歸(Multiple Regression) 按在進階欄(Advanced)的變數(Variables) 選取反應變數(Dependent)與獨立變數(Independent) 確定(OK)勾選進階選項(Advanced options(stepwise or ridge regression))確定(OK) 在快速欄(Quick)的方法(Method)選向前逐步(Forward stepwise)或向後逐步(Backward stepwise) 確定(OK)在快速欄(Quick)按摘要(Summary): 迴歸分析結果按進階欄(Advanced)的變異數分析(ANOVA) 按殘差/假設/預測欄(Residual/assumptions/prediction)在預測值欄(Predict values),勾選計算信賴區間(Compute confidence limits)或計算預測區間(Compute prediction limits),按反應變數之的預測值(Predict dependent variable)輸入自變數的值 按確定(OK) 按殘差/假設/預測欄(Residual/assumptions/prediction)按執行殘差分析(Perform residual analysis)按摘要(Summary) 在進階欄(Advanced)按Durbin-Watson統計量,在散佈圖欄(Scatterplots)按各式殘差圖,在機率圖(Probability plots)欄按殘差之常態機率圖
八、變異數分析 §8.1 變異數分析的基本概念 目的:變異數分析的作用在於分析各種變異的來源,並進而加以比較,以瞭解不同的實驗變數所造成的結果是否有顯著的差異,它的虛無和對立假設如下: 在進行ANOVA 及 MANOVA變異數分析時,必須確定或假定以下幾項前提 1. 所有的樣本都是隨機抽選而得,而且彼此獨立。 2.各母體呈常態分配。 3.各母體的變異數σ2都相等。 只有在上述三個條件滿足下,才可利用ANOVA進行檢定。
下面介紹實驗設計的幾個重要名詞: (1)因子(或要因或因素):影響品質特性的可能因子(Factor),因子需以分類資料呈現。 (2)水準:每個因子在實驗時設定的可能分類稱為水準(Level),在一實驗中各個因子的水準數可能不同,如因子A有2個水準,因子B有3 個水準,因子D有3個水準。 (3)處理:各種因子水準的組合稱為處理 (或稱配方)(Treatment),如A在水準1,B在水準3,C在1(此為1種配方),因此當A有2個水準,B有3個水準,C有3個水準時,共有 2x3x3=18個配方。 (4)反應值:(response)研究目的要量測的品質特性,又稱應變數。
(5)實驗單位:(experiment unit)接受處理的標的物。要在最小的實驗單位量測反應值。實驗單位要力求背景、條件一致(Uniform)。 (6)主效用:(main effect)討論某個因子在各個水準下平均值是否有顯著差異。 (7)交互作用:因子A,B的二階交互作用(Interaction)是討論A設定在水準1時,B的各種水準下Y的平均數差距,與A在水準2 時,B的各水準下Y的平均數差距是否相同,即A,B兩效用是否有可加性的問題,如果兩因子效用沒有可加性,就表示此兩因子有交互作用。如有A,B,C三個因子,則也有三階交互作用AxBxC。
(8)因分析圖(魚骨圖):經品管小組人員腦力激盪下討論出可能影響品質特性的要因,並將它畫成像魚的圖,稱為要因分析圖。如下圖:
§8.2變異數分析的步驟 (一). 單因子變異數分析 One-way ANOVA的目的在比較各分類的均值的大小 1.選定反應變數Y及因子 (分類變數)。若因子的分類種類 (水準) 有k個,則One-way ANOVA的目的在比較各水準下的均值的大小 資料格式
αi 為第i水準的處理效果 (treatment effect), 且 互為獨立 統計模式為 αi 為第i水準的處理效果 (treatment effect), 且 互為獨立 2.變異數分析將總變異的離均差平方和分解成等於組內變異的離均差平方和加上組間變異的離均差平方和。 3.用ANOVA的F檢定,判定 ,成立否。 4.用Levene’s檢定判定k個水準的變異數是否相等(恆常性)。 5.用對比 (contrast) 的設定,比較μi=μ+αi的大小。 6.在ANOVA的F檢定拒絕H0時,用Duncan檢定 (或Tukey檢定) 做μi的兩兩 (成對) 比較,或用Scheffe法做所有可能對比的多重比較,稱為事後比較(Post Hoc 檢定)。少用LSD法,當關心的可能只有少數幾個對比可用Bonferroni法。 7.做殘差分析,檢查 的條件成立否
(二). 雙因子變異數分析 αi 為A因子的主效果 , ;βj為B因子的主效果, ,(αβ) ij為A的第i水準,為B的第j水 Two-way ANOVA的目的在兩因子同時變動時比較兩因子各種水準組合下均值 的大小。 1.選定反應變數Y及兩個因子A、B,統計模式為 αi 為A因子的主效果 , ;βj為B因子的主效果, ,(αβ) ij為A的第i水準,為B的第j水 準的交互作用且 且 互為獨立
2.用Two-way ANOVA的三個F檢定分別判定 , , 否 3.用Levene’s檢定,判定ab個因子水準組合的變異數恆常性 4.若交互作用不存在,A、B兩因子,可分別做Duncan檢定,以比較成對均值的大小 5.若交互作用存在,則A、B兩因子不可分別比較,而只能考慮其ab個組合,一起來比較其均值大小。或給定Ai(Bj)下比較各種Bj(Ai)的均值大小 6.做殘差分析,檢定 的條件成立否
8.3 Statistica操作說明 (一)、單因子單變異數分析 法l. 點選 統計(Statistics) 基本統計/表格(Basic Statistics/Tables) 分割表格與一因子變異數分析(Breakdown & one-way ANOVA) 確定(OK) 在個別表格欄(Individual tables) 按變數(Variables) 選取要分析的反應變數(Dependent variables)與分群變數(Grouping variables) 按確定(OK) 按分群變數編碼值(Codes for grouping variables)全部(All)按確定(OK)確定(OK)按變異數分析與檢定欄(ANOVA & tests)的變異數分析(Analysis of Variance)與Levene檢定(Levene tests),按事後比較欄(Post-hoc)的Scheffe(Scheffe test)檢定與Duncan檢定(Duncan’s multiple range test)
法2. 點選 統計(Statistics) 變異數分析(ANOVA) 在快速欄(Quick)選一因子變異數分析(One-way ANOVA)與快速規格對話方塊(Quick specs dialog)確定(OK)在快速欄(Quick)按變數(Variables) 選取要分析的反應變數與分群變數 按確定(OK) 按分群變數編碼值(Factor codes)全部(All)按確定(OK)確定(OK)在快速欄(Quick)按所有效用與圖表(All effects/Graphs),按所有效用(All effects)按最下方的更多結果(More results)按假設欄(Assumptions)在變異數/共變異數的齊次性欄(Homogeneity of variance/covariances) 按Levene檢定(Levene tests),按事後比較欄(Post-hoc)的Scheffe檢定(Scheffe)與Duncan檢定(Duncan’s)
(二)、二因子變異數分析 Statistica的操作步驟如下: 主效用變異數分析 點選 統計(Statistics) 變異數分析(ANOVA) 在快速欄(Quick)選主效用變異數分析(Main effects ANOVA)與快速規格對話方塊(Quick specs dialog)確定(OK)在快速欄(Quick)按變數(Variables) 選取要分析的反應變數(Dependent variables)與分群變數(Grouping variables) 按確定(OK) 按因子編碼(Factor codes)全部(All)按確定(OK)確定(OK)在快速欄(Quick)按所有效用與圖表(All effects/Graphs),按所有效用(All effects)按最下方的更多結果(More results)按假設欄(Assumptions)在變異數/共變異數的齊次性欄(Homogeneity of variance/covariances) 按Levene檢定(Levene tests),按事後比較欄(Post-hoc)選效用再按Scheffe檢定(Scheffe)與Duncan檢定(Duncan’s)
(二)、二因子變異數分析 因子設計變異數分析 點選 統計(Statistics) 變異數分析(ANOVA) 在快速欄(Quick)選因子設計變異數分析(Factorial ANOVA)與快速規格對話方塊(Quick specs dialog)確定(OK)在快速欄(Quick)按變數(Variables) 選取要分析的反應變數(Dependent variables)與分群變數(Grouping variables) 按確定(OK) 按因子編碼(Factor codes)全部(All)按確定(OK)在快速欄(Quick)按所有效用與圖表(All effects/Graphs),按所有效用(All effects)按最下方的更多結果(More results)按假設欄(Assumptions)在變異數/共變異數的齊次性欄(Homogeneity of variance/covariances) 按Levene檢定(Levene tests),按事後比較欄(Post-hoc)選效用再按Scheffe檢定(Scheffe)與Duncan檢定(Duncan’s)
(二)、二因子變異數分析 特殊因子設計變異數分析 點選 統計(Statistics) 變異數分析(ANOVA) 在快速欄(Quick)選分析精靈(Analysis Wizard)確定(OK) 選取要分析的反應變數(Dependent variables)與分群變數 (Grouping variables)按確定(OK)按自訂組間設計(Custom between design)將類別變數(Categorical)反白在方法欄(Method)按新增(Add)或完全因子(Full factorial),得出設計中的效用按確定(OK)在快速欄(Quick)按所有效用與圖表(All effects/Graphs),按所有效用(All effects)按最下方的更多結果(More results)按假設欄(Assumptions)在變異數/共變異數的齊次性欄(Homogeneity of variance/covariances) 按Levene檢定(Levene tests),按事後比較欄(Post-hoc)選效用再按Scheffe檢定(Scheffe)與Duncan檢定(Duncan’s)
§8.5重複量數 實驗設計時,因受試者不易取得,若受試者重複接受各種處理,則稱為重複量數設計(repeated-measure design)。此時應變數彼此相關,受試者稱為subject是較大的實驗單位,每次接受處理的受試者是較小的實驗單位。因此資料分析方法與ANOVA模式都不同。 例 男女各五名學生先後(重複)接受機械、數學、美術等三種測驗
STATISTICA操作 以Adstudry.sta為例 點選 統計(Statistics) 變異數分析(ANOVA) 在快速欄(Quick)選重複量測變異數分析(Repeated measures ANOVA)與快速規格對話方塊(Quick specs dialog)確定(OK)在快速欄(Quick)按變數(Variables) 選取要分析的反應變數(Dependent variables)與分群變數(Grouping variables) 按確定(OK)在快速欄(Quick)按組內效用(Within effects) 制定組內因子的水準與名稱 按確定(OK)按組間因子編碼(Factor codes)全部(All )按確定(OK)確定(OK)在快速欄(Quick)按所有效用與圖表(All effects/Graphs),按所有效用(All effects)按最下方的更多結果(More results)按假設欄(Assumptions)在變異數/共變異數的齊次性欄(Homogeneity of variance/covariances) 按Box M檢定(Box M test),按事後比較欄(Post-hoc)選效用再按Scheffe檢定(Scheffe)與Duncan檢定(Duncan’s)
性別 學生(Subject) 機械(B1) 數學(B2) 美術(B3) 男(A1) A B C D E 4 9 8 6 1 3 5 女(A2) F G H I J 7 2 11 10 12