資料分析:相關和迴歸 第十八章 「行銷研究人員必須持續檢視消費者認知和最終 購買決策之間的關係,因此,相關和迴歸技術為行 銷研究中最常使用的分析工具。」 Jamie Baker-Prewitt, Ph.D., Vice President, Marketing & Decision Support Sciences, Burke, Inc., Cincinnati, OH
章前提問 1. 何謂積差相關?它如何成為迴歸分析的基礎? 2. 二元迴歸分析的性質和方法為何?如何描述一般模型? 3. 如何解釋二元迴歸中的參數估計、標準化迴歸係數、顯著性檢定、預測正確性? 4. 多元迴歸與二元迴歸有何差異? 5. 偏迴歸係數的意義為何?
圖18.1 相關及迴歸與先前章節、行銷研究過程的關係
圖18.2 相關和迴歸:概觀
積差相關 由 r 表示,用來表示兩個連續變數X 和 Y 關係的強度和方向 也可用來判斷 X 和 Y 之間是否存有線性或直線關係 又稱為皮爾森相關係數、簡單相關、二元相關或相關係數
將分子和分母共同除以(n-1),得到: X 和 Y 代表樣本平均數,Sx和Sy為標準差,COVxy為X 和 Y 之間的共變,測量 X 和 Y 相關的程度,共變可以是正或負
r 值會介於-1.0至+1.0之間 無論兩個變數的測量單位為何,其相關係數都是相同的
範例: - 假設研究人員想要以受訪者擁有跑車的年數(期間)來敘述其對跑車的態度,並以11點尺度來測量(1=不喜歡跑車,11=非常喜歡跑車),跑車的擁有期間則是以受訪者的實際擁有跑車年數來測量。前測有12位受訪者,所取得的資料如表18.1所示
圖18.1 對於跑車的態度
態度和期間的相關係數計算如下:
因此
表18.2 積差相關的計算
圖18.3 對跑車的態度和擁有期間的對應圖
因為 r 代表一個變數變動的程度如何與另一變數變動的程度有關,因此也可表示成總變異的解構
r2測量的是一個變數的變動中,有多少比率可由另一個變數所解釋 當 r=0僅代表X 和 Y 之間不存在線性相關,但並不代表 X 和 Y 無關,他們之間可能存有非線性的關係,無法由 r來表示
圖18.4 r=0的非線性關係
當計算的是母體而非樣本時,積差相關由 ρ表示,係數 r 為ρ的估計值 t 統計量為
由 t 分配表格(附錄統計表4)得知,雙尾檢定且α=0.05的 t 臨界值為2.228,因此虛無假設(X 和 Y 間沒有關係)被拒絕 具有自由度n-2的 t 分配 由 t 分配表格(附錄統計表4)得知,雙尾檢定且α=0.05的 t 臨界值為2.228,因此虛無假設(X 和 Y 間沒有關係)被拒絕 = 8.414
迴歸分析 定義: 用於以下情況: - 一種統計方法,用以分析一個連續型因變數和一個或多個自變數間的關係 - 1. 判斷自變數是否可以解釋因變數的顯著變動:是否存有 關聯 - 2. 判斷有多少因變數的變動可以由自變數來解釋:關聯的 強度 - 3. 判斷關聯的結構或形式:關於自變數和因變數的數學式 - 4. 預測因變數的數值 - 5. 當評估一特定變數或一套變數的效果時,需控制其他的 自變數
二元迴歸 二元迴歸 二元迴歸模型 - 為一種導出單一連續型因變數和單一連續型自變數之間數學關係方程式的方法 - 用以解釋迴歸分析(一自變數迴歸於單一因變數)的方程式
圖18.5 進行二元迴歸分析
散布圖 散布圖 最小平方法 平方誤差加總 - 由兩變數觀察數值組成的座標點所構成 - 藉由最小化所有點和該直線的垂直距離,找出最適合此散 布圖的直線 平方誤差加總 - 真實資料點與迴歸線預測點之垂直距離平方的加總
圖18.6 二元迴歸
二元迴歸模型 在二元迴歸模型中,直線的一般形式為: 假定誤差項是獨立且常態分配,具有平均值為0、常數變異的性質,則基本的迴歸式變為: Y = β0+β1+ X Y =因變數或準則變數 β0=直線的截距 β1=直線的斜率 X =自變數或預測變數 假定誤差項是獨立且常態分配,具有平均值為0、常數變異的性質,則基本的迴歸式變為: ei為與第i筆觀察數值相關的誤差項
參數估計 在大多數情況,β0和β1都是未知,需要由樣本觀察數值以下列方程式加以估計: i為 Yi 的估計或預測值,a、b為β0 、 β1的估計值 i = a + b xi
斜率 b 截距 a
使用表18.1的資料,態度(Y)對期間(X)的迴歸參數計算如下:
從之前的計算,可回想起簡易相關為: 給定n= 12,b可以計算如下:
估計的方程式為: 態度( )=1.0793+0.5897(擁有跑車期間)
表18.3 二元迴歸
標準化迴歸係數 標準化是一個將原始資料轉變為新變數的過程,具有平均值0、變異數為1的特性 當資料標準化後,截距假定為0 貝塔係數為標準化的迴歸係數 標準化和非標準化迴歸係數間存有簡易的關係:
顯著性檢定 X 和 Y 線性關係的統計顯著性可藉由以下假設來檢定: 使用自由度n-2的 t 統計量: SEb代表 b 的標準差,稱為標準誤
關聯的強度和顯著性 判定係數 Y 的總變動SSy可以解構為迴歸線所解釋的變動SSreg和殘差變動SSerror或SSres SSy = SSreg + SSres
關聯的強度計算如下: 以擁有跑車期間對跑車態度的影響為例,示範r2的計算
態度( )=1.0793+0.5897(擁有跑車期間) 使用表18.1的第一筆觀察數值來計算: 預測值( )可以使用以下的迴歸方程式計算: 態度( )=1.0793+0.5897(擁有跑車期間) 使用表18.1的第一筆觀察數值來計算: ( )=1.0793+0.5897×10=6.9763 使用以下的觀察數值,依序算出的預測值為 8.1557、8.1557、3.4381、8.1557、4.6175、 5.9769、2.2587、11.6939、6.3866、11.1042、 2.2587
因此,
因為SSy=SSreg+SSres,所以, X、Y 線性關係顯著性的檢定與判定係數顯著性的 檢定恆等時,判定係數顯著性的假設為:
其具有 F 分配,自由度為1和n-2。F 檢定是t檢定 的概化形式。如果隨機變數為具有自由度 n 的 t 分 配,則 t2為 F 分配,具有自由度1和n,因此, 用 F 檢定來測試判定係數的顯著性,會與以下假 設的檢定恆等: 或
具有自由度1和10。所算出的 F 統計量超過臨界 值4.96,因此,在α=0.05下,關係顯著,證實 t檢定的結果。
圖18.7 二元迴歸總變動的解釋
預測正確性 估計的標準誤 - 預測值 的真實 Y 值標準差 - 估計的標準誤愈大,迴歸的配適愈差
殘差檢視 殘差 - 觀察數值Yi與迴歸方程式的預測值 之間的差距 殘差散布圖 - 以殘差為一軸,以預測值 、時間或預測變數為另一軸
多元迴歸 多元迴歸 多元迴歸模型 - 一種統計技術,可發展出二或多個自變數和一區間尺度因變數間的數學關係 - 用以解釋多元迴歸分析結果的方程式
一般式: 由以下方程式估計: a代表截距,b為偏迴歸係數
偏迴歸係數 偏迴歸係數b1 - 代表當X2維持常數或加以控制時,若X1改變一單位,則 Y 會產生的預期變動 b2 - 代表當X1維持常數時,X2變動一單位時,Y 的預期改變 X1和X2對 Y 的結合效果為兩者相加而成的,亦即當X1和X2各變動一單位時,Y 的預期改變為(b1+b2)
延伸至 k 個變數時,亦是同套模式。偏迴歸係數b1代表當X2至Xk維持常數時,若X1變動一單位,則 Y 會產生的預期改變。當X2至Xk的效果可從X1中移除時,亦可解釋為 Y 對 X1殘差迴歸的二元迴歸係數 b
標準化和非標準化係數間的關係和先前一樣: 估計迴歸式為: 或 態度=0.3373+0.4811(期間)+0.2887(重要性)
表18.4 多元迴歸
關聯的強度 多元判定係數 - 在多元迴歸中,測量關聯的強度 - 可視為 Y 和 間的簡易相關係數 r
特徵: - R2不能小於任何自變數和因變數間二元相關係數的平方 - 當自變數間的關聯性低時,R2會比較大
調整後R2: - 調整過自變數數目和樣本數之後的R2值
顯著性檢定 測試整個迴歸方程式的顯著性
測試特定偏迴歸係數的顯著性 - 判斷特定係數(bi )是否異於0