Keller: Stats for Mgmt & Econ, 7th Ed 複迴歸分析 2017年3月18日星期六 第 17 章 複迴歸分析 Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.
導論 採用簡單線性迴歸模型去分析一個區間變數( 依變 數 y) 是如何相關於另一個區間變數( 獨立變數 x)。 複迴歸分析容許有任何數目的獨立變數。 我們期望發展出比簡單線性迴歸模型更能配適資料 的模型。 第17章 複迴歸分析 第670頁
模型 我們現在假設有 k 個可能與依變數相關的獨立變數。因此,模型以下列方程式表示: 當迴歸模型中存有一個以上的獨立變數時, 我們稱其方程式的圖示為一反應曲面(response surface)。在具有一個變數與二維的情況,我們畫一條迴歸線;此處我們畫出一反應曲面(response surface)的圖示。 獨立變數 依變數 誤差變數 係數 第17章 複迴歸分析 第671頁
誤差變數的必要條件 為了使這些回歸方法有效,誤差變數( ) 必須符合下列四種條件: 誤差變數的機率分配為常態。 誤差變數的平均數為 0。 為了使這些回歸方法有效,誤差變數( ) 必須符合下列四種條件: 誤差變數的機率分配為常態。 誤差變數的平均數為 0。 ε 的標準差ε為一個常數。 誤差之間是獨立的。 第17章 複迴歸分析 第672頁
估計係數與評估模型 樣本迴歸方程式: 我們將使用電腦輸出: 評估模型… 使用模型… 詮釋係數 模型與資料配適的程度有多好 模型是否有用 是否違反任何必要條件? 使用模型… 詮釋係數 使用預測模型做各種預測? 估計依變數的期望值。 第17章 複迴歸分析 第672-673頁
迴歸分析的步驟 使用電腦與軟體產生係數和評估模型所需的統計 量。 診斷必要條件的違反。如果有問題存在,試圖修 正它們。 評估模型的配適 標準誤 判定係數 變異數分析的F- 檢定 如果,,以及是符合的,我們可以使用這 個模型去預測或估計依變數的期望值。 第17章 複迴歸分析 第672-673頁
範例17.1 La Quinta Motor Inns 是一個橫跨全美且價位適中的連鎖汽車旅館。它的市場是經常商務旅行的客人。 這家連鎖業者最近發起一連串的活動,藉由建造新的旅館以增加市場佔有率。這家連鎖旅館的管理階層注意到為新旅館選擇地點的困難。況且,在沒有充分資訊之下做決策經常導致不良的決策。 因此,連鎖店的管理人員取得100 家隨機選取的La Quinta 旅館的資料。目的是預測哪些地點是比較有利可圖的。 第17章 複迴歸分析 第673頁
範例17.1 為了測量收益性,La Quinta 使用營業邊際利潤(operating margin),它是利潤、折舊與利息支出的總和除以總收入的比率。 營業邊際利潤越高,旅館的經營就越成功。 La Quinta 定義有利潤的旅館為那些營業邊際利潤超過50%者,而無利可圖的旅館為營業邊際利潤低於30% 者。 第17章 複迴歸分析 第673頁
範例17.1 在與某些有經驗的經理人員討論之後,La Quinta 決定從下列每一種類別中選擇一或兩個獨立變數: 競爭 市場警覺性 需求創造者 人口統計變數 實體的環境 第17章 複迴歸分析 第673頁
範例17.1 為了衡量競爭的程度,他們計算在每一家La Quinta 旅館3 哩內的旅館與飯店的客房總數。 市場警覺性則是以到最近的競爭旅館之哩程數來衡量。 選擇兩個代表顧客來源的變數。 辦公室空間大小以及周邊社區中大專院校的註冊人數是需求創造者。這兩項都是經濟活動的測量值。 第17章 複迴歸分析 第673-674頁
範例17.1 用以描述社區的人口統計變數是中等家庭的收入。 最後,La Quinta 選擇旅館到市中心的距離做為地點的實體品質測量。 第17章 複迴歸分析 第674頁
範例17.1 為La Quinta Inns 選擇地點 La Quinta應該要將新旅館設在哪些地點?影響利潤的變數: 利潤 變 數 競爭 市場警覺性 需求創造者 人口統計變數 實體的環境 3 哩內的旅館與飯店的客房總數 距離最近競 爭者的哩程 數 周邊社區中 的辦公室空 間、大專院 校的註冊人 數 中等家庭的 收入 到市中心的 距離 測 量 值 *這些必須是區間資料! 第17章 複迴歸分析 第674頁
範例17.1 為La Quinta Inns 選擇地點 La Quinta應該要將旅館設在哪些地點? 這些資料以下列格式儲存:Xm17-01 y =營業邊際利潤,以百分比計 x1 =在La Quinta 旅館3 哩內的旅館與飯店的客房總數 x2 =距離最近競爭者的哩程數 x3 =在周邊社區中的辦公室空間,以千平方呎計 x4 =在鄰近社區中大專院校的註冊人數( 以千人計) x5 =在周邊社區中等家庭的收入( 以千元計) x6 =到市中心的距離( 以哩計) 第17章 複迴歸分析 第674頁
轉換資料 … 我們可以轉換下列資料 為數學模型,如下所列: 營業邊際利潤 競爭哩程 (如:3哩內的旅 館與飯店的 客房總數) 市場警覺性 (距離最近 競爭者的哩 程數) 實體的環境 (到市中心 的距離 … 第17章 複迴歸分析 第674頁
計算 範例17.1 點選Data、Data Analysis,與Regression 第17章 複迴歸分析 第674-675頁
模型 雖然此模型目前尚未做任何推論,估計的迴歸模型如下: 辨認方法 模型 雖然此模型目前尚未做任何推論,估計的迴歸模型如下: 其顯示距離最近競爭者的哩程數、辦公室空間、學生註冊人數與家庭收入等的增加將積極地影響營業邊際利潤。 同樣地,近距離的公寓總數增加以及到市中心的距離也將消極地影響營業邊際效應…… 第17章 複迴歸分析 第675頁
評估模型 我們以三種方法評估模型: 估計的標準誤 判定係數 變異數分析的F- 檢定 第17章 複迴歸分析 第675頁
估計標準誤 在複迴歸中,估計標準誤的定義如下 其中 n 是樣本大小,而 k 是模型中獨立變數的個數。我們比較估計標準誤和y 的平均數。 顯示估計標準誤並不是特別地小。 我們將如何推論? 計算 第17章 複迴歸分析 第675-676頁
判定係數 回顧第16 章中判定係數的定義為 這表示營業邊際利潤總變異的52.51% 可以被6 個獨立變數所解釋,而其餘的47.49% 並未被解釋。 第17章 複迴歸分析 第676頁
調整的判定係數 這是甚麼? 「調整的 R2」稱為: 自由度調整的判定係數(the coefficient of determination adjusted for degrees of freedom)。 是基於樣本大小 n 與獨立變數的個數 k,如下所示: 第17章 複迴歸分析 第676頁
檢定模型的有效性 當存有複迴歸模型(一個以上的獨立變數)時,我們利用變異數分析方法檢定迴歸模型的有效性,我們指定下列的假設: H0: 如果虛無假設為真,沒有任何獨立變數x1, x2, ..., xk 與 y 是線性相關,則該模型是無效的。 如果至少有一個 不等於0,該模型在某種程度上具有效性。 第17章 複迴歸分析 第677頁
檢定模型的有效性 迴歸分析的變異數分析表 一個大的 F 值是指 y 中大多數的變異可以被迴歸方程式解釋, 不能被解釋的。 第17章 複迴歸分析 第678頁 表17.1
「有充分的證據可以推論這個模型是有效的」 檢定模型的有效性 我們的拒絕域為: 由Excel計算 F 統計量,當F = 17.14以及FCritical = 2.17 (p- 值為 0),我們拒絕 H0 有利於 H1,即: 「有充分的證據可以推論這個模型是有效的」 第17章 複迴歸分析 第678頁
如果我們對模型配適資料的程度是滿意的,並且必要條件被滿足,我 們可以詮釋與檢定個別的係數,並使用這個模型去預測與估計。 結論 表17.2 如果我們對模型配適資料的程度是滿意的,並且必要條件被滿足,我 們可以詮釋與檢定個別的係數,並使用這個模型去預測與估計。 第17章 複迴歸分析 第679頁 表7.2
詮釋係數* 截距(b0) 38.14。這是當所有的獨立變數為 0 時,營業邊 際利潤的平均數值。詮釋這個數值是無意義的,尤其是如果 0 落在獨立變數的數值範圍之外。 旅館與飯店的客房數(b1) − .0076 。在 La Quinta 旅館 3 哩內 每增加一間客房,營業邊際利潤平均減少 .0076。改變單位 後,我們可以解釋 b1 為: 每增加1,000間客房,邊際利潤平 均減少7.6%。 到最近競爭者的距離(b2) 1.65 。對 La Quinta 旅館到最近競 爭者的距離而言,每增加一哩,平均營業邊際利潤增加 1.65%。 *對每一種狀況,我們假設其他的獨立變數不變 第17章 複迴歸分析 第680頁
詮釋係數* 辦公室空間(b3 ) .020 。每增加100,000 平方呎的辦公室空間,營業邊際利潤平均增加 2.0%。 邊際利潤平均增加 .21%。 中等家庭收入(b5 ) .41 所表示。當一個中等家庭每增加1,000 元收入,則營業邊際利潤平均增加 .41%。 到市中心的距離(b6 ) − .23 表示。到市中心的距離每增加一 哩,則營業邊際利潤平均減少 .23%。 *對每一種狀況,我們假設其他的獨立變數不變 第17章 複迴歸分析 第680-681頁
檢定係數 對於每一個獨立的變數,我們可以檢定以決定: 對整個母體而言,獨立變數與依變數之間是否有充分的線性關係的證據 H0: = 0 (i = 1, 2, ..., k);檢定統計量為: 它服從自由度為 v = n – k – 1的學生t- 分配 第17章 複迴歸分析 第681-682頁
檢定係數 參考674與675頁並檢視範例17.1的電腦輸出結果。 詮釋 檢定係數 參考674與675頁並檢視範例17.1的電腦輸出結果。 有壓倒性的證據可以推論在La Quinta 旅館3 哩之內的旅館與飯店客房數、最近的旅館的距離、旅館附近的辦公室空間、中等家庭的收入與營業邊際利潤皆是線性相關的。沒有足夠的證據推論在旅館附近社區的學院註冊人數以及到市中心距離與La Quinta旅館的營業邊際利潤之間存在著線性關係。 第17章 複迴歸分析 第674.682-683頁
使用迴歸方程式 如同在簡單線性迴歸一樣,我們可以對 y 的一個特別值產生預測區間, 以及產生 y 期望值的信賴區間估計。 就像其他與複迴歸相關的計算,我們讓電腦做這份工作。我們的角色是設定問題,了解以及詮釋各種結果。 第17章 複迴歸分析 第685頁
使用迴歸方程式 假設在範例17.1 中,一位經理為一家La Quinta 旅館調查有潛力的地點,並且發現下列的特色。 在3 哩之內有3,815 間客房。 最接近的其他旅館與飯店是在.9 哩之外。 辦公室空間的量是476,000 平方呎 。 在鄰近有一所學院與一所大學,其註冊人數為24,500 位學生 。 從戶口調查,這位經理得知該區域的中等家庭收入( 進位到最接近的千元) 是$35,000。 到市中心的距離是11.2 哩 。 xi 第17章 複迴歸分析 第685頁
使用迴歸方程式 我們加入一列(提供的獨立變數的數值) 在資料集的下方: 然後點選 Add-Ins、 Data Analysis Plus, 與 Prediction Interval to crunch the numbers… 第17章 複迴歸分析
預測區間 我們預測營業邊際利潤將會落在25.4 與48.8 之間。 詮釋 預測區間 我們預測營業邊際利潤將會落在25.4 與48.8 之間。 假設管理人員定義一家有利潤的旅館是具有50% 以上的營業邊際利潤,而一家無利潤的旅館的營業邊際利潤是在30% 以下。因為整個預測區間是在50% 以下,La Quinta 的管理人員將會放棄這個地點。 第17章 複迴歸分析 第685.686頁
信賴區間 估計所有地點的期望營業邊際利潤是在33.0 與 41.2之間。 詮釋 信賴區間 估計所有地點的期望營業邊際利潤是在33.0 與 41.2之間。 我們詮釋其意為: 如果我們在所有地點建立許多間旅館,其符合所描述的類別。則平均營業邊際利潤將落在33.0 與 41.2之間。也就是,一般的旅館也不會有利潤。 第17章 複迴歸分析
迴歸診斷−Ⅱ 計算殘差並檢查下列的問題: 誤差變數是否為非常態? 繪製殘差的直方圖。 誤差變異數是否為常數? 繪製殘差相對於y 預測值的圖。 誤差是否獨立( 時間序列資料) ? 繪製殘差對時段的圖。 觀測值是否不正確或是不屬於目標母體? 重複檢查離群值和影響點的正確性。 第17章 複迴歸分析 第690頁
迴歸診斷−Ⅱ 多元共線性(multicollinearity) 僅發生在複迴歸模型中。 多元共線性是指獨立變數高度相關的情況。 我們將以下列的範例來說明多元共線性的影響和修正辦法。 第17章 複迴歸分析 第691頁
範例17.2 一位不動產經紀人想要發展一個模型,用來預測房屋銷售的價格。這位經紀人相信決定房屋價格的重要變數: 1. 房屋大小 2. 臥房數 3. 建築用地大小 提出的複迴歸模型為 房屋市場資料已經被蒐集且 Excel 是所選的分析工具Xm17-02 第17章 複迴歸分析 第691頁
這份迴歸分析輸出顯示沒有一個獨立變數與售價相關。 範例17.2 執行: Data > Data Analysis > Regression F- 檢定的結果指出整個模型是有效的。 這份迴歸分析輸出顯示沒有一個獨立變數與售價相關。 第17章 複迴歸分析 第692頁
範例17.2 在複迴歸模型中的 t- 檢定導出沒有一個獨立變數是決定銷售價格因素的結論。但三個相關係數的 t- 檢定則與此一結論相牴觸。它們告訴我們臥房數、房屋大小,以及建築用地大小都與價格呈線性相關。 第17章 複迴歸分析 第692-693頁
範例17.2 我們要如何解釋這項矛盾? 答案是這三個獨立變數間彼此相關。 很合理地我們會相信,較大的房子會有比較多的房間,並且座落在比較大的建築用地上,而較小的房子會有比較少的房間,並且座落在比較小的建築用地上。 多元共線性會影響t- 檢定,以至於它們顯示沒有任何一個獨立變數與價格是線性關係的,事實上它們是相關。 第17章 複迴歸分析 第693頁
迴歸診斷−Ⅲ (時間序列) 杜賓-華森檢定讓統計實作人員可以決定是否有一階自我相關 (first-order autocorrelation) 存在的證據──當連續的殘差 ei 與ei-1之間存在著關係的情況,其中i 為時段指標。杜賓-華森統計量被定義為 d 值的範圍是 0 ≤ d ≤ 4 第17章 複迴歸分析 第695-696頁
杜賓-華森檢定 d 4 小的d 值(d < 2)意指存在一個正的一階自我相關。 d 4 小的d 值(d < 2)意指存在一個正的一階自我相關。 大的d 值(d > 2)意指存在一個負的一階自我相關。 第17章 複迴歸分析 第696頁
杜賓-華森檢定 (單尾檢定) 檢定正的一階自我相關的dL 與dU 值: 杜賓-華森檢定 (單尾檢定) 檢定正的一階自我相關的dL 與dU 值: 如果 d < dL ,我們結論有足夠的證據顯示正的一階自我相關存在。 如果 d > dU,我們結論沒有足夠的證據可以顯示正的一階自我相關存在。 如果dL ≤ d ≤ dU,則該檢定無法做結論。 附錄B表11的dL, dU 第17章 複迴歸分析 第697.698頁 圖17.5
杜賓-華森檢定 (單尾檢定) 檢定負的一階自我相關: 如果 d > 4 – dL,我們結論存在負的一階自我相關。 杜賓-華森檢定 (單尾檢定) 檢定負的一階自我相關: 如果 d > 4 – dL,我們結論存在負的一階自我相關。 如果d < 4 – dU ,我們結論沒有足夠的證據顯示存在負的一階自我相關。 如果 4 – dU ≤ d ≤ 4 – dL,則該檢定沒有結論。 附錄B表11的dL, dU 第17章 複迴歸分析 第697-698頁 圖17.5
杜賓-華森檢定 (兩個單尾檢定) 檢定一階自我相關: 如果 d < dL 或 d > 4 – dL,我們結論自我相關存在。 如果dL d 4-dU,我們結論沒有足夠的證據顯示自我相關的存在。 如果dL d dU 或4 - dU d 4 - dL,檢定沒有結論。 第17章 複迴歸分析 第698頁 圖17.5
範例17.3 我們能否建立一個模式來預測滑雪場的纜車票銷售 是建立在兩個氣候參數上? 變數: y - 過去在耶誕節假期當週銷售滑雪纜車票數 x1 -以吋計的總降雪量 x2 - 以及以華氏計的平均溫度 這家滑雪場的經理蒐集過去20 年的資料。Xm17-03 第17章 複迴歸分析 第698頁
範例17.3 判定係數與F- 檢定的p- 值 皆指出這項模型是不良的。 兩個變數都跟纜車票銷售 沒有線性相關… 第17章 複迴歸分析 第699頁
範例17.3 範例17.3 中的殘差直方圖 直方圖顯示誤差可能服從常態分配。 第17章 複迴歸分析 第699頁 圖17.6
範例17.3 在預測值對殘差的圖中(檢定異質性) — 誤差變異數似乎是不變的… 第17章 複迴歸分析 第700頁 圖17.7
範例17.3 杜賓-華森檢定 應用 Data Analysis Plus 的 Durbin-Watson Statistic 到全部的殘差清單。 第17章 複迴歸分析 第700頁
範例17.3 如果我們想要以 = .05 檢定正的一階自我相關,我們在附錄B 中的表8(a) 可以找到 dL = 1.10 與 dU = 1.54 虛無與對立假設為 H0 : 無一階自我相關 H1 : 有正的一階自我相關 拒絕域是d < dL = 1.10。因為d = .59,我們拒絕虛無假設並且結論有充分的證據去推論正的一階自我相關存在。 第17章 複迴歸分析 第701頁
範例17.3 自我相關通常是指該模型必須包括一個對依變數有時間順序影響的獨立變數。 最簡單的這種獨立變數為時段。為了示範說明,我們包括第三個獨立變數,它記錄從資料被蒐集的那一年起之年數。因此,x3 = 1, 2, ..., 20。新的模型為 y = β0 + β1x1 + β2x2 + β3x3 + ε 第17章 複迴歸分析 第701頁
降雪量和時段與纜車票銷售有線性相關; 溫度則沒有… 範例17.3 高度的模型配適, 該模型是有效的… 降雪量和時段與纜車票銷售有線性相關; 溫度則沒有… 新變數 第17章 複迴歸分析 第701頁
範例17.3 假設我們重跑杜賓-華森測量對比迴歸分析的殘差, 我們結論沒有足夠的證據去推論出現正的一階自我相關。 (讀者決定 dL 與 dU 是在左邊做為練習) 因此,這個模型有著戲劇性的改善! 第17章 複迴歸分析 第703頁
範例17.3 注意,這個模型有著戲劇性的改善。 F- 檢定告訴我們該模型是有效的。t- 檢定告訴我們降雪量和時段兩者皆與纜車票數有著顯著的線性關係。 這個資訊可以證明對滑雪場的行銷有用。例如,如果最近降大雪,這個滑雪場可以在其廣告中強調。 如果沒有降雪,這個滑雪場可以強調它的造雪設備。 第17章 複迴歸分析 第703頁