簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3
課程大綱 簡單迴歸分析(simple regression analysis)的基 本概念 迴歸係數(regression coefficients)的估計 簡單迴歸分析模型的判斷 相關分析(Correlation Analysis) 計量分析一(莊文忠副教授) 2019/8/3
簡單迴歸分析的基本概念 計量分析一(莊文忠副教授) 2019/8/3
函數關係與統計關係 函數關係(functional relationship)—是真實關係, 自然存在的,不會有誤差。但在人文社會科學 中,此種關係很難找到。 Y=a+bX 統計關係(statistical relationship)—以人為的方式來 製造X和Y之間的關係,再加上誤差項做為下台 階,因此,它只是一個模型,不一定能解釋所 有的情形。另一方面,除了X影響Y之外,Y本 身也有些固有的變異性,即非X所能解釋的部 分。 Y=f(X)+error 計量分析一(莊文忠副教授) 2019/8/3
函數關係(functional relationship) 計量分析一(莊文忠副教授) 2019/8/3
統計關係(statistical relationship) 計量分析一(莊文忠副教授) 2019/8/3
簡單迴歸分析的意涵 Data: Y是數量的依變數 X是數量的自變數 三個重要的問題: 1.Is there an association? (test of independence) 2.How strong is the association? (uses correlation) 3.How can we describe the nature of the relationship, e.g., by using x to predict y? (regression equation, residuals) 線性函數(linear function):Y = + x e.g., Y = 3 + 2X, Y = -5 + 0.8X 計量分析一(莊文忠副教授) 2019/8/3
簡單迴歸分析的意涵 截距(intercept):當X=0時,Y的數值 斜率(slope):X每增加一個單位,Y的平均數改變量 1.if > 0, then Y increases as X increases, the relationship between Y and X is positive(正相關). 2.if < 0, then Y decreases as X increases, the relationship between Y and X is negative (負相關).. 3. if = 0, the value of Y is constant and does not vary as X varies, the relationship between Y and X is independence(獨 立無關). 計量分析一(莊文忠副教授) 2019/8/3
簡單迴歸分析的意涵 計量分析一(莊文忠副教授) 2019/8/3
簡單迴歸模型的基本假設 計量分析一(莊文忠副教授) 2019/8/3
散布圖(Scatterplot) It provide a visual check of whether a relationship is approximately linear. When the relationship seems highly nonlinear, it is not sensible to use a straight line model. 計量分析一(莊文忠副教授) 2019/8/3
極端值(outliers)的影響 An observation is called influential(影響值) if removing it results in a large change in the prediction equation. Unless the sample size is large, an observation can have a strong influence on the slope if its x-value is low or high compared to the rest of the data and if it is a regression outlier. Example : murder rate and poverty rate Example : murder rate and poverty rate (without D.C) 計量分析一(莊文忠副教授) 2019/8/3
迴歸係數的估計 計量分析一(莊文忠副教授) 2019/8/3
估計、和σ2 利用 估計 最小平方法(least squares estimate, LSE) 利用 估計 最小平方法(least squares estimate, LSE) 最小平方迴歸線(the least-squares regression line): 計量分析一(莊文忠副教授) 2019/8/3
例子:求最佳的迴歸線 i 1 2 3 4 Xi 6 Yi 計量分析一(莊文忠副教授) 2019/8/3
最小平方法(LSE)的意涵 是「最佳線性無偏估計」(Best Linear Unbiased Estimate, BLUE) Linear—因為和都是Y的線性函數。 Unbiased—E(a)=,E(b)=β,E(MSE)=σ2。 Best—因為var(a)、var(b)、及 都是最小。 計量分析一(莊文忠副教授) 2019/8/3
迴歸模型中的餘值(residuals) 迴歸線代表著以X分數來預測Y分數時我 們最佳的估計。除非X與Y之間的關係是 屬於完全關係,要不然大部分真確的Y值 都不會落在迴歸線上。 當變項間的關係是屬於不完全關係時, 便需要測量預測誤差。如果預測的誤差 非常小,則我們便可接受此預測,並據 之以做決策。 餘值ei為Yi偏離估計值的程度 計量分析一(莊文忠副教授) 2019/8/3
利用最小平方法(LSE)估計餘值 1. 2. 3. 4. 計量分析一(莊文忠副教授) 2019/8/3
測量相關性的四個要素 A summary measure of prediction error for each rule, E1 for errors by rule 1 and E2 for errors by rule 2. The difference in the amount of error with the two rules is E1 - E2. Converting this reduction in error to a proportion provides the definition 計量分析一(莊文忠副教授) 2019/8/3
預測誤差 When we predict y without using x, best predictor is sample mean of y, and summary measure of prediction error is total sum of squares When we use x in the prediction equation to predict y, a summary measure of prediction error is sum of squared errors Predictions using x get “better” as SSE decreases relative to SST. 計量分析一(莊文忠副教授) 2019/8/3
預測誤差 計量分析一(莊文忠副教授) 2019/8/3
變異數分析(Analysis of Variance) 總變異量(Total Sum of Squares) 總誤差量(Sum of Squares Errors) 迴歸解釋量 自由度 n-1 = 1 + n-2 計量分析一(莊文忠副教授) 2019/8/3
判定係數(r2) The proportional reduction in error in using x to predict y (via the prediction equation) instead of using sample mean of y to predict y is i.e., the proportional reduction in error equals the square of the correlation! This measure is sometimes called the coefficient of determination(判定係數), but more commonly just “r- squared”. 計量分析一(莊文忠副教授) 2019/8/3
判定係數(r2)的特性 Since -1 ≤ r ≤ +1, 0 ≤ r2 ≤ 1. Minimum possible SSE = 0, in which case r2 = 1 and all sample points fall exactly on prediction line. There is no prediction error using x to predict y. If b = 0, then , so and so TSS = SSE and r2 = 0. r2 measure the strength of linear association. The closer r2 is to 1, the stronger the linear association. r2 does not depend on units, or distinction between x, y. 計量分析一(莊文忠副教授) 2019/8/3
例:預測「家庭」使用信用卡數 ID 家庭的信用卡數 (Yi) 家庭成員數 (X1) 家庭收入(千美元) (X2) 家庭汽車數 (X3) 1 4 2 14 6 16 3 7 17 5 8 18 21 10 25 計量分析一(莊文忠副教授) 2019/8/3
簡單迴歸分析模型的判斷 計量分析一(莊文忠副教授) 2019/8/3
判定係數(coefficient of determination) 計量分析一(莊文忠副教授) 2019/8/3
a和b的推論 估計所得的a和b必須經過統計檢定才能決 定是否可以接受,即檢定截距和斜率是 否為0。 H0:b=0 (X對Y無直線性影響) 在σ2已知的情況下,用Z分配來檢定 在σ2未知的情況下,用t分配來檢定 計量分析一(莊文忠副教授) 2019/8/3
標準迴歸係數(Beta) 每增加一個標準差單位的X,E(Y)改變的 標準差單位量。 在複迴歸中,標準迴歸係數Bk可能落在±1 之外,但大於1的機會很小,超過1者即表 示該變數有高度的解釋力。 在複迴歸中,r稱之為「複相關」,指Y和 所有X的相關程度,但意義不大。 計量分析一(莊文忠副教授) 2019/8/3
迴歸模型的適合度(fitness) X與Y是否呈線性; 每個等級之εi的變異數是否相等; 利用餘值對X畫圖,圖形的分布愈亂愈好; 迴歸模型用在預測上非常實用,主要是 找出E(Yi)的上下限區間,可以根據來判斷 指標的優劣;但若用在解釋或推論上, 主要是估計β的大小,此時必須做許多假 設,判斷模型時除了考慮r2外,尚必須估 計σ2 ,如果σ2太大,模型就會有問題。 計量分析一(莊文忠副教授) 2019/8/3
迴歸分析在現實世界的不適用性 基本假設太多,很難有完全符合條件的資料。 迴歸分析是利用a和b估計和β,而在社會科學 中, 的推論並不重要,因為X=0可能不存在 或無意義(如身高),重要的是用b推估β,若b的 穩定性很差時,表示σ2很大。但在自然科學中, X=0可能是有意義的,為0或負值都可能還是有 意義的。 證明b不為0時,僅表示X和Y相關,不表示二者 有因果關係存在。 計量分析一(莊文忠副教授) 2019/8/3
相關分析(Correlation Analysis) 計量分析一(莊文忠副教授) 2019/8/3
相關分析的目的 假如變項間是相關,則他們其中之一變 可能是引發另外一個變項的「原因」。 評估一項測驗工具的「再測信度」。再 測信度意味著重複實施一項測驗,其間 分數的一致性即稱之再測信度。 計量分析一(莊文忠副教授) 2019/8/3
什麼是「相關」? 線性關係(liner relationship):是指兩變項間 的關係,大部分可以一條直線準確地來 加以說明。 Y= a + bX a=截距(當X= 0,Y的值) b=斜率= 變項的相關包括關係的方向及程度。方 向指的是變項間是正向關係或負向關係; 關係的程度則是指關係的大小及強度, 從關係不存在到完全關係。 計量分析一(莊文忠副教授) 2019/8/3
相關的類型 正向關係(positive relationship)與負向關係(negative relationship): 1.正向關係乃是指變項間具有直接的關係,斜率 是正數。 2.負向關係是指X變項與Y變項間具有反向的關 係,斜率成負數。 完全關係(perfect relationship)與不完全關係 (imperfect relationship) 1.完全關係:不論是正相關或負相關,只要所有 的點都落在一直線上便稱之為完全關係。 2.不完全關係乃是一種關係,但並非所有的點都 落在同一條直線上。 計量分析一(莊文忠副教授) 2019/8/3
Person’s積差相關係數 變項間經常都是使用不同的尺度及單位來測量, 但相關係數大小及方向計算不受到變項間所使 用不同測量尺度及測量單位影響。因Person’s 相關係數變是使用Z分數計算。 所以,改變X或Y的測量單位,不會改變X和Y的 相關係數。 公式: 計量分析一(莊文忠副教授) 2019/8/3
例子:計算X和Y的相關係數 個案 X Y X2 Y2 XY A 1 2 4 B 3 5 9 25 15 C 16 12 D 6 7 36 49 42 E 35 Σ=21 Σ=22 Σ=111 Σ=112 Σ=106 計量分析一(莊文忠副教授) 2019/8/3
相關係數的特性(Properties) 相關係數也可被解釋成以X來說明Y變異量的程 度。 X和Y在座標軸上交換位置(即X換到Y軸,Y換到 X軸),不會改變相關係數的大小。換言之,相 關係數不會受自變數或依變數性質的影響。 缺點: 1.相關係數會受到兩個變數的極端值所影響。 2.相關係數僅能描述兩個變數的直線關聯程度, 對二次型以上的關係無能為力。 計量分析一(莊文忠副教授) 2019/8/3
變項之間相關的四種可能解釋 X變項與Y變項間的關係是虛假的; X變項是Y變項的因; Y變項是X變項的因; 計量分析一(莊文忠副教授) 2019/8/3
迴歸係數與相關係數的關係 假設我們以迴歸線上的每個X分數來預測 Y分數 總變異量=預測誤差的變異數量+ 以X來解釋Y的變異量 總變異量=預測誤差的變異數量+ 以X來解釋Y的變異量 如果X與Y的關係愈強,預測誤差的變異 量將越小。即 將變小。 計量分析一(莊文忠副教授) 2019/8/3
迴歸係數與相關係數的關係 乃是X與Y之間關係強度的 一種測量。假如將上式開根號,並以適 當值代換 ,便可以得到相關係數r的計算 公式 r越大,代表以X來解釋Y的變異量佔總變 異量的比例越大。 計量分析一(莊文忠副教授) 2019/8/3
Example: 不同方向與程度的相關 計量分析一(莊文忠副教授) 2019/8/3
解釋相關係數應注意 相關係數(γ)與樣本大小有密切關係—當樣本數 小時,相關係數的絕對值必須要很大,才能達 到統計上的顯著。 有相關並不表示一定有因果關係—相關只是說 明兩個變數之間關聯的情形,有可能兩變數均 是共同的「因」或者共同的「果」,而不存在 因果關係。 判定係數(r2)為相關係數(γ)的平方和,是A變數 和B變數兩者交集之比率部分,代表由此一變數 來決定或預測之變異量中所占之比例。(1-r2)為 「未判定係數」(coefficient of nondetermination), 代表不能由此一變數來決定或預測之變異量所 佔之比率。 計量分析一(莊文忠副教授) 2019/8/3
提問與心得分享 計量分析一(莊文忠副教授) 2019/8/3