簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.

Slides:



Advertisements
Similar presentations
MINITAB Minitab 培训 Minitab Training.
Advertisements

人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
双变量关联性分析.
Chapter 3 預測.
生物統計與SAS軟體課程教學(三) 雙變項統計分析(一)
B型肝炎帶原之肝細胞癌患者接受肝動脈栓塞治療後血液中DNA之定量分析
多元迴歸 Multiple Regression
第二章 地理数据的采集及处理.
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
-Artificial Neural Network- Adaline & Madaline
Platypus — Indoor Localization and Identification through Sensing Electric Potential Changes in Human Bodies.
Analysis of Variance 變異數分析
Population proportion and sample proportion
Chapter 2 簡單迴歸模型.
丁 承 國立交通大學經營管理研究所教授 成大統計68級 民國103年6月14日
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
微積分網路教學課程 應用統計學系 周 章.
次数依变量模型 (Models for Count Outcomes)
非線性規劃 Nonlinear Programming
課程九 迴歸與相關1.
一元线性回归(二).
第一章.
第二章 共轴球面系统的物像关系 Chapter 2: Object-image relations of coaxial spheric system.
Stochastic Relationships and Scatter Diagrams
Sampling Theory and Some Important Sampling Distributions
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
第14章 迴歸分析與複迴歸分析  本章的學習主題 
非均一性的誤差變異數 and SERIAL CORRELATION
製程能力分析 何正斌 教授 國立屏東科技大學工業管理學系.
Chapter 14 Simple Linear Regression
The role of leverage in cross-border mergers and acquisitions
Interval Estimation區間估計
塑膠材料的種類 塑膠在模具內的流動模式 流動性質的影響 溫度性質的影響
消費者偏好與效用概念.
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
以每年參觀Lake Keepit的人數為例
Linear Regression 一元线性回归分析.
庄文忠 副教授 世新大学行政管理学系 相关分析与简单回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.
MyLibrary ——数字图书馆的个性化服务
Liner regression analysis
第3章 預測 2019/4/11 第3章 預測.
Mechanics Exercise Class Ⅰ
相關統計觀念復習 Review II.
Design and Analysis of Experiments Final Report of Project
課程十 迴歸3.
(multiple linear regression)
Simple Regression (簡單迴歸分析)
第7章 回归分析.
The Bernoulli Distribution
社会研究方法 第7讲:社会统计2.
第二章 经典线性回归模型: 双变量线性回归模型
Q & A.
第20章 多元尺度分析與聯合分析 本章的學習主題  1.多元尺度的意義 2. 多元尺度的處理資料型態 3. 多元尺度的模型適合度評估
第 四 章 迴歸分析應注意之事項.
Chapter 10 集群分析. Chapter 10 集群分析 概念及應用 集群分析(cluster analysis)是一種用來將屬量的觀測點分群或分類的分析方法 經過集群分析分群之後,在同一群內的觀測點針對某些特性而言,會具有一致性;而分屬不同群的觀測點,針對同樣的特性則會有顯著的不同.
 隐式欧拉法 /* implicit Euler method */
何正斌 博士 國立屏東科技大學工業管理研究所 教授
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
Multiple Regression: Estimation and Hypothesis Testing
第 1 章 單一預測變數線性迴歸.
Class imbalance in Classification
Principle and application of optical information technology
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3

課程大綱 簡單迴歸分析(simple regression analysis)的基 本概念 迴歸係數(regression coefficients)的估計 簡單迴歸分析模型的判斷 相關分析(Correlation Analysis) 計量分析一(莊文忠副教授) 2019/8/3

簡單迴歸分析的基本概念 計量分析一(莊文忠副教授) 2019/8/3

函數關係與統計關係 函數關係(functional relationship)—是真實關係, 自然存在的,不會有誤差。但在人文社會科學 中,此種關係很難找到。 Y=a+bX 統計關係(statistical relationship)—以人為的方式來 製造X和Y之間的關係,再加上誤差項做為下台 階,因此,它只是一個模型,不一定能解釋所 有的情形。另一方面,除了X影響Y之外,Y本 身也有些固有的變異性,即非X所能解釋的部 分。 Y=f(X)+error 計量分析一(莊文忠副教授) 2019/8/3

函數關係(functional relationship) 計量分析一(莊文忠副教授) 2019/8/3

統計關係(statistical relationship) 計量分析一(莊文忠副教授) 2019/8/3

簡單迴歸分析的意涵 Data: Y是數量的依變數 X是數量的自變數 三個重要的問題: 1.Is there an association? (test of independence) 2.How strong is the association? (uses correlation) 3.How can we describe the nature of the relationship, e.g., by using x to predict y? (regression equation, residuals) 線性函數(linear function):Y =  + x e.g., Y = 3 + 2X, Y = -5 + 0.8X 計量分析一(莊文忠副教授) 2019/8/3

簡單迴歸分析的意涵 截距(intercept):當X=0時,Y的數值 斜率(slope):X每增加一個單位,Y的平均數改變量 1.if  > 0, then Y increases as X increases, the relationship between Y and X is positive(正相關). 2.if  < 0, then Y decreases as X increases, the relationship between Y and X is negative (負相關).. 3. if  = 0, the value of Y is constant and does not vary as X varies, the relationship between Y and X is independence(獨 立無關). 計量分析一(莊文忠副教授) 2019/8/3

簡單迴歸分析的意涵 計量分析一(莊文忠副教授) 2019/8/3

簡單迴歸模型的基本假設 計量分析一(莊文忠副教授) 2019/8/3

散布圖(Scatterplot) It provide a visual check of whether a relationship is approximately linear. When the relationship seems highly nonlinear, it is not sensible to use a straight line model. 計量分析一(莊文忠副教授) 2019/8/3

極端值(outliers)的影響 An observation is called influential(影響值) if removing it results in a large change in the prediction equation. Unless the sample size is large, an observation can have a strong influence on the slope if its x-value is low or high compared to the rest of the data and if it is a regression outlier. Example : murder rate and poverty rate Example : murder rate and poverty rate (without D.C) 計量分析一(莊文忠副教授) 2019/8/3

迴歸係數的估計 計量分析一(莊文忠副教授) 2019/8/3

估計、和σ2 利用 估計 最小平方法(least squares estimate, LSE) 利用 估計 最小平方法(least squares estimate, LSE) 最小平方迴歸線(the least-squares regression line): 計量分析一(莊文忠副教授) 2019/8/3

例子:求最佳的迴歸線 i 1 2 3 4 Xi 6 Yi 計量分析一(莊文忠副教授) 2019/8/3

最小平方法(LSE)的意涵 是「最佳線性無偏估計」(Best Linear Unbiased Estimate, BLUE) Linear—因為和都是Y的線性函數。 Unbiased—E(a)=,E(b)=β,E(MSE)=σ2。 Best—因為var(a)、var(b)、及 都是最小。 計量分析一(莊文忠副教授) 2019/8/3

迴歸模型中的餘值(residuals) 迴歸線代表著以X分數來預測Y分數時我 們最佳的估計。除非X與Y之間的關係是 屬於完全關係,要不然大部分真確的Y值 都不會落在迴歸線上。 當變項間的關係是屬於不完全關係時, 便需要測量預測誤差。如果預測的誤差 非常小,則我們便可接受此預測,並據 之以做決策。 餘值ei為Yi偏離估計值的程度 計量分析一(莊文忠副教授) 2019/8/3

利用最小平方法(LSE)估計餘值 1. 2. 3. 4. 計量分析一(莊文忠副教授) 2019/8/3

測量相關性的四個要素 A summary measure of prediction error for each rule, E1 for errors by rule 1 and E2 for errors by rule 2. The difference in the amount of error with the two rules is E1 - E2. Converting this reduction in error to a proportion provides the definition 計量分析一(莊文忠副教授) 2019/8/3

預測誤差 When we predict y without using x, best predictor is sample mean of y, and summary measure of prediction error is total sum of squares When we use x in the prediction equation to predict y, a summary measure of prediction error is sum of squared errors Predictions using x get “better” as SSE decreases relative to SST. 計量分析一(莊文忠副教授) 2019/8/3

預測誤差 計量分析一(莊文忠副教授) 2019/8/3

變異數分析(Analysis of Variance) 總變異量(Total Sum of Squares) 總誤差量(Sum of Squares Errors) 迴歸解釋量 自由度 n-1 = 1 + n-2 計量分析一(莊文忠副教授) 2019/8/3

判定係數(r2) The proportional reduction in error in using x to predict y (via the prediction equation) instead of using sample mean of y to predict y is i.e., the proportional reduction in error equals the square of the correlation! This measure is sometimes called the coefficient of determination(判定係數), but more commonly just “r- squared”. 計量分析一(莊文忠副教授) 2019/8/3

判定係數(r2)的特性 Since -1 ≤ r ≤ +1, 0 ≤ r2 ≤ 1. Minimum possible SSE = 0, in which case r2 = 1 and all sample points fall exactly on prediction line. There is no prediction error using x to predict y. If b = 0, then , so and so TSS = SSE and r2 = 0. r2 measure the strength of linear association. The closer r2 is to 1, the stronger the linear association. r2 does not depend on units, or distinction between x, y. 計量分析一(莊文忠副教授) 2019/8/3

例:預測「家庭」使用信用卡數 ID 家庭的信用卡數 (Yi) 家庭成員數 (X1) 家庭收入(千美元) (X2) 家庭汽車數 (X3) 1 4 2 14 6 16 3 7 17 5 8 18 21 10 25 計量分析一(莊文忠副教授) 2019/8/3

簡單迴歸分析模型的判斷 計量分析一(莊文忠副教授) 2019/8/3

判定係數(coefficient of determination) 計量分析一(莊文忠副教授) 2019/8/3

a和b的推論 估計所得的a和b必須經過統計檢定才能決 定是否可以接受,即檢定截距和斜率是 否為0。 H0:b=0 (X對Y無直線性影響) 在σ2已知的情況下,用Z分配來檢定 在σ2未知的情況下,用t分配來檢定 計量分析一(莊文忠副教授) 2019/8/3

標準迴歸係數(Beta) 每增加一個標準差單位的X,E(Y)改變的 標準差單位量。 在複迴歸中,標準迴歸係數Bk可能落在±1 之外,但大於1的機會很小,超過1者即表 示該變數有高度的解釋力。 在複迴歸中,r稱之為「複相關」,指Y和 所有X的相關程度,但意義不大。 計量分析一(莊文忠副教授) 2019/8/3

迴歸模型的適合度(fitness) X與Y是否呈線性; 每個等級之εi的變異數是否相等; 利用餘值對X畫圖,圖形的分布愈亂愈好; 迴歸模型用在預測上非常實用,主要是 找出E(Yi)的上下限區間,可以根據來判斷 指標的優劣;但若用在解釋或推論上, 主要是估計β的大小,此時必須做許多假 設,判斷模型時除了考慮r2外,尚必須估 計σ2 ,如果σ2太大,模型就會有問題。 計量分析一(莊文忠副教授) 2019/8/3

迴歸分析在現實世界的不適用性 基本假設太多,很難有完全符合條件的資料。 迴歸分析是利用a和b估計和β,而在社會科學 中, 的推論並不重要,因為X=0可能不存在 或無意義(如身高),重要的是用b推估β,若b的 穩定性很差時,表示σ2很大。但在自然科學中, X=0可能是有意義的,為0或負值都可能還是有 意義的。 證明b不為0時,僅表示X和Y相關,不表示二者 有因果關係存在。 計量分析一(莊文忠副教授) 2019/8/3

相關分析(Correlation Analysis) 計量分析一(莊文忠副教授) 2019/8/3

相關分析的目的 假如變項間是相關,則他們其中之一變 可能是引發另外一個變項的「原因」。 評估一項測驗工具的「再測信度」。再 測信度意味著重複實施一項測驗,其間 分數的一致性即稱之再測信度。 計量分析一(莊文忠副教授) 2019/8/3

什麼是「相關」? 線性關係(liner relationship):是指兩變項間 的關係,大部分可以一條直線準確地來 加以說明。 Y= a + bX a=截距(當X= 0,Y的值) b=斜率= 變項的相關包括關係的方向及程度。方 向指的是變項間是正向關係或負向關係; 關係的程度則是指關係的大小及強度, 從關係不存在到完全關係。 計量分析一(莊文忠副教授) 2019/8/3

相關的類型 正向關係(positive relationship)與負向關係(negative relationship): 1.正向關係乃是指變項間具有直接的關係,斜率 是正數。 2.負向關係是指X變項與Y變項間具有反向的關 係,斜率成負數。 完全關係(perfect relationship)與不完全關係 (imperfect relationship) 1.完全關係:不論是正相關或負相關,只要所有 的點都落在一直線上便稱之為完全關係。 2.不完全關係乃是一種關係,但並非所有的點都 落在同一條直線上。 計量分析一(莊文忠副教授) 2019/8/3

Person’s積差相關係數 變項間經常都是使用不同的尺度及單位來測量, 但相關係數大小及方向計算不受到變項間所使 用不同測量尺度及測量單位影響。因Person’s 相關係數變是使用Z分數計算。 所以,改變X或Y的測量單位,不會改變X和Y的 相關係數。 公式: 計量分析一(莊文忠副教授) 2019/8/3

例子:計算X和Y的相關係數 個案 X Y X2 Y2 XY A 1 2 4 B 3 5 9 25 15 C 16 12 D 6 7 36 49 42 E 35 Σ=21 Σ=22 Σ=111 Σ=112 Σ=106 計量分析一(莊文忠副教授) 2019/8/3

相關係數的特性(Properties) 相關係數也可被解釋成以X來說明Y變異量的程 度。 X和Y在座標軸上交換位置(即X換到Y軸,Y換到 X軸),不會改變相關係數的大小。換言之,相 關係數不會受自變數或依變數性質的影響。 缺點: 1.相關係數會受到兩個變數的極端值所影響。 2.相關係數僅能描述兩個變數的直線關聯程度, 對二次型以上的關係無能為力。 計量分析一(莊文忠副教授) 2019/8/3

變項之間相關的四種可能解釋 X變項與Y變項間的關係是虛假的; X變項是Y變項的因; Y變項是X變項的因; 計量分析一(莊文忠副教授) 2019/8/3

迴歸係數與相關係數的關係 假設我們以迴歸線上的每個X分數來預測 Y分數 總變異量=預測誤差的變異數量+ 以X來解釋Y的變異量  總變異量=預測誤差的變異數量+ 以X來解釋Y的變異量 如果X與Y的關係愈強,預測誤差的變異 量將越小。即 將變小。 計量分析一(莊文忠副教授) 2019/8/3

迴歸係數與相關係數的關係 乃是X與Y之間關係強度的 一種測量。假如將上式開根號,並以適 當值代換 ,便可以得到相關係數r的計算 公式 r越大,代表以X來解釋Y的變異量佔總變 異量的比例越大。 計量分析一(莊文忠副教授) 2019/8/3

Example: 不同方向與程度的相關 計量分析一(莊文忠副教授) 2019/8/3

解釋相關係數應注意 相關係數(γ)與樣本大小有密切關係—當樣本數 小時,相關係數的絕對值必須要很大,才能達 到統計上的顯著。 有相關並不表示一定有因果關係—相關只是說 明兩個變數之間關聯的情形,有可能兩變數均 是共同的「因」或者共同的「果」,而不存在 因果關係。 判定係數(r2)為相關係數(γ)的平方和,是A變數 和B變數兩者交集之比率部分,代表由此一變數 來決定或預測之變異量中所占之比例。(1-r2)為 「未判定係數」(coefficient of nondetermination), 代表不能由此一變數來決定或預測之變異量所 佔之比率。 計量分析一(莊文忠副教授) 2019/8/3

提問與心得分享 計量分析一(莊文忠副教授) 2019/8/3