第 14 章 複迴歸與相關分析.

Slides:



Advertisements
Similar presentations
实用农业科技写作 王鹏文. 第一章 导论 第一节 农业科技写作概述 一 、 农业科技写作概念和分类: 科技文献类、科技应用类、 科技普及类、科技新闻类 二、 农业科技写作的意义和重要性: 科技工作的重要组成部分、科学研究的手段、 科技成果的反映和标志、科技交流的工具 三、 农业科技写作的特点 : 功利性与及时性、科学性与先进性、读者的专门性与狭隘性、
Advertisements

新课程引领 实践中前行 —— 蓟县初中信息技术三年课改总结. 自从 2005 年秋季我市进入基础教育新一 轮课程改革实验以来,在市教研室的正 确领导下,我县初中信息技术课改工作 稳步推进。三年来,取得了一些成果, 也有不少体会。现将三年来的信息技术 课改工作总结如下。
河南省基础教育资源网 邓伟鹏 二〇一二年七月 内容大纲 1. 培训平台的目的 2. 培训平台介绍 3. 培训平台功能 4. 培训工作建立流程 5. 培训门户 6. 在线学习 6.1 课程学习 6.2 在线考试 7. 培训考试管理 7.1. 课程管理 7.2 必修学习班建立 7.3 在线考试管理 7.4.
桐乡市地方税务局 2013 年度社会保险费汇算清缴有 关政策及事项说明. 一、政策规定 根据《中华人民共和国社会保险法》、《桐乡市社会保险费征缴管 理办法》(市政府令第 42 号)、《 关于完善社会保险费征缴管理有关问 题的通知》(桐政办发 [2012]152 号)及《关于完善社会保险费征缴管理.
年輕駕駛交通工具 考上駕照的 18 歲, 正好是高中畢業, 離家工作、上大學 的時候。 年輕人對新環境的 好奇及生疏,以及 尚未養成良好駕駛 習慣,造成意外的 產生。
NO.005 職涯 報 實習 徵才 攻讀 國立嘉義大學 學生事務處學生職涯發展中心.
國中教育會考 十二年國教—免試入學 及 意見整理.
大洋洲.
南台科技大學 萬金生教授 九十八年六月十二日
当代 国 际 关 系(案例6) 冷战时期美苏关系的演变.
严格标准 规范程序 认真做好党员发展工作.
薪資申報系統操作說明.
商学院 旅游管理专业介绍.
 历史以人类的活动为特定的对象,它思接万载,视通万里,千恣百态,令人销魂,因此它比其他学科更能激发人们的想像力。    
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
双变量关联性分析.
《数学》(华师大.八年级 下册) 第二十一章数据的整理与初步处理 扇形统计图的制作.
怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 (学院、部门适用)
『臺北市營建剩餘資源管理系統』 教育訓練說明 臺北市政府 報告人 王宏正
變異數分析 (Analysis-of-Variance簡稱ANOVA)
五至七年級數理創意營教材之研發與教學實驗 期末報告
15 簡單迴歸分析與相關分析  學習目的.
推行使用散装预拌砂浆 全面贯彻落实禁现政策
战 后 国 际 关 系 专题五:冷战时期美苏关系的演变 政治学与行政管理系.
上海文会会计师事务所有限公司 中国注册会计师 童幸义
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
关于成绩的数理统计的探讨 望您多多指教!多谢!!.
多元迴歸 Multiple Regression
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
Analysis of Variance 變異數分析
Chapter 2 簡單迴歸模型.
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
关于虚拟变量回归模型 教学目的:了解虚拟变量的含义及使用,能够应用软件进行实例模拟。 教学内容: 虚拟变量的基本含义及使用
多元回歸及模型 Multiple Regression Model Building
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
第 13 章 實驗設計與變異數分析.
Chapter 14 Simple Linear Regression
ANOVA簡介 許晉誠
統計學報告 冷飲糖度調查,香煙漲價調查 指導老師:蘇明俊老師 運管二乙 組員:李冠毅 林緯彬
第六章 相关与回归分析 学习目的和要求 学习重点 学习难点 教学方法 授课时数 基本内容.
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
4 統計分析程序的選擇.
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
DOE Minitab实践.
第二部分 免疫系统与免疫活性分子 第二章 免疫系统 第三章 免疫球蛋白 第二 部分 第五章 细胞因子 第四章 补体系统.
關鍵數據 數據錯了 扣 50分 排序錯了 扣50分.
方差分析 方差分析的概念 单因素方差分析 有交互作用的双因素方差分析 无交互作用的双因素方差分析.
Liner regression analysis
第七章 相关与回归分析 第一节 相关与回归分析的基本概念 第二节 简单线性相关与回归分析 第三节 多元线性相关与回归分析
第3章 預測 2019/4/11 第3章 預測.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室
指導老師:蘇明俊 組員: 陳柔安 潘依蓮 張壹凱
办学条件核查 评估秘书组 电力职业技术学院 山西机电职业技术学院 2014年7月9日.
16 複迴歸分析與相關分析  學習目的.
第十四章 迴歸.
Correlation using EXCEL
社会研究方法 第7讲:社会统计2.
怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 (项目经费适用)
成本会计学.
第 11 章 雙組樣本的假設檢定.
統計學 比較各廠牌啤酒 及不同容量的銷售量影響 組員: 指導老師:蘇明俊老師 謝德翰 郭逸昌
資本結構影響因素之探討 以上市公司為例 指導老師:包倩華老師 組 員:張安琪 連婉君.
第八章 方差分析(analysis of variance)
Multiple Regression: Estimation and Hypothesis Testing
第三节 多重共线性的检验 本节基本内容: ● 简单相关系数检验法 ● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法.
南華大學旅遊事業管理學研究所副教授 中正大學會計資訊系兼任副教授 丁誌魰 博士
授課內容: 共線性與虛擬變數 簡單線性迴歸模型: 政治大學行政管理碩士學程共同必修課 課程名稱:社會科學研究方法(量化分析)
6 分析資料-以統計測量數呈現.
Presentation transcript:

第 14 章 複迴歸與相關分析

目標 使用複迴歸分析,描述多個獨立變數與一個相依變數間的關係。 建構、解釋,以及應用 ANOVA 表格。 計算與解釋複迴歸的估計標準誤、複判定係數與調整複判定係數。 進行迴歸係數是否不為 0 的假設檢定。 進行每一個迴歸係數的假設檢定。 使用殘差分析去評估複迴歸分析的假設。 計算相關獨立變數的影響。 了解與使用屬性獨立變數。

複迴歸分析 任意多個獨立變數(k),其公式如下所示: 此方程式是由最小平方法建立。 因為判斷 b1、b2 等係數的過程非常繁雜,因此建議採用 Excel 或 MINITAB 軟體計算。

複迴歸與相關分析 兩個獨立變數,其複迴歸方程式的一般形式為: 其中 X1 與 X2 是兩獨立變數。 a 是截距,亦即方程式通過 Y 軸的點。 b1 是當 X2 保持不變時, X1 每變動一單位 Y' 的淨改變量。 它被稱為偏迴歸係數、淨迴歸係數或迴歸係數。 b2 是 X1當保持不變時, X2 每變動一單位 Y' 的淨變動量。

Regression Plane for a 2-Independent Variable Linear Regression Equation

範例 Salsberry 不動產公司專門銷售位於美國東岸的房子。該公司最常接到的問題之一是:冬天時需要花多少錢在房屋的暖氣上?研究部門被要求建立一套有關房屋暖氣花費的指導方針。有三個變數與暖氣的成本有關:(1) 每天戶外的平均溫度(℉)、(2) 屋頂天花板厚度(以英寸為單位)和 (3) 暖氣爐的使用年數。研究部門隨機選擇最近剛賣出的 20 棟房屋為樣本。根據樣本 1 月份的暖氣花費,以及該地區 1 月份的平均室外溫度、屋頂天花板厚度、暖氣爐使用年數等進行研判。表 14-1 列示了相關樣本資料。

範例 continued 表 14-1 20 棟房屋之樣本 1 月份影響暖氣花費的因子

範例 continued 請計算複迴歸方程式。哪些變數是獨立變數?哪些變數是相依變數?請討論迴歸係數。為什麼有些為正、有些為負呢?截距值是多少?假設平均室外溫度是 30 度、天花板的厚度為 5 英寸且暖氣爐的使用年數為 10 年,請估計這間房屋的暖氣花費是多少?

範例 continued 相依變數是 1 月份的暖氣花費,用 Y 表示。此外,有三個獨立變數: 平均室外溫度,用 X1 表示。 屋頂天花板厚度,用 X2 表示。 暖爐使用年數,用 X3 表示。 用 來估計 Y。具有三個獨立變數之複迴歸方程式的一般式為:

Multiple Linear Regression – Minitab Example

範例 continued

範例 continued 複迴歸方程式的估計式為 假若知道平均室外溫度、屋頂天花板厚度、以及暖爐使用年數,則我們就可以預估 1 月份的暖氣花費。舉例說明,如果平均室外溫度是 30 度(X1),屋頂天花板厚度是 5 英吋(X2),暖爐使用年數是 10 年(X3),把這些值代入上式的獨立變數中而得到:

範例 continued 平均室外溫度的迴歸係數-4.583 是負數,表示暖氣花費與室外溫度呈現反向關係。這樣的結果並不令人感到意外,隨著室外溫度增加,房屋的暖氣花費則減少。如果平均室外溫度每增加 1 度,而固定另外兩個獨立變數,可預期房屋每月的暖氣花費將減少 $4.583。如果波士頓的平均室外溫度為 25 度,而費城的室外平均溫度為 35 度,在其他條件不變的情況下,預期在費城的暖氣花費將比波士頓少 $45.83。

範例 continued 至於「屋頂天花板厚度」這個變數也是反向關係,代表天花板厚度愈厚,房屋的暖氣花費就愈少,所以係數為負號也合乎邏輯。假設固定平均室外溫度與暖氣爐使用年數,那麼每增加 1 英寸的天花板厚度,預期每月的房屋暖氣花費將減少 $14.83。

範例 continued 變數「暖氣爐使用年數」則為正向關係,亦即使用年數愈多,房屋的暖氣成本也就愈高。暖氣爐的使用年數每增加 1 年,預期每個月房屋的暖氣成本會增加 $6.1。

複迴歸的估計標準誤 複迴歸估計標準誤是描述在迴歸線周圍的變異程度。 其衡量單位與獨立變數相等。 其不能判斷哪一個標準誤較大或較小。

複迴歸的估計標準誤 計算公式為:

複迴歸與複相關的假設 相依變數與獨立變數具有線性關係: 獨立變數與相依變數間必須具有線性關係。 相依變數必須是連續變數,且觀測資料至少是區間尺度。 所有 Y 值的實際值與預估值間的變異程度皆相同。也就是,所有 Y 值的每個(Y- )必須要接近相等。這種情形下的差距稱為等差(homoscedasticity)。 由Y- 所計算出來的殘差必須服從平均數為0的常態分配。

例子 既然有三個獨立變數,複迴歸估計標準誤寫為 要如何解釋估計標準誤 51.05 這個值呢?這表示當使用這個方程式預測花費時所出現的誤差。首先,估計標準誤的單位與相依變數的單位相同,所以單位是元。第二,如果殘差近似常態分配,大約有 68% 的殘差是在 ±51.05 之間,以及大約有 95% 落在 (±2  51.05) = ±102.1 之間。

Excel solution

ANOVA 表 ANOVA表格可分析獨立變數的變異度。 此變異可分為兩部分: 可以由複迴歸所解釋的變異,亦即由獨立變數解釋的變異。 殘差誤差,或稱不可解釋的變異。

ANOVA 表 表頭為 SS 的欄位代表平方和,或稱變異程度 總變異 = SS total 誤差變異 = SSE 迴歸變異 = SSR = SS total-SSE 表頭為 MS(均方)的欄位,是將 SS 項除以 df 而得。所以,均方迴歸 MSR 等於 SSR/k MSE 等於 SSE/[n-(k + 1)]

複判定係數 複判定係數(coefficient of multiple determination)在相依變數 Y 之總變異中,可由獨立變數 X1, X2, X3, ……, Xk 來解釋的部分。

複判定係數 複判定係數的性質如下: 標示為 R2。 值介於 0 到 1 之間。值接近 0 代表獨立變數與相依變數之間的相關性很小。值接近 1 代表獨立變數與相依變數之間的相關性很大。 不能為負數。因為平方的數不可以是負數。 因為 R2 的值介於 0 到 1 之間,很容易解釋與比較。

複判定係數 計算公式如下:

調整複判定係數 在複迴歸方程式中獨立變數的個數會使得判定係數 變大,每增加一個新的獨立變數皆會使得預測更為 精確。造成 SSE 更小,SSR 更大。因此, R2 的增加 是因為獨立變數的總個數,而不是因為新增的獨立 變數是相依變數的好預測因子。事實上,若變數個 數與樣本數相等,則判定係數為 1。這種情形是有 問題的。為平衡獨立變數的個數所造成複判定係數 的影響,統計軟體使用調整複判定係數。

調整複判定係數 計算公式如下:

例子 用公式 [14-3] 計算複判定係數: 如何解釋這個值?我們說:獨立變數(平均室外溫度、屋頂天花板厚度、暖爐使用年數)可解釋暖氣花費總變異的 80.4%。換句話說,19.6% 的變異是由於誤差或是由沒考慮的變數所造成。ANOVA 表格中,19.6% 是誤差的平方和除以平方總和。

例子 continued 暖氣花費的範例,調整複判定係數如下: 請比較判定係數 R2 為 0.8,而調整複判定係數 為 0.77。

聯合檢定:檢定複迴歸模式是否有效 能夠檢定獨立變數對相依變數 Y 的解釋能力有多少。以問句的方式詮釋:可以不依賴獨立變數來估計相依變數嗎?這個檢定稱為聯合檢定(global test)。

聯合檢定 檢定統計量為 F 分配,其自由度為 k 與 n-(k + 1) ,其中 n 為樣本個數。

找尋F臨界值

找出計算之F值

解讀 計算出F值為21.90,在拒絕域內,故拒絕H0。 虛無假設之所有複迴歸參數皆為0,故拒絕之。 解讀:某些獨立變數(amount of insulation, etc.)具有解釋相依(heating cost)變異能力。

個別迴歸係數的檢定 個別檢定為對個別變數進行檢定,判斷哪些迴歸係數為 0 哪些不為 0。 如果一個β值等於 0,則代表該獨立變數無法解釋相依變數的任何變異。因此,當發現係數不能拒絕時,就必須將它從迴歸方程式中剔除。 檢定統計量為 t 分配,以及其自由度為 n-(k + 1) 。

個別迴歸係數的檢定 公式如下: 其中 bj 為任何一個迴歸係數,sbi 為迴歸係數 bj 之分配的標準差。

斜率之臨界t-stat

計算斜率之 t-stat

斜率顯著性結論

殘差分析 殘差為實際變數 Y 與預測變數 Y' 間的差異。 想要了解殘差是否服從常態分配 ,可以使用直方圖來表示。

殘差圖

殘差直方圖

評估複迴歸的假設 線性關係:獨立變數與相依變數間必須具有線性關係。 大與小的 值產生相同的殘差變異:不管的大小, 是不相關的。 大與小的 值產生相同的殘差變異:不管的大小, 是不相關的。 殘差服從常態機率分配:殘差 是實際值 Y 與估計值 的差異,它近似常態分配,且平均數為0。

評估複迴歸的假設 獨立變數之間不應該有相關。 殘差是獨立的。即相依變數的相鄰觀測值是不相關的。但當時間因素被考慮進樣本觀測值,則這項假設經常不滿足。

變異膨脹因子 變異膨脹因子(variance inflation factor )公式如下: 是判定係數,挑選的獨立變數被使用作為相依變數,剩下的獨立變數仍然作為獨立變數。若 VIF > 10,則顯示獨立變數應被刪除。

獨立的觀測 迴歸分析與相關分析的第五個假設是:殘差應該是獨立的。即殘差應該沒有固定的形式,它們應該不會相關。如果殘差有相關,這種情況稱為自相關(autocorrelation)。自相關經常發生在資料蒐集的過程持續一段時間。

質變數 通常希望在分析中使用名目尺度的變數──例如:性別區分、房屋是否有游泳池、或是球賽在主客場等。因為它們描述了一個特定的性質,所以稱為質變數(qualitative variables)。

虛擬變數 為了將質變數利用在迴歸分析中,使用虛擬變數來表示兩個可能的條件,並將之編碼為 0 或 1。 虛擬變數(dummy variables):一種只有兩個可能結果的變數。進行分析時,將其中一個結果編碼為 1 ,另一個結果編碼為 0。

範例 表 14-1 的範例,有三個獨立變數與暖氣的成本有關:戶外溫度、天花板厚度、暖氣爐的使用年數。為所有獨立變數建立相關矩陣。是否有多重共線性的問題?為每個獨立變數求出變異膨脹因子,並解釋之。

範例 continued 運用 MINITAB 套裝軟體來建立相關矩陣。部分輸出如下:

範例 continued 沒有一個獨立變數的相關性超過-0.7 與 0.7 以外,所以沒有多重共線性的問題。獨立變數最大的相關性是-0.486 出現在使用年數與戶外溫度。 為了確定這個結論,我們為每個獨立變數求出變異膨脹因子。首先考慮戶外溫度。把戶外溫度當作相依變數,把天花板厚度與暖氣爐使用年數當作獨立變數,求戶外溫度的複判定係數。部分 MINITAB 輸出如下頁所示。

範例 continued 部分 MINITAB 輸出:

範例 continued 判定係數是 0.241,代入 VIF 公式,得到 求天花板厚度的 VIF,把天花板厚度當作相依變數,把戶外溫度與暖氣爐使用年數當作獨立變數。再求判定係數 ,代入公式 [14-7],得到 VIF。 實際上,MINITAB 可求出每個獨立變數的 VIF,其值請見上表 MINITAB 輸出最右邊一行,兩個值皆是 1。因此,這題並沒有多重共線性的問題。