數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.

Slides:



Advertisements
Similar presentations
第8章 非线性回归 8.1 可化为线性回归的曲线回归 8.2 多项式回归 8.3 非线性模型 8.4 本章小结与评注.
Advertisements

2016年全国中级会计资格考试 经济法 主讲老师:葛江静.
计量经济学 第五章 异 方 差 性.
南台科技大學 萬金生教授 九十八年六月十二日
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Chapter 15 複迴歸.
第8章 相关分析 一元线性相关分析 多元线性相关分析 相 关 分 析 相关系数 相关指数 直线相关 曲线相关 相关分析概述 相关分析的意义
双变量关联性分析.
2017/3/9 实验误差及其控制 魏敏杰 陈 杰 阮 强 王振宁 单凤平 孟繁浩 富伟能 陈 磊 中国医科大学.
變異數分析 (Analysis-of-Variance簡稱ANOVA)
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
多元迴歸 Multiple Regression
经济长周期视角下的保险资金运用研究 北京大学经济学院 朱南军 中国人民大学汉青研究院 翟建辉 清华大学工程物理系 冯玉林
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
單因子實驗 設計 (Single­factor experiments)
Analysis of Variance 變異數分析
Chapter 2 簡單迴歸模型.
R軟體統計分析 常態分配與次數分配表 統計推論與各種檢定 羅吉斯迴歸和決策樹 迴歸分析和變異數分析.
第 14 章 複迴歸與相關分析.
第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
第十六章 無母數統計 陳順宇 教授 成功大學統計系.
課程九 迴歸與相關1.
第六章 正态条件下回归的推论.
一元线性回归(二).
第一章.
Stochastic Relationships and Scatter Diagrams
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
第14章 迴歸分析與複迴歸分析  本章的學習主題 
非均一性的誤差變異數 and SERIAL CORRELATION
Logistic Regression Appiled Linear Statistical Models,由Neter等著
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
Chapter 14 Simple Linear Regression
第13章變異數分析與多變數分析  本章的學習主題  1. 變異數分析的應用時機 2. 變異數分析的假設前提
統計學報告 冷飲糖度調查,香煙漲價調查 指導老師:蘇明俊老師 運管二乙 組員:李冠毅 林緯彬
楊志強 博士 多變量分析在測驗暨量表編製之應用 楊志強 博士
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
十、變方分析 (Analysis of Variance) (Chapter 10)
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
相關係數(Correlation) 描述兩個變數X、Y之間的線性相關 Example: data1中的身高及體重 如何量化這樣的線性關係呢?
以每年參觀Lake Keepit的人數為例
庄文忠 副教授 世新大学行政管理学系 相关分析与简单回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.
MyLibrary ——数字图书馆的个性化服务
Liner regression analysis
一、迴歸分析的基本概念 二、SPSS的線性迴歸分析 三、迴歸模型的檢驗與意義
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室
義守大學財金系教授 許碧峰 電話: 存活分析與臨床應用 義守大學財金系教授 許碧峰 電話:
日光燈製造業 勞工汞蒸氣暴露評估技術探討 勞工安全衛生研究所 謝俊明 林雲卿 4/18/2019.
課程十 迴歸3.
指導老師:謝文魁 老師 組員:邱獻德 蔡雅芳 鐘筱嬿 陳姿伶 王彥婷
(multiple linear regression)
第二章 经典线性回归模型: 双变量线性回归模型
統計學回顧 區國強.
第3章 空间力系的简化与平衡 §3–1 空间力系的简化 §3–2 空间力系的平衡 §3–3 物体的重心 §3–4 平行力系中心.
統計學 比較各廠牌啤酒 及不同容量的銷售量影響 組員: 指導老師:蘇明俊老師 謝德翰 郭逸昌
資本結構影響因素之探討 以上市公司為例 指導老師:包倩華老師 組 員:張安琪 連婉君.
Logistic回归 Logistic regression 研究生《医学统计学》.
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
生物统计学 Biostatistics 第一章 统计数据的收集与整理
Multiple Regression: Estimation and Hypothesis Testing
数据挖掘 DATA MINING 刘 鹏 张 燕 总主编 王朝霞 主编 施建强 杨慧娟 陈建彪 副主编
南華大學旅遊事業管理學研究所副教授 中正大學會計資訊系兼任副教授 丁誌魰 博士
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Presentation transcript:

數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司

一、自我介紹 工作經歷 About Me 學習經歷 2016.2—至今 深圳國泰安教育技術股份有限公司 大數據產品總監 2014.7—2016.1 南方科技大學 助理研究員 學習經歷 2011.7—2014.6 復旦大學 計算機應用技術專業 2007.9—2011.6 西北工業大學 數學與應用數學專業

從大量數據中尋找其規律的技術,是統計學、數據庫技術和人工智慧技術的綜合。 二、什麼是數據挖掘? 礦山(數據) 挖掘(算法) 金子(知識) 從大量數據中尋找其規律的技術,是統計學、數據庫技術和人工智慧技術的綜合。

三、數據挖掘技術 技術分類 數據挖掘技術 預言(Predication):用歷史預測未來 描述(Description):瞭解數據中潛在的規律 數據挖掘技術 關聯分析 序列模式 分類(預言) 聚集 異常檢測 ……

目錄 1 2 3 4 回歸分析 分類 聚類 降維 5 6 7 8 推薦過濾 排序 優化 相關分析

第一章 回歸分析 王海

如: 人的體重與身高、胸圍 血壓值與年齡、性別、勞動強度、飲食習慣、吸煙狀況、家族史 一個變量的變化直接與另一組變量的變化有關: 人的體重與身高、胸圍 血壓值與年齡、性別、勞動強度、飲食習慣、吸煙狀況、家族史 糖尿病人的血糖與胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂 射頻治療儀定向治療腦腫瘤過程中,腦皮質的毀損半徑與輻射的溫度、照射的時間 如:

回歸分析 ε 概念: 回歸分析研究一組自變量如何直接影響一個因變量。 y 自變量(Independent variable)是指獨立自由變化的變量,用向量x表示;因變量(Dependent variable)是指非獨立的、受其他變量影響的變量,用向量y表示。 x1 x2 y ε x3

分類 { y 回歸分析 { { 按圖形 按引數的個數 直 線 回 歸 曲線回歸 一元回歸 二元回歸 多元回歸 x

一、多元線性回歸方程模型 假定因變量y與自變量 間存在如下關係: 式中, 是常數項, 稱為偏回歸係數(Partial Regression Coefficient)。 的含義為在其他引數保持不變的條件下,自變量 改變一個單位時因變量y 的平均改變量。 為隨機誤差,又稱殘差(Residual),它表示y的變化中不能由自變量 解釋的部分。

y x1 x2

應用條件: 線性回歸模型應滿足以下條件 y與x1, x2, …, xm之間具有線性關係; 各觀測值yi (i=1,2,…,n)之間相互獨立; 殘差ε服從均值為0、方差為σ2的正態分佈,它等價於對於任意一組自變量x1, x2, …, xm,因變量y均服從正態分佈。 注意:雖然模型要求因變量是連續數值變數,但對引數的類型不限。若自變量是分類變量,特別是無序分類變量,要轉化為亞變量才能分析。對於自變量是分類變量的情形,需要用廣義線性回歸模型分析。

二、多元線性回歸分析的步驟 (一)估計各項參數,建立多元線性回歸方程模型 (二)對整個模型進行假設檢驗,模型有意義的前提下,再分別對各偏回歸係數進行假設檢驗。 (三)計算相應指標,對模型的擬合效果進行評價。

y x o (一)模型的參數估計 總體回歸參數b0,b1,……,bm均是未知的,必須利用樣本數據去估計。 估計標準:使因變量的觀察值與估計值之間的離差平方和達到最小 o x y

(一)模型的參數估計 方程中參數的估計 求回歸係數b1,b2,……,bm的方法是求解正規方程組 可用最小二乘法求得 也就是求出能使估計值和實際 觀察值的誤差平方和為最小值 的一組回歸係數值。 求回歸係數b1,b2,……,bm的方法是求解正規方程組 常數項:

序號 x1 x2 x3 x4 y 1 5.68 1.9 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.6 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.9 8.5 12.6 11.1 8 7.08 6.75 11.5 12.1 9 3.85 2.11 16.28 7.9 9.6 10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 14 6.19 1.18 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 10.1 17 6.4 2.4 10.3 14.8 18 6.06 3.67 12.79 9.1 19 5.09 1.03 2.53 8.9 20 1.71 5.28 10.2 21 5.78 3.36 2.96 22 5.43 1.13 4.31 11.3 14.9 23 6.5 6.21 3.47 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.2 26 5.84 0.92 8.61 13.3 27 3.84 6.45 10.4 例: 27名糖尿病患者的血清總膽固醇(x1)、甘油三酯(x2)、空腹胰島素(x3)、糖化血紅蛋白(x4)、空腹血糖(y)的測量值列於表中,試建立血糖與其它幾項指標關係的多元線性回歸方程。 library(xlsx) mydataframe <- read.xlsx("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\huiguiexa1.xlsx", 1) model=lm(y~x1+x2+x3+x4,data=mydataframe) summary(model)

各變量的離差矩陣 lij = x1 x2 x3 x4 y 66.0103 67.3608 -53.9523 31.3687 67.6962 172.3648 -9.4929 26.7286 89.8025 350.3106 -57.3863 -142.4347 86.4407 84.5570 222.5519 licha<-function(i,j,mydata) { imean=sum(mydata[,i]) jmean=sum(mydata[,j]) rownum=length(mydata[,i]) mulsum=0 for(k in 1:rownum) mulsum=mulsum+mydata[k,i]*mydata[k,j] } return(mulsum-(imean*jmean)/rownum)

求解後得: 線性回歸模型為: 各變量均值分別為: 則常數項為: library(xlsx) mydataframe <- read.xlsx("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\huiguiexa1.xlsx", 1) source("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\licha") A=matrix(rep(0,16),4,4) b=matrix(rep(0,4),4,1) for(i in 1:(length(mydataframe)-1)) { for(j in 1:(length(mydataframe)-1)) A[i,j]=licha(i,j,mydataframe) } b[i]=licha(i,5,mydataframe) beta=solve(A,b) 線性回歸模型為:

R實戰 ibrary(xlsx) mydataframe <- read.xlsx("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\huiguiexa1.xlsx", 1) source("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\licha") A=matrix(rep(0,16),4,4) b=matrix(rep(0,4),4,1) for(i in 1:(length(mydataframe)-1)) { for(j in 1:(length(mydataframe)-1)) A[i,j]=licha(i,j,mydataframe) } b[i]=licha(i,5,mydataframe) beta=solve(A,b) licha<-function(i,j,mydata) { imean=sum(mydata[,i]) jmean=sum(mydata[,j]) rownum=length(mydata[,i]) mulsum=0 for(k in 1:rownum) mulsum=mulsum+mydata[k,i]*mydata[k,j] } return(mulsum-(imean*jmean)/rownum)

(二)對模型及偏回歸係數的假設檢驗 1、對模型的假設檢驗—F檢驗 2、對偏回歸係數的假設檢驗—F檢驗和t 檢驗 3、標準偏化回歸係數

變差的定義 因變數 y 取值的波動稱為變差。 變差來源於兩個方面: 由於引數 x 的取值不同造成; 對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差 來表示。

圖示:變差的分解 x y { } 

變差平方和的分解 (三個平方和的意義) 總平方和(SST) 回歸平方和(SSR) 殘差(剩餘)平方和(SSE) 變差平方和的分解 (三個平方和的意義) 總平方和(SST) 反映因變量的 n 個觀察值與其均值的總離差; 回歸平方和(SSR) 反映自變量 x 的變化對因變量 y 取值變化的影響,是由於 x 與 y 之間的線性關係引起的 y 的取值變化,也稱為可解釋的平方和; 殘差(剩餘)平方和(SSE) 反映除 x 以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和或剩餘平方和;

{ 變差平方和的分解 (三個平方和的關係) SST = SSR + SSE 總平方和 (SST) 回歸平方和 (SSR) 殘差平方和 變差平方和的分解 (三個平方和的關係) SST = SSR + SSE 總平方和 (SST) { 回歸平方和 (SSR) 殘差平方和 (SSE)

1、對模型的假設檢驗—F檢驗 檢驗統計量為F: SS回歸為回歸項的平方和,反映由於方程中m個自變量與因變量y 的線性關係而使因變量y 變異減小的部分; SS回歸=b1l1y+b2l2y+……+bmlmy=Σ biliy ? SS剩餘表示剩餘平方和,說明除自變量外,其他隨機因素對y變異的影響。SS剩餘=SS總-SS回歸。

各變量的離差矩陣 lij = x1 x2 x3 x4 y 66.0103 67.3608 -53.9523 31.3687 67.6962 172.3648 -9.4929 26.7286 89.8025 350.3106 -57.3863 -142.4347 86.4407 84.5570 222.5519 SS回歸=b1l1y+ b2l2y + b3l3y + b4l4y =0.1424×67.6962+0.3515×89.8025+0.2706×142.4347+0.6382×84.5570 =133.7107; v回歸=m=4

1、對模型的假設檢驗—F檢驗 SS總=lyy=222.5519;v總=n-1=26 SS剩餘= SS總- SS回歸=222.5519-133.7107=88.8412 v剩餘=n-m-1=22 MS回歸= SS回歸/v回歸; MS剩餘= SS剩餘/v剩餘; F= MS回歸/ MS剩餘

1、對模型的假設檢驗—F檢驗 變異來源 自由度 SS MS F P 總變異 n-1 SS總 回歸 m SS回 SS回/m MS回/MS殘 殘差 n-m-1 SS殘 SS殘/(n-m-1) Source 變異來源 DF 自由度 Sum of Squares SS Mean Square MS F Value F值 Pr>F P值 Corrected Total(總) 26 222.55185 Model(回歸) 4 133.71069 33.42767 8.28 0.0003 Error(殘差) 22 88.84117 4.03823

R實戰 d = 密度函數(density) p = 分佈函數(distribution function) q = 分位數函數(quantile function) r = 生成隨機數(隨機偏差) 分佈名稱 縮寫 Beta分佈 beta Logistic分佈 logis 二項分佈 binom 多項分佈 multinom 柯西分佈 cauchy 負二項分佈 nbinom 卡方分佈 chisq 正態分佈 norm 指數分佈 exp 泊松分佈 pois F分佈 f Wilcoxon符號秩分佈 signrank Gamma分佈 gamma t分佈 t 幾何分佈 geom 均勻分佈 unit 超幾何分佈 hyper Weibull分佈 weibull 對數正態分佈 lnorm Wilcoxon秩和分佈

2、對偏回歸係數的假設檢驗—F檢驗和t檢驗 回歸方程成立只能認為總的來說自變量與因變量間存在線性關係,但是否每一個自變量都與因變量間存在線性關係,須對其偏回歸係數進行假設檢驗。 ① 方差分析法 ② t 檢驗法

檢驗統計量為 ① 偏回歸係數的假設檢驗--方差分析法 計算xi的偏回歸平方和(Sum of Squares for partial regression)Ui,它表示模型中含有其他m-1個自變量的條件下該自變量對y的回歸貢獻,相當於從回歸方程中剔除xi後所引起的回歸平方和減少量。 偏回歸平方和Ui越大說明引數xi越重要。 檢驗統計量為

① 偏回歸係數的假設檢驗--方差分析法 x1,x2,x3,x4 x2,x3,x4 x1,x3,x4 x1,x2,x4 x1,x2,x3 回歸方程中包含的自變量 平方和(變異) SS回歸 SS剩餘 x1,x2,x3,x4 133.7107 88.8412 x2,x3,x4 133.0978 89.4540 x1,x3,x4 121.7480 100.8038 x1,x2,x4 113.6472 108.9047 x1,x2,x3 105.9168 116.6351

②偏回歸係數的假設檢驗— t 檢驗 t檢驗法與方差分析法完全等價 公式為: 式中bi是偏回歸係數的估計值,SE(bi)是bi的標準差 Parameter Standard Standardized Variable DF Estimate Error t Value Pr > |t| Estimate 變數 自由度 偏回歸係數 標準誤差 t 值 P值 標準化回歸係數 Intercept 22 5.94327 2.82859 2.10 0.0473 0 x1 22 0.14245 0.36565 0.39 0.7006 0.07758 x2 22 0.35147 0.20420 1.72 0.0993 0.30931 x3 22 -0.27059 0.12139 -2.23 0.0363 -0.33948 x4 22 0.63820 0.24326 2.62 0.0155 0.39774

3.標準偏回歸係數 多元線性回歸方程中,各自變量的單位不同,其偏回歸係數之間是無法直接比較的。需要對偏回歸係數標準化,以消除量綱的影響。 標準化的偏回歸係數稱為標準化偏回歸係數(Standard Partial Regression Coefficient)。標準偏回歸係數與偏回歸係數之間的關係為 注意 標準偏回歸係數絕對值的大小,可以用以衡量自變量對因變量貢獻的大小,即說明各自變量在多元回歸方程中的重要性。

3、標準化偏回歸係數 變量 回歸係數bj 標準化偏回歸係數b'j x1 0.14245 0.07758 x2 0.35147 0.30931 -0.27059 -0.33948 x4 0.6382 0.39774

(三)計算相應指標,對模型的擬合效果進行評價 評價回歸方程回歸效果的優劣是回歸分析的重要內容之一。 常用評價指標有: 複相關係數、 決定係數、 校正決定係數、 剩餘標準差等。

1.複相關係數 複相關係數(R),衡量因變量y與回歸方程內所有自變量線性組合件相關關係的密切程度。 0<=R<=1,沒有負值;如果只有一個自變量R=|r|。 R的值越接近1,說明相關關係越密切;越接近0說明相關關係越弱。

例:利用回歸直線方程對總體進行相關性檢驗 煉鋼是一個氧化降碳的過程,鋼水含碳量的多少直接影響冶煉時間的長短,必須掌握鋼水含碳量和冶煉時間的關係。如果已測得爐料熔化完畢時,鋼水的含碳量x與冶煉時間y(從爐料熔化完畢到出剛的時間)的一列數據,如下表所示: x(0.01%) 104 180 190 177 147 134 150 191 204 121 y(min) 100 200 210 185 155 135 170 205 235 125 x<-c(104,180,190,177,147,134,150,191,204,121) y<-c(100,200,210,185,155,135,170,205,235,123) G<-data.frame(x,y) plot(y~x,data=G,pch=16,col="red") model<-lm(y~x,data=G) abline(model,lty=2) summary(model) (1)y與x是否具有線性相關關係; (2)如果具有線性相關關係,求回歸直線方程; (3)預測當鋼水含碳量為160個0.01%時,應冶煉多少分鐘?

(1)列出下表,並計算 i 1 2 3 4 5 6 7 8 9 10 xi 104 180 190 177 147 134 150 191 204 121 yi 100 200 210 185 155 135 170 205 235 125 xiyi 10400 36000 39900 32745 22785 18090 25500 39155 47940 15125 於是,

(2)設所求的回歸方程為 所以回歸直線的方程為 (3)當x=160時, y =1.267.160-30.51=172

R實戰 x<-c(104,180,190,177,147,134,150,191,204,121) y<-c(100,200,210,185,155,135,170,205,235,123) G<-data.frame(x,y) plot(y~x,data=G,pch=16,col="red") model<-lm(y~x,data=G) abline(model,lty=2) summary(model)

2.決定係數 決定係數(Coefficient of Determination)表示回歸平方和占總平方和的比例,反映各自變量對因變量回歸貢獻的大小,用R2表示。 R2無單位,取值在0~1之間。值越大,說明回歸平方和在總平方和中所占的比重越大,剩餘平方和所占比例越小,回歸效果越好。

剩餘標準差越小,說明回歸效果越好! 3、剩餘標準差 剩餘標準差(Standard Deviation of Residual)為扣除m個自變量的影響後,因變量y仍然存在的變異,即不能由m個自變量的變化解釋的y的變異,用sy.123…m表示。 公式為: 剩餘標準差越小,說明回歸效果越好!

3、剩餘標準差 剩餘標準差除與剩餘平方和有關外,還與自由度有關,因此剩餘標準差與決定係數對回歸效果優劣的評價結果有時不一致。 研究者通常希望用盡可能少的引數來最大限度地解釋因變數的變異,從這個意義上來說,用剩餘標準差作為評價回歸效果的指標比決定係數更好。

校正決定係數越大,說明回歸效果越好。 4、校正決定係數 當方程中包含很多自變量時,即使其中一些自變量在解釋因變量y的變異時貢獻很小,但隨著回歸方程中自變量的增加,決定係數仍然會表現為只增不減,故計算校正決定係數(Adjusted Coefficient of Determination)以消除自變量個數的影響。 公式為: 校正決定係數越大,說明回歸效果越好。 當方程中加入有顯著作用的自變量時, 增大,剩餘標準差減小; 反之,若方程中引入無顯著作用的自變量時, 可能減小,而剩餘標準差增大。

三、逐步回歸分析 “最優回歸方程”是指: 對因變量y有顯著作用的自變量,全部選入回歸方程; 選擇“最優回歸方程”的方法有: 最優子集回歸法 向後剔除法(Backward Selection) 向前引入法(Forward Selection) 逐步回歸法(Stepwise Selection)

(一)最優子集回歸法 求出所有自變量可能組合子集的回歸方程的模型(共有2m-1個),按一定準則選擇最優模型,常用的準則有: ①校正決定係數(考慮了引數的個數) ②Cp準則(C即Criterion,p為所選模型中自變量的個數;Cp接近p+1的模型為最優) ③AIC(Akaike`s Information Criterion)準則;AIC 越小越好 s2是σ2的無偏估計

最優子集法的局限性 如果自變量個數為4,則所有的回歸有24-1=15個;當自變量個數為10時,所有可能的回歸為 210-1=1023個;…… ;當自變量個數為50時,所有可能的回歸為250-1≈1015個。

(二)逐步選擇法 1. 前進法(Forward Selection) 2. 後退法(Backward Elimination) 3. 逐步回歸法(Stepwise Regression)。 它們的共同特點是每一步只引入或剔除一個自變量。決定其取捨則基於對偏回歸平方和的F檢驗

自變量從無到有、從少到多 (1)前進法 y對每一個自變量作直線回歸,對回歸平方和最大的自變量作F檢驗,有意義(P小)則引入。 局限性:後續自變量的引入可能會使先進入方程的自變量變得不重要。

先將全部自變量放入方程,然後逐步剔除 (2)後退法 偏回歸平方和最小的自變量,作F檢驗及相應的P值,決定它是否剔除(P大) 。 建立新的回歸方程。重複上述過程。 局限性:自變量高度相關時,可能得不出正確的結果;開始時剔除的自變量即使後來變得有顯著性也不能再進入方程 。

小樣本檢驗水準 a 一般定為0.10或0.15,大樣本把a值定為0.05。 (3)逐步回歸法 雙向篩選:引入有意義的變量(前進法),剔除無意義變量(後退法) 小樣本檢驗水準 a 一般定為0.10或0.15,大樣本把a值定為0.05。 a值越小表示選取自變量的標準越嚴。

逐步回歸分析的基本思想 在供選擇的m個自變量中,依各自變量對因變量作用的大小,即偏回歸平方和(Partial Regression Sum of Squares)的大小,就對它進行假設檢驗。當p≤α時,將該自變量引入回歸方程。 新變量引入回歸方程後,對方程中原有的自變量也要進行假設檢驗,並把貢獻最小且退化為不顯著的自變量逐個剔除出方程。 因此逐步回歸每一步(引入一個自變量或剔除一個自變量)前後都要進行假設檢驗,直至既沒有自變量能夠進入方程,也沒有自變量從方程中剔除為止。回歸結束,最後所得的方程即為要求的“最優回歸方程”。

多元線性回歸的應用 第三節 多元線性回歸的應用及其注意事項 影響因素分析 估計與預測:用回歸方程進行預測時,應選擇具有較高R2值的方程。 第三節 多元線性回歸的應用及其注意事項 多元線性回歸的應用 影響因素分析 估計與預測:用回歸方程進行預測時,應選擇具有較高R2值的方程。 統計控制:指利用回歸方程進行逆估計,即通過控制自變量的值使得因變量y為給定的一個確切值或者一個波動範圍。此時,要求回歸方程的R2值要大,回歸係數的標準誤差要小。

二、 多元線性回歸應用時的注意事項 1.樣本含量 2.方程“最優”問題 3.關於逐步回歸 4.多元共線性 5. 異常值識別與強影響分析

應注意樣本含量n與自變量個數m的比例。通常,樣本含量至少為變量數的5-10倍。 1. 樣本含量 應注意樣本含量n與自變量個數m的比例。通常,樣本含量至少為變量數的5-10倍。

2. 方程最優問題 目的是精選自變量以求得擬合效果最好的多元回歸方程。最優子集回歸是選擇一組使回歸方程擬合最好的自變量,而逐步回歸則選擇對因變量作用有意義的自變量,要根據研究目的選用合適的方法。

3.關於逐步回歸 進行逐步回歸分析時,隨剔選變量界值不同,選得的回歸方程不一定相同。 方程中引入什麼樣的變量,應由研究者結合專業知識以及經驗來確定,不加分析的使用逐步回歸難以取得好的效果。 另外,逐步回歸在對大量因素進行分析時,可以先進行聚類分析,然後進行逐步回歸分析。

4.多元共線性 多元共線性是指在進行多元回歸分析時,自變量間存在較強的線性相關關係。共線關係的存在,可使得估計係數方差加大,係數估計不穩,結果分析困難。因此在多元回歸分析時,特別是當回歸結果難以用專業知識解釋時,要進行共線性診斷,找出存在共線性且不重要的那些自變量,剔出方程,另行回歸分析。 對於存在共線性的資料,可以利用共線性診斷有選擇的保留自變量以消除共線性;或者採用嶺回歸、主成分回歸等回歸分析方法以避免共線性指標對結果的影響。

多元共線性的表現在實際應用中主要表現為: (1)模型擬合效果很好,但偏回歸係數幾乎都無統計學意義; (2)偏回歸係數估計值的方差很大; (3)偏回歸係數估計值不穩定,隨著樣本含量的增減各偏回歸係數發生較大變化或當一個自變量被引入或剔除時其餘變量偏回歸係數有很大變化; (4)偏回歸係數估計值的大小與符號可能與事先期望的不一致或與經驗相悖,結果難以解釋 出現以上表現,提示存在多元共線性問題,應進行多元共線性診斷。

常用的共線性診斷指標: 方差膨脹因數VIF (1)方差膨脹因數(VIFj) 其中 為xj與其餘(m-1)個自變量線性回歸的決定係數。VIFj值越大,多元共線程度越嚴重。當VIFj≥10時,可認為多元共線性嚴重存在。 Variable DF Parameter Estimate Standard Error t Value Pr>|t| Tolerence Variance Inflation Intercept 1 6.49962 2.39615 2.71 0.0124 x2 0.40235 0.15405 2.61 0.0156 0.95078 1.05176 x3 -0.28704 0.11169 -2.57 0.0171 0.89006 1.12352 x4 0.66323 0.23026 2.88 0.0084 0.84865 1.17834 方差膨脹因數VIF

條件指數是最大特徵根與每個特徵根之比的平方根: (2)特徵根系統(System of Eigenvalues) 主要包括條件指數和方差比。 條件指數是最大特徵根與每個特徵根之比的平方根: 當hj≥10且對應的方差比大於0.5時,可認為多元共線性嚴重存在。條件指數與方差比結合起來度量共線性,不僅可以確定存在共線關係的自變量數目及其共線程度,而且還可以確定各個共線關係對每個係數方差比的貢獻。

5.異常值識別與強影響分析 異常觀測值的存在加大了數據的離散度,在線性回歸分析中產生較大的殘差,影響回歸函數的擬合度,所以應進行異常值識別和強影響分析。基本的方法有學生化殘差和Cook's距離。 (1)學生化殘差(Studentized Residual) 學生化殘差:ti=ei/s(ei),其中 ,為變量的實測值與估計值間的差值,稱為殘差;s(ei)為殘差的方差平方根。 當ti>2時,所對應的點可能是異常點。

(2)Cook's距離Di 識別出的異常觀測點並不能立即剔除,要進一步判斷它們是否為嚴重影響結果的強影響點再決定取捨。強影響度的度量用Cook's距離Di。 ti為學生化殘差, 為估計標準誤差, 為剩餘標準誤差,k為包括截距項在內的估計參數個數。 當Di>0.5時,可認為第i個觀測點對回歸函數是強影響點。 一般的,若第i個觀測點的ti >2且Di >0.5,則考慮剔除該觀測點後再做回歸分析。 其他常用的指標還有預測殘差平方和、杠杆值等。

局部加權線性回歸

解決思路:加入一個加權因子 之前在普通的線性擬合中,得到了最小二乘的損失函數為 在局部加權回歸中,損失函數變為 其中vi的表達式如下所示

在預測新樣本值時候每次都會重新訓練數據得到新的參數值,也就是說每次預測新樣本都會依賴訓練數據集合,所以每次得到的參數值是不確定的。 局部加權回歸(LWR) 在預測新樣本值時候每次都會重新訓練數據得到新的參數值,也就是說每次預測新樣本都會依賴訓練數據集合,所以每次得到的參數值是不確定的。 偽代碼: 輸入預測樣本數據:x; 根據公式計算v1,v2,……,vm; 將v1,v2,……,vm帶入損失函數,利用最小二乘法確定線性係數α,β; 預測輸出結果:y = βx+α。

R實戰-局部加權線性回歸 x=c(4,4.5,5,8,9,6,7,10.8,10,9.7,4,4,5,8.6,6.8) y=c(4,3,5,10,8,4,13,5,5.5,7.5,4.5,2.5,7,11,8) testdata=data.frame(x,y) plot(testdata) model1=loess(y~x,data=testdata,span=0.9) model2=lm(y~x,data=testdata) abline(model2) points(10.4,predict(model1,data.frame(x=10.4)),pch=15) points(10.4,predict(model2,data.frame(x=10.4)),pch=17) 線性回歸預測值 局部加權線性回歸預測值

謝謝!