Presentation is loading. Please wait.

Presentation is loading. Please wait.

數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.

Similar presentations


Presentation on theme: "數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司."— Presentation transcript:

1 數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司

2 一、自我介紹 工作經歷 About Me 學習經歷 2016.2—至今 深圳國泰安教育技術股份有限公司 大數據產品總監
2014.7—2016.1 南方科技大學 助理研究員 學習經歷 2011.7—2014.6 復旦大學 計算機應用技術專業 2007.9—2011.6 西北工業大學 數學與應用數學專業

3 從大量數據中尋找其規律的技術,是統計學、數據庫技術和人工智慧技術的綜合。
二、什麼是數據挖掘? 礦山(數據) 挖掘(算法) 金子(知識) 從大量數據中尋找其規律的技術,是統計學、數據庫技術和人工智慧技術的綜合。

4 三、數據挖掘技術 技術分類 數據挖掘技術 預言(Predication):用歷史預測未來
描述(Description):瞭解數據中潛在的規律 數據挖掘技術 關聯分析 序列模式 分類(預言) 聚集 異常檢測 ……

5 目錄 1 2 3 4 回歸分析 分類 聚類 降維 5 6 7 8 推薦過濾 排序 優化 相關分析

6 第一章 回歸分析 王海

7 如: 人的體重與身高、胸圍 血壓值與年齡、性別、勞動強度、飲食習慣、吸煙狀況、家族史
一個變量的變化直接與另一組變量的變化有關: 人的體重與身高、胸圍 血壓值與年齡、性別、勞動強度、飲食習慣、吸煙狀況、家族史 糖尿病人的血糖與胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂 射頻治療儀定向治療腦腫瘤過程中,腦皮質的毀損半徑與輻射的溫度、照射的時間 如:

8 回歸分析 ε 概念: 回歸分析研究一組自變量如何直接影響一個因變量。 y
自變量(Independent variable)是指獨立自由變化的變量,用向量x表示;因變量(Dependent variable)是指非獨立的、受其他變量影響的變量,用向量y表示。 x1 x2 y ε x3

9 分類 y 回歸分析 按圖形 按引數的個數 曲線回歸 一元回歸 二元回歸 多元回歸 x

10 一、多元線性回歸方程模型 假定因變量y與自變量 間存在如下關係:
式中, 是常數項, 稱為偏回歸係數(Partial Regression Coefficient)。 的含義為在其他引數保持不變的條件下,自變量 改變一個單位時因變量y 的平均改變量。 為隨機誤差,又稱殘差(Residual),它表示y的變化中不能由自變量 解釋的部分。

11 y x1 x2

12 應用條件: 線性回歸模型應滿足以下條件 y與x1, x2, …, xm之間具有線性關係; 各觀測值yi (i=1,2,…,n)之間相互獨立; 殘差ε服從均值為0、方差為σ2的正態分佈,它等價於對於任意一組自變量x1, x2, …, xm,因變量y均服從正態分佈。 注意:雖然模型要求因變量是連續數值變數,但對引數的類型不限。若自變量是分類變量,特別是無序分類變量,要轉化為亞變量才能分析。對於自變量是分類變量的情形,需要用廣義線性回歸模型分析。

13 二、多元線性回歸分析的步驟 (一)估計各項參數,建立多元線性回歸方程模型
(二)對整個模型進行假設檢驗,模型有意義的前提下,再分別對各偏回歸係數進行假設檢驗。 (三)計算相應指標,對模型的擬合效果進行評價。

14 y x o (一)模型的參數估計 總體回歸參數b0,b1,……,bm均是未知的,必須利用樣本數據去估計。
估計標準:使因變量的觀察值與估計值之間的離差平方和達到最小 o x y

15 (一)模型的參數估計 方程中參數的估計 求回歸係數b1,b2,……,bm的方法是求解正規方程組 可用最小二乘法求得
也就是求出能使估計值和實際 觀察值的誤差平方和為最小值 的一組回歸係數值。 求回歸係數b1,b2,……,bm的方法是求解正規方程組 常數項:

16 序號 x1 x2 x3 x4 y 1 5.68 1.9 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.6 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.9 8.5 12.6 11.1 8 7.08 6.75 11.5 12.1 9 3.85 2.11 16.28 7.9 9.6 10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 14 6.19 1.18 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 10.1 17 6.4 2.4 10.3 14.8 18 6.06 3.67 12.79 9.1 19 5.09 1.03 2.53 8.9 20 1.71 5.28 10.2 21 5.78 3.36 2.96 22 5.43 1.13 4.31 11.3 14.9 23 6.5 6.21 3.47 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.2 26 5.84 0.92 8.61 13.3 27 3.84 6.45 10.4 例: 27名糖尿病患者的血清總膽固醇(x1)、甘油三酯(x2)、空腹胰島素(x3)、糖化血紅蛋白(x4)、空腹血糖(y)的測量值列於表中,試建立血糖與其它幾項指標關係的多元線性回歸方程。 library(xlsx) mydataframe <- read.xlsx("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\huiguiexa1.xlsx", 1) model=lm(y~x1+x2+x3+x4,data=mydataframe) summary(model)

17 各變量的離差矩陣 lij = x1 x2 x3 x4 y licha<-function(i,j,mydata) { imean=sum(mydata[,i]) jmean=sum(mydata[,j]) rownum=length(mydata[,i]) mulsum=0 for(k in 1:rownum) mulsum=mulsum+mydata[k,i]*mydata[k,j] } return(mulsum-(imean*jmean)/rownum)

18 求解後得: 線性回歸模型為: 各變量均值分別為: 則常數項為: library(xlsx)
mydataframe <- read.xlsx("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\huiguiexa1.xlsx", 1) source("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\licha") A=matrix(rep(0,16),4,4) b=matrix(rep(0,4),4,1) for(i in 1:(length(mydataframe)-1)) { for(j in 1:(length(mydataframe)-1)) A[i,j]=licha(i,j,mydataframe) } b[i]=licha(i,5,mydataframe) beta=solve(A,b) 線性回歸模型為:

19 R實戰 ibrary(xlsx) mydataframe <- read.xlsx("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\huiguiexa1.xlsx", 1) source("C:\\Users\\hai.wang\\Desktop\\臺灣一科大PPT\\臺灣一科大PPT\\licha") A=matrix(rep(0,16),4,4) b=matrix(rep(0,4),4,1) for(i in 1:(length(mydataframe)-1)) { for(j in 1:(length(mydataframe)-1)) A[i,j]=licha(i,j,mydataframe) } b[i]=licha(i,5,mydataframe) beta=solve(A,b) licha<-function(i,j,mydata) { imean=sum(mydata[,i]) jmean=sum(mydata[,j]) rownum=length(mydata[,i]) mulsum=0 for(k in 1:rownum) mulsum=mulsum+mydata[k,i]*mydata[k,j] } return(mulsum-(imean*jmean)/rownum)

20 (二)對模型及偏回歸係數的假設檢驗 1、對模型的假設檢驗—F檢驗 2、對偏回歸係數的假設檢驗—F檢驗和t 檢驗 3、標準偏化回歸係數

21 變差的定義 因變數 y 取值的波動稱為變差。 變差來源於兩個方面: 由於引數 x 的取值不同造成;
對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差 來表示。

22 圖示:變差的分解 x y { }

23 變差平方和的分解 (三個平方和的意義) 總平方和(SST) 回歸平方和(SSR) 殘差(剩餘)平方和(SSE)
變差平方和的分解 (三個平方和的意義) 總平方和(SST) 反映因變量的 n 個觀察值與其均值的總離差; 回歸平方和(SSR) 反映自變量 x 的變化對因變量 y 取值變化的影響,是由於 x 與 y 之間的線性關係引起的 y 的取值變化,也稱為可解釋的平方和; 殘差(剩餘)平方和(SSE) 反映除 x 以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和或剩餘平方和;

24 { 變差平方和的分解 (三個平方和的關係) SST = SSR + SSE 總平方和 (SST) 回歸平方和 (SSR) 殘差平方和
變差平方和的分解 (三個平方和的關係) SST = SSR + SSE 總平方和 (SST) { 回歸平方和 (SSR) 殘差平方和 (SSE)

25 1、對模型的假設檢驗—F檢驗 檢驗統計量為F:
SS回歸為回歸項的平方和,反映由於方程中m個自變量與因變量y 的線性關係而使因變量y 變異減小的部分; SS回歸=b1l1y+b2l2y+……+bmlmy=Σ biliy ? SS剩餘表示剩餘平方和,說明除自變量外,其他隨機因素對y變異的影響。SS剩餘=SS總-SS回歸。

26 各變量的離差矩陣 lij = x1 x2 x3 x4 y SS回歸=b1l1y+ b2l2y + b3l3y + b4l4y =0.1424× × × × = ; v回歸=m=4

27 1、對模型的假設檢驗—F檢驗 SS總=lyy= ;v總=n-1=26 SS剩餘= SS總- SS回歸= = v剩餘=n-m-1=22 MS回歸= SS回歸/v回歸; MS剩餘= SS剩餘/v剩餘; F= MS回歸/ MS剩餘

28 1、對模型的假設檢驗—F檢驗 變異來源 自由度 SS MS F P 總變異 n-1 SS總 回歸 m SS回 SS回/m MS回/MS殘
殘差 n-m-1 SS殘 SS殘/(n-m-1) Source 變異來源 DF 自由度 Sum of Squares SS Mean Square MS F Value F值 Pr>F P值 Corrected Total(總) 26 Model(回歸) 4 8.28 0.0003 Error(殘差) 22

29 R實戰 d = 密度函數(density) p = 分佈函數(distribution function)
q = 分位數函數(quantile function) r = 生成隨機數(隨機偏差) 分佈名稱 縮寫 Beta分佈 beta Logistic分佈 logis 二項分佈 binom 多項分佈 multinom 柯西分佈 cauchy 負二項分佈 nbinom 卡方分佈 chisq 正態分佈 norm 指數分佈 exp 泊松分佈 pois F分佈 f Wilcoxon符號秩分佈 signrank Gamma分佈 gamma t分佈 t 幾何分佈 geom 均勻分佈 unit 超幾何分佈 hyper Weibull分佈 weibull 對數正態分佈 lnorm Wilcoxon秩和分佈

30 2、對偏回歸係數的假設檢驗—F檢驗和t檢驗
回歸方程成立只能認為總的來說自變量與因變量間存在線性關係,但是否每一個自變量都與因變量間存在線性關係,須對其偏回歸係數進行假設檢驗。 ① 方差分析法 ② t 檢驗法

31 檢驗統計量為 ① 偏回歸係數的假設檢驗--方差分析法
計算xi的偏回歸平方和(Sum of Squares for partial regression)Ui,它表示模型中含有其他m-1個自變量的條件下該自變量對y的回歸貢獻,相當於從回歸方程中剔除xi後所引起的回歸平方和減少量。 偏回歸平方和Ui越大說明引數xi越重要。 檢驗統計量為

32 ① 偏回歸係數的假設檢驗--方差分析法 x1,x2,x3,x4 x2,x3,x4 x1,x3,x4 x1,x2,x4 x1,x2,x3
回歸方程中包含的自變量 平方和(變異) SS回歸 SS剩餘 x1,x2,x3,x4 x2,x3,x4 x1,x3,x4 x1,x2,x4 x1,x2,x3

33 ②偏回歸係數的假設檢驗— t 檢驗 t檢驗法與方差分析法完全等價 公式為: 式中bi是偏回歸係數的估計值,SE(bi)是bi的標準差
Parameter Standard Standardized Variable DF Estimate Error t Value Pr > |t| Estimate 變數 自由度 偏回歸係數 標準誤差 t 值 P值 標準化回歸係數 Intercept x x x x

34 3.標準偏回歸係數 多元線性回歸方程中,各自變量的單位不同,其偏回歸係數之間是無法直接比較的。需要對偏回歸係數標準化,以消除量綱的影響。
標準化的偏回歸係數稱為標準化偏回歸係數(Standard Partial Regression Coefficient)。標準偏回歸係數與偏回歸係數之間的關係為 注意 標準偏回歸係數絕對值的大小,可以用以衡量自變量對因變量貢獻的大小,即說明各自變量在多元回歸方程中的重要性。

35 3、標準化偏回歸係數 變量 回歸係數bj 標準化偏回歸係數b'j x1 0.14245 0.07758 x2 0.35147 0.30931
x4 0.6382

36 (三)計算相應指標,對模型的擬合效果進行評價
評價回歸方程回歸效果的優劣是回歸分析的重要內容之一。 常用評價指標有: 複相關係數、 決定係數、 校正決定係數、 剩餘標準差等。

37 1.複相關係數 複相關係數(R),衡量因變量y與回歸方程內所有自變量線性組合件相關關係的密切程度。 0<=R<=1,沒有負值;如果只有一個自變量R=|r|。 R的值越接近1,說明相關關係越密切;越接近0說明相關關係越弱。

38 例:利用回歸直線方程對總體進行相關性檢驗
煉鋼是一個氧化降碳的過程,鋼水含碳量的多少直接影響冶煉時間的長短,必須掌握鋼水含碳量和冶煉時間的關係。如果已測得爐料熔化完畢時,鋼水的含碳量x與冶煉時間y(從爐料熔化完畢到出剛的時間)的一列數據,如下表所示: x(0.01%) 104 180 190 177 147 134 150 191 204 121 y(min) 100 200 210 185 155 135 170 205 235 125 x<-c(104,180,190,177,147,134,150,191,204,121) y<-c(100,200,210,185,155,135,170,205,235,123) G<-data.frame(x,y) plot(y~x,data=G,pch=16,col="red") model<-lm(y~x,data=G) abline(model,lty=2) summary(model) (1)y與x是否具有線性相關關係; (2)如果具有線性相關關係,求回歸直線方程; (3)預測當鋼水含碳量為160個0.01%時,應冶煉多少分鐘?

39 (1)列出下表,並計算 i 1 2 3 4 5 6 7 8 9 10 xi 104 180 190 177 147 134 150 191 204 121 yi 100 200 210 185 155 135 170 205 235 125 xiyi 10400 36000 39900 32745 22785 18090 25500 39155 47940 15125 於是,

40 (2)設所求的回歸方程為 所以回歸直線的方程為 (3)當x=160時, y = =172

41 R實戰 x<-c(104,180,190,177,147,134,150,191,204,121) y<-c(100,200,210,185,155,135,170,205,235,123) G<-data.frame(x,y) plot(y~x,data=G,pch=16,col="red") model<-lm(y~x,data=G) abline(model,lty=2) summary(model)

42 2.決定係數 決定係數(Coefficient of Determination)表示回歸平方和占總平方和的比例,反映各自變量對因變量回歸貢獻的大小,用R2表示。 R2無單位,取值在0~1之間。值越大,說明回歸平方和在總平方和中所占的比重越大,剩餘平方和所占比例越小,回歸效果越好。

43 剩餘標準差越小,說明回歸效果越好! 3、剩餘標準差
剩餘標準差(Standard Deviation of Residual)為扣除m個自變量的影響後,因變量y仍然存在的變異,即不能由m個自變量的變化解釋的y的變異,用sy.123…m表示。 公式為: 剩餘標準差越小,說明回歸效果越好!

44 3、剩餘標準差 剩餘標準差除與剩餘平方和有關外,還與自由度有關,因此剩餘標準差與決定係數對回歸效果優劣的評價結果有時不一致。 研究者通常希望用盡可能少的引數來最大限度地解釋因變數的變異,從這個意義上來說,用剩餘標準差作為評價回歸效果的指標比決定係數更好。

45 校正決定係數越大,說明回歸效果越好。 4、校正決定係數
當方程中包含很多自變量時,即使其中一些自變量在解釋因變量y的變異時貢獻很小,但隨著回歸方程中自變量的增加,決定係數仍然會表現為只增不減,故計算校正決定係數(Adjusted Coefficient of Determination)以消除自變量個數的影響。 公式為: 校正決定係數越大,說明回歸效果越好。 當方程中加入有顯著作用的自變量時, 增大,剩餘標準差減小; 反之,若方程中引入無顯著作用的自變量時, 可能減小,而剩餘標準差增大。

46 三、逐步回歸分析 “最優回歸方程”是指: 對因變量y有顯著作用的自變量,全部選入回歸方程;
選擇“最優回歸方程”的方法有: 最優子集回歸法 向後剔除法(Backward Selection) 向前引入法(Forward Selection) 逐步回歸法(Stepwise Selection)

47 (一)最優子集回歸法 求出所有自變量可能組合子集的回歸方程的模型(共有2m-1個),按一定準則選擇最優模型,常用的準則有:
①校正決定係數(考慮了引數的個數) ②Cp準則(C即Criterion,p為所選模型中自變量的個數;Cp接近p+1的模型為最優) ③AIC(Akaike`s Information Criterion)準則;AIC 越小越好 s2是σ2的無偏估計

48 最優子集法的局限性 如果自變量個數為4,則所有的回歸有24-1=15個;當自變量個數為10時,所有可能的回歸為 210-1=1023個;…… ;當自變量個數為50時,所有可能的回歸為250-1≈1015個。

49 (二)逐步選擇法 1. 前進法(Forward Selection) 2. 後退法(Backward Elimination)
3. 逐步回歸法(Stepwise Regression)。 它們的共同特點是每一步只引入或剔除一個自變量。決定其取捨則基於對偏回歸平方和的F檢驗

50 自變量從無到有、從少到多 (1)前進法 y對每一個自變量作直線回歸,對回歸平方和最大的自變量作F檢驗,有意義(P小)則引入。
局限性:後續自變量的引入可能會使先進入方程的自變量變得不重要。

51 先將全部自變量放入方程,然後逐步剔除 (2)後退法 偏回歸平方和最小的自變量,作F檢驗及相應的P值,決定它是否剔除(P大) 。
建立新的回歸方程。重複上述過程。 局限性:自變量高度相關時,可能得不出正確的結果;開始時剔除的自變量即使後來變得有顯著性也不能再進入方程 。

52 小樣本檢驗水準 a 一般定為0.10或0.15,大樣本把a值定為0.05。
(3)逐步回歸法 雙向篩選:引入有意義的變量(前進法),剔除無意義變量(後退法) 小樣本檢驗水準 a 一般定為0.10或0.15,大樣本把a值定為0.05。 a值越小表示選取自變量的標準越嚴。

53 逐步回歸分析的基本思想 在供選擇的m個自變量中,依各自變量對因變量作用的大小,即偏回歸平方和(Partial Regression Sum of Squares)的大小,就對它進行假設檢驗。當p≤α時,將該自變量引入回歸方程。 新變量引入回歸方程後,對方程中原有的自變量也要進行假設檢驗,並把貢獻最小且退化為不顯著的自變量逐個剔除出方程。 因此逐步回歸每一步(引入一個自變量或剔除一個自變量)前後都要進行假設檢驗,直至既沒有自變量能夠進入方程,也沒有自變量從方程中剔除為止。回歸結束,最後所得的方程即為要求的“最優回歸方程”。

54 多元線性回歸的應用 第三節 多元線性回歸的應用及其注意事項 影響因素分析 估計與預測:用回歸方程進行預測時,應選擇具有較高R2值的方程。
第三節 多元線性回歸的應用及其注意事項 多元線性回歸的應用 影響因素分析 估計與預測:用回歸方程進行預測時,應選擇具有較高R2值的方程。 統計控制:指利用回歸方程進行逆估計,即通過控制自變量的值使得因變量y為給定的一個確切值或者一個波動範圍。此時,要求回歸方程的R2值要大,回歸係數的標準誤差要小。

55 二、 多元線性回歸應用時的注意事項 1.樣本含量 2.方程“最優”問題 3.關於逐步回歸 4.多元共線性 5. 異常值識別與強影響分析

56 應注意樣本含量n與自變量個數m的比例。通常,樣本含量至少為變量數的5-10倍。
1. 樣本含量 應注意樣本含量n與自變量個數m的比例。通常,樣本含量至少為變量數的5-10倍。

57 2. 方程最優問題 目的是精選自變量以求得擬合效果最好的多元回歸方程。最優子集回歸是選擇一組使回歸方程擬合最好的自變量,而逐步回歸則選擇對因變量作用有意義的自變量,要根據研究目的選用合適的方法。

58 3.關於逐步回歸 進行逐步回歸分析時,隨剔選變量界值不同,選得的回歸方程不一定相同。 方程中引入什麼樣的變量,應由研究者結合專業知識以及經驗來確定,不加分析的使用逐步回歸難以取得好的效果。 另外,逐步回歸在對大量因素進行分析時,可以先進行聚類分析,然後進行逐步回歸分析。

59 4.多元共線性 多元共線性是指在進行多元回歸分析時,自變量間存在較強的線性相關關係。共線關係的存在,可使得估計係數方差加大,係數估計不穩,結果分析困難。因此在多元回歸分析時,特別是當回歸結果難以用專業知識解釋時,要進行共線性診斷,找出存在共線性且不重要的那些自變量,剔出方程,另行回歸分析。 對於存在共線性的資料,可以利用共線性診斷有選擇的保留自變量以消除共線性;或者採用嶺回歸、主成分回歸等回歸分析方法以避免共線性指標對結果的影響。

60 多元共線性的表現在實際應用中主要表現為:
(1)模型擬合效果很好,但偏回歸係數幾乎都無統計學意義; (2)偏回歸係數估計值的方差很大; (3)偏回歸係數估計值不穩定,隨著樣本含量的增減各偏回歸係數發生較大變化或當一個自變量被引入或剔除時其餘變量偏回歸係數有很大變化; (4)偏回歸係數估計值的大小與符號可能與事先期望的不一致或與經驗相悖,結果難以解釋 出現以上表現,提示存在多元共線性問題,應進行多元共線性診斷。

61 常用的共線性診斷指標: 方差膨脹因數VIF
(1)方差膨脹因數(VIFj) 其中 為xj與其餘(m-1)個自變量線性回歸的決定係數。VIFj值越大,多元共線程度越嚴重。當VIFj≥10時,可認為多元共線性嚴重存在。 Variable DF Parameter Estimate Standard Error t Value Pr>|t| Tolerence Variance Inflation Intercept 1 2.71 0.0124 x2 2.61 0.0156 x3 -2.57 0.0171 x4 2.88 0.0084 方差膨脹因數VIF

62 條件指數是最大特徵根與每個特徵根之比的平方根:
(2)特徵根系統(System of Eigenvalues) 主要包括條件指數和方差比。 條件指數是最大特徵根與每個特徵根之比的平方根: 當hj≥10且對應的方差比大於0.5時,可認為多元共線性嚴重存在。條件指數與方差比結合起來度量共線性,不僅可以確定存在共線關係的自變量數目及其共線程度,而且還可以確定各個共線關係對每個係數方差比的貢獻。

63 5.異常值識別與強影響分析 異常觀測值的存在加大了數據的離散度,在線性回歸分析中產生較大的殘差,影響回歸函數的擬合度,所以應進行異常值識別和強影響分析。基本的方法有學生化殘差和Cook's距離。 (1)學生化殘差(Studentized Residual) 學生化殘差:ti=ei/s(ei),其中 ,為變量的實測值與估計值間的差值,稱為殘差;s(ei)為殘差的方差平方根。 當ti>2時,所對應的點可能是異常點。

64 (2)Cook's距離Di 識別出的異常觀測點並不能立即剔除,要進一步判斷它們是否為嚴重影響結果的強影響點再決定取捨。強影響度的度量用Cook's距離Di。 ti為學生化殘差, 為估計標準誤差, 為剩餘標準誤差,k為包括截距項在內的估計參數個數。 當Di>0.5時,可認為第i個觀測點對回歸函數是強影響點。 一般的,若第i個觀測點的ti >2且Di >0.5,則考慮剔除該觀測點後再做回歸分析。 其他常用的指標還有預測殘差平方和、杠杆值等。

65 局部加權線性回歸

66 解決思路:加入一個加權因子 之前在普通的線性擬合中,得到了最小二乘的損失函數為 在局部加權回歸中,損失函數變為 其中vi的表達式如下所示

67 在預測新樣本值時候每次都會重新訓練數據得到新的參數值,也就是說每次預測新樣本都會依賴訓練數據集合,所以每次得到的參數值是不確定的。
局部加權回歸(LWR) 在預測新樣本值時候每次都會重新訓練數據得到新的參數值,也就是說每次預測新樣本都會依賴訓練數據集合,所以每次得到的參數值是不確定的。 偽代碼: 輸入預測樣本數據:x; 根據公式計算v1,v2,……,vm; 將v1,v2,……,vm帶入損失函數,利用最小二乘法確定線性係數α,β; 預測輸出結果:y = βx+α。

68 R實戰-局部加權線性回歸 x=c(4,4.5,5,8,9,6,7,10.8,10,9.7,4,4,5,8.6,6.8) y=c(4,3,5,10,8,4,13,5,5.5,7.5,4.5,2.5,7,11,8) testdata=data.frame(x,y) plot(testdata) model1=loess(y~x,data=testdata,span=0.9) model2=lm(y~x,data=testdata) abline(model2) points(10.4,predict(model1,data.frame(x=10.4)),pch=15) points(10.4,predict(model2,data.frame(x=10.4)),pch=17) 線性回歸預測值 局部加權線性回歸預測值

69 謝謝!


Download ppt "數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司."

Similar presentations


Ads by Google