R軟體與統計分析(下) 常態分配與次數分配表CH 統計推論與各種檢定CH14 迴歸分析與羅吉斯迴歸CH15

Slides:



Advertisements
Similar presentations
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
Advertisements

第 6 章 複迴歸之一.
單元九:單因子變異數分析.
第十一章 假設檢定.
實驗規劃--實驗因子設定, 效標選定與受測者選定
Ch12 資料分析.
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
類別資料分析(Categorical Data Analysis)
資料分析:相關和迴歸 第十八章 「行銷研究人員必須持續檢視消費者認知和最終 購買決策之間的關係,因此,相關和迴歸技術為行
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
第 8 章 一組樣本 單變項推論方法.
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
第五章 平均數檢定:多組樣本.
判斷步驟 Step 1 :判斷是否為常態分配 Step 2 :如果是常態分配,用「假設檢定」,如果不是請看 Step 3
17 類別資料的分析  學習目的.
第15章羅吉斯與Probit迴歸分析 本章的學習主題  1.羅吉斯迴歸分析的概念 2.羅吉斯迴歸的假設 3.Logit 轉換
迴歸分析 主講人:童超塵 實驗室網址 永久: 實驗室網址 永久: 目前:
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
商用統計學 Chapter 8 假設檢定.
Chapter 2 簡單迴歸模型.
R軟體統計分析 常態分配與次數分配表 統計推論與各種檢定 羅吉斯迴歸和決策樹 迴歸分析和變異數分析.
兩獨立母體成功比例差- Z檢定(大樣本):說明
統計軟體工作坊 輕鬆學會統計軟體R 2013/05/23.
第六章 平均數比較 6-1 平均數比較(各種 T Test 的應用) 6-2 Means 平均數分析 6-3 單一樣本 T 檢定
Ch7:一般線性模式 GLM.
Regression for binary outcomes
Using EXCEL for ANOVA.
Simple Linear Regression -4
REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
統計學: 應用與進階 第14 章: 變異數分析.
第 14 章 簡單迴歸.
第 14 章 簡單線性迴歸.
複迴歸分析-2 Multiple Regression.
第十二章 單因子變異數分析.
2.資料分類 Classification 分類範例一:鳶尾花各種分類模型 分類範例二:新生兒體重數值預測 分類範例三:交叉驗證與部署模型
複迴歸分析-1 Multiple Regression.
第十四章 單因子變異數分析 14.1 前言 14.2 單因子變異數分析理論 14.3 功能視窗 14.4 範例
統計學 指導老師: 郭燿禎 Date: 2/14/12.
第十章 順序資料之假設檢定 10.1 順序資料檢定概論 10.2 符號檢定 10.3 符號秩檢定(成對樣本檢定)
第 五 章 複迴歸分析.
第 7 章 推論方法.
估計與假設檢定.
國立台灣體育學院 體育學系暨體育研究所 高明峰
第一章.
第 一 章 多元迴歸分析.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
第 15 章 複迴歸 © 滄海書局.
7-2 抽樣分配(sampling distribution)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
Review of Statistics.
Ogive plot example 說明者:吳東陽 2003/10/10.
平均數檢定與變異數分析 莊文忠 副教授 世新大學行政管理學系 SPSS統計應用分析研習(莊文忠副教授) 2019/4/27.
第一章.
Chapter 4 迴歸分析. Chapter 4 迴歸分析 迴歸分析原理 迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式),用這個函數代表應變數和自變數之間的關係 多變量分析—管理上的應用.
Introduction to Basic Statistics
流程控制:Switch-Case 94學年度第一學期‧資訊教育 東海大學物理系.
假 設 檢 定.
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
第十四章名義資料的數字 描述:關連測量 © Copyright 版權所有:學富文化事業有限公司。本光碟內容僅提供教師於教學上使用,非經本公司許可,禁止複製 (給學生)。感謝老師的配合。
R教學 t檢定R指令與範例 羅琪老師.
第 12 章  變異數分析.
Logistic回归 Logistic regression 研究生《医学统计学》.
參考書籍:林惠玲與陳正倉(2002),《應用統計學第二版》。台北:雙葉書廊有限公司。
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
Presentation transcript:

R軟體與統計分析(下) 常態分配與次數分配表CH7 10 11 12 13 統計推論與各種檢定CH14 迴歸分析與羅吉斯迴歸CH15 8 6 7 5 迴歸分析與羅吉斯迴歸CH15

常態分配常用函數、亂數與隨機抽樣、常態機率圖和常態性檢定、各式次數分配表、敘述統計、迴圈程式範例 五.常態分配與次數分配表 常態分配常用函數、亂數與隨機抽樣、常態機率圖和常態性檢定、各式次數分配表、敘述統計、迴圈程式範例

常態分配常用函數 rnorm(n,0,1): 產生n個N(0,1)的隨機亂數 dnorm(x,0,1): 計算N(0,1)在x的機率密度函數值 pnorm(x,0,1): 計算p=P(Z<=x)的累積機率值 qnorm(p,0,1): 計算岀使P(Z<=x)=p的x值,是pnorm的反函數 以dnorm和pnorm分別計算機率密度函數值(pdf)和累積機率密度函數值(cdf) 同理以均等分配U(0,1)為例,相關的函數名稱為runif、dunif、punif、qunif

常態分配常用函數

pdf、cdf函數圖形 curve(dnorm(x),-3.5, 3.5,main="N(0,1) pdf") curve(pnorm(x),-3.5, 3.5,main="N(0,1) cdf") 95% Pr(Z<1.96)=0.975 Pr(Z<-1.96)=0.025

亂數與隨機抽樣

常態機率圖和常態性檢定 常態機率圖: qqnorm(Sepal.Length) 最佳斜線: qqline(Sepal.Length,col="red") Shapiro-Wilk檢定:基本套組stats的shapiro.test函數 Anderson-Darling檢定:套組nortest的ad.test函數 Kolmogorov-Smirnov檢定:基本套組stats的ks.test函數

範例height:檢查資料有否偏離值

範例height:以圖形呈現資料分佈

範例height:以機率密度畫直方圖和曲線

範例height:常態機率圖和常態性檢定

範例iris:直方圖和常態曲線

範例iris:常態機率圖和常態性檢定

各種次數分配表的函數 xtab 計算分組次數 tapply 、aggregate彙整函數 prop.table計算分組百分比 tabulate、table(2D) 、table(3D)函數 ftable(data.frame(gender,area,cards))分層 hist計算分組次數 library(xtable): print(xtable(dataframe, caption=“html table"),TYPE="HTML")

xtab 計算分組次數

自訂順序的次數分配表

tapply 、aggregate彙整函數

prop.table計算分組百分比

tabulate、table函數(2D)

Table函數(3D)

hist計算分組次數

brain範例:敘述統計一

brain範例:敘述統計二

brain範例: table和ftable分組次數

程式範例1:以平均數取代NA test=read.csv("d:/stella/R/test.csv") for (j in 2:4) { m=mean(test[,j],na.rm=TRUE) for (i in 1:nrow(test)) if (is.na(test[i,j])) test[i,j]=m } write.csv(test,"d:/stella/R/test1.csv", row.names=F)

程式範例2:計算不為NA的筆數 test=read.table("d:/R/data/txt/cancers.txt") cnt=rep(0,5) for (i in 2:nrow(test)) { for (j in 1:ncol(test)) if (!(is.na(test[i,j]))) cnt[j]=cnt[j]+1 } write(cnt,file="d:/R/data/txt/can.txt")

六. 統計推論與各種檢定 假設檢定概說、 Z檢定、單一樣本t檢定、兩組獨立樣本t檢定、配對樣本t檢定、 相關係數檢定、卡方檢定、Fisher正準檢定、單樣本、雙樣本、 多組樣本無母數檢定

假設檢定概說 在進行各種統計假設檢定時,我們通常將要否定(棄卻)之事實當作虛無假設(以H0代表)。既然希望它是不對,欲將其否定,那就表示會有一個希望它是對的對立假設(以H1代表)。 當檢定結果,得否定該虛無假設時,就等於接受對立假設。虛無假設與對立假設間必須是週延且互斥,其間絕無重疊的模糊地帶;也無任何無法涵蓋的真空地帶。

等於與不等於之雙尾檢定 H0:μ1=μ2 檢定統計量之觀察值落在左側或

右側單尾檢定 左側單尾檢定 H0:μ1≦μ2 H1:μ1>μ2 H0:μ1≧μ2 H1:μ1<μ2

檢定的步驟 設定虛無假設H0 設定對立假設H1 決定顯著水準(α) 選擇適當的檢定統計量(z、t、F、…),以及決定危險域(棄卻域之臨界點) 計算所選之檢定統計量的觀察值 結論:當檢定統計量的觀察值落入危險域,棄卻虛無假設H0;反之,無法棄卻虛無假設H0(接受虛無假設)

母體平均數μ的Z檢定 大樣本(n>30)時用Z檢定,若母體標準差σ未知,則可使用樣本標準差S來替代 母體平均數μ的95%信賴區間為樣本平均數加減可容忍誤差e

Z檢定函數one.sample.z(asbio) babies範例mean(bwt)=119.5769sd(bwt)=18.23645 alternative=“less” conf=0.9

母體平均數的95%信賴區間

母體比例p的95%信賴區間

95%信賴區間的意義

t檢定函數t.test 單一樣本t檢定(mu=目標值) 兩組獨立樣本t檢定:先用var.test函數進行兩組變異數相同與否的F檢定。若變異數相同則(var.equal=TRUE),若變異數不相同則(var.equal= FALSE或省略) 配對樣本t檢定(paied=TRUE)

單一樣本t檢定 若樣本為抽自常態母體之小樣本(n≦30),且母體μ與σ均未知。其各項檢定所使用之檢定統計量為:(T分配之自由度為n-1) 由於t分配是取決於樣本大小(n);當樣本數超過30(n>30),t-分配就頗接近常態分佈。 且於同一個顯著水準下,t值大於等於z值,故其檢定結果會較為嚴格一點。

單一樣本t檢定

獨立樣本t檢定(變異數相同) 若兩母群體之變異數相同,是採用匯總變異數t檢定(pooled-variance t test)。其相關公式如下:

獨立樣本t檢定(變異數不相同) 若兩母群體之變異數不同,則將用個別變異數的t統計量(Cochran&Cox法)。其相關公式為: (此處公式計算之自由度可能會含小數。)

獨立樣本t檢定(變異數相同)

獨立樣本t檢定(變異數不相同)

配對樣本t檢定 若同組人,受訓後的打字速度是否高於受訓前。此類之例子,兩組受測樣本間為相依(同一個人),就要使用配對樣本的t檢定。相關公式為: (d即同一配對之兩資料相減之差。)

配對樣本t檢定

雙樣本母體比例差異檢定 男女生大學畢的比例相等: 即p1-p2=0,其95%信賴區間包含0, 因此母體比例差異不顯著

雙變數相關係數檢定

卡方檢定 適合度檢定(Chi-Square Goodness of Fit Test):檢查資料是否符合某比例或某個機率分配 齊一性檢定(Test of Homogeneity) :檢查一個分類變數底下各分類的比例關係是否一致 獨立性檢定(Test of Independence):檢查兩個分類變數之間是否互相獨立

期望值:欄合計×列合計/ 總樣本數 政黨傾向 北區 中區 南區 東區 合計 列百分比 1. 民進黨 個數 83 43 113 8 247 24.6% 期望數 111.8 49.9 73.2 12.0 2. 國民黨 203 87 92 25 407 40.5% 184.3 82.2 120.7 19.8 3. 新黨 11 9 2 30 3.0% 13.6 6.1 8.9 1.5 4. 台聯 7 6 3 27 2.7% 12.2 5.5 8.0 1.3 5. 無 147 57 79 294 29.3% 133.1 59.4 87.2 14.3 455 298 49 1005 100.0% 欄百分比 45.3% 20.2% 29.7% 4.9%

卡方檢定應注意事項 卡方值 自由度為(r-1)*(c-1) 卡方檢定僅適用於類別資料,如性別、政黨傾向、宗教信仰。 各細格之期望次數不應少於5。通常要有80%以上的期望次數≧5,否則會影響其卡方檢定的效果。 若自由度為1(2x2表格),會自動執行葉氏修正卡方檢定,或使用Fisher正準檢定,此時細格之期望次數不應少於10 。 若有期望次數小於5時,可將其合併或繼續收集資料

卡方適合度和齊一性檢定

卡方獨立性檢定和Fisher正準檢定

葉氏修正卡方檢定(2 x 2) 腦容量和IQ有顯著關連

葉氏修正卡方檢定(2 x 2) 體重和IQ無關

無母數檢定 無母數檢定(Non-parametric Tests)又稱為不考慮母體分配的檢定,在小樣本(n<30)、母體不呈常態分配、想推論的是中位數而非平均數時,都可以無母數檢定取代t檢定或ANOVA的F檢定,包括 單樣本:中位數符號檢定、Wilcoxon符號等級檢定、連檢定(檢定資料是否隨機) 雙樣本:雙獨立樣本Wilcoxon等級總合檢定、相依樣本Wilcoxon符號等級檢定、Kolmogorov-Smirnov雙樣本機率分配檢定 兩組或多組樣本:Kruskal等級總合檢定

單樣本無母數檢定 (UsingR套件) (TSA套件)

雙樣本無母數檢定 雙獨立樣本 相依樣本 雙樣本機率分配檢定

兩組或多組樣本無母數檢定 含各組資料的list變數 x為向量,g為分群變數

七.迴歸分析與羅吉斯迴歸 簡單線性迴歸、模型的評比準則、複迴歸模型的變數篩選、殘差分析與共線性檢查、離群值與影響點偵測、二元羅吉斯迴歸、訓練與測試樣本的混淆矩陣和預測正確率分析、多分類羅吉斯迴歸

迴歸分析 迴歸分析是以一個或一組自變數(解釋變數、預測變項,Xi),來預測一個數值性的因變數(依變數、應變數、被預測變項,Y)。若只有一個自變數稱為簡單迴歸;若使用一組自變數則稱為多元迴歸或複迴歸。 主要函數為lm(Linear Model) model=lm(Y~X1+X2+…+Xk, data=…) model=lm(Y~ . , data=…)

簡單線性迴歸 SQRT(MSE) MSE

簡單線性迴歸的輸出說明 Residual standard error: 12.18 (root MSE,即根號148.37) on 21 degrees of freedom Multiple R-squared: 0.1963 (R2=SSM/SST) , Adjusted R-squared: 0.158 1-(1-R2)((N-1)/(N-p)) p為含截距的參數個數 F-statistic: 5.128 (MSM/MSE) on 1 and 21 DF, p-value: 0.03425 Df Sum Sq Mean Sq F value Pr(>F) model 1 760.77 SSM 760.77 MSM=SSM/Df 5.1277 F=MSM/MSE 0.034 error 21 3115.67 SSE 148.37 MSE=SSE/Df total 22 3876.435 SST SST=SSM+SSE

F檢定和t檢定 變異數分析檢定,判斷因變數Y與自變數X(於複迴歸中則為全部之自變數)間,是否有顯著之迴歸關係存在?如本例之顯著性0.03425<α=0.05,故其結果為棄卻因變數與自變數間無迴歸關係存在之虛無假設。 t檢定,判斷迴歸係數與常數項是否為0(為0即無直線關係存在)?其虛無假設為迴歸係數與常數項為0,如本例之常數項(截距)為-2.8601,其t統計量為-0.303,顯著性0.7650>α=0.05,故無法棄卻其為0之虛無假設,迴歸方程式之常數項應為0,故往後可將其省略。

判定係數R2和參數的95%信賴區間

模型的評比準則 此模型為: adoptedR=0.2576 X computerR - 2.8601 判斷模型適合度(Goodness of Fit),矯正後判定係數(adj R平方)越大越好,殘差的標準差(Root MSE,又稱預測標準誤)越小越好, F檢定和t檢定的p值越小越好

複迴歸模型的預處理 轉換各縣市研究所畢業人數為比例 先刪除city和unknownR兩變數 計算各變數之間的相關係數 用pairs函數畫出所有變數XY散佈圖 將所有候選的解釋變數放到lm模型,準備以step函數進行變數篩選

預處理的輸出

複迴歸模型的變數篩選 複迴歸模型常使用step函數來作變數篩選 summary(step( lm模型, direction=“both”, k=2)) both指加入或刪除變數 direction可為forward、backward、both k=2使用AIC作篩選標準,若k=log(n) ,n為樣本數,則改用BIC作篩選標準。 K:the penalty per parameter to be used; the default k = 2 is the classical AIC, Akaike's ‘An Information Criterion’, k=log(n) is BIC or SBC,Schwarz's Bayesian Criterion

step函數搭配AIC指標逐步迴歸

改用BIC指標挑選結果相同

挑出6個解釋變數確立模型

模型的AIC、BIC *model2僅含截距,其SSE是 model1的SST *AIC BIC是用來作為不同模型的相對比較, 但由於AIC和extractAIC兩種函數使用公式常數項不同, 算出的值也不同。step函數是以extractAIC函數為計算依據, 模型的AIC值越小越好。 *graduate變數的SSM很大,降低SSE的貢獻也比較大

複迴歸模型分析的主要流程 解釋變數選取 確立模型架構 模型評估 殘差分析 離群值與影響點分析 共線性分析 根據模型來預測新的資料

殘差分析與共線性檢查 迴歸分析時,有四個與殘差有關的假設需驗證,後3個檢定的p值>0.05,表示符合基本假設。 殘差的平均值為0:最小誤差平方法中一定成立 殘差的常態性: >shapiro.test(model1$residuals) 殘差的變異數均齊性: car套件 >ncvTest(model1) 殘差的獨立性: car套件 >durbinWatsonTest(model1) 共線性(collinearity):一般判斷標準是變異數膨脹因素VIF值>10,則表示解釋變數之間可能有共線性問題。 car套件 >VIF(model1)

殘差與共線性的檢驗

殘差分析圖

離群值與影響點偵測指標 槓桿值(Leverages):可使用hatvalues函數算出槓桿值, 槓桿值若大於2p/n ,則可能是離群值或影響點,p是含截距的自變項個數 Cook’s D值:可使用cooks.distance函數算出,指標值若大於1 ,則可能是離群值,影響點通常以F0.5(p,n-p)當作門檻值 Student化殘差公式為:e/(sqrt(MSE)*sqrt(1-hii),Student化殘差絕對值若大於2.5 ,有可能是離群值(例如第15個觀察值) car的outlierTest可作Bonferroni離群值檢定 互動式influencePlot函數圈出影響點,觀察值編號15、20、22 ,即為相對於迴歸係數估計值變化的影響點

離群值與影響點

影響點圖形

綜合練習:iris迴歸分析程式檔 # preprocessing round(cor(iris[,-5]),2) pairs(iris) # Iris Multiple Regression model=lm(Sepal.Length ~ . ,data=iris) summary(step(model)) irisnew=read.csv("d:\\stella\\R\\iris_new.txt",header=T) predict(model,newdata=irisnew,level=0.95,interval="confidence") #原4.8 5.7 5.0 7.0 6.3 4.9 6.3 7.6 6.5 5.9 # AIC BIC AIC(model) AIC(model,k=log(nrow(iris))) extractAIC(model) extractAIC(model,k=log(nrow(iris)))

# Residuals and Variance Inflation Factor par(mai=c(0.5,0.5,0.5,0.5),mfrow=c(2,2)) plot(model) resid=model$residuals shapiro.test(resid) library(car) ncvTest(model) durbinWatsonTest(model) vif(model) mean(vif(model)) # Outliers (hii=hatvalues(model)) h=2*7/23 #槓桿值若大於2p/n ,則可能是離群值或影響點,p是含截距的自變項個數 (which(as.vector(hii)>h)) cooks.distance(model) which(as.vector(cooks.distance(model))>1) (q=qf(0.5,7,23-7)) #F0.5(p,n-p) which(as.vector(cooks.distance(model))>q) (student.residual=summary(model)$residuals/(summary(model)$sigma*sqrt(1-hii))) influencePlot(model)

新的10筆iris資料檔 4.8,3.4,1.6,0.2,setosa 5.7,3.8,1.7,0.3,setosa Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species 4.8,3.4,1.6,0.2,setosa 5.7,3.8,1.7,0.3,setosa 5.0,3.5,1.6,0.6,setosa 7.0,3.2,4.7,1.4,versicolor 6.3,3.3,4.7,1.6,versicolor 4.9,2.4,3.3,1.0,versicolor 6.3,3.3,6.0,2.5,virginica 7.6,3.0,6.6,2.1,virginica 6.5,3.0,5.5,1.8,virginica 5.9,3.0,5.1,1.8,virginica

迴歸的目的是根據模型預測新資料

羅吉斯迴歸 當應變數Y為分類變數,自變數為數值變數時, 必須使用羅吉斯迴歸(Logistic Regression) Y為二元分類應變數, 可用glm函數來分析二元羅吉斯迴歸(Dichotomus Logistic): glm(Y~X1+X2+X3+…., data=資料框架變數, family=binomial(link=logit)) Y為多分類應變數時,可用nnet套件的multinom分析多分類羅吉斯迴歸(Polytomous Logistic) : multinom(Y~X1+X2+X3+…., data=資料框架變數,Hess=TRUE)

二元羅吉斯迴歸範例:出生嬰兒體重 *體重少於25%則bwt2=1, 否則為0 *90%當訓練樣本, 10%當測試樣本

t檢定和勝算比Odds ratio *t檢定結果顯著表示對嬰兒體重過輕有影響 *若其他條件同,只有抽煙與否的差異,則勝算比是exp(1.225)=3.405倍

參數與exp(參數)的信賴區間

Wald與Likelihood Ratio檢定 *age weight檢定結果不顯著,表示對嬰兒體重過輕沒什麼影響

訓練與測試樣本預測正確率分析

多分類羅吉斯迴歸範例:鳶尾花

混淆矩陣及預測新資料的品種

八. 變異數分析和決策樹 單因子變異數分析、多重比較、殘差分析、 無母數檢定、資料探勘:決策樹、應變數為數值變數的分類迴歸樹、應變數為分類變數的分類迴歸樹、樹狀圖、混淆矩陣正確率分析

變異數分析(ANOVA) 單因子變異數分析(ANOVA,Analysis of Vairance)是用來檢定多組(>=3)母群平均數是否相等?亦即,Z與t檢定是用於兩組資料比較平均數差異時;而比較二組以上的平均數是否相等時,就須使用到變異數分析。其虛無假設與對立假設為: H0:μ1=μ2=…=μk(每組之均數相等) H1:至少有兩個平均數不相等

iris單因子變異數分析 H0:μSetosa=μVersicolor=μVirginica H1:至少有一種的平均數和其他品種不相等 Cofficient的Intercept是reference group(此為Setosa的平均),第二行是估計Versicolor平均和Setosa平均的差,第三行則是估計Virginica和Setosa平均的差,t檢定結果都顯著 H0:該品種與Setosa平均相同 如還要比較Versicolor和Virginica呢? R提供數種多重比較的工具,無論比較的組數多寡,都是一次性檢定

iris單因子變異數分析

多重比較

多重比較圖形 Versicolor-Setosa Virginica-Setosa Virginica-Versicolor

多重比較分組 * a b c表示不同組,即有顯著差異

etch單因子變異數分析

多重比較

多重比較圖形 180 200 220 200 220 220

多重比較分組

殘差分析和極端值檢查 *p值不顯著表示沒有可疑的極端值,最有可能的是第12筆

oneway.test kruskal.test無母數檢定 H0:A因子的各水準沒有顯著差異 殘差需常態但不需固定變異數的假設 殘差不需常態分配的假設

* asbio套件的bonfCI、tukeyCI、 lsdCI、 scheffeCI 多重比較信賴區間 * asbio套件的bonfCI、tukeyCI、 lsdCI、 scheffeCI

資料探勘:決策樹 決策樹(decision tree)是常用的資料探勘技術,可視為迴歸分析的擴充 決策樹可用於分類預測,此類決策樹稱為分類樹(classification tree),有些決策樹演算法可達成類似迴歸分析的數值應變數預測功能,此類決策樹稱為迴歸樹(regression tree) 決策樹是將資料依照每一階段不同的條件作循環切割(recursive partition),跟迴歸分析最大的不同再於一個解釋變數可在不同的切割階段被重複使用

決策樹圖例

分類迴歸樹基本概念 分類迴歸樹(CART, Classification and Regression Tree)由Brieman在1984年提出(2001年提出Random Forest決策樹) CART以反覆運算的方式,由根部開始反覆建立二元分支樹,直到樹節點中的同質性達到某個標準,或觸發反覆運算終止條件為止 CART的應變數欄位既可以是數值型資料,也可以是類別型資料 R提供tree和rpart建構CART決策樹 tree(Y ~ X1+X2+X3+…+Xk,data=…) rpart(Y ~X1+X2+X3+…+Xk,data=…)

應變數為數值變數babies

tree樹狀圖babies

應變數為分類變數iris

rpart樹狀圖iris

rpart的混淆矩陣與預測正確率

tree樹狀圖iris

tree的混淆矩陣與預測正確率

SPSS Modeler決策樹模型

SPSS Modeler決策樹的矩陣分析

randomForest隨機森林決策樹

randomForest混淆矩陣預測正確率

randomForest集群分析圖