統計軟體工作坊 輕鬆學會統計軟體R 2013/05/23
在開始進行前…. 請先下載並安裝R套件“Rcmdr” 請下載上課用資料“class-demo” 請將class-demo資料匯入Rcmdr中 靜宜大學→統計資訊學系→統計諮詢→統計資源→ 教材園地 請將class-demo資料匯入Rcmdr中
學生生活型態調查 班級 ( class): (1)統資系 (2)財數系 (3)其他 性別 (sex): (1) 女生 (2)男生 身高 (high) 體重 (weight) 血型 (blood): (1)A (2)B (3)O (4) AB 住宿地 (location): (1)宿舍 (2)學校附近 (3)東海別墅附近 (4)家裡 (5) 其他 住宿費用 (rent):(1) 3000以下 (2) 3000~4000 (3)4000~5000 (4)5000~6000 (5)6000~ (6)其他 上學方式 (way): (1)走路 (2)騎機車 (3)搭校車 (4)搭公車 (5)其他
更改資料格式 將數值變數更改為類別變項 可以直接使用數字代替或是重新輸入符號
新增變數 利用資料集中的變數運算得到新的變數 連續點滑鼠左鍵2次選取變數
Operations and Mathematic Functions 說明 Example Output +、-、*、/、^ 加、減、乘、除與次方 2^2 4 log(x) 以e為底的對數函數 log(exp(1)) 1 log10(x) 以10為底的對數 log10(5) 0.69897 log2(x) 以2為底的對數 log2(2) logb(x,base) 可自行定義底數 logb(5, 10) exp(x) 指數函數 exp(1) 2.71828 sqrt(x) 開根號 sqrt(4) 2 abs(x) 對x取絕對值 abs(-1) round(x, digits) 四捨五入至小數點第digits位 round(2.563,2) 2.56 floor(x) 將x的小數部分刪除 floor(2.563) ceiling(x) 將x無條件進位 ceiling(2.563) 3 sin(x),cos(x),tan(x) sin, cos, tan 三種三角函數 sin(pi) asin(x),acos(x),atan(x) arc-sin, arc-cos, arc-tan asin(0)
檢定單一樣本平均數 對某一組樣本,想知道平均值是否大於/等於/小於μ0 EX:檢定平均身高是否為165, H0: μ=165 vs. H0: μ ≠ 165 選擇要檢定的變數
Two sample tests (兩組樣本的檢定) 兩組獨立樣本:兩群樣本之間獨立 使用兩種不同麻醉劑的病人血壓、男女的藥物反應 配對資料(paired):兩個樣本之間存在相關性、 或是為配對樣本。 由雙胞胎的資料來測試兩種藥的效果,一群學生在 受訓前與受訓後的英文成績,或是眼科病患左眼vs. 右眼的手術恢復指數。
檢定兩組獨立樣本 檢定男、女平均身高是否相同
檢定兩群體變異數是否相同 畫圖: 盒鬚圖、直方圖 檢定
練習 請檢定男、女平均體重是否相同 請先畫圖看看男、女體重的分布 再檢定男、女體重之變異數是否相同 根據上述結果,檢定男、女平均體重是否相同
變異數分析(Analysis of variance,ANOVA) 檢定 k (k2)組樣本之平均是是否相同 新光三越、大遠百、統一阪急在周年慶時的平 均營業額 單因子變異數分析(one-way ANOVA) Level: 新光三越: 台北、台中、高雄;大遠百:台北、 台中、高雄;統一阪急: 台北、高雄 不同時間點(春節、母親節、周年慶)不同百貨的 營業額 Two-way ANOVA
ANOVA table Source of variation Degree of freedom Sum of squares Mean square F statistic Between group k-1 SSB MSB= SSB/(k-1) F=MSB/MSW Within group N-k SSW MSW= SSW/(N-K) Total N-1 SST If the null hypothesis is true, MSB and MSW would be close, and F≈1 Reject the null hypothesis if
變異數分析(Analysis of variance,ANOVA) 檢定不同血型之身高平均是否相同 是否須進行兩兩平均數的比較
練習 請檢定不同居住地區之平均體重是否相同
多組樣本時的檢定 Two groups Multiple groups Large sample size Paired data Independent data Analysis of variance (ANOVA) Paired t-test Two sample t-test (equal variance?) Small sample size Wilcoxon Signed-Rank test Wilcoxon Rank-Sum test (Mann-Whitney U test) Kruskal-Wallis test Check normality assumption: Q-Q plot, Shapiro-Wilk Normality Test
無母數檢定方法 針對小樣本的資料 不假設母體為常態分布
母體比例 p 檢定 單一樣本:檢定“成功”的比例 檢定女生的比例是否為1/2
母體比例 p 檢定 兩個母群體:檢定不同族群中成功的比例是否相同 檢定不同班級之男女比例是否相同 想檢定的族群 想檢定的變數
卡方檢定(Chi-Square Test) 適用於類別資料 卡方檢定包含三種類型 適合度檢定:檢查資料是否符合某個比例關係或某個 機率分配。 齊一性檢定:檢查幾個不同類別中的比例關係是否一 致。 獨立性檢定:檢查兩個分類變數之間是否互相獨立。
卡方檢定 血型是否會影響上學方式
卡方檢定 若是資料已整理成表格 Total 17 218 235 130 428 558 147 646 793 設定行數與列數 頭部受傷 戴安全帽 Total 是 否 17 218 235 130 428 558 147 646 793 設定行數與列數
練習 請檢定血型與住宿費用是否相關