課程三 描述統計:次數分配、中央趨勢
描述統計 以最有效率的方式描述量化或類別變數的重要特徵 例如:都市化、經濟成長率、競爭力 例如:性別、教育程度
表格:本村的重大事務決策權 次數 百分比 村代會 52 22.22 村委會 75 32.05 黨支部 39 16.67 聯席會議 45 19.23 其他 23 9.83 總數 234 100
長條圖 bar 適用於類別變數,可表示各類別的次數、百分比等。 可找出相對多數的類別
長條圖1
長條圖2
直方圖 Histogram 適用於連續變數(如果太過離散則需要適當地分組) 可表示變數中各個值的次數、百分比、密度等。 若用於百分比,直方的高度累加=1(類似百分比的長條圖)。 用於密度,可加上平滑曲線,曲線下的面積=1,而直方的總面積=1
長條圖:0-10分(連續但已分組)
直方圖:0-10分
加上平滑曲線:老實泉等待時間
餅狀圖
莖葉圖1 用於量化變數,可表示次數的分佈情形。 莖代表至少2位數,葉代表觀察值最末一位。 葉有可能自動四捨五入進位 莖可能因為尺度一致而進位
莖葉圖2 10 12 14 16 18 20 21 22 20 21 22 20 21 22 20 21 22 20 21 22 31 32 33 34 35 36 44 45 46 47 48 49 50 44 45 46 47 48 49 50 1 | 024 1 | 68 2 | 000001111122222 2 | 3 | 1234 3 | 56 4 | 44 4 | 5566778899 5 | 00
莖葉圖3 200 204 209 210 212 213 217 217 219 220 227 229 235 243 246 247 249 249 250 253 254 260 264 265 282 284 286 289 303 331 20 | 049023779 22 | 0795 24 | 36799034 26 | 045 28 | 2469 30 | 3 32 | 1
莖葉圖4 20 | 049 21 | 023779 22 | 079 23 | 5 24 | 36799 25 | 034 26 | 045 27 | 28 | 2469 29 | 30 | 3 31 | 32 | 33 | 1
中央趨勢 眾數 中位數 百分位數 平均數
眾數 適用於質化及量化變數。 定義為發生最多次的那一個值。 有可能超過一個。
百分位數及中位數 第p個分位數表示(100-p)%的數比它大,p%的數比它小。 可以是實際存在的數,也可以是計算所得 假設有n個數,i=1,…n
百分位或四分位算法1 例:X=1, 1001, 1002, 1003 50百分位=[(4*50)/100]+0.5=2.5 因為2.5落在1001及1002中間,所以0.5*1001+0.5*1002=1001.5 25百分位=[(4*25)/100]+0.5=1.5 因為落在1及1001中間,所以0.5*1+0.5*1001=751 75百分位=[(4*75)/100]+0.5=3.5 0.5*1002+0.5*1003=1002.5
百分位或四分位算法2 例:y=2,3,4,7,9,10,12,12 中位數=[2*(N+1)/4]=4.5。因為落在7, 9中間所以:7+0.5*(9-7)=8 25分位數=[1*(8+1)/4]=2.25。因為位於3及4之間故:3+0.25*(4-3)=3.25 75分位數=[0.75*(8+1)]=6.75。10+0.75*(12-10)=11.5
百分位數及中位數 中位數即第50分位數。 中位數不受兩端值大小的影響;決定於觀察值數目以及落點所在的鄰近兩個數。 可以是計算得到的數。 有許多計算方法。也可以因為研究需要而進位。 對於推論統計沒有太大用處。
分組資料的中位數 假設有k個組,按各組的性質加以排序之後,計算中位數,視該中位數落在那一組。 見A&F, p.42.
平均數 用在量化變數或是二元變數。 可以想成是觀察值的平衡點:比平均值大的數的總和等於比平均值小的數的總和的絕對值。 會受到極端值的影響。 可以考慮去掉頭尾的極端值再求平均數。 對於推論統計有極大用處。
平均數計算方式 計算方式 y1=6, 7, 8, 8, 9, 10, 13, 15, 16, 45 y2=1, 6, 7, 8, 8, 9, 10, 13, 15, 16, 51 y1bar<y2bar 但是若去掉頭尾各一個值,y1bar=y2bar
加權平均 假設觀察值分為k=1…k個組,每一組有y1, y2,..人,每一組平均數為y1bar, y2bar,…則全體的平均數為:
偏態 正偏:右邊的尾巴較左邊長,眾數偏左左 負偏:左邊的尾巴較右邊長,眾數偏右 常態分佈的偏態值=0 樣本偏態值= 有偏態時須注意平均值是否會誤導。
偏態圖形 右偏 左偏
峰度 峰度(Kurtosis)是次數分配曲線與常態曲線比較,是較為尖峻或平坦
離散1 範圍(range):最大值及最小值的差距。 若是常態分佈,範圍約等於六個標準差。 平均數相同,範圍可能不同(A&F, p. 46)
離散2:標準差 差(deviation):觀察值與平均數之間的差距 樣本標準差(standard deviation): 如果樣本來自二元分佈,即0,1,則標準差為:
舉例 2009年的中國「春運」,據估計有23.2億的旅客運量。假設把所有轉車都算成一次,各大車站估計旅客人數(單位:萬)為50, 52, 55, 28, 30, 35, 40, 49, 32, 19, 15, 61, 43,47, 44, 70, 83, 66, 88, 85, 36, 36, 47, 49,67, 68等。
春運(續) 計算平均值為:49.8萬 計算標準差為:19.38萬 由此可知68%的車站的估計旅客人數落在49.8-19.38萬及49.8+19.38萬之間,也就是在30萬與70萬之間。
標準差的特性1 大於或等於0 因為是樣本標準差,故用n-1當分母 如果樣本成常態分配,則平均數的正負1個標準差包含約68%的樣本(不是母體平均數)。正負2個標準差包含約95%的樣本。正負3個標準差包含約99%的樣本。
標準差的特性1(續) 如果知道樣本的平均數跟最大值及最小值,而且樣本成常態分佈,便可以估計標準差,也就是range/6。 因此,可以推測平均數左右兩個標準差所包含的95%的樣本的最大值及最小值。
標準差的特性2 改變樣本的單位,標準差也會改變 H (15000 7000 19000 3000 15000 19000 4000 12000 17000 9000) sd: 5962.848 h: (15 7 19 3 15 19 4 12 17 9) sd: 5.962 加減樣本的值會改變平均值,但是不會改變標準差(?)
標準差的特性4 平方和越大,標準差可能越大,越可能解釋其它變數。 有三個變數,分別成常態分佈,平均值為60,但是第一個變數v1的標準差為0.1,v2的標準差為5,v3的標準差為7。 另一個變數y,也成常態分布,平均值為62,標準差為1。 以v1, v2, v3分別對y做迴歸,v3的標準誤最小,R-squared值最大,可知v3最能解釋y
四分位數間距(IQR) 25分位距與75分位之間的差距,表示中位數附近的數的範圍。 不受到極端值的影響。 如果數值大於75百分位+1.5個IQR,或小於25百分位-1.5個IQR,稱為界外值(outliers) 如果數值大於75百分位+3個IQR,或小於25百分位-3個IQR,稱為極端界外值(extreme outliers)
總結 瞭解不同的變數所使用的描述統計或圖形 瞭解各種描述統計的意義 瞭解中央趨勢如眾數、中位數、平均數求法 瞭解四分位數、標準差的求法