Download presentation
Presentation is loading. Please wait.
1
課程三 描述統計:次數分配、中央趨勢
2
描述統計 以最有效率的方式描述量化或類別變數的重要特徵 例如:都市化、經濟成長率、競爭力 例如:性別、教育程度
3
表格:本村的重大事務決策權 次數 百分比 村代會 52 22.22 村委會 75 32.05 黨支部 39 16.67 聯席會議 45
19.23 其他 23 9.83 總數 234 100
4
長條圖 bar 適用於類別變數,可表示各類別的次數、百分比等。 可找出相對多數的類別
5
長條圖1
6
長條圖2
7
直方圖 Histogram 適用於連續變數(如果太過離散則需要適當地分組) 可表示變數中各個值的次數、百分比、密度等。
若用於百分比,直方的高度累加=1(類似百分比的長條圖)。 用於密度,可加上平滑曲線,曲線下的面積=1,而直方的總面積=1
8
長條圖:0-10分(連續但已分組)
10
直方圖:0-10分
12
加上平滑曲線:老實泉等待時間
13
餅狀圖
14
莖葉圖1 用於量化變數,可表示次數的分佈情形。 莖代表至少2位數,葉代表觀察值最末一位。 葉有可能自動四捨五入進位 莖可能因為尺度一致而進位
15
莖葉圖2 1 | 024 1 | 68 2 | 2 | 3 | 1234 3 | 56 4 | 44 4 | 5 | 00
16
莖葉圖3 20 | 22 | 0795 24 | 26 | 045 28 | 2469 30 | 3 32 | 1
17
莖葉圖4 20 | 049 21 | 22 | 079 23 | 5 24 | 36799 25 | 034 26 | 045 27 | 28 | 2469 29 | 30 | 3 31 | 32 | 33 | 1
18
中央趨勢 眾數 中位數 百分位數 平均數
19
眾數 適用於質化及量化變數。 定義為發生最多次的那一個值。 有可能超過一個。
20
百分位數及中位數 第p個分位數表示(100-p)%的數比它大,p%的數比它小。 可以是實際存在的數,也可以是計算所得
假設有n個數,i=1,…n
22
百分位或四分位算法1 例:X=1, 1001, 1002, 1003 50百分位=[(4*50)/100]+0.5=2.5
因為2.5落在1001及1002中間,所以0.5* *1002=1001.5 25百分位=[(4*25)/100]+0.5=1.5 因為落在1及1001中間,所以0.5*1+0.5*1001=751 75百分位=[(4*75)/100]+0.5=3.5 0.5* *1003=1002.5
23
百分位或四分位算法2 例:y=2,3,4,7,9,10,12,12 中位數=[2*(N+1)/4]=4.5。因為落在7, 9中間所以:7+0.5*(9-7)=8 25分位數=[1*(8+1)/4]=2.25。因為位於3及4之間故:3+0.25*(4-3)=3.25 75分位數=[0.75*(8+1)]=6.75。 *(12-10)=11.5
24
百分位數及中位數 中位數即第50分位數。 中位數不受兩端值大小的影響;決定於觀察值數目以及落點所在的鄰近兩個數。 可以是計算得到的數。
有許多計算方法。也可以因為研究需要而進位。 對於推論統計沒有太大用處。
25
分組資料的中位數 假設有k個組,按各組的性質加以排序之後,計算中位數,視該中位數落在那一組。 見A&F, p.42.
26
平均數 用在量化變數或是二元變數。 可以想成是觀察值的平衡點:比平均值大的數的總和等於比平均值小的數的總和的絕對值。 會受到極端值的影響。
可以考慮去掉頭尾的極端值再求平均數。 對於推論統計有極大用處。
27
平均數計算方式 計算方式 y1=6, 7, 8, 8, 9, 10, 13, 15, 16, 45 y2=1, 6, 7, 8, 8, 9, 10, 13, 15, 16, 51 y1bar<y2bar 但是若去掉頭尾各一個值,y1bar=y2bar
28
加權平均 假設觀察值分為k=1…k個組,每一組有y1, y2,..人,每一組平均數為y1bar, y2bar,…則全體的平均數為:
29
偏態 正偏:右邊的尾巴較左邊長,眾數偏左左 負偏:左邊的尾巴較右邊長,眾數偏右 常態分佈的偏態值=0 樣本偏態值=
有偏態時須注意平均值是否會誤導。
30
偏態圖形 右偏 左偏
31
峰度 峰度(Kurtosis)是次數分配曲線與常態曲線比較,是較為尖峻或平坦
32
離散1 範圍(range):最大值及最小值的差距。 若是常態分佈,範圍約等於六個標準差。 平均數相同,範圍可能不同(A&F, p. 46)
33
離散2:標準差 差(deviation):觀察值與平均數之間的差距 樣本標準差(standard deviation):
如果樣本來自二元分佈,即0,1,則標準差為:
34
舉例 2009年的中國「春運」,據估計有23.2億的旅客運量。假設把所有轉車都算成一次,各大車站估計旅客人數(單位:萬)為50, 52, 55, 28, 30, 35, 40, 49, 32, 19, 15, 61, 43,47, 44, 70, 83, 66, 88, 85, 36, 36, 47, 49,67, 68等。
36
春運(續) 計算平均值為:49.8萬 計算標準差為:19.38萬
由此可知68%的車站的估計旅客人數落在 萬及 萬之間,也就是在30萬與70萬之間。
37
標準差的特性1 大於或等於0 因為是樣本標準差,故用n-1當分母
如果樣本成常態分配,則平均數的正負1個標準差包含約68%的樣本(不是母體平均數)。正負2個標準差包含約95%的樣本。正負3個標準差包含約99%的樣本。
39
標準差的特性1(續) 如果知道樣本的平均數跟最大值及最小值,而且樣本成常態分佈,便可以估計標準差,也就是range/6。
因此,可以推測平均數左右兩個標準差所包含的95%的樣本的最大值及最小值。
40
標準差的特性2 改變樣本的單位,標準差也會改變
H ( ) sd: h: ( ) sd: 5.962 加減樣本的值會改變平均值,但是不會改變標準差(?)
41
標準差的特性4 平方和越大,標準差可能越大,越可能解釋其它變數。
有三個變數,分別成常態分佈,平均值為60,但是第一個變數v1的標準差為0.1,v2的標準差為5,v3的標準差為7。 另一個變數y,也成常態分布,平均值為62,標準差為1。 以v1, v2, v3分別對y做迴歸,v3的標準誤最小,R-squared值最大,可知v3最能解釋y
43
四分位數間距(IQR) 25分位距與75分位之間的差距,表示中位數附近的數的範圍。 不受到極端值的影響。
如果數值大於75百分位+1.5個IQR,或小於25百分位-1.5個IQR,稱為界外值(outliers) 如果數值大於75百分位+3個IQR,或小於25百分位-3個IQR,稱為極端界外值(extreme outliers)
45
總結 瞭解不同的變數所使用的描述統計或圖形 瞭解各種描述統計的意義 瞭解中央趨勢如眾數、中位數、平均數求法 瞭解四分位數、標準差的求法
Similar presentations