Download presentation
Presentation is loading. Please wait.
1
第3章 變異量數與分佈形狀
2
前言 只用集中量數來描述資料是不夠的。忽略了資料點的分散情形,可能會做出錯誤的判斷。
以下介紹幾種反映資料分散情形的量數,包括全距、四分位距、平均絕對離差、標準差等。除此之外,利用數字呈現資料的集中和分散情形,不如直接呈現資料的分佈圖。
3
第一節 變異量數 (1) 全距/範圍(range) 全距就是最大值減最小值。全距越大表示分數的離散程度越大。
Excel並沒提供函數直接計算全距。不過可利用MAX求得最大值,用MIN求得最小值,然後相減即得全距。除此之外,也可利用Excel提供的「敘述統計」內設功能,求得最大值和最小值。
4
第一節 變異量數 (2) 四分位距(interquartile range)
如果將數值由小至大排列,第N個分數就是第一個四分位數(quartile),以Q1來表示;第N個分數就是第二個四分位數(Q2),Q2也就是中位數;第N個分數就是第三個四分位數(Q3)。 所謂四分位距就是: Q = (Q3 - Q1)
5
第一節 變異量數 (3) 平均絕對離差(mean absolute deviation)
每個分數減去平均數,叫做離均差(deviation from the mean)。離均差取絕對值後加總,再取其平均值就是平均絕對離差。即:
6
第一節 變異量數 (4) 例如1, 2, 3, 4, 5等數字的平均數為3,離均差分別為-2, -1, 0, 1, 2。絕對值離均差為2, 1, 0, 1, 2。 Excel的AVEDEV函數可用以計算平均絕對離差。如鍵入「=AVEDEV(1,2,3,4,5) 」就可以得到平均絕對離差為1.2。
7
第一節 變異量數 (5) 變異數(variance)
如果資料是母體,變異數就是每個分數減去母體平均數(即離均差),加以平方,然後加總,最後除以個數,即為變異數(可想成:離均差平方的平均數)。
8
第一節 變異量數 (6) 例如有一公平骰子,令出現點數為X,數值分別為1, 2, 3, 4, 5, 6。則X的平均數為3.5,變異數為2.92。
9
第一節 變異量數 (7) 如果是從母體抽取少數樣本時,樣本變異數(sample variance)算法為
10
第一節 變異量數 (8) 例如有5個資料點為樣本,數值分別為1, 2, 3, 4, 5,則樣本平均數為3,樣本變異數為2.5。
11
第一節 變異量數 (9) 標準差(standard deviation) 標準差就是變異數開根號。 可分為母體標準差和樣本標準差。
12
第一節 變異量數 (10) Excel的VARP和VAR兩函數分別用以計算母體變異數和樣本變異數。 STDEVP和STDEV則分別用以計算母體標準差和樣本標準差(其中P代表母體population)。 「=VARP(1,2,3,4,5)」得母體變異數為2。 「=VAR(1,2,3,4,5)」得樣本變異數2.5。 「=STDEVP(1,2,3,4,5)」得母體標準差1.414。 「=STDEV(1,2,3,4,5)」得樣本標準差1.581。
13
第一節 變異量數 (11) 變異係數(coefficient of variation) 標準差除以平均數就是變異係數。
由於計算變異數(或標準差)時,因為每個值都要減去平均數,因此變異數必然受到平均數的影響。為了避免變異指標受到平均數的影響,將標準差除以平均數,形成變異係數。
14
第一節 變異量數 (12) 在一項實驗裡,實驗組接受了某種閱讀技巧訓練,控制組則無,每組各10人。
實驗組的標準差3.52約為控制組7.01的一半,控制組的變異係數0.14不到實驗組0.35的一半。
15
第二節 各種變異量數的比較 (1) 全距的優點在於計算容易,容易理解。缺點是只利用最大和最小值,完全漠視了其他值的存在,無法精確反應所有資料的分散情形。 四分位距將極端的前1/4和後1/4去除,而利用第三個與第一個四分位數的差距來表示分散情形,因此避免了全距受到極端值影響的缺點。不過,四分位距的計算顯然不如全距來得方便,因為必須將資料由小到大排序。和全距一樣,四分位距也沒使用到所有的資料點。
16
第二節 各種變異量數的比較 (2) 平均絕對離差則使用了全部的資料,這是比較恰當的作法。此外,平均絕對離差也蠻容易理解。不過,由於計算平均絕對離差必須先求絕對值,因此運算並不方便。 標準差和平均絕對離差的意義非常類似,因此不難理解。變異數及標準差還有方便四則運算,以及可用以推估母體參數(母體變異數、母體標準差)的好處,因此是推論統計的基石。
17
第二節 各種變異量數的比較 (3) 變異數(標準差)比平均絕對離差容易受到極端值的影響,這是因為計算變異數時使用了平方的關係。
例如1, 2, 3, 4, 5的母體標準差為1.41,平均絕對離差為1.20,兩者頗為接近。如果資料是1, 2, 3, 4, 10,則兩者分別為3.16和2.40,可見標準差受到極端值的影響比平均絕對離差來得大。 變異係數可以消去平均數的影響,如果要比較兩種平均數差異很大的資料的分散情形,利用變異係數比用標準差來得恰當了。
19
第三節 柴氏不等式定理 (1) 柴氏不等式(Chebyshev’s Inequality)
該定理表示:數值在平均數m上下k個標準差之內的機率不小於1-1/k2。即 P[(|X – m|) ks ] 1 – 1/ k2 柴氏不等式定理適用於任何的分佈,包括間斷機率分佈和連續機率分佈,樣本和母體的分佈。
20
第三節 柴氏不等式定理 (2) 例如智商的平均數m = 100,標準差s = 15,則數值在平均數100 1s之內(即介於85到115之間)的機率不小於0(=1-1/12)。 數值在平均數100 2s之內(即介於70到130之間)的機率不小於3/4(=1-1/22)。 數值在平均數100 3s之內(即介於55到145之間)的機率不小於8/9(=1-1/32)。
21
第四節 分佈形狀 (1) 最佳描述資料的方法就是呈現所有的資料點,包括資料的分佈形狀,配合集中量數和變異量數,將更能完整呈現資料的特性。
例如調查100位中學生每週流連網路咖啡店的時數,結果發現平均數為5.68,標準差為5.77。看到這樣的數字,我們就會以為多數人每週花在網咖的時間為5到6小時。
22
上圖稱為直方圖(histogram)。直方圖類似長條圖,不過直方圖中的長條沒有空隙。這是因為直方圖的X軸的變項是連續的量變項。
23
第四節 分佈形狀 (2) 隨著分佈形狀的改變,集中量數,如平均數、中位數、眾數三者的關係會有所變化。
圖 (a)呈現的是所有的資料數值都是一樣的次數,例如每週去網咖的時間為0、2、4、6、8、10、12、14小時的人數都是10人。此時平均數和中位數相同,但並無眾數。這稱為均勻分佈(uniform distribution)。
25
第四節 分佈形狀 (3) 如果分佈像圖 (b)所示,呈現左右對稱的單峰分佈(unimodal distribution),平均數、中位數、眾數三者相同。成年男性或女性的身高應該都是這種單峰且對稱的分佈。 如果分佈如圖(c),大部份的數值集中在右邊,成單峰分佈,則眾數大於中位數,中位數大於平均數。這種分佈又稱為左偏態分佈或負偏態分佈(negatively skewed distribution),因為左邊的尾巴很長。
26
第四節 分佈形狀 (4) 如果分佈如圖(d),大部份的數值集中在左邊,成單峰分佈,則平均數大於中位數,中位數大於眾數。這種分佈又稱為右偏態分佈或正偏態分佈(positively skewed distribution),因為右邊的尾巴很長。 如果資料呈現雙峰分佈(bimodal distribution)且左右對稱,如圖(e),則眾數會有兩個,平均數和中位數相同。如果將成年男性和成年女性的身高擺在一起,就可能形成這種雙峰且對稱的分佈。
Similar presentations