第3章 變異量數與分佈形狀
前言 只用集中量數來描述資料是不夠的。忽略了資料點的分散情形,可能會做出錯誤的判斷。 以下介紹幾種反映資料分散情形的量數,包括全距、四分位距、平均絕對離差、標準差等。除此之外,利用數字呈現資料的集中和分散情形,不如直接呈現資料的分佈圖。
第一節 變異量數 (1) 全距/範圍(range) 全距就是最大值減最小值。全距越大表示分數的離散程度越大。 Excel並沒提供函數直接計算全距。不過可利用MAX求得最大值,用MIN求得最小值,然後相減即得全距。除此之外,也可利用Excel提供的「敘述統計」內設功能,求得最大值和最小值。
第一節 變異量數 (2) 四分位距(interquartile range) 如果將數值由小至大排列,第N個分數就是第一個四分位數(quartile),以Q1來表示;第N個分數就是第二個四分位數(Q2),Q2也就是中位數;第N個分數就是第三個四分位數(Q3)。 所謂四分位距就是: Q = (Q3 - Q1)
第一節 變異量數 (3) 平均絕對離差(mean absolute deviation) 每個分數減去平均數,叫做離均差(deviation from the mean)。離均差取絕對值後加總,再取其平均值就是平均絕對離差。即:
第一節 變異量數 (4) 例如1, 2, 3, 4, 5等數字的平均數為3,離均差分別為-2, -1, 0, 1, 2。絕對值離均差為2, 1, 0, 1, 2。 Excel的AVEDEV函數可用以計算平均絕對離差。如鍵入「=AVEDEV(1,2,3,4,5) 」就可以得到平均絕對離差為1.2。
第一節 變異量數 (5) 變異數(variance) 如果資料是母體,變異數就是每個分數減去母體平均數(即離均差),加以平方,然後加總,最後除以個數,即為變異數(可想成:離均差平方的平均數)。
第一節 變異量數 (6) 例如有一公平骰子,令出現點數為X,數值分別為1, 2, 3, 4, 5, 6。則X的平均數為3.5,變異數為2.92。
第一節 變異量數 (7) 如果是從母體抽取少數樣本時,樣本變異數(sample variance)算法為
第一節 變異量數 (8) 例如有5個資料點為樣本,數值分別為1, 2, 3, 4, 5,則樣本平均數為3,樣本變異數為2.5。
第一節 變異量數 (9) 標準差(standard deviation) 標準差就是變異數開根號。 可分為母體標準差和樣本標準差。
第一節 變異量數 (10) Excel的VARP和VAR兩函數分別用以計算母體變異數和樣本變異數。 STDEVP和STDEV則分別用以計算母體標準差和樣本標準差(其中P代表母體population)。 「=VARP(1,2,3,4,5)」得母體變異數為2。 「=VAR(1,2,3,4,5)」得樣本變異數2.5。 「=STDEVP(1,2,3,4,5)」得母體標準差1.414。 「=STDEV(1,2,3,4,5)」得樣本標準差1.581。
第一節 變異量數 (11) 變異係數(coefficient of variation) 標準差除以平均數就是變異係數。 由於計算變異數(或標準差)時,因為每個值都要減去平均數,因此變異數必然受到平均數的影響。為了避免變異指標受到平均數的影響,將標準差除以平均數,形成變異係數。
第一節 變異量數 (12) 在一項實驗裡,實驗組接受了某種閱讀技巧訓練,控制組則無,每組各10人。 實驗組的標準差3.52約為控制組7.01的一半,控制組的變異係數0.14不到實驗組0.35的一半。
第二節 各種變異量數的比較 (1) 全距的優點在於計算容易,容易理解。缺點是只利用最大和最小值,完全漠視了其他值的存在,無法精確反應所有資料的分散情形。 四分位距將極端的前1/4和後1/4去除,而利用第三個與第一個四分位數的差距來表示分散情形,因此避免了全距受到極端值影響的缺點。不過,四分位距的計算顯然不如全距來得方便,因為必須將資料由小到大排序。和全距一樣,四分位距也沒使用到所有的資料點。
第二節 各種變異量數的比較 (2) 平均絕對離差則使用了全部的資料,這是比較恰當的作法。此外,平均絕對離差也蠻容易理解。不過,由於計算平均絕對離差必須先求絕對值,因此運算並不方便。 標準差和平均絕對離差的意義非常類似,因此不難理解。變異數及標準差還有方便四則運算,以及可用以推估母體參數(母體變異數、母體標準差)的好處,因此是推論統計的基石。
第二節 各種變異量數的比較 (3) 變異數(標準差)比平均絕對離差容易受到極端值的影響,這是因為計算變異數時使用了平方的關係。 例如1, 2, 3, 4, 5的母體標準差為1.41,平均絕對離差為1.20,兩者頗為接近。如果資料是1, 2, 3, 4, 10,則兩者分別為3.16和2.40,可見標準差受到極端值的影響比平均絕對離差來得大。 變異係數可以消去平均數的影響,如果要比較兩種平均數差異很大的資料的分散情形,利用變異係數比用標準差來得恰當了。
第三節 柴氏不等式定理 (1) 柴氏不等式(Chebyshev’s Inequality) 該定理表示:數值在平均數m上下k個標準差之內的機率不小於1-1/k2。即 P[(|X – m|) ks ] 1 – 1/ k2 柴氏不等式定理適用於任何的分佈,包括間斷機率分佈和連續機率分佈,樣本和母體的分佈。
第三節 柴氏不等式定理 (2) 例如智商的平均數m = 100,標準差s = 15,則數值在平均數100 1s之內(即介於85到115之間)的機率不小於0(=1-1/12)。 數值在平均數100 2s之內(即介於70到130之間)的機率不小於3/4(=1-1/22)。 數值在平均數100 3s之內(即介於55到145之間)的機率不小於8/9(=1-1/32)。
第四節 分佈形狀 (1) 最佳描述資料的方法就是呈現所有的資料點,包括資料的分佈形狀,配合集中量數和變異量數,將更能完整呈現資料的特性。 例如調查100位中學生每週流連網路咖啡店的時數,結果發現平均數為5.68,標準差為5.77。看到這樣的數字,我們就會以為多數人每週花在網咖的時間為5到6小時。
上圖稱為直方圖(histogram)。直方圖類似長條圖,不過直方圖中的長條沒有空隙。這是因為直方圖的X軸的變項是連續的量變項。
第四節 分佈形狀 (2) 隨著分佈形狀的改變,集中量數,如平均數、中位數、眾數三者的關係會有所變化。 圖 (a)呈現的是所有的資料數值都是一樣的次數,例如每週去網咖的時間為0、2、4、6、8、10、12、14小時的人數都是10人。此時平均數和中位數相同,但並無眾數。這稱為均勻分佈(uniform distribution)。
第四節 分佈形狀 (3) 如果分佈像圖 (b)所示,呈現左右對稱的單峰分佈(unimodal distribution),平均數、中位數、眾數三者相同。成年男性或女性的身高應該都是這種單峰且對稱的分佈。 如果分佈如圖(c),大部份的數值集中在右邊,成單峰分佈,則眾數大於中位數,中位數大於平均數。這種分佈又稱為左偏態分佈或負偏態分佈(negatively skewed distribution),因為左邊的尾巴很長。
第四節 分佈形狀 (4) 如果分佈如圖(d),大部份的數值集中在左邊,成單峰分佈,則平均數大於中位數,中位數大於眾數。這種分佈又稱為右偏態分佈或正偏態分佈(positively skewed distribution),因為右邊的尾巴很長。 如果資料呈現雙峰分佈(bimodal distribution)且左右對稱,如圖(e),則眾數會有兩個,平均數和中位數相同。如果將成年男性和成年女性的身高擺在一起,就可能形成這種雙峰且對稱的分佈。