第2章 集中量數
前言 要描述資料,通常會使用兩種數據: 1. 資料集中的情形,稱為集中量數,主要包括平均數、眾數、中位數。 2. 資料分散的情形,稱為變異量數。 除此之外,有時還會佐以資料的分佈圖,以便讓讀者更容易瞭解資料的特色。
第一節 平均數(1) 平均數: 1. 算數平均數 2. 幾何平均數 3. 調和平均數 為了區分描述統計與推論統計,如果資料描述的是母體,就用希臘字母。如果是描述樣本,就用英文字母。
第一節 平均數(2) (算數)平均數(mean) 其中N是個數,Xi是第i個分數, 是相加。m 是母體平均數,讀作/mu/。 讀作/X bar/
第一節 平均數(3) Excel的 AVERAGE函數可用來計算算數平均數。 如果這5個數字分別存放於A1到A5的欄位中,則鍵入「=AVERAGE(A1:A5)」得3。 如果沒有特別說明的話,所謂「平均數」指的是算數平均數。
第一節 平均數(4) 幾何平均數(geometric mean) 是相乘的意思;某個數的次方,就是開N次方。
第一節 平均數(5) 幾何平均數適用於平均改變率、平均成長率,或平均比率。例如1996年的經濟成長率是1%,1997年是2%,1998年是3%,1999年是4%。則平均的經濟成長率就是幾何平均數為
第一節 平均數(6) 幾何平均數適用於呈等比級數的資料。例如某公司近五年的廣告支出為5, 14, 40, 125, 350百萬元,此資料近似等比級數(每年成長約3倍)。 Excel的 GEOMEAN函數可用來計算幾何平均數,例如5, 14, 40, 125, 350的平均數可鍵入「=GEOMEAN(5, 14, 40, 125, 350)」得41.46。
第一節 平均數(7) 調和平均數(harmonic mean) 各數值倒數的算術平均之倒數,又稱為倒數平均數。
第一節 平均數(8) 若資料呈現調和級數(即倒數呈現等差數列),用調和平均數最能反映資料的集中趨勢。由於H的計算必須使用倒數,因此數字中不可出現0。 例如走國道高速公路由台北往高雄,平均時速為80公里,回程平均時速90公里,則全程的平均時速為何?這是典型的調和平均數例子。 用Excel的HARMEAN函數,例如鍵入「=HARMEAN(80,90)」得84.71
第一節 平均數(9) 算數平均數有所謂的m和 之別,其他的集中量數並無。因為我們會用樣本平均數來推論母體平均數m,但通常不會關心母體的幾何平均數、調和平均數、或其他集中量數。
第二節 其他集中量數(1) 中位數或中間值(median) 將分數由大到小排列時,中間的那個值即是中位數。例如有5個分數時,由大到小排列後,第三個值就是中位數。如果有6個分數時,中位數就是第3和第4個值的平均值。 例如1, 2, 3, 4, 5的中位數為3。1, 2, 3, 4的中位數為2.5。用Excel的MEDIAN函數計算之。例如「=MEDIAN(1, 2, 3, 4) 」得 2.5。
第二節 其他集中量數(2) 眾數(mode) 分數中出現最多的值。如果所有的數值只出現一次,那就沒有眾數。眾數可能有兩個值以上,這和平均數、中位數不一樣,它們只有一個值。 例如1, 2, 3, 4並沒眾數。1, 1, 2, 3, 4的眾數為1。1, 1, 2, 2, 3的眾數有兩個,分別是1和2。Excel的MODE函數可計算眾數,如「=MODE(1, 1, 2, 3, 4) 」得 1。
第二節 其他集中量數(3) 截尾平均數(trimmed mean) 將分數由小到大排列,排名第1/4的值稱為Q1,稱為第一個四分位數。排名2/4的值為Q2,稱為第二個四分位數,這其實也是中位數。排名3/4的值稱為Q3,稱為第三個四分位數。 將Q1以下的數值和Q3以上的數值排除,計算剩下數值的平均數,就是所謂的截尾平均數。
第二節 其他集中量數(4) 例如資料為1, 2, 3, 4, 5, 6, 7, 8, 9, 10。Q1和Q3分別為3.25和7.75。因此介於Q1和Q3之間的數值為4, 5, 6, 7。這四個值的平均數為5.5,這就是截尾平均數。 算數平均數容易受到極端值(outlier)的影響。截尾平均數將左右兩端的數值去除,就是為了避免受到極端值的影響。
第二節 其他集中量數(5) Excel的QUARTILE函數可計算Q1和Q3。 可得到Q1為3.25。其中大括號內就是資料,大括號外的1表示Q1。若鍵入「=QUARTILE({1,2,3,4,5,6,7,8,9,10},3)」,可得到Q3為7.75。
第二節 其他集中量數(6) 溫塞平均數(Winsorized mean) Q1以下的數值和Q3以上的數值,並不是被排除,而是分別用Q1或Q3取代,然後計算平均數,就是溫塞平均數。 例如為1, 2, 3, 4, 5, 6, 7, 8, 9, 10。Q1和Q3分別為3.25和7.75。因此資料變為3.25, 3.25, 3.25, 4, 5, 6, 7, 7.75, 7.75, 7.75,其平均值為5.5,這就是溫塞平均數。
第三節 平均數、中位數、眾數的比較(1) 量尺特性 名義量尺:眾數 順序量尺:眾數、中位數 等距量尺:眾數、中位數、平均數
第三節 平均數、中位數、眾數的比較 (2) 就等距量尺而言,如果數值的分佈形狀是左右對稱,則平均數會等於中位數。 如果左右對稱外且只有一個高峰,則平均數、中位數、和眾數都會相等。 如果只是左右對稱,但有多個高峰,平均數和中位數仍是同一個值,但眾數卻有多個值(且和平均數不同)。 一般而言,我們所蒐集到的資料,這三個值都不會相同,因為不會那麼剛好單峰又左右對稱。
優缺點比較 第三節 平均數、中位數、眾數的比較 (3) 眾數優點:真實存在、多數意見、容易猜中。 眾數缺點:未必能代表集中趨勢 中位數優點:不受極端值影響 中位數缺點:不適合四則運算
第三節 平均數、中位數、眾數的比較 (4) 平均數優點: 平均數優點:容易受到極端值的影響 可以進行四則運算,是推論統計的基礎 。 使用了資料所有的數值,因此具有代表性。 用平均數來猜測所有數值,產生的誤差最小。 樣本的平均數是母體的平均數的最佳估計式(estimator)。 平均數較不會受到抽樣變動的影響 平均數優點:容易受到極端值的影響