統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數
集中量數(Measures of Central Tendency) 平均數 算術平均數 加權平均數 幾何平均數 調和平均數 截尾平均數 溫塞平均數 中位數 眾數
算術平均數(Arithmetic Mean) 算術平均數簡稱平均數,亦稱非加權平均數(unweighted mean)。其運算公式如下: 未分組資料: 分組資料:
加權平均數( Weighted Mean ) 加權平均數適用於當各個數值之重要程度不同,須使用不同權數表示不同比重時。
幾何平均數(Geometric Mean) 幾何平均數適用於平均改變率、平均成長率、平均比率或是對數分配等之資料的平均之求算。常見的幾何平均數有平均經濟成長率、物價等具有基期之資料。
調和平均數(Harmonic Mean) 若資料呈現調和級數(資料的倒數為等差級數)時,適用調和平均數來計。在實際的應用中,如物價固定下的平均物價、距離固定下之平均時速等資料皆適合使用。 (調和平均數永遠小於幾何平均數,而幾何平均數又小於算術平均數。)
截尾平均數(Trimmed mean) 截尾平均數為將資料中的第一四分位數以下、第三四分數位以上的觀察值去除後,計算剩餘觀察值(第一和第三四分位數中間的數值)的算術平均數。
溫塞平均數(Winsorized mean) 將資料中第一四分位數以下、第三四分數位以上的觀察值分別以第一四分位數及第三四分數位代替之,然後計算算術平均數。
中位數(Median) 將統計資料依其大小排列,而其位置居於中間者,為該群資料的中位數 未分組資料: 首先將n個數值由小而大順序排列,然後決定中位數所在位次,如果樣本大小n 為偶數,則以第n/2個與n/2+1個數值的平均值為中位數,如果樣本大小n為奇數, 則以第(n+1)/2個數值為中位數。 分組資料:
眾數(Mode) 眾數係指在一群體中出現次數最多的那個數值。通常它適用名義尺度資料。 將資料依序歸類,找出出現次數最多的數值,即為眾數。 未分組資料: 將資料依序歸類,找出出現次數最多的數值,即為眾數。 分組資料: 使用King插補法
平均數、中位數、眾數的比較 尺度特性 優缺點 名義尺度:眾數 序列尺度:眾數或中位數 等距尺度及比例尺度:平均數 眾數:具有作為類別資料的判斷準則(例如在民意的表達,少數服從多數)、不受極端值影響等之優點。但是如果觀察值的分佈並不集中,則不適用眾數為判斷準則;另外眾數不適合數學運算。 中位數:具有不受極端值的影響,代表機率累積到中位數時所佔之機率值為50%等優點。但是中位數一樣不適合數學運算。 算術平均數:具有可進行四則運算、誤差平方和(Error sum of squares)最小、母體平均數的最佳估計式等優點。但是容易受極端值影響及資料分配呈現雙峰分配時,無法代表集中趨勢。
變異量數(Measures of Dispersion)或離散量數 全距 平均絕對離差 變異數 標準差 變異係數 四分差
全距(Range, R) 全距是表示一群體全部數值的變動範圍。其計算簡單、意義顯明,但反應不夠靈敏,即最大、最小數值不變而其它各項數值皆改變時,全距不能反應;此外,全距容易受兩極端數值的影響。
平均絕對離差(Mean absolute Deviation) 平均絕對離差係用以表示所有觀測值與平均數之絕對值差異距離。由於其係根據全部數值求得,故較全距感應靈敏,但因使用絕對值運算,較不易計算,故較不常使用。
變異數(Variance) 變異數係用以顯示一群體中所有數值與平均數離散的情形,應用最為廣泛。 未分組資料 母體變異數 樣本變異數
樣本變異數 母體變異數
標準差(Standard Deviation, SD) 標準差為變異數的正平方根 母體的標準差 樣本的標準差
變異係數(Coefficient of Variation, CV) 變異係數是由標準差變化而來的另一量數,為將標準差除以平均數所得。變異係數的主要功用是用以比較單位不同之多種資料的差異程度;或用以比較單位相同,但平均數不同之多種資料的差異程度。
四分位數距(Inter-quartile range)及四分差(Quartile Deviation, QD) 四分位差
各種離散趨勢量數的比較 全距:優點為計算容易,易於瞭解,缺點是只使用了資料中的極大值與極小值,不能充份表達資料的分散情況而且易受資料中的極端值的影響。 四分位距及四分位差:優點為使用第三及第一四分位數,避免受極端值的影響;但是和全距一樣,不能充份表達資料的分散情況。 平均絕對離差:相對於全距及四分位距等量數,平均絕對離差使用了全部的資料來計算;但是因為其運算是使用絕對值的方式,在計算上較為不便。 變異數:和平均絕對離差一樣,變異數在計算上使用了全部的資料,而且其計算較為方便;但是變異數較平均容易受極端值的影響、
契比雪夫不等式(Chebyshev’s Inequality) 不論資料為何種分佈,至少有(1 – 1/k2)的資料落在距離平均數k個標準差的範圍內,其中k為大於1的任意數。
相對位置量數(Measures of Relative Position) 百分位數 四分位數 標準分數
百分位數(Percentile) 將原始資料由小至大排序後,累積次數到達第k%的觀測值,稱為第k百分位數;其表示方法為「Pk」
原始資料 以遞增方式將原始資料排序,(1)≦X(2)≦、、≦X(n) 當kn/100為整數時,使用內差法的公式為
當kn/100不為整數時,使用內差法的公式為
分組資料:
四分位數(Quartile) 為百分位數的特殊應用,亦即第一個四分位數(Q1)代表第二十五百分位數、第二個四分位數(Q2) 代表第五十百分位數,亦為中位數,第三個四分位數(Q3)則為第七十五百分位數。
標準分數(Standard score)
分配形態量數(Measure of Distribution Shape) 動差 偏態 峰度
動差 定義:一群數字資料中每個數值與某特定值差異之r次方的平均數,稱為r階動差。 概約動差 對任一實數a為特定值之動差,又稱之為輔助動差。
原動差:當 a = 0 時之動差 主要動差:當 a = 時之動差
偏態(skewness)係數 動差法 Pearson法 對稱分配 右偏分配 左偏分配 M0:眾數 Md:中位數 a. SK = 0對稱分配 b. SK > 0右偏分配 c. SK < 0左偏分配
正負偏態時,平均數、中位數、和眾數的關係
峰度係數 則此分配為常態峰 則此分配為高狹峰 則此分配為低闊峰