Download presentation
Presentation is loading. Please wait.
1
第九章 離散程度
2
全距 前章之均數雖然是一組樣本重要之統計量;但各樣本間之離散程度也 是觀察一分配的重要特徵。如果,一分配之離散程度較小,其均數對 全體的代表性就較高;反之則否。因此,欲瞭解一分配的基本性質, 除需計算均數等集中趨勢數量外;還得衡量其標準差、全距、……等 離散程度。 最大值減最小值就是全距(range): 全距=最大值-最小值 全距表示一群體全部數值的變動範圍,是一種離中量數,可用來表示 群體中各數字之分散情形,數字大表母體中之數值高的很高,但低的 卻很低。
3
未分組資料之全距 對於未分組之數值資料,於Excel可使用MAX()-MIN()、LARGE()- SMALL()或下文QUARTILE()與PERCENTILE()與函數來求算全距: (詳範例Ch09.xlsx『運動時間全距』工作表)
4
若分別以DMAX()、DMIN()與DAVERAGE(),可依性別求男女之極大、極小 與均數。以範例Ch09
若分別以DMAX()、DMIN()與DAVERAGE(),可依性別求男女之極大、極小 與均數。以範例Ch09.xlsx『依性別求運動時間全距』工作表F欄之男性部份 言,其運算公式分別為: F4極大 =DMAX($A$1:$C$116,$C$1,F$2:F$3) F5極小 =DMIN($A$1:$C$116,$C$1,F$2:F$3) F6全拒 =F4-F5 F7平均 =DAVERAGE($A$1:$C$116,$C$1,F$2:F$3) F8樣本數 =DCOUNT($A$1:$C$116,$C$1,F$2:F$3)
5
馬上練習 以範例Ch09.xlsx『依性別求飲料花費之全距』工作表內容,依性別計 算飲料花費之全距。
6
分組資料之全距 若原取得之資料係分組結果,如:0~2000、 2001~4000、……10001~,通常是以 最大組之上界 - 最小組之下界 來求算其全距。 最小組之下界取得並無問題;較困擾的是最大組之上界,我們可以 最大組之上界 = 前一組之上界 + 組距 來求得。如:0~2000、2001~4000、…、8001~10000、10001~之分 組,其最小組之下界為0,最大組之上界為 = 全距為 – 0 = 雖不是很正確,但也是沒辦法的事!
7
全距之優缺點 全距是衡量離散程度最簡單的方法,全距越小表資料之分配越集中。 它的優點為: 計算方法很簡單 意義明顯,容易解釋 但其缺點為:
反應不夠靈敏,當極大、極小數值不變,而其它各項數值皆改變時, 全距仍不能反應出變化 易受兩極端數值的影響 因此,一般言,全距並不是很好的離散程度衡量法。通常,用於取樣 不多,要粗定其相差程度之特殊情況。如:品管上,工廠只要求其產 品之使用壽命的全距不要太大,並不很重視使用壽命長短的分佈情況, 雖取樣不多,但卻能發揮其簡捷功效。此外,醫生觀察病人的體溫, 氣象局公佈之溫差、股票組對股價的漲跌,也經常是使用全距資料。
8
四分位差 QUARTILE(陣列,類型) QUARTILE(array,quart)
求一個數值陣列或儲存格範圍的第幾個四分位數:將所有數字依大小 順序排列後,排列在0%、25%、50% 、75%與100%之數字。如果該 位置介於兩數之間,將計算該點左右兩個數字的平均值。 陣列是要求得四分位數的數值陣列或儲存格範圍。 類型用以指出要傳回的數值: 0 表最小值(0%處) 1 表第一個四分位數(25%處),下四分位數,Q1 2 表第二個四分位數(50%處),即中位數,Q2 3 表第三個四分位數(75%處),上四分位數,Q3 4 表最大值(100%處)
9
最大值減最小值就是前述之全距。第三個四分位數Q3減去第一個四分位數Q1 後的一半: 即四分位差(Q. D
最大值減最小值就是前述之全距。第三個四分位數Q3減去第一個四分位數Q1 後的一半: 即四分位差(Q. D.),因其為Q3與Q1間距之半,故又稱半內距。其意義為: 以母群體居中百分之五十的數值(中位數),所分散之距離的一半為差量,數 字小表分配情況的集中程度高。
10
未分組資料之四分位數 對於未分組之數值資料,於Excel可直接使用QUARTILE()函數來求 算四分位數,並計算出全距與四分位差:(詳範例Ch09.xlsx『運動時 間四分位數』工作表)
11
馬上練習 依範例Ch09.xlsx『成績之四分位數』工作表內容,計算其四分位數、 全距與四分位差。
12
分組資料之四分位數 若原資料係分組資料,如:5萬元以下、5至10萬元、…。其Q1、Q3之 算法類似前章求算中位數之近似值,因中位數即是Q2。Q1之算法為: 式中, n為總樣本數 LQ1為Q1組之下限 Fi為Q1組以下的累計次數(Q1組之次數不算) fi為Q1組之次數,即累計百分比為25%之組別所出現的樣本數 h為Q1組之組距
13
同樣,Q3之算法為: 式中, n為總樣本數 LQ3為Q3組之下限 Fi為Q3組以下的累計次數(Q3組之次數不算) fi為Q3組之次數,即累計百分比為75%之組別所出現的樣本數 h為Q3組之組距 如範例Ch09.xlsx『求分組資料之四分位數』工作表之資料,其Q1近似值為:
14
如範例Ch09.xlsx『求分組資料之四分位數』工作表之資料,其Q1近似值為: 即 =50000+((F7/4)-H2)/F3*50000
15
馬上練習 依範例Ch09.xlsx『每月零用金之四分位差』工作表內容,計算每月零 用金之四分位差。原問卷之內容為:
請問您每月可支配零用金額大約多少: □ 元以下 □ ~4000元 □ ~6000元 □ ~8000元 □ ~10000元 □ 元以上
16
四分位差之優缺點 四分位差之優點為:不受少數極端值的影響。但其缺點為:
僅能表示一次數分配中間一半變量之分散情況;而不是全部變量之分 散情況!對分佈兩端之範圍,則不涉及。 計算稍嫌麻煩,尤其是分組資料。
17
百分位數 PERCENTILE(陣列,百分比) PERCENTILE(array,percent)
可用來求一個數值陣列或儲存格範圍的第幾個百分位數:將所有數字 依大小順序排列後,排列在百分比所指定位置之數字。如果該位置介 於兩數之間,將計算該點左右兩個數字的平均值。 陣列是要求得百分位數的數值陣列或儲存格範圍。 百分比是介於0~1之百分比數字,如:0.25將求得第一個四分位數(Q1, 25%處,也可以P25表示),0.5將求得第二個四分位數(Q2,50%處,也 可以P50表示),即中位數。當其百分比為10的倍數,則求得者即為十 分位數。如:0.3將求得第三個十分位數D3(也可以P30表示),0.9將 求得第九個十分位數D9(也可以P90表示)。
18
前文QUARTILE()四分位數函數只能求四分位數,本函數則可求任何百分位 數,F15係求D3(P30):(詳範例Ch09
前文QUARTILE()四分位數函數只能求四分位數,本函數則可求任何百分位 數,F15係求D3(P30):(詳範例Ch09.xlsx『成績之百分位數』工作表) =PERCENTILE($A$1:$H$9,E15)
19
馬上練習 依範例Ch09.xlsx『運動時間之百分位數』工作表內容,計算P20、P80, P80-P20之數字代表何種意義?
20
平均絕對差 平均絕對差(MAD,mean absolute deviation)之公式為: 即取每一觀測值與其均數間差異的絕對值之算術平均,取其絕對值就 是因為無論正差或負差,取絕對值後均為正值,就不會產生正負相抵 銷之情況。 於Excel,平均絕對差可利用AVEDEV()函數來求算,其語法為: AVEDEV(數值1,[數值2],...) AVEDEV(number1,[number2],...) 式中,方括號包圍之部份表其可省略。數值1,[數值2],...為要計算平均 絕對差之儲存格或範圍引數,最多可到255個引數。
21
範例Ch09.xlsx『平均絕對差』工作表,以D欄計算所有成績與均數差之絕對 值
=ABS(C2-$B$12)、… 的總和,再除以筆數 =COUNT(C2:C8) 求得平均絕對差10.49(=D9/D10)。其結果同於直接以 =AVEDEV(C2:C8) 所求得平均絕對差: 在直覺上,它是一個很理想的離散程度之衡量方法。其值越小,表離散程度越小。它的優點是:考慮到資料群內的每一個值;但其缺點為:易受極端值之影響,且公式因得取絕對值,不適合代數處理,所以才有變異數與標準差之發明。
22
母體變異數VARP()與VARPA() 母體變異數的計算公式為: 即取每一觀測值與其均數間之差異的平方和的算術平均。取其平方就 是因為無論正差或負差,經平方後均為正值,就不會產生正負相抵銷 之情況,以代替取絕對值之麻煩。 變異數是用來衡量觀測值與平均值間的離散程度,其值越小表母體的 離散程度越小,齊質性越高。於Excel是以VARP()與VARPA()函數來 求算母體變異數,其語法為: VARP(數值1,[數值2],...) VARP(number1,[number2],...) VARPA(數值1,[數值2],...) VARPA(number1,[number2],...) 式中,方括號包圍之部份表其可省略。數值1,[數值2],...為要計算變異 數之儲存格或範圍引數,它是對應於母群體的1到255個數字引數。
23
怎麼所求之均數會不同?這是因C4為"缺考"字串並非數值,故VARP()函數會將其排除掉,也就是說其分母為6;而非VARPA()函數的7。
VARP()係求所有數值的母體變異數;而VARPA()則求所有非空白儲存格之母 體變異數。如,範例Ch09.xlsx『母體變異數』工作表之C11與C12處,同樣 以C2:C8為處理範圍: =VARP(C2:C8) =VARPA(C2:C8) 怎麼所求之均數會不同?這是因C4為"缺考"字串並非數值,故VARP()函數會將其排除掉,也就是說其分母為6;而非VARPA()函數的7。 實務上,因為通常無法全數取得整個母體,我們很少使用這個函數;而是以下文之樣本變異數VAR()與VARA()來替代。
24
母體標準差STDEVP()與STDEVPA()
將母體變異數開根號,即可求得母體標準差。其公式為: 變異數取其平方是因為要避免正差或負差,產生正負相抵銷之情況。 而標準差將其開根號,即是將平方還原,以代替原須取絕對值之麻煩。 母體標準差,於Excel也可以STDEVP()與STDEVPA()函數來直接求 算。其語法為: STDEVP(數值1,[數值2],...) STDEVP(number1,[number2],...) STDEVPA(數值1,[數值2],...) STDEVPA(number1,[number2],...) 式中,方括號包圍之部份表其可省略。數值1,[數值2],...為要計算標準 差之儲存格或範圍引數,它是對應於母群體的1到255個數字引數。
25
標準差主要是用來衡量觀測值與平均值間的離散程度,其值越小表母體的齊質 性越高。如兩班平均成績同為75,但甲班之標準差為7. 8;而乙班為12
標準差主要是用來衡量觀測值與平均值間的離散程度,其值越小表母體的齊質 性越高。如兩班平均成績同為75,但甲班之標準差為7.8;而乙班為12.4。這 表示甲班之程度較為一致(齊質);而乙班之程度則變化較大,好的很好,差 的很差。 STDEVP()係求所有數值的母體標準差;而STDEVPA()則求所有非空白儲存 格之母體標準差,第11列之資料會偏低,是因C4為“缺考”字串並非數值,故 會被排除於計算之外:(詳範例Ch09.xlsx『母體標準差』工作表) 實務上,因為通常無法全數取得整個母體,我們很少使用這個函數;而是以下 文之樣本標準差STDEV()與STDEVA()來替代。
26
樣本變異數VAR()與VARA() VAR(數值1,[數值2],...) VAR(number1,[number2],...)
VARA(number1,[number2],...) 這兩個函數均用來計算樣本變異數。 數值1,[數值2],...為要計算變異數之儲存格或範圍引數,它是對應於某 母群體抽樣選出的1到255個數字引數樣本。 樣本變異數的計算公式為: 其與母體變異數的計算公式: 只差在後者之分母為n;而前者為n-1。當樣本個數n愈大時,樣本變 異數與母體變異數會愈趨近於相等。
27
VAR()係求所有數值的樣本變異數;而VARA()則求所有非空白儲存格之樣本 變異數,F12之公式,因將"缺考",被當成0納入計算,故其樣本變異數明顯 增大:(詳範例Ch09.xlsx『母體與樣本變異數』工作表)
28
變異數與標準差之優缺點 變異數與標準差是最常被用來衡量離散程度的方法,其優點為: 感應靈敏 嚴密精確 適於代數處理 受抽樣變動之影響甚小
但其缺點為 不是簡明易解 計算困難 受極端值影響較大
29
樣本標準差STDEV()與STDEVA()
STDEV(number1,[number2],...) STDEVA(數值1,[數值2],...) STDEVA(number1,[number2],...) 這兩個函數均用來計算樣本標準差。式中,方括號包圍之部份表其可 省略。 數值1,[數值2],...為要計算標準差之儲存格或範圍引數,最多可達255 個,它是於某母群體中所抽選出的樣本。 樣本標準差的計算公式為: 與母體標準差的計算公式: 只差在後者之分母為n;而前者為n-1。當樣本個數n愈大時,樣本標 準差與母體標準差會愈趨近於相等。
30
STDEV()係求所有數值的標準差;而STDEVA()則求所有非空白儲存格之標 準差,E12之公式,因將"缺考"當成0納入計算,故其標準差明顯增大:(詳 範例Ch09.xlsx『母體與樣本標準差』工作表)
31
未分組資料之變異數與標準差 對於未分組之數值資料,於Excel可直接使用VAR()與STDEV()函數來 求算其樣本變異數與標準差:(詳範例Ch09.xlsx『運動時間之變異數 與標準差』工作表) 可發現,樣本標準差或變異數,因分母為n-1,故其值會較高一點;而 母體標準差或變異數之分母為n;故其值會較低一點。但因本例之樣本 數相當大為115,故兩者間之差別並不大。
32
馬上練習 依範例Ch09.xlsx『成績之變異數與標準差』工作表內容,計算其均數、 變異數與標準差。(僅取樣本變異數與標準差)
33
以DVAR()、DSTDEV()求各組變異數與標準差
DVAR(database,field,criteria) DSTDEV(資料庫表單,欄名或第幾欄,準則範圍) DSTDEV(database,field,criteria) 函數中,各引數之標定方式參見第八章DAVERAGE()處之說明。以範 例Ch09.xlsx『依性別求運動時間之變異數與標準差』工作表之資料言, 其男/女/全體運動時間之標準差分別為53.36、58.91與56.50:
34
H6全體運動時間之標準差56.5,與前文範例Ch09.xlsx『運動時間之變異數與 標準差』工作表所求得之結果相同,可見DVAR()與DSTDEV()兩資料庫函數, 所求算之對象為樣本變異數與標準差。
由表中資料可看出:男生平均運動時間比女生高些,均數分別為91.95與75.36 分鐘;但由女性運動時間標準差為58.91,大於男性之53.36,可見女性之運動 時間的離散程度會稍大於男性,但其間之差異並不很明顯! F4:F7之公式分別為: F4 =DAVERAGE($A$1:$C$116,$C$1,F$2:F$3) F5 =DVAR($A$1:$C$116,$C$1,F$2:F$3) F6 =DSTDEV($A$1:$C$116,$C$1,F$2:F$3) F7 =DCOUNT($A$1:$C$116,$C$1,F$2:F$3) 將F4:F7之公式,以拖曳方式複製給G4:H7,即可獲得整個結果。
35
馬上練習 依範例Ch09.xlsx『依性別求飲料花費之標準差與變異數』工作表內容, 計算出男/女性及全體飲料花費之均數、標準差、變異數與樣本數。
36
以交叉表求標準差 對於必須同時使用兩個條件求均數、標準差與人數,最便捷之處理方 式為利用「樞紐分析表」來建立交叉表。以範例Ch09.xlsx『以交叉表 求一週飲料花費之均數、標準差與人數』工作表之資料為例:
37
以樞紐分析表計算性別交叉居住狀況,求一週飲料花費平均數、標準差及人數。 交叉表之結果為:
38
馬上練習 依範例Ch09.xlsx『平均月費之均數與標準差』工作表內容 計算性別交叉是否有男/女朋友,求平均月費之均數、標準差及人數:
39
原分組資料轉組中點計算變異數與標準差 對問卷上,採用勾填某一區間所獲得之數字。如:
於計算其均數、變異數與標準差時,得將其轉為組中點。然後,以IF() 函數: =IF(B2=1,25000,IF(B2=2,75000,IF(B2=3,125000,IF(B2=4,175000, )))) 將其代入到問卷資料中,續求算其均數、變異數與標準差。 本例由於各組之組距均為50000,故亦可將上示之IF()函數簡化成: (詳範例Ch09.xlsx『以組中點求毎月所得均數、變異數與標準差』工 作表) =25000+(B2-1)* 來求算其均數、變異數與標準差:
40
馬上練習 依範例Ch09.xlsx『求每月零用金均數與標準差』工作表內容,計算每 月零用金之均數與標準差。原問卷之內容為:
41
馬上練習 續上題,依範例Ch09.xlsx『性別交叉居住狀況求每月零用金均數與標 準差』工作表內容,以樞紐分析表求性別交叉居住狀況的每月零用金 平均數及人數。
42
直接以次數分配表求變異數 另一種計算方式,是不經過以IF()或計算,將原間斷之類別變數轉為 組中點之數字;而直接以次數分配表求變異數。其公式為: 式中, xi為第i組之組中點 fi為第i組之次數(樣本數) 如範例Ch09.xlsx『以組中點求毎月所得變異數-次數分配』工作表:
43
敘述統計 若曾安裝『分析工具箱』,則可以『資料分析』之「敘述統計」增益 集,來計算一組資料內之各相關統計值。如:均數、變異數、標準差、 全距(範圍)、……等。 假定,以範例Ch09.xlsx『運動時間敘述統計』工作表之資料 擬使用『資料分析』之「敘述統計」,來計算運動時間之各敘述統計 值。其處理步驟為:
44
切換到『資料』索引標籤, 點選『分析』群組『資料分析』指令按鈕, 於『分 析工具』處選「敘述統計」
按 鈕 於『輸入範圍』處,以選取方式設定要處理之資料範圍(B1:B116) 於『分組方式』選「循欄」 點選「類別軸標記是在第一列上(L)」(因資料含『每次運動時間/分』之字串 標記) 設定輸出範圍,本例安排於目前工作表之D2位置 點選「摘要統計(S)」
45
按 鈕結束,即可獲致詳細之相關統計數字。其內之『範圍』 項即『全距』(本例之最大值為300,最小值為0)
46
第九章 結束 謝謝!
Similar presentations