第九章離散程度.

第九章離散程度

全距前章之均數雖然是一組樣本重要之統計量；但各樣本間之離散程度也是觀察一分配的重要特徵。如果，一分配之離散程度較小，其均數對全體的代表性就較高；反之則否。因此，欲瞭解一分配的基本性質，除需計算均數等集中趨勢數量外；還得衡量其標準差、全距、……等離散程度。最大值減最小值就是全距（range）：全距＝最大值－最小值全距表示一群體全部數值的變動範圍，是一種離中量數，可用來表示群體中各數字之分散情形，數字大表母體中之數值高的很高，但低的卻很低。

未分組資料之全距對於未分組之數值資料，於Excel可使用MAX()-MIN()、LARGE()- SMALL()或下文QUARTILE()與PERCENTILE()與函數來求算全距：（詳範例Ch09.xlsx『運動時間全距』工作表）

若分別以DMAX()、DMIN()與DAVERAGE()，可依性別求男女之極大、極小與均數。以範例Ch09
若分別以DMAX()、DMIN()與DAVERAGE()，可依性別求男女之極大、極小與均數。以範例Ch09.xlsx『依性別求運動時間全距』工作表F欄之男性部份言，其運算公式分別為： F4極大 =DMAX($A$1:$C$116,$C$1,F$2:F$3) F5極小 =DMIN($A$1:$C$116,$C$1,F$2:F$3) F6全拒 =F4-F5 F7平均 =DAVERAGE($A$1:$C$116,$C$1,F$2:F$3) F8樣本數 =DCOUNT($A$1:$C$116,$C$1,F$2:F$3)

馬上練習以範例Ch09.xlsx『依性別求飲料花費之全距』工作表內容，依性別計算飲料花費之全距。

分組資料之全距若原取得之資料係分組結果，如：0~2000、 2001~4000、……10001~，通常是以最大組之上界－最小組之下界來求算其全距。最小組之下界取得並無問題；較困擾的是最大組之上界，我們可以最大組之上界＝前一組之上界＋組距來求得。如：0~2000、2001~4000、…、8001~10000、10001~之分組，其最小組之下界為0，最大組之上界為 = 全距為 – 0 = 雖不是很正確，但也是沒辦法的事！

全距之優缺點全距是衡量離散程度最簡單的方法，全距越小表資料之分配越集中。它的優點為：計算方法很簡單意義明顯，容易解釋但其缺點為：
反應不夠靈敏，當極大、極小數值不變，而其它各項數值皆改變時，全距仍不能反應出變化易受兩極端數值的影響因此，一般言，全距並不是很好的離散程度衡量法。通常，用於取樣不多，要粗定其相差程度之特殊情況。如：品管上，工廠只要求其產品之使用壽命的全距不要太大，並不很重視使用壽命長短的分佈情況，雖取樣不多，但卻能發揮其簡捷功效。此外，醫生觀察病人的體溫，氣象局公佈之溫差、股票組對股價的漲跌，也經常是使用全距資料。

四分位差 QUARTILE(陣列,類型) QUARTILE(array,quart)
求一個數值陣列或儲存格範圍的第幾個四分位數：將所有數字依大小順序排列後，排列在0%、25%、50% 、75%與100%之數字。如果該位置介於兩數之間，將計算該點左右兩個數字的平均值。陣列是要求得四分位數的數值陣列或儲存格範圍。類型用以指出要傳回的數值： 0 表最小值(0%處) 1 表第一個四分位數(25%處)，下四分位數，Q1 2 表第二個四分位數(50%處)，即中位數，Q2 3 表第三個四分位數(75%處)，上四分位數，Q3 4 表最大值(100%處)

最大值減最小值就是前述之全距。第三個四分位數Q3減去第一個四分位數Q1 後的一半：即四分位差（Q. D
最大值減最小值就是前述之全距。第三個四分位數Q3減去第一個四分位數Q1 後的一半：即四分位差（Q. D.），因其為Q3與Q1間距之半，故又稱半內距。其意義為：以母群體居中百分之五十的數值（中位數），所分散之距離的一半為差量，數字小表分配情況的集中程度高。

未分組資料之四分位數對於未分組之數值資料，於Excel可直接使用QUARTILE()函數來求算四分位數，並計算出全距與四分位差：（詳範例Ch09.xlsx『運動時間四分位數』工作表）

馬上練習依範例Ch09.xlsx『成績之四分位數』工作表內容，計算其四分位數、全距與四分位差。

分組資料之四分位數若原資料係分組資料，如：5萬元以下、5至10萬元、…。其Q1、Q3之算法類似前章求算中位數之近似值，因中位數即是Q2。Q1之算法為：式中， n為總樣本數 LQ1為Q1組之下限 Fi為Q1組以下的累計次數（Q1組之次數不算） fi為Q1組之次數，即累計百分比為25%之組別所出現的樣本數 h為Q1組之組距

同樣，Q3之算法為：式中， n為總樣本數 LQ3為Q3組之下限 Fi為Q3組以下的累計次數（Q3組之次數不算） fi為Q3組之次數，即累計百分比為75%之組別所出現的樣本數 h為Q3組之組距如範例Ch09.xlsx『求分組資料之四分位數』工作表之資料，其Q1近似值為：

如範例Ch09.xlsx『求分組資料之四分位數』工作表之資料，其Q1近似值為：即 =50000+((F7/4)-H2)/F3*50000

馬上練習依範例Ch09.xlsx『每月零用金之四分位差』工作表內容，計算每月零用金之四分位差。原問卷之內容為：
請問您每月可支配零用金額大約多少： □ 元以下 □ ~4000元 □ ~6000元 □ ~8000元 □ ~10000元 □ 元以上

四分位差之優缺點四分位差之優點為：不受少數極端值的影響。但其缺點為：
僅能表示一次數分配中間一半變量之分散情況；而不是全部變量之分散情況！對分佈兩端之範圍，則不涉及。計算稍嫌麻煩，尤其是分組資料。

百分位數 PERCENTILE(陣列,百分比) PERCENTILE(array,percent)
可用來求一個數值陣列或儲存格範圍的第幾個百分位數：將所有數字依大小順序排列後，排列在百分比所指定位置之數字。如果該位置介於兩數之間，將計算該點左右兩個數字的平均值。陣列是要求得百分位數的數值陣列或儲存格範圍。百分比是介於0～1之百分比數字，如：0.25將求得第一個四分位數(Q1， 25%處，也可以P25表示)，0.5將求得第二個四分位數(Q2，50%處，也可以P50表示)，即中位數。當其百分比為10的倍數，則求得者即為十分位數。如：0.3將求得第三個十分位數D3（也可以P30表示），0.9將求得第九個十分位數D9（也可以P90表示）。

前文QUARTILE()四分位數函數只能求四分位數，本函數則可求任何百分位數，F15係求D3（P30）：（詳範例Ch09
前文QUARTILE()四分位數函數只能求四分位數，本函數則可求任何百分位數，F15係求D3（P30）：（詳範例Ch09.xlsx『成績之百分位數』工作表） =PERCENTILE($A$1:$H$9,E15)

馬上練習依範例Ch09.xlsx『運動時間之百分位數』工作表內容，計算P20、P80， P80－P20之數字代表何種意義？

平均絕對差平均絕對差（MAD，mean absolute deviation）之公式為：即取每一觀測值與其均數間差異的絕對值之算術平均，取其絕對值就是因為無論正差或負差，取絕對值後均為正值，就不會產生正負相抵銷之情況。於Excel，平均絕對差可利用AVEDEV()函數來求算，其語法為： AVEDEV(數值1,[數值2],...) AVEDEV(number1,[number2],...) 式中，方括號包圍之部份表其可省略。數值1,[數值2],...為要計算平均絕對差之儲存格或範圍引數，最多可到255個引數。

範例Ch09.xlsx『平均絕對差』工作表，以D欄計算所有成績與均數差之絕對值
=ABS(C2-$B$12)、… 的總和，再除以筆數 =COUNT(C2:C8) 求得平均絕對差10.49（=D9/D10）。其結果同於直接以 =AVEDEV(C2:C8) 所求得平均絕對差：在直覺上，它是一個很理想的離散程度之衡量方法。其值越小，表離散程度越小。它的優點是：考慮到資料群內的每一個值；但其缺點為：易受極端值之影響，且公式因得取絕對值，不適合代數處理，所以才有變異數與標準差之發明。

母體變異數VARP()與VARPA() 母體變異數的計算公式為：即取每一觀測值與其均數間之差異的平方和的算術平均。取其平方就是因為無論正差或負差，經平方後均為正值，就不會產生正負相抵銷之情況，以代替取絕對值之麻煩。變異數是用來衡量觀測值與平均值間的離散程度，其值越小表母體的離散程度越小，齊質性越高。於Excel是以VARP()與VARPA()函數來求算母體變異數，其語法為： VARP(數值1,[數值2],...) VARP(number1,[number2],...) VARPA(數值1,[數值2],...) VARPA(number1,[number2],...) 式中，方括號包圍之部份表其可省略。數值1,[數值2],...為要計算變異數之儲存格或範圍引數，它是對應於母群體的1到255個數字引數。

怎麼所求之均數會不同？這是因C4為"缺考"字串並非數值，故VARP()函數會將其排除掉，也就是說其分母為6；而非VARPA()函數的7。
VARP()係求所有數值的母體變異數；而VARPA()則求所有非空白儲存格之母體變異數。如，範例Ch09.xlsx『母體變異數』工作表之C11與C12處，同樣以C2:C8為處理範圍： =VARP(C2:C8) =VARPA(C2:C8) 怎麼所求之均數會不同？這是因C4為"缺考"字串並非數值，故VARP()函數會將其排除掉，也就是說其分母為6；而非VARPA()函數的7。實務上，因為通常無法全數取得整個母體，我們很少使用這個函數；而是以下文之樣本變異數VAR()與VARA()來替代。

母體標準差STDEVP()與STDEVPA()
將母體變異數開根號，即可求得母體標準差。其公式為：變異數取其平方是因為要避免正差或負差，產生正負相抵銷之情況。而標準差將其開根號，即是將平方還原，以代替原須取絕對值之麻煩。母體標準差，於Excel也可以STDEVP()與STDEVPA()函數來直接求算。其語法為： STDEVP(數值1,[數值2],...) STDEVP(number1,[number2],...) STDEVPA(數值1,[數值2],...) STDEVPA(number1,[number2],...) 式中，方括號包圍之部份表其可省略。數值1,[數值2],...為要計算標準差之儲存格或範圍引數，它是對應於母群體的1到255個數字引數。

標準差主要是用來衡量觀測值與平均值間的離散程度，其值越小表母體的齊質性越高。如兩班平均成績同為75，但甲班之標準差為7. 8；而乙班為12
標準差主要是用來衡量觀測值與平均值間的離散程度，其值越小表母體的齊質性越高。如兩班平均成績同為75，但甲班之標準差為7.8；而乙班為12.4。這表示甲班之程度較為一致（齊質）；而乙班之程度則變化較大，好的很好，差的很差。 STDEVP()係求所有數值的母體標準差；而STDEVPA()則求所有非空白儲存格之母體標準差，第11列之資料會偏低，是因C4為“缺考”字串並非數值，故會被排除於計算之外：（詳範例Ch09.xlsx『母體標準差』工作表）實務上，因為通常無法全數取得整個母體，我們很少使用這個函數；而是以下文之樣本標準差STDEV()與STDEVA()來替代。

樣本變異數VAR()與VARA() VAR(數值1,[數值2],...) VAR(number1,[number2],...)
VARA(number1,[number2],...) 這兩個函數均用來計算樣本變異數。數值1,[數值2],...為要計算變異數之儲存格或範圍引數，它是對應於某母群體抽樣選出的1到255個數字引數樣本。樣本變異數的計算公式為：其與母體變異數的計算公式：只差在後者之分母為n；而前者為n-1。當樣本個數n愈大時，樣本變異數與母體變異數會愈趨近於相等。

VAR()係求所有數值的樣本變異數；而VARA()則求所有非空白儲存格之樣本變異數，F12之公式，因將"缺考"，被當成0納入計算，故其樣本變異數明顯增大：（詳範例Ch09.xlsx『母體與樣本變異數』工作表）

變異數與標準差之優缺點變異數與標準差是最常被用來衡量離散程度的方法，其優點為：感應靈敏嚴密精確適於代數處理受抽樣變動之影響甚小
但其缺點為不是簡明易解計算困難受極端值影響較大

樣本標準差STDEV()與STDEVA()
STDEV(number1,[number2],...) STDEVA(數值1,[數值2],...) STDEVA(number1,[number2],...) 這兩個函數均用來計算樣本標準差。式中，方括號包圍之部份表其可省略。數值1,[數值2],...為要計算標準差之儲存格或範圍引數，最多可達255 個，它是於某母群體中所抽選出的樣本。樣本標準差的計算公式為：與母體標準差的計算公式：只差在後者之分母為n；而前者為n-1。當樣本個數n愈大時，樣本標準差與母體標準差會愈趨近於相等。

STDEV()係求所有數值的標準差；而STDEVA()則求所有非空白儲存格之標準差，E12之公式，因將"缺考"當成0納入計算，故其標準差明顯增大：（詳範例Ch09.xlsx『母體與樣本標準差』工作表）

未分組資料之變異數與標準差對於未分組之數值資料，於Excel可直接使用VAR()與STDEV()函數來求算其樣本變異數與標準差：（詳範例Ch09.xlsx『運動時間之變異數與標準差』工作表）可發現，樣本標準差或變異數，因分母為n-1，故其值會較高一點；而母體標準差或變異數之分母為n；故其值會較低一點。但因本例之樣本數相當大為115，故兩者間之差別並不大。

馬上練習依範例Ch09.xlsx『成績之變異數與標準差』工作表內容，計算其均數、變異數與標準差。（僅取樣本變異數與標準差）

以DVAR()、DSTDEV()求各組變異數與標準差
DVAR(database,field,criteria) DSTDEV(資料庫表單,欄名或第幾欄,準則範圍) DSTDEV(database,field,criteria) 函數中，各引數之標定方式參見第八章DAVERAGE()處之說明。以範例Ch09.xlsx『依性別求運動時間之變異數與標準差』工作表之資料言，其男/女/全體運動時間之標準差分別為53.36、58.91與56.50：

H6全體運動時間之標準差56.5，與前文範例Ch09.xlsx『運動時間之變異數與標準差』工作表所求得之結果相同，可見DVAR()與DSTDEV()兩資料庫函數，所求算之對象為樣本變異數與標準差。
由表中資料可看出：男生平均運動時間比女生高些，均數分別為91.95與75.36 分鐘；但由女性運動時間標準差為58.91，大於男性之53.36，可見女性之運動時間的離散程度會稍大於男性，但其間之差異並不很明顯！ F4:F7之公式分別為： F4 =DAVERAGE($A$1:$C$116,$C$1,F$2:F$3) F5 =DVAR($A$1:$C$116,$C$1,F$2:F$3) F6 =DSTDEV($A$1:$C$116,$C$1,F$2:F$3) F7 =DCOUNT($A$1:$C$116,$C$1,F$2:F$3) 將F4:F7之公式，以拖曳方式複製給G4:H7，即可獲得整個結果。

馬上練習依範例Ch09.xlsx『依性別求飲料花費之標準差與變異數』工作表內容，計算出男/女性及全體飲料花費之均數、標準差、變異數與樣本數。

以交叉表求標準差對於必須同時使用兩個條件求均數、標準差與人數，最便捷之處理方式為利用「樞紐分析表」來建立交叉表。以範例Ch09.xlsx『以交叉表求一週飲料花費之均數、標準差與人數』工作表之資料為例：

以樞紐分析表計算性別交叉居住狀況，求一週飲料花費平均數、標準差及人數。交叉表之結果為：

馬上練習依範例Ch09.xlsx『平均月費之均數與標準差』工作表內容計算性別交叉是否有男/女朋友，求平均月費之均數、標準差及人數：

原分組資料轉組中點計算變異數與標準差對問卷上，採用勾填某一區間所獲得之數字。如：
於計算其均數、變異數與標準差時，得將其轉為組中點。然後，以IF() 函數： =IF(B2=1,25000,IF(B2=2,75000,IF(B2=3,125000,IF(B2=4,175000, )))) 將其代入到問卷資料中，續求算其均數、變異數與標準差。本例由於各組之組距均為50000，故亦可將上示之IF()函數簡化成：（詳範例Ch09.xlsx『以組中點求毎月所得均數、變異數與標準差』工作表） =25000+(B2-1)* 來求算其均數、變異數與標準差：

馬上練習依範例Ch09.xlsx『求每月零用金均數與標準差』工作表內容，計算每月零用金之均數與標準差。原問卷之內容為：

馬上練習續上題，依範例Ch09.xlsx『性別交叉居住狀況求每月零用金均數與標準差』工作表內容，以樞紐分析表求性別交叉居住狀況的每月零用金平均數及人數。

直接以次數分配表求變異數另一種計算方式，是不經過以IF()或計算，將原間斷之類別變數轉為組中點之數字；而直接以次數分配表求變異數。其公式為：式中， xi為第i組之組中點 fi為第i組之次數（樣本數）如範例Ch09.xlsx『以組中點求毎月所得變異數-次數分配』工作表：

敘述統計若曾安裝『分析工具箱』，則可以『資料分析』之「敘述統計」增益集，來計算一組資料內之各相關統計值。如：均數、變異數、標準差、全距（範圍）、……等。假定，以範例Ch09.xlsx『運動時間敘述統計』工作表之資料擬使用『資料分析』之「敘述統計」，來計算運動時間之各敘述統計值。其處理步驟為：

切換到『資料』索引標籤, 點選『分析』群組『資料分析』指令按鈕, 於『分析工具』處選「敘述統計」
按鈕於『輸入範圍』處，以選取方式設定要處理之資料範圍（B1:B116）於『分組方式』選「循欄」點選「類別軸標記是在第一列上(L)」（因資料含『每次運動時間/分』之字串標記）設定輸出範圍，本例安排於目前工作表之D2位置點選「摘要統計(S)」

按鈕結束，即可獲致詳細之相關統計數字。其內之『範圍』項即『全距』（本例之最大值為300，最小值為0）

第九章結束謝謝！

第九章離散程度.

Similar presentations

Presentation on theme: "第九章離散程度."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第九章 離散程度.

Similar presentations

Presentation on theme: "第九章 離散程度."— Presentation transcript:

Similar presentations

About project

反馈

第九章離散程度.

Presentation on theme: "第九章離散程度."— Presentation transcript: