第 4 章 分散量數
第一節 全 距 全距的定義
第一節 全 距 分組資料的全距是指: 因資料一經分組之後,各組內的原始數值就不再呈現,因 此不論各組的原來數值為何,一律以其組中點 來代表。
第一節 全 距 全距的性質 (1)全距的意義簡單明瞭,計算容易。 第一節 全 距 全距的性質 (1)全距的意義簡單明瞭,計算容易。 (2)全距的求法只應用一群數值中的最大和最小兩個數值而 已,不會因其他數值的變動而受影響,所以全距是不敏感 的。 (3)如果一群數值中,有嚴重的偏態分布,或出現極端值時, 全距會因而變大,因此喪失代表分散程度的價值。
第二節 四分位差 四分位差的定義 四分位差(quartile deviation, QD)又簡稱四分差,定義為:
第二節 四分位差 四分位差的定義 四分位差是從一群已排序的數值之中,先截斷其頭及尾端 25%的個數,再就中央所剩餘50%的數值,取其一半的個數。 圖4-2 求四分位差
第二節 四分位差 四分位差的性質 (1)一群數值資料已按大小排序,其頭尾25%的部分均被截除, 所以四分位差是不會受極端值之影響。 第二節 四分位差 四分位差的性質 (1)一群數值資料已按大小排序,其頭尾25%的部分均被截除, 所以四分位差是不會受極端值之影響。 (2)但是,求四分位差只應用到Q1和Q3兩個數值,卻忽略了其 餘數值的影響,故四分位差同全距一樣,對大部分資料變動 的敏感度不足。
第三節 平均差 平均差的定義 平均差(mean absolute deviation)的定義為:
第三節 平均差 平均差的性質 (1)計算平均差應用到所有的數值,亦即資料中每一個數值 的大小,對平均差而言,都有相同比重的影響力,這一特 點是四分位差所未具有的。 (2)平均差因為對所有數值大小的敏感度高,所以當有極端 數值出現時,它會受其影響。 (3)由於求平均差時需應用到絕對值,在代數運算上十分不 方便,所以在實際應用方面,平均差較少被採用,而改採 標準差。
第四節 變異數與標準差 變異數(variance)和標準差(standard deviation)的定義:
第四節 變異數與標準差 母體變異數的公式為: σ讀作[sigma],專用來代表母體資料的標準差。
第四節 變異數與標準差 樣本的變異數 樣本是由母體(母群)中抽取出來的部分集合,所以樣本的 次數是小於母體。 第四節 變異數與標準差 樣本的變異數 樣本是由母體(母群)中抽取出來的部分集合,所以樣本的 次數是小於母體。 統計學家發現,當以公式 求出來的樣本變 異數,被用來估計母體變異數值時,經常會發生低估的現象。 由於這個原因,統計學家改用公式 來求樣本變異數 值。
第四節 變異數與標準差 樣本變異數的公式為: 樣本變異數和母體變異數的異同點: (1)母體變異數的符號是 ,樣本變異數符號是 。 第四節 變異數與標準差 樣本變異數的公式為: 樣本變異數和母體變異數的異同點: (1)母體變異數的符號是 ,樣本變異數符號是 。 (2) 分母部分是N, 的分母是n-1
第四節 變異數與標準差 標準差的意義 一般而言,帶有不同單位的數值,是不可以相互加減、不可 以比較大小關係。 第四節 變異數與標準差 標準差的意義 一般而言,帶有不同單位的數值,是不可以相互加減、不可 以比較大小關係。 為了克服不同單位產生的困擾,統計學家特把變異數開根號 並稱其為標準差。經這樣的處理之後,標準差的單位就和原 資料的單位相同,有利於彼此間的加減和比較。
第四節 變異數與標準差 標準差的公式 標準差是變異數開根號之後的數值,只取正值。 第四節 變異數與標準差 標準差的公式 標準差是變異數開根號之後的數值,只取正值。 標準差和變異數單位不同但功能相似,同樣可用來表示資料數值 間的分散程度。
第四節 變異數與標準差 變異數與標準差的性質主要有四點: 第四節 變異數與標準差 變異數與標準差的性質主要有四點: (1)變異數(和標準差)是應用到資料的每一數值計算而得, 所以任一數值的變動,變異數(和標準差)就會跟著變動, 所以其對資料的敏感度高。 (2)變異數會受極端值的影響。 (3)當原始資料的每一數值加一常數C,則新數值的變異數, 和原始資料的變異數仍是相同的。
第五節 變異係數與標準分數 變異係數的意義 在前幾單元中,我們介紹三種分散量數:全距、四分位差、標準差 等,均帶有與原資料相同的單位,稱為絕對分散量數。 我們發現,兩個絕對分散量數,如果單位不同,或單位雖相同但平 均數相差很大時,是不適合相互作比較的。 為改進因單位不同引起的困擾,乃發展出「相對分散量數」。
第五節 變異係數與標準分數 變異係數 變異係數(coefficient of variation, CV)是一種常用的相對分散量數, 其定義為: (1)變異係數為無名數,所以所以適合對兩組不同單位資料 的 分散程度進行比較。 (2)適合對兩組單位相同但平均數相差很大的資料進行比較。
第五節 變異係數與標準分數 標準分數的意義 標準分數就是要把原來是不同評分尺度的分數,轉換成具有 同一評分尺度的分數,以利彼此間的比較和運算之用。 標準分數以Z表示,其定義為:
第五節 變異係數與標準分數 標準分數的性質 (1)標準分數等於一個數值與其平均數值的差距,再除以標 準差,意即標準分數是以標準差的倍數表示。 第五節 變異係數與標準分數 標準分數的性質 (1)標準分數等於一個數值與其平均數值的差距,再除以標 準差,意即標準分數是以標準差的倍數表示。 (2)任何數值經過轉換成標準分數的過程,稱為標準化。 (3)任一種數值經標準化之後,就變成 無名數,即沒有單位 名稱。 (4)任何一群數值經標準化之後,這群新的標準分數的平均 數等於0,標準差等於1, , 。 所以任何數值資料經標準化之後,就可以做相互比較及進 行代數運算了。
第五節 變異係數與標準分數 界外值 界外值(outlier)是指一組資料裡出現不尋常的極端大或小的數 值。 第五節 變異係數與標準分數 界外值 界外值(outlier)是指一組資料裡出現不尋常的極端大或小的數 值。 一般界外值出現時,會使平均數或標準差嚴重失真。如果界 外值的產生是由人為因素造成,或是資料鍵入時的錯誤,都 必須把它們剔除掉。在SPSS軟體中,界外值被界定為遺漏值 (missing value)。 如果找不出界外值產生的原因,但又擔心界外值會嚴重的使 平均值(或標準差)失真,那麼可考慮把原始資料截尾(例 如:截去前後兩端各5%),然後再求剩餘資料的平均值(或 標準差)。這種經截尾之後再求得的平均值,稱為截尾平均 值(trimmed mean)。
第六節 盒鬚圖 盒鬚圖 盒鬚圖(box and whisker plot)為將某些集中量數與分散量數,以 長盒形圖表現出來的一種圖示法。 盒鬚圖的構成 盒鬚圖是由一組資料的最大值 、最小值 第1個四分位 數 ,第2個四分位數 ,第3個四分位數 等五種量數所組成。如圖4-3所示: 圖4-3 盒鬚圖的構成
第六節 盒鬚圖 盒鬚圖的組成要素: 1.長盒子(box) 第六節 盒鬚圖 盒鬚圖的組成要素: 1.長盒子(box) 注意盒子的邊長為四分位距(inter-quartile range, IQR,即 )。 2.鬚(whisker) 左鬚: 。 右鬚: 。 3.內籬(inner fence) 以盒子左邊或右邊做起點,向左或右延伸1.5個IQR的位置。 4.外籬(outer fence) 以盒子左邊或右邊做起點,向左或右延伸3個IQR的位置。
第六節 盒鬚圖 解釋盒鬚圖 1.判斷資料的分散程度 盒子左右兩邊的距離為四分位距IQR,其間表示包含所有資 料的50%。 第六節 盒鬚圖 解釋盒鬚圖 1.判斷資料的分散程度 盒子左右兩邊的距離為四分位距IQR,其間表示包含所有資 料的50%。 一般而言,若盒子較窄,表示高狹峰分布;若盒子較寬, 表示低闊峰分布,如圖4-4所示。 圖4-4 分散程度不同的盒鬚圖
第六節 盒鬚圖 2.判斷資料分布的偏斜程度 (1)當中位數 位在盒子正中央位置,且左鬚和右鬚等長之 時,則表示該組資料是呈對稱分布的現象,參見圖4-5(a)。 (2)當 較靠近盒子左邊,或右鬚比左鬚長時,則表示該 組資料有右偏現象,參見圖4-5(b)。 (3)當 較靠近盒子右邊,或左鬚比右鬚長時,則表示該組 資料有左偏現象,參見圖4-5(c)。
第六節 盒鬚圖 圖4-5 判斷資料的偏斜程度
第六節 盒鬚圖 3.判斷有無界外值 (1)當某一資料(X)小於下外籬值或大於上外籬值時,判斷該 資料點(X)為嚴重界外值(extreme outlier)。 (2)當某一資料(X),落在下內籬和下外籬值之間,或是上內 籬和上外籬值之間 ,則判定該資料(X)為輕微界外值(mild outlier)。 (3)界外值會使平均數或標準差失真,而喪失集中量數的原 意,所以一旦發現「嚴重界外值」,必須回頭探究原因, 採取必要的補救行動。
第七節 應用SPSS求描述性統計量 應用SPSS求平均和標準差 例11 解:方法一:應用「描述性統計量」分析法解題。 測量10名學生的身高和體重,資料如表4-8。試求其平均數、標準 差和變異數。 解:方法一:應用「描述性統計量」分析法解題。 1.SPSS操作步驟 表4-8
第七節 應用SPSS求描述性統計量 STEP1:界定變數 (1)開啟SPSS,立即進入「變數檢視」工作表(圖4-7)。 (2)在「變數檢視」工作表內,定義「性別」、「身高」和「體 重」3個變數。 (3)第一橫列的變數屬性:「名稱」格,輸入「sex」;「標記」 格,輸入「性別」;「數值」格,輸入「1=男生」,「2=女生」 (圖4-7);其餘格則不輸入任何值,即自動採「內定值」 (圖4-7)。 (4)第二橫列的變數屬性:「名稱」格輸入「height」;「標記」 格輸入「身高」;其餘格採「內定值」(圖4-7)。
第七節 應用SPSS求描述性統計量 圖4-7 界定變數屬性
第七節 應用SPSS求描述性統計量 STEP2:輸入資料 (1)在「資料檢視」工作表(圖4-8),把例11的表4-8資料,依序 輸入「資料檢視」的儲存格。 (2)在第一縱欄,當輸入「1」至儲存格時,會出現「男生」;輸 入「2」則會出現「女生」。(註:如只想顯現1或2,可在功能 表列「檢視」功能表內修改。)
第七節 應用SPSS求描述性統計量 圖4-8 輸入資料
第七節 應用SPSS求描述性統計量 STEP3:選擇分析法:描述性統計量 (1)在「資料檢視」工作表的功能列,依圖4-9所示,點選「分析」 →「敘述統計」→「描述性統計量」。 (2)開啟主對話盒「描述性統計量」(圖4-10a)。
第七節 應用SPSS求描述性統計量 圖4-9 選擇分析法:描述性統計量
第七節 應用SPSS求描述性統計量 STEP4:主對話盒 (1)在「描述性統計量」主對話盒(圖4-10a),把左側清單框內 的「身高」和「體重」兩變數,移入右側框內(圖4-10a)。 (2)按「選項」鈕(圖4-10b),開啟次對話盒:「描述性統計 量:選項」(圖4-11)。
第七節 應用SPSS求描述性統計量 圖4-10a 主對話盒:描述性統計量 圖4-10b 主對話盒:描述性統計量
第七節 應用SPSS求描述性統計量 STEP5 (1)在次對話盒「描述性統計量:選項」內(圖4-11),勾選 「平均數」檢核方框,及「標準差」方框,「變異數」方框。 (2)點選「繼續」鈕,回到主對話盒(圖4-10b)。 圖4-11 次對話盒:選項
第七節 應用SPSS求描述性統計量 STEP6 (1)在「描述性統計量」主對話盒(圖4-10b),核對完成所 有點選之後,點選「確定」命令鈕(圖4-10b)。 (2)SPSS立即執行計算,輸出報表。 2.解釋報表 經由SPSS的輸出,獲得圖4-12,得知學生身高平均為147.60 公分,標準差為5.481公分,變異數為30.044平方公分(註: 5.48122=30.044);學生體重平均值為43.90公斤,標準差為 2.644公斤,變異數為6.989平方公斤。 圖4-12 敘述統計
第七節 應用SPSS求描述性統計量 解:方法二:應用「次數分配表法」解題。 1.SPSS操作步驟 STEP1、2:同上一解 (1)在「資料檢視」工作表的功能表列,如圖4-13所示,點選「分 析」→「敘述統計」→「次數分配表」。 (2)開啟主對話盒(圖4-14)。
第七節 應用SPSS求描述性統計量 圖4-13 選擇分析法:次數分配表
第七節 應用SPSS求描述性統計量 STEP4 (1)在主對話盒(圖4-14),把左側清單框內變數sex、height和 weight,移入右側變數方框內(圖4-14)。 (2)按「統計量」鈕(圖4-14),打開次對話盒:「次數分配 表:統計量」(圖4-15)。 圖4-14 主對話盒:次數分配表
第七節 應用SPSS求描述性統計量 STEP5 (1)在「次數分配表:統計量」次對話盒(圖4-15),勾選下列 核示方框:「四分位數」、「平均數」、「中位數」、「眾 數」、「總和」、「標準差」、「變異數」、「最大值」、 「最小值」等。 (2)勾選「百分位數」框,並輸入「60」和「30」(用以求位於 60%和30%的數值)。 (3)按「繼續」鈕,回到主對話盒(圖4-14)。
第七節 應用SPSS求描述性統計量 圖4-15 次對話盒:統計量
第七節 應用SPSS求描述性統計量 STEP6: (1)在主對話盒(圖4-14),點選「確定」鈕(圖4-14)。 2.解釋報表 (1)經由SPSS的輸出,獲得圖4-16,得到體重的平均數為43.90、 中位數44.00、標準差2.644、 =41.75、 =42.00、 =44.60。 同理身高平均數為147.60、中位數148.50、標準差5.481、 =142.50、 =143.60, =150.20。 (2)由圖4-17、圖4-18、圖4-19可得知各變數分類百分比和累積百 分比。
第七節 應用SPSS求描述性統計量 圖4-16 描述性統計量
第七節 應用SPSS求描述性統計量 圖4-17 性別的次數分配表 圖4-18 體重的次數分配表
第七節 應用SPSS求描述性統計量 圖4-19 身高的次數分配表
第七節 應用SPSS求描述性統計量 例12 依下表資料,試求(1)描述性統計量:平均數、中位數、變異數。 (2)盒鬚圖和直方圖。 表4-8 分組資料
第七節 應用SPSS求描述性統計量 例12 依下表資料,試求(1)描述性統計量:平均數、中位數、變異數。 (2)盒鬚圖和直方圖。 STEP1 (1)在「變數檢視」工作表(圖4-20),界定變數屬性(圖4- 20)。 (2)第一行列的變數屬性:在「名稱」格,輸入「group」;在 「標記」格,輸入「組別」;在「數值」格,先叫出對話盒 (圖4-21),然後輸入「1="40-50"」、「2="50-60"」、 「3="60-70"」、「4="70-80"」、「5="80-90"」、「6="90- 100"」。
第七節 應用SPSS求描述性統計量 (3)第二行列的變數屬性:在「名稱」格和「標記」格,分別輸 入「F」和「次數」(圖4-20)。 (4)第三行列的變數屬性:在「名稱」格,輸入「X」;在「標 記」格,輸入「組中點」(圖4-20)。 (5)其餘格不予設定,均採系統「內定值」。 (6)按左下角工作表切換標籤(圖4-20),轉換到「資料檢視」 工作表(圖4-22)。
第七節 應用SPSS求描述性統計量 圖4-20 界定變數屬性
第七節 應用SPSS求描述性統計量 圖4-21 設定數值標記
第七節 應用SPSS求描述性統計量 STEP2:輸入數值資料 將表4-8的數值資料,輸入「資料檢視」工作表的儲存格 (圖4-22)。 圖4-22 數入數值標記
第七節 應用SPSS求描述性統計量 STEP3:設定「加權觀察值」 (1)在「資料檢視」工作表內,依圖4-23所示,點選「資料」→ 「觀察值加權」,打開對話盒(圖4-24)。然後把「次數[F]」 移入「次數變數」框內(圖4-24),設定為「加權觀察值」。 (2)按「確定」鈕(圖4-24),回到「資料檢視」工作表(圖 4-25)。
第七節 應用SPSS求描述性統計量 圖4-23 選擇觀察值加權
第七節 應用SPSS求描述性統計量 STEP4:選擇分析法:預檢資料 (1)在「資料檢視」工作表內(圖4-25),選擇「分析」→ 「敘述統計」→「預檢資料」。 (2)打開主對話盒:「預檢資料」(圖4-26)。 圖4-24 設定加權觀察值
第七節 應用SPSS求描述性統計量 圖4-25 選擇分析法:預檢資料
第七節 應用SPSS求描述性統計量 STEP5 (1)在主對話盒「預檢資料」(圖4-26),把左側清單方框 內變數「組中點[X]」,移入右側「依變數清單」框內 (圖4-26)。 (2)點選「顯示」區的「兩者」圖鈕(圖4-26)。 (3)按「統計量」鈕,打開次對話盒:「預檢資料:統計 量」(圖4-27)。 圖4-26 主對話盒:預檢資料
第七節 應用SPSS求描述性統計量 STEP6 (1)在「預檢資料:統計量」次對話盒(圖4-27),勾選 「描述性統計量」方框。 (2)按「繼續」鈕,回到主對話盒(圖4-26)。 圖4-27 次對話盒:統計量
第七節 應用SPSS求描述性統計量 STEP7 (1)按主對話盒的「統計圖」鈕(圖4-26),打開次對話 盒:「預檢資料:圖形」(圖4-28);勾選「預檢資料: 圖形」次對話盒的「直方圖」方框(圖4-28)。 (2)按「繼續」鈕,回到主對話盒(圖4-26)。 圖4-28 次對話盒:圖形
第七節 應用SPSS求描述性統計量 STEP8 (1)在主對話盒中,檢核已完成操作之後,按「確定」鈕 (圖4-26)。 2.解釋報表 (1)經由SPSS的輸出,獲得圖4-29 。 (2)圖4-30為分組資料的直方圖。 (3)圖4-31為分組資料的盒鬚圖。從該圖得知分布近乎常態 分配,同時沒有界外值產生。
第七節 應用SPSS求描述性統計量 圖4-29 描述性統計量
第七節 應用SPSS求描述性統計量 圖4-30 分組資料的直方圖
第七節 應用SPSS求描述性統計量 圖4-30 分組資料的盒鬚圖