描述統計 Descriptive Statistics 量化研究法二 統計原理與分析技術 第2章 描述統計 Descriptive Statistics
描述統計概說 描述統計的定義 一套用以整理、描述、解釋資料的系統方法與統計技術 數據從初始狀態(raw data)成為可被理解的統計量數(statistic)的一套操作程序 透過統計量數來描述大量資料,並作為彼此溝通的共同符號語言
量化數據的處理 統計圖表 描述統計量 運用次數分配表來整理並描繪變數數值分佈情形 利用統計圖表來表現出數據的特性與分佈情形 統計量(statistic):由樣本所獲得的原始資料所計算推導出的統計量數 當統計量由樣本所獲得的數據計算得出,是描述樣本數據特性的最佳指標,通常以英文字母表示,例如 與s。 當統計量由母體數據,描述統計所產生的量數稱為參數或母數(parameter),用以描述母體數據的分佈特性,通常以希臘字母表示,例如μ與σ。
次數分配 功能 傳統作法 提供原始資料的基本資訊 作為資料檢查的判讀工具 提供統計技術選擇與如何分析的線索 將原始資料進行初步分類 以人工劃記方式編碼(coding),具有類別、次數、累積次數、百分比等訊息的次數分配表 基本欄位 變項數值(value):位置於左側 數值次數(frequencies):位置於右側
以人工劃記所製作的次數分配表
SPSS製作的次數分配表
分組次數分配表 組數以10至20組之間為宜,組距則以2、5、10三個可將10整除的因數為宜。 組數越多表格越大,但是資訊較豐富,組數越少表格越精簡,但遺失的資訊較多。
次數分配各相關名詞 ■次數分配(frequency distribution): 由某個變項各數值(各組)的次數所組成的分配,如前表的第一欄。 ■相對次數分配(relative frequency distribution): 由某個變項各數值(各組)的次數除以總數(稱為相對次數)所組成的分配。如果把相對次數乘以100%,即為百分比分配,如前表的第二欄。 ■有效百分比分配(valid percentage frequency distribution): 由某個變項各數值(各組)次數除以扣除遺漏值的次數乘以100%後的分配,如前表的第三欄。(在沒有遺漏值的情況下,有效百分比分配等於百分比分配) ■累積次數分配(cumulative frequency distribution): 由某個變項各數值(各組)的次數往上或往下累計所組成的分配。 ■累積相對次數分配(cumulative relative frequency distribution): 由某個變項各數值(各組)的次數除以總數,以往上或往下累計所組成的分配。如果把相對次數乘以100%後再累計,即為累積百分比分配,如前表的第四欄。
集中量數(measures of central location) 用以描述一組數據或一個分配集中點的統計量數 一個能夠描述數據的共同落點的指標。 常用的集中量數有平均數、中位數及眾數
平均數 平均數(mean;以M表示) 取某一變項的所有數值的總和除以觀察值個數所得到的值 因為是將數據直接以數學算式來計算平均值,又稱為算術平均數(arithmetic mean)。 母體資料得出的平均數需以希臘字μ表示 樣本資料得出的平均數以表示
中位數 中位數(median;或以Mdn表示) 又稱為中數、百分等級為50的百分位數(P50)或第二四分位數(Q2; second quartile)。 將某一個變項的數據依大至小或由小至大排列,取位居最中間、或能夠均勻對分全體觀察值的分數 在中位數之上與之下,各有50%的觀察值。 50、55、60、60、60、65、66、70、90 50、55、60、60、60、65、66、70、90 、95 62.5
眾數 眾數(mode;或以Mo表示) 一組分數中,出現次數最多的一個分數 一組數據中最典型(typical)的數值或次數分配最高點所對應的分數 是各集中量數當中,最容易辨認的量數 一個分配有兩個分數具有相同的最高次數,此時即出現了雙眾數,稱為雙峰分配(bimodal distribution) 50、55、60、60、60、65、66、70、90
集中量數的特性與優缺點比較
三種集中量數與分配形狀的關係
變異量數(measures of variation)或離散量數 用來描述觀察值在某一個變項上的分數分散情形的統計量 描述統計中,集中量數必須搭配變異量數,才能反應一組數據的分佈特徵 常用的變異量數包括全距、四分差、變異數及標準差
全距 全距(range) 一組分數中最大值(Xmax)與最小值(Xmin)之差 是一群分數變異情形最粗略的指標 全距容易計算,適用性高,可以應用在名義變項與順序變項,來求出變項當中類別的多寡。 缺點是不精確也不穩定,無法反應一個分配的每個數值的狀態。
四分差(semi-interquartile range; QR) 是一組數據當中的第三四分位數(區隔高分端的前25%的分數,簡稱Q3)與第一四分位數(區隔低分端的後25%的分數,簡稱Q1)距離的一半 中間百分之五十的樣本分數差距的二分之一
離均差與平方和 離均差 離均差平方和(sum of squares; SS) 一組數據中,各分數與平均數的距離,通常以小寫的x來表示 當離均差為正值時,表示分數落在平均數的右方 離均差為負值時,表示分數落在平均數的左方 平均數是每一個分數加總後的平均值,為一組分數的重心位置 離均差平方和(sum of squares; SS) SS的概念可以類比為面積的概念,表示分數與平均數變異的面積和 deviation score= x =(X - μ)
變異數 標準差 以或MS(mean square)表示 為平均化的離均差平方和 變異數的開方,以σ表示。標準差或變異數越大者,表示該分配的變異情形較大。
變異數的不偏估計數(unbiaed estimator) 標準差與變異數的不偏估計數的主要差別在於分母項為N-1而非原來的N N-1稱為自由度(degree of freedom;df),表示一組分數當中,可以自由變動的分數的個數。 在離均差的計算上,自由度為樣本數減1,表示在N個觀察值中,只有N-1個數字可以自由運用於離均差的計算。
變異係數(coefficient of variation) 可去除單位對於變異量數放大作用 變異係數(coefficient of variation)來去除單位對於變異量數放大作用 CV值是把標準差除以平均數,是一個沒有單位的比值,也稱為相對差或相對差異係數(coefficient of relative variability) 變異係數是用來反應各變項變異狀況的良好指標
變異量數的特性與優缺點比較
偏態 描述一個變項的對稱性(symmetry)的量數稱為偏態係數 不對稱的資料稱為偏態資料,依其方向可分為負偏(negatively skewed)(或左偏,即左側具有偏離值)、正偏(positively skewed)(或右偏,即右側具有偏離值)與對稱(symmetrical)三種情形
三級動差(m3)可反應偏態情形
地板與天花板效應 地板效應(floor effect) 天花板效應(ceiling effect) 指數據多數集中在偏低的一端,但在高分端則有極端值,分數不容易突破低分端,但會往高分端延伸,彷彿有一個地板(或真的存在一個低分限制條件)阻擋了數據往低分移動。 由於地板阻隔作用,地板效應常伴隨正偏態現象。 天花板效應(ceiling effect) 則與負偏態有關,是指數據多數集中在偏高的一端,但在低分端則有極端值,分數不容易突破高分端,彷彿有一個天花板(或真的存在一個高分限制條件)阻擋了數據往高分移動。
峰度 是指一個次數分配集中部份的陡峭程度。 兩個分配都是對稱的單峰鐘型曲線時,並不一定具有一樣的平坦或陡峭形態(峰度)。 一個對稱的鐘型分配,變項的數值會集中於眾數所在位置,如果集中於眾數附近的分數多,分散於兩側的分數少,將形成高狹峰(leptokurtic)的分配 當集中於眾數附近的分數較少,兩側分數多,則形成低闊峰(platykurtic)。 在常態分配時的理想峰度稱為常態峰(mesokurtic)。
g2係數為標準分數取四次方後的平均值。值得注意的是 小樣本時,g2也非不偏估計數,因此求樣本的峰度時多以來計算峰度。隨著樣本數的擴大,g2與數值逐漸接近而無差異。
偏態與峰度係數的特性 偏態與峰度係數是一種標準分數的概念,因此不受分配變異程度的影響而可相互比較 偏態與峰度係數具有標準分數的特性,因此均以0為常態值,也就是說,當g1與g2(或不偏估計係數)為0或接近0之時,次數分配可以說是一個對稱、不偏的常態峰分配 偏態與峰度係數在正負0.5到1之間是為偏態或特殊峰度,超過正負1的偏態與特殊峰度情況即屬嚴重。嚴重的偏態與峰度會影響統計分析的運用。
在視窗版SPSS中,可以用來建立次數分配與計算描述統計量的功能指令很多: 分析→描述性統計→次數分配表 分析→描述性統計量 分析→報表→觀察值摘要 其他在各種統計分析功能中,亦可報告描述統計量的資料。 有關百分等級的換算,可利用轉換當中的等級觀察值來執行。