第四章 統計資料的整理:統計量數
1: 產生數據 2: 整合 數據 3: 從數據中得出結論 推論正確性之判斷 資料分析解釋 問題確認 研究對象之確認 資料蒐集 資料整理 推論 統計 機率論 敘述 統計 抽樣 母體 樣本 1: 產生數據 2: 整合 數據 3: 從數據中得出結論
資料之統計量數 以統計量數來表達資料的特性 集中趨勢統計量數 位置統計量數 分散程度統計量數 形狀統計量數
集中趨勢測量值 集中趨勢統計量數顯示資料的中心位置所在 平均數 (mean; average) 中位數 (median) 眾數 (mode) 資料總合 除以 資料個數 中位數 (median) 眾數 (mode)
(算術)平均數 母體平均數 [mju] 資料個數為 N 資料分別為: μ
樣本平均數 [x-bar] 資料個數為 n 資料分別為:
EX:4-1
平均數的特性 平均數是資料的平衡點(重心所在) 各觀察值( ) 與平均數之差的平方和為最小
優點:使用到每一個觀察值 缺點:容易受極端值的影響 (ex:4-2) 可對觀察值予以加權(加權平均數)
資料的平衡點
學生成績報告單(加權平均數)
合併資料後之平均數計算 第一組資料 個別資料: 資料共 第一組資料的平均數= 第一組資料的總合 =
第二組資料 個別資料: 資料共 第一組資料的平均數= 第一組資料的總合 =
合併兩組資料後之平均數
Exercise: 4-18 (pp. 97)
中位數 (median) 將觀察值依數值由小至大 (或由大至小) 排列後,位於中央(中間)的數值。 若資料個數 N (n) 為奇數
圖4.3 中位數
EX: 4-3 EX: 4-4
中位數的特性 有50%的資料小於或等於中位數 有50%的資料大於或等於中位數 優點:不容易受極端值影響 缺點:不容易進行代數演算 當資料分布型態有所偏斜時,最好用中位數 缺點:不容易進行代數演算 EX: 無法將兩組資料的個別中位數作運算而求得合併兩組資料後的中位數 中位數不常用來做統計推論
各觀察值( ) 與平均數之距離(絕對離差)最小
眾數 (mode) 觀察值中出現次數最多的那一個數值 眾數之符號 眾數的性質 EX: 4-5, 4-6 不受極端值影響 可能有多個或沒有 唯一可應用於屬質資料的中央趨勢統計量數。 EX: 4-5, 4-6
中央趨勢統計量數之比較(一) 若資料之次數分配圖(直方圖)為對稱: 若資料之次數分配圖(直方圖)為右偏: 平均數 = 中位數 = 眾數 (圖 4.4) 若資料之次數分配圖(直方圖)為右偏: 眾數 < 中位數 < 平均數(圖 4.5) 若資料之次數分配圖(直方圖)為左偏: 平均數 < 中位數 < 眾數(圖 4.6)
中央趨勢統計量數之比較(二) 當數據資料為屬量資料時 當數據資料為屬質資料時 平均數受極端值的影響最為明顯 中位數或眾數對極端值較不敏感 可用平均數或中位數作為中央趨勢統計量數 當數據資料為屬質資料時 應以眾數作為中央趨勢統計量數 平均數受極端值的影響最為明顯 中位數或眾數對極端值較不敏感 平均數易於作代數運算
位置測量值 百分位數 四分位數
百分位數 第 p 百分位數: 將資料由小至大排序後, 至少有 p% 的觀測值小於或等於第 p 百分位數
計算步驟 將資料由小至大排列 計算 資料位置 I = P/100 * n 若 I 為非整數,則比I大的最小整數為第P 百分位數所在之位置 若 I 為整數,則第 I 及第 I+1 個觀測值之平均值即為第 P 百分位數
EX: 4-7
四分位數 第 1 四分位數 Q1 = 第 25 百分位數 第 2 四分位數 Q1 = 第 50 百分位數 EX: 4-8
分散程度統計量數 分散程度代表一種距離的概念 資料分散程度有時比集中趨勢更為重要 分散程度代表差異性與風險程度 種類 全距 四分位距 平均絕對離差 變異數 標準差 變異係數(兩組資料之比較)
甲廠商交貨期的分配
圖4.9 乙廠商交貨期的分配
全距 (range) 全距 R= 最大值 – 最小值 缺點 只考慮最大與最小,不能精確反應全體觀察值的分散情形 容易受極端值影響
資料的分散情形
四分位距 四分位距 IQR (inter-quartile range) = 第 3 四分位數 – 第 1 四分位數 = Q3 – Q1
12家電腦公司營業收入
平均絕對離差MAD 離差 = 個別資料 -平均數 絕對離差 = | 個別資料 -平均數 | = 個別資料與平均數之間的距離
平均絕對離差
冷氣機價格的平均絕對離差 9800
變異數 (variance) 變異數 = 母體變異數
樣本變異數
冷氣機價格的變異數 9800
變異數性質 將每一觀察值均列入考慮 亦受極端值影響
合併資料後之變異數計算 第一組資料 個別資料: 資料共 第一組資料的平均數= 第一組資料的變異數
第二組資料 個別資料: 資料共 第二組資料的平均數= 第二組資料的變異數
合併兩組資料後之平均數= 合併兩組資料後之變異數
標準差 (standard deviation) 標準差 = 將變異數開根號 變異數的度量單位和原來觀測值的單位不同,但開根號後就補救了此一缺點。
標準差的性質 只有在以平均數來描述一組資料之中央趨勢時,才可以標準差來描述其離散趨勢。 當所有觀測值均相同時,標準差(變異數)為零。 標準差越大代表觀測值離平均數散佈的越遠。 標準差與平均數一樣,均會被少數極端值嚴重影響
比較兩組資料之分散程度 變異係數 (coefficient of variation) *100% 變異係數是沒有單位的
五數綜合 一組資料的五數綜合包括: 當資料之分佈圖(直方圖)有所偏斜時,五數綜合通常好過用平均數及標準差 最小值,Q1(第一個四分位數),中位數,Q3,(第三個四分位數) ,最大值 當資料之分佈圖(直方圖)有所偏斜時,五數綜合通常好過用平均數及標準差 只有在資料分佈大致對稱時,才用平均數及標準差
探索屬量資料的策略 一、先畫莖葉圖或直方圖 二、尋找整體型態(形狀、中心及離度)及離群值 三、選擇用五數綜合或者平均數及標準差來簡略描述資料之中心及離度
盒鬚圖 (I) 最小值 中位數Me 最大值 Q1 Q3 IQR
盒鬚圖 (II) 上圍籬值 最小值 下圍籬值 中位數 最大值 Q1 Q3 偏離值 1.5(IQR) 1.5(IQR)
形狀測量值 偏度(skewness) 峰度(kurtosis) 經驗法則 vs. 柴比氏定理
偏度 (skewness) Pearson 偏態係數 對稱分配 平均數 = 中位數 偏度 =0 測量一組資料對稱與否的指標 對稱分配 平均數 = 中位數 偏度 =0 右偏 平均數 > 中位數 偏度 > 0 左偏 平均數 < 中位數 偏度 < 0
峰度 (kurtosis) 峰度 測量一組資料分佈形狀峰度有多高的指標 常態分配的峰度 峰度 = 3 峰度比常態高峻 峰度 > 3 峰度比常態低闊 峰度 < 3
圖4.25 三種峰度的圖形 K>3 K=3 K<3
柴比雪夫不等式 (Chebyshev’s Inequality) 對於任意型態之資料:
經驗法則 對於資料呈現對稱分配或鐘型分配:
N/A 大約 68% >= 75% 大約 95% >= 89% 大約 99.7% 柴比雪夫不等式 經驗法則 N/A 大約 68% >= 75% 大約 95% >= 89% 大約 99.7%
Z分數 主要應用於兩組資料(平均數不定一相同; 標準差不一定相同) 中某兩個個別資料的比較 Z分數代表個別資料與平均數之間的距離有幾個標準差 EX:大學甄試中的口試 Z分數代表個別資料與平均數之間的距離有幾個標準差 將個別資料減去平均數再除以標準差的過程稱為標準化
Z > 0 資料大於平均數 Z < 0 資料小於平均數 Z = 0 資料等於平均數
資料同加一常數的變化 平 移
資料同乘一常數的變化 乘以 c
資料之線性轉換 乘以 加上 k c
Z分數之平均數與變異數 c k