第四章統計資料的整理:統計量數.

第四章統計資料的整理:統計量數

1: 產生數據 2: 整合數據 3: 從數據中得出結論推論正確性之判斷資料分析解釋問題確認研究對象之確認資料蒐集資料整理推論
統計機率論敘述統計抽樣母體樣本 1: 產生數據 2: 整合數據 3: 從數據中得出結論

資料之統計量數以統計量數來表達資料的特性集中趨勢統計量數位置統計量數分散程度統計量數形狀統計量數

集中趨勢測量值集中趨勢統計量數顯示資料的中心位置所在平均數 (mean; average) 中位數 (median) 眾數 (mode)
資料總合除以資料個數中位數 (median) 眾數 (mode)

（算術）平均數母體平均數 [mju] 資料個數為 N 資料分別為: μ

樣本平均數 [x-bar] 資料個數為 n 資料分別為:

EX:4-1

平均數的特性平均數是資料的平衡點(重心所在) 各觀察值( ) 與平均數之差的平方和為最小

優點：使用到每一個觀察值缺點：容易受極端值的影響 (ex:4-2) 可對觀察值予以加權（加權平均數）

資料的平衡點

學生成績報告單(加權平均數)

合併資料後之平均數計算第一組資料個別資料: 資料共第一組資料的平均數= 第一組資料的總合 =

第二組資料個別資料: 資料共第一組資料的平均數= 第一組資料的總合 =

合併兩組資料後之平均數

Exercise: 4-18 (pp. 97)

中位數 (median) 將觀察值依數值由小至大 (或由大至小) 排列後，位於中央（中間）的數值。若資料個數 N (n) 為奇數

圖中位數

EX: 4-3 EX: 4-4

中位數的特性有50%的資料小於或等於中位數有50%的資料大於或等於中位數優點：不容易受極端值影響缺點：不容易進行代數演算
當資料分布型態有所偏斜時，最好用中位數缺點：不容易進行代數演算 EX: 無法將兩組資料的個別中位數作運算而求得合併兩組資料後的中位數中位數不常用來做統計推論

各觀察值( ) 與平均數之距離(絕對離差)最小

眾數 (mode) 觀察值中出現次數最多的那一個數值眾數之符號眾數的性質 EX: 4-5, 4-6 不受極端值影響可能有多個或沒有
唯一可應用於屬質資料的中央趨勢統計量數。 EX: 4-5, 4-6

中央趨勢統計量數之比較(一) 若資料之次數分配圖（直方圖）為對稱：若資料之次數分配圖（直方圖）為右偏：
平均數 = 中位數 = 眾數（圖 4.4）若資料之次數分配圖（直方圖）為右偏：眾數 < 中位數 < 平均數（圖 4.5）若資料之次數分配圖（直方圖）為左偏：平均數 < 中位數 < 眾數（圖 4.6）

中央趨勢統計量數之比較(二) 當數據資料為屬量資料時當數據資料為屬質資料時平均數受極端值的影響最為明顯中位數或眾數對極端值較不敏感
 可用平均數或中位數作為中央趨勢統計量數當數據資料為屬質資料時  應以眾數作為中央趨勢統計量數平均數受極端值的影響最為明顯中位數或眾數對極端值較不敏感平均數易於作代數運算

位置測量值百分位數四分位數

百分位數第 p 百分位數: 將資料由小至大排序後，至少有 p% 的觀測值小於或等於第 p 百分位數

計算步驟將資料由小至大排列計算資料位置 I = P/100 * n 若 I 為非整數，則比I大的最小整數為第P 百分位數所在之位置
若 I 為整數，則第 I 及第 I+1 個觀測值之平均值即為第 P 百分位數

EX: 4-7

四分位數第 1 四分位數 Q1 = 第 25 百分位數第 2 四分位數 Q1 = 第 50 百分位數
EX: 4-8

分散程度統計量數分散程度代表一種距離的概念資料分散程度有時比集中趨勢更為重要分散程度代表差異性與風險程度種類全距四分位距
平均絕對離差變異數標準差變異係數（兩組資料之比較）

甲廠商交貨期的分配

圖4.9 乙廠商交貨期的分配

全距 (range) 全距 R= 最大值 – 最小值缺點只考慮最大與最小，不能精確反應全體觀察值的分散情形容易受極端值影響

資料的分散情形

四分位距四分位距 IQR (inter-quartile range) = 第 3 四分位數 – 第 1 四分位數 = Q3 – Q1

12家電腦公司營業收入

平均絕對離差MAD 離差 = 個別資料－平均數絕對離差 = | 個別資料－平均數 | = 個別資料與平均數之間的距離

平均絕對離差

冷氣機價格的平均絕對離差 9800

變異數 (variance) 變異數 = 母體變異數

樣本變異數

冷氣機價格的變異數 9800

變異數性質將每一觀察值均列入考慮亦受極端值影響

合併資料後之變異數計算第一組資料個別資料: 資料共第一組資料的平均數= 第一組資料的變異數

第二組資料個別資料: 資料共第二組資料的平均數= 第二組資料的變異數

合併兩組資料後之平均數= 合併兩組資料後之變異數

標準差 (standard deviation)
標準差 = 將變異數開根號變異數的度量單位和原來觀測值的單位不同，但開根號後就補救了此一缺點。

標準差的性質只有在以平均數來描述一組資料之中央趨勢時，才可以標準差來描述其離散趨勢。當所有觀測值均相同時，標準差（變異數）為零。
標準差越大代表觀測值離平均數散佈的越遠。標準差與平均數一樣，均會被少數極端值嚴重影響

比較兩組資料之分散程度變異係數 (coefficient of variation) *100% 變異係數是沒有單位的

五數綜合一組資料的五數綜合包括：當資料之分佈圖（直方圖）有所偏斜時，五數綜合通常好過用平均數及標準差
最小值，Q1(第一個四分位數)，中位數，Q3，(第三個四分位數) ，最大值當資料之分佈圖（直方圖）有所偏斜時，五數綜合通常好過用平均數及標準差只有在資料分佈大致對稱時，才用平均數及標準差

探索屬量資料的策略一、先畫莖葉圖或直方圖二、尋找整體型態（形狀、中心及離度）及離群值
三、選擇用五數綜合或者平均數及標準差來簡略描述資料之中心及離度

盒鬚圖 (I) 最小值中位數Me 最大值 Q1 Q3 IQR

盒鬚圖 (II) 上圍籬值最小值下圍籬值中位數最大值 Q1 Q3 偏離值 1.5(IQR) 1.5(IQR)

形狀測量值偏度(skewness) 峰度(kurtosis) 經驗法則 vs. 柴比氏定理

偏度 (skewness) Pearson 偏態係數對稱分配  平均數 = 中位數 偏度 =0
測量一組資料對稱與否的指標對稱分配  平均數 = 中位數 偏度 =0 右偏 平均數 > 中位數 偏度 > 0 左偏 平均數 < 中位數 偏度 < 0

峰度 (kurtosis) 峰度測量一組資料分佈形狀峰度有多高的指標常態分配的峰度  峰度 = 3
峰度比常態高峻  峰度 > 3 峰度比常態低闊  峰度 < 3

圖三種峰度的圖形 K>3 K=3 K<3

柴比雪夫不等式 (Chebyshev’s Inequality)
對於任意型態之資料：

經驗法則對於資料呈現對稱分配或鐘型分配：

N/A 大約 68% >= 75% 大約 95% >= 89% 大約 99.7%
柴比雪夫不等式經驗法則 N/A 大約 68% >= 75% 大約 95% >= 89% 大約 99.7%

Z分數主要應用於兩組資料(平均數不定一相同; 標準差不一定相同) 中某兩個個別資料的比較 Z分數代表個別資料與平均數之間的距離有幾個標準差
EX:大學甄試中的口試 Z分數代表個別資料與平均數之間的距離有幾個標準差將個別資料減去平均數再除以標準差的過程稱為標準化

Z > 0  資料大於平均數 Z < 0  資料小於平均數 Z = 0  資料等於平均數

資料同加一常數的變化平移

資料同乘一常數的變化乘以 c

資料之線性轉換乘以加上 k c

Z分數之平均數與變異數 c k

第四章統計資料的整理:統計量數.

Similar presentations

Presentation on theme: "第四章統計資料的整理:統計量數."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第四章 統計資料的整理:統計量數.

Similar presentations

Presentation on theme: "第四章 統計資料的整理:統計量數."— Presentation transcript:

Similar presentations

About project

反馈

第四章統計資料的整理:統計量數.

Presentation on theme: "第四章統計資料的整理:統計量數."— Presentation transcript: