Download presentation
Presentation is loading. Please wait.
1
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2)
2
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第78頁
統計實例 Small Fry Design 創設於 1997 年,它是一間設計與進口嬰孩玩具與配件用品的公司。 現金流量管理是日常營運中 最重要的項目之一。 在現金流量管理中,最重要的 就是分析與控制應收帳款帳戶 ,若能衡量未兌現支票平均到 期日與金額,管理者就可以預測何時收到現金,並且監督應收帳款帳戶的變化。 Small Fry Design 設定了以下目標:未兌現支票平均的到期日不能超過 45 天,到期日若有超過60 天的未兌現支票,總價值不能超過應收帳款總數的 5%。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第78頁
3
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第77頁
位置量數 離散量數 分配的形狀的量數,相對位置,以及離群值 的偵測 探究性資料分析 兩變數的相關性量數 加權平均數與群組資料的處理 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第77頁
4
3.1 位置量數 平均數 中位數 眾數 百分位數 四分位數
位置量數 平均數 測量值是由樣本資料計算 而得,則稱之為樣本統計量 (sample statistics)。 中位數 眾數 百分位數 若是由整個母體計算而得, 則稱之為母體參數 (population parameters)。 四分位數 統計推論中,樣本統計量是指 相對應的母體參數的 點估計量(point estimator)。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第77-79頁
5
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第79頁
平均數 一個變數最重要的位置量數或許是平均數 (mean 或 average value)。 若此資料來自某一母體,則以希臘字母 μ 表示之。 若此資料來自某一樣本,則平均數記為 x。 平均數是一種中央位置量數。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第79頁
6
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第79頁
平均數 x 資料集中 n 個觀察值 的總和 觀察值的樣本數 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第79頁
7
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第80頁
母體平均數 m 資料集中 N 個觀察值 的總和 觀察值的樣本數 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第80頁
8
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第79-80頁 表3.1
平均數實例 假設某大學的就業輔導室寄出一份問卷給被抽中的商學院畢業生,以調查工作起薪。 表3.1為所蒐集的資料。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第79-80頁 表3.1
9
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第79-80頁
平均數實例 樣本中12個商學院畢業生之平均起薪計算如下。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第79-80頁
10
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第80頁
中位數 中位數(median)是變數的另一種中央位置量數。 將資料值由小排到大時,中位數為中間的那一個值。 若資料個數為奇數時,中位數即位於中間的數值; 若資料項目為偶數時,就沒有單一的中間項。 根據傳統的中位數定義,將中間兩個值之平均數當 作中位數。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第80頁
11
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第80頁
中位數 將資料遞增排列(即由小到大排列) 資料值為奇數項時,中位數為此資料之中間值。 資料值為偶數項時,中位數為此資料之中間兩個數值的平均數。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第80頁
12
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第81頁
中位數實例 計算表 3.1 商學院12位畢業生起薪的中位數 將資料遞增排列後如下 因為n=12是偶數,故有兩個中間值:2,890和2,920,中位數為此兩個值之平均。 中間兩個值 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第81頁
13
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第81頁
眾數 眾數(mode)眾數是資料集中出現次數最多的資料 值。 當資料集中出現次數最多的值有兩個或以上時, 眾數就不只一個。 若資料集恰有兩個眾數,則稱此資料為雙峰 (bimodal)。 若出現兩個以上的眾數時,則稱為多峰 (multimodal)。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第81頁
14
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第81-82頁
眾數實例 表2.2的清涼飲料購買狀況調查整理成如下的次數分配。 眾數,即最常購買的清涼飲料,是Coke Classic 。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第81-82頁
15
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第82頁
百分位數 百分位數(percentile)也是一種位置量數,有助於 瞭解資料在最小值與最大值間的分布情況。 針對那些沒有太多重複的資料集而言,p-百分位 數可將資料分割成兩部分,大約p-百分比的觀察 值會小於p-百分位數;而大約有(100-p)百分比 的觀察值會大於p-百分位數。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第82頁
16
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第82頁
百分位數 p-百分位數表示至少有 p-百分比 (百分之 p) 的觀察值小於或等於它,而至少有 (100-p) 百分比的觀察值大於或等於它。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第82頁
17
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第82頁
百分位數 將資料遞增排列,即由小到大排序。 計算指標 i p為百分位,n為觀察值的個數。 i = (p/100)n 若 i 不是整數,無條件進位後的整數即 p-百分位數 的位置。 若 i 是整數,則p-百分位數為資料排序後的第 i 個與 第 i+1 個觀察值之平均數。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第82頁
18
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第82-83頁
百分位數實例 求表3.1起薪資料的85-百分位數。 步驟 1. 將資料集的所有資料由小到大排序。 步驟 2. 步驟3. 因為 i 不為整數,無條件進位為11,即85-百分位數的位置指標。因此,85百分位數排在第11位。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第82-83頁
19
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁
百分位數實例 再看看50-百分位數的計算過程,由步驟2得知 因為 i 是整數,步驟3(b)指出50-百分位數為排序資料的第6個與第7個數值的平均數;因此,50-百分位數為(2890+2920)/2=2905 。要注意的是,此處的50-百分位數也是中位數。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁
20
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁
四分位數 四分位數(quartiles)是百分位數的特例。 Q1 = 第一四分位數或25-百分位數 Q2 = 第二四分位數或50-百分位數(即中位數) Q3 = 第三四分位數或75-百分位數 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁
21
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁 圖3.1
四分位數 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁 圖3.1
22
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁
四分位數實例 將起薪資料再次重新由小到大排序後,第二四分位數(即中位數)為2905。 我們需利用找出25與75-百分位數的規則來得到第一四分位數Q1與第三四分位數Q3,計算如下。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁
23
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83-84頁
四分位數實例 對Q1而言: 因為 i 是整數,步驟3(b)指出第一四分位數,或25-百分位數,為第3個與第4個資料之平均數。因此,Q1 =(2850+2880)/2=2865。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83-84頁
24
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁
四分位數實例 對Q3而言: 因為 i 為整數,步驟3(b)指出第三四分位數,或75-百分位數,為第9個與第10個資料之平均數,因此, Q3 =(2950+3050)/2=3000。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁
25
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁
四分位數實例 四分位數將 12 個資料分成四部分,而每一部分均包含 25% 的觀察值。 我們定義了25-百分位數、50-百分位數、75-百分位數等三個四分位數後,便可利用計算百分位數的規則求出四分位數。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁
26
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁
評註 當資料集出現極端值時,中位數會比平均數更合適作為中央位置量數。極端值存在時,有時會用到另一種量數,稱做修正平均數 (trimmed mean) ,作法是刪除資料集的極小值與極大值後,剩下資料值的平均數即為修正平均數。例如, 5 %的修正平均數即是刪除最小的 5 %以及最大的 5 %觀察值後得到的平均數。以表 3.1 的 12 筆起薪為例, 12 筆資料的 5 %是 12 × = 0.6,將 0.6 進位為 l ,表示 5 %的修正平均數是將最高的一筆起薪與最低的一筆起薪刪除後,再求平均值。因此,以 10 筆資料求得的 5 %的修正平均數是 。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁
27
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第88頁
3.2 離散量數 除了位置量數外,我們還常希望能知道離散量數 或變異量數。 例如,選擇兩家不同的供應商訂貨,不僅要考慮 其平均運送時間,還要考慮其運送時間的變異性。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第88頁
28
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第88-91頁
3.2 離散量數 全距 四分位數距 變異數 標準差 變異係數 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第88-91頁
29
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第88-89頁
全距 最簡單的離散量數就是全距(range)。 全距 = 最大值 - 最小值 全距僅用到資料中的兩個值,因此深受極端值 的影響。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第88-89頁
30
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89頁
全距實例 參考表 3.1 商學院畢業生的起薪資料,最大值是 3,325,最小值是 2,710,全距就是3325-2710=615。 假設有一位畢業生的每月起薪是 $10,000,此例中的全距變為 10000-2710=7290 而不是 615,這個值並不是非常適合描述資料集的變動性,因為 12 個資料中的 11 個資料均是在 2,710 與 3,130 之間。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89頁
31
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89頁
四分位數距 四分位數距(interquartile range, IQR) 這個離散量 數是第三四分位數 Q3 與第一四分位數 Q1 的差。 IQR= Q3- Q1 IQR為中間50% 資料的全距。 能克服極端資料值的離散量數。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89頁
32
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89頁
四分位數距實例 參考表3.1商學院畢業生的起薪資料,對每月起薪資料而言,第三四分位數與第一四分位數分別為 Q3=3000 與 Q1=2865,因此,IQR 為 3000-2865=135。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89頁
33
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89頁
變異數 變異數(variance)是利用到全部資料的離散量數。 變異數是根據每一個觀察值( xi )與平均數之差而 求得。每一個觀察值 xi 與平均數( 為樣本平均 數,μ為母體平均數)之差稱為離差(deviation about the mean)。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89頁
34
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89-90頁
變異數 當樣本平均數的差距平方和除以n-1,而非n 時,此樣本變異數為母體變異數的不偏估計量 變異數之定義如下: 樣本變異數 母體變異數 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第89-90頁
35
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第90頁
變異數實例 利用3.1節中5個大學班級人數的樣本為例。 資料的彙總在表3.3,包括離差及離差的平方。離差平方的總和為 Σ( xi - )2 =256。因此,在n-1=4時,樣本變異數為 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第90頁
36
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第90頁 表3.3
變異數實例 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第90頁 表3.3
37
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第90頁
變異數實例 表3.1的起薪資料為例,說明樣本變異數的計算,在3.1節中,我們算出樣本平均起薪值為2,940。樣本變異數(s2=27,440.91)的結果列於表3.4。 表3.3與3.4中值得注意的是,我們算出離差與離差平方的總和。對於任何資料集,離差的總和必為0。因此,如同表3.3與表3.4顯示 Σ( xi - )2 =0,這是恆成立的,因為正的離差與負的離差會相互抵消,而使得離差的總和為0。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第90頁
38
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91頁 表3.4
表3.4 起薪資料樣本變異數的計算 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91頁 表3.4
39
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91頁
標準差 標準差(standard deviation)的定義是變異數的 正平方根。 標準差比變異數容易解釋,因為標準差的衡量 單位與資料相同。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91頁
40
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91頁
標準差 由變異數得到標準差的方法如下。 樣本標準差 母體標準差 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91頁
41
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91頁
標準差實例 以表3.1的起薪資料為例,樣本標準差為 s = =165.65。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91頁
42
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91-92頁
變異係數 變異係數是變異性的相對衡量,它衡量標準差 相對於平均值的大小。 變異係數計算如下: 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第91-92頁
43
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第92頁
變異係數實例 以表3.1起薪資料為例,其樣本平均數 2940 與樣本標準差 ,變異係數為[(165.65/2940)×100]%=5.6%。 一般而言,欲比較具有不同的標準差與平均數的資料之離散程度時,變異係數是一個有用的統計量。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第92頁
44
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第90-92頁
表3.1起薪資料為例 變異數 標準差 此樣本之標準差佔平均數的5.6% 變異係數 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第90-92頁
45
End of Chapter 3, Part A
Similar presentations