Download presentation
Presentation is loading. Please wait.
1
Keller: Stats for Mgmt & Econ, 7th Ed 數值的敘述方法
2019年5月6日星期一 第 4 章 數值的敘述方法 Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.
2
數值的敘述方法 中央位置量數 變異性量數 相對位置量數 線性關係量數 算數平均數,中位數,眾數 全距,標準差,變異數,變異係數
百分位數, 四分位數 線性關係量數 共變異數,相關係數,判定係數,最小平方線 第4章 數值的敘述方法 第 頁
3
中央位置量數 全部觀測值的加總 平均數= 觀察的個數 算術平均數(arithmetic mean)又稱平均值, 簡稱為
平均數,是普遍且最有用的中央位置量數。 平均數的計算是加總全部的觀測值,然後再除以觀 測的個數: 全部觀測值的加總 觀察的個數 平均數= 第4章 數值的敘述方法 第105頁
4
標示 母體中觀測值的數量我們以N標示 樣本中觀測值的數量我們以n標示 母體的算術平均數以希臘字母 表示 樣本的算術平均數以 表示
母體的算術平均數以希臘字母 表示 樣本的算術平均數以 表示 第4章 數值的敘述方法 第105頁
5
算術平均數 樣本平均數 母體平均數 第4章 數值的敘述方法 第105頁
6
中央位置的測量值 中位數的計算方法是將全部的觀測值按順序排列, 落在中間位置的觀測值就是中位數。
Data: {0, 7, 12, 5, 14, 8, 0, 9, 22} N=9 (奇數) 以遞增順序排列,找出中位數: Data: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33} N=10 (偶數) 以遞增順序排列,中位數是 8 & 9的平均值: 中位數= (8+9)÷2 = 8.5 樣本和母體的中位數是以相同的方法計算。 第4章 數值的敘述方法 第107頁
7
中央位置量數 眾數被定義為出現最多次的觀測值。 對母體和大型的樣本而言,最好是指出眾數組(modal class)。
眾數對所有的資料類型都是有用的,雖然最主要被使用 在名目資料。 對大型資料集而言眾數組比一個單一的眾數值更具參考 價值。 樣本和母體的眾數是以相同的方法計算。 第4章 數值的敘述方法 第108頁
8
眾數 例:資料 = {0, 7, 12, 5, 14, 8, 0, 9, 22, 33} N=10 (一個眾數組) 哪一個觀測值出現最多次?
這組資料的眾數是0。這如何是一個“中央”位置測量? Frequency(次數) Variable(變數) (一個眾數組) 第4章 數值的敘述方法
9
平均數、中位數、眾數 如果一個分配是對稱的, 平均數、中位數與眾數可能是一致的。 眾數 平均數 中位數 第4章 數值的敘述方法
10
平均數、中位數、眾數 如果一個分配是不對稱的,譬如偏向左或偏向右, 這三種測量值可能會不同。例: 中位數 眾數 平均數
第4章 數值的敘述方法
11
平均數、中位數、眾數,哪一個最好? 要從三種量數中選擇時,我們應該使用哪一個? 平均數通常是我們的第一個選擇。但是在某些情況
下選中位數又會比較好。 眾數很少會是最佳的中央位置測量值。 中位數所具有的一項優點是它不像平均數那樣的對 極端值敏感。 第4章 數值的敘述方法 第110頁
12
平均數、中位數、眾數,哪一個最好? 為了舉例說明,考慮範例4.1中的資料。 平均數是 11.0,且中位數是8.5。
現在假設回應者報告的33小時實際上是l33小時(顯 然是沉迷於網際網路。 第4章 數值的敘述方法 第110頁
13
平均數、中位數、眾數,哪一個最好? 樣本的 10 個觀測值中只有 2 個超過這個數值,使 得這個統計量成為一個不良的中央位置量數。
中位數則保持相同的數值。當存有相對少量的極端 觀測值(不是非常小就是非常大,但不是兩者並存), 中位數通常是比較好的資料中央位置量數。 第4章 數值的敘述方法 第110頁
14
順序與名目資料的中央位置量數 對順序和名目資料而言,計算平均數是無效的。 中位數適用於順序資料。
對名目資料而言,眾數的計算對決定出現次數最高 的觀測值很有用,但並非決定“中央位置”。 第4章 數值的敘述方法 第110頁
15
幾何平均數 算術平均數是一個最普遍且最有用的中央位置量數。 但是,又有另一種情況,當下平均數和中位數都不 是最好的量數。
當變數是一個成長率或變化率,例如一項投資在經 過數個時段後的價值,我們會需要另一種量數。 從下列的舉例說明這個概念將會變得更明朗。 第4章 數值的敘述方法 第111頁
16
幾何平均數 假設你有個 $1,000的2年期投資,並且在第1年成長 100 %達到$2,000 。
但是在第 2 年這個投資遭受了50 %的損失,從 $2,000回到$1,000 。 第 1 年與第 2 年的報酬率分別是R1 = 100% 與 R2 = –50% 算術平均數(與中位數)的計算是 第4章 數值的敘述方法 第111頁
17
幾何平均數 但是這個數字會使人誤解。因為從開始到結束,這 2 年期投資的價值並沒有改變,「平均」的複合報 酬率是 0 %。
誠如你將會看到的,這就是幾何平均數(geometric mean)的值。 第4章 數值的敘述方法 第111頁
18
幾何平均數 令Ri 表示在期間 i (i = 1, 2, …, n)的投資報酬率。幾
何平均數(geometric mean) Rg 的報酬率定義為 為了要解出 Rg,我們導出下列的公式。 第4章 數值的敘述方法 第111頁
19
幾何平均數 我們的投資實例的幾何平均數是 因此幾何平均數是 0%。這是唯一的「平均」報酬 率,讓我們能夠在投資的最後,從投資的最初價值
計算投資的最終價值。於是,使用報酬率=0%的複 利公式,我們算出 最終的投資價值 第4章 數值的敘述方法 第111頁
20
幾何平均數 於是,使用報酬率=0%的複利公式,我們算出 最終的投資價值 第4章 數值的敘述方法 第111頁
21
幾何平均數 每當我們想要找出一個變數對時間的「平均」成長率或變動率時,都可以使用幾何平均數。
然而,如果你想要估計未來任何單一期間的平均報酬率(或成長率),則 n 期報酬率(或成長率)的算術平均數是適用的平均數。 第4章 數值的敘述方法 第111頁
22
中央位置量數彙整 計算平均值 描述區間資料單一資料集的中央位置 計算中位數 描述順序或區間資料單一資料集的中央位置 計算眾數
描述名目資料的單一資料集 第4章 數值的敘述方法 第112頁
23
變異性量數 中央位置的測量無法敘述分配的全部狀況;也就是,觀測值從平均值向外散佈的程度為何?
例如,附圖顯示兩組班級成績。每一個資料組的平均(=50)是相同的。 但是,紅色班級比藍色班級具有較高的變異性。 第4章 數值的敘述方法
24
全距 全距(range)是最簡單的變異性量數, 計算方式如下: 全距 = 最大的觀測值 – 最小的觀測值 例
第一組: {4, 4, 4, 4, 50} 全距 = 46 第二組:{4, 8, 15, 24, 39, 50} 全距 = 46 兩組資料集分佈全然不同,但是它們卻有相同的全距。 第4章 數值的敘述方法 第114頁
25
全距 優點是它在計算上的簡單性。 缺點是它缺乏提供在兩個點之間觀測值分佈的相 關資訊。 我們需要一個變異性量數,可以採用所有的資料,
並不是只有2個觀測值。 第4章 數值的敘述方法 第114頁
26
變異數 變異數和它相關的測量值─標準差,可以說是最重 要的統計量。它們被用來測量變異性,但是你將會
發現,它們幾乎在所有推論統計的程序中都扮演著 重要的角色。 母體變異數標示為 (小寫 希臘字母 “sigma” 平方) 樣本變異數標示為 (小寫 “S” 平方) 第4章 數值的敘述方法 第115頁
27
變異數 母體平均數 母體變異數: 樣本變異數: 母體大小 樣本平均數 注意: 分母是樣本大小(n)減1! 第4章 數值的敘述方法 第114頁
28
變異數 如你所知,為了計算樣本變異數,你必須先計算樣 本平均數。 計算大型資料集的樣本變異數是相當耗時的,下列
的簡易樣本變異數計算方法或許能減輕這種負擔: 第4章 數值的敘述方法 第117頁
29
應用… 範例4.7 由一個 6 位學生所組成的樣本,下列是他們申請暑期工作的個數:17, 15, 23, 7, 9, 13.
找出這些資料的平均數和變異數。 我們想要計算的是什麼? …as opposed to or 2 第4章 數值的敘述方法 第116頁
30
樣本平均數和變異數 樣本平均數 樣本變異數 樣本變異數(簡易算法) 第4章 數值的敘述方法 第 頁
31
標準差 標準差只是變異數的正平方根。因此: 母體標準差: 樣本標準差: 第4章 數值的敘述方法 第117頁
32
標準差 範例 4.8 Xm04-08 高爾夫球設備製造商設計了一款新型球桿並要確定在擊球時是否比舊型球桿更加穩定。
使用新球桿你能夠得到比較一致的距離 第4章 數值的敘述方法 第 頁
33
詮釋標準差 知道平均數與標準差,可以讓統計實作人員取得一些有用的資訊。資訊則依直方圖的形狀而定。如果直方圖是鐘形的(bell shaped),我們可使用經驗法則(Empirical Rule): 1.大約所有觀測值的68%落在平均數左右l個標準差之內。 2.大約所有觀測值的95%落在平均數左右2個標準差之內。 3.大約所有觀測值的99.7%落在平均數左右3個標準差之內。 第4章 數值的敘述方法 第119頁
34
經驗法則 大約所有觀測值的68%落在 平均數左右 l 個標準差之內。 大約所有觀測值的95%落在 平均數左右 2 個標準差之 內。
大約所有觀測值的99.7%落在 平均數左右 3 個標準差之內。 第4章 數值的敘述方法
35
柴比雪夫定理 標準差更一般化的詮釋是源自柴比雪夫定理 (Chebysheff’s Theorem) 可應用在所有直方圖 (not
just bell shaped)(並非只應用於鐘形的) 任何樣本中的觀測值落在平均數左右 k 個標準差之 內的百分比至少是 當 k = 2, 柴比雪夫定理主張至少有四分之三(75%)的觀測值落在平均數的2 個標準差之內。柴比雪夫定理僅提供比例區間的下限,而經驗法則提供近似比例 (95%)。 第4章 數值的敘述方法 第120頁
36
變異係數 一組觀測值的變異係數 (coefficient of variation) 是 觀測值的標準差除以它們的平均數。 母體變異係數:
樣本變異係數: 第4章 數值的敘述方法 第121頁
37
相對位置量數與盒形圖 相對位置量數被設計用以提供有關特定數值相對於 整體資料的位置資訊。 百分位數: 指一個值,有P%的資料值小於它並有
假設你的分數是位於第60個百分位數。意思是有60%的其 他成績是低於你的,並且有40%的成績是高於你的。 第4章 數值的敘述方法 第123頁
38
四分位數 對於 25th,50th and 75th 百分位數,我們有特殊的名 稱,稱為四分位數(quartiles)。
位數。 第二個四分位數Q2,是等於第50個百分位數 (也是 中位數)。 第三個或上四分位數Q3,是等於第75個百分位數。 我們也能夠將百分位數轉換成五分位數(quintiles)與十分位數(deciles)。 第4章 數值的敘述方法 第 頁
39
找百分位數的位置 下列公式讓我們找出任何百分位數的近似位置: 其中Lp是第P個百分位數的位置。 第4章 數值的敘述方法 第124頁
40
範例4.11 回顧範例 4.1 的資料: 第25個百分位數的位置在哪裡?也就是,在哪一個點會有25%的資料值小於它且有75%的資料值大於它? 第25個百分位數是位於第二(它的值是0)和第三(它的值是5)個觀測值之間距離四分之三的地方。距離的四分之三是: 因為第二個觀測值是0,所以第25個百分位數是 第4章 數值的敘述方法 第124頁
41
範例4.11 上四分位數又該怎麼算呢? 因此,它是位於第8和第9個觀測值(它們的值分別是14和22)之間距離四分之一的地方。此距離的四分之一是 也就是第75個百分位數是 第4章 數值的敘述方法 第125頁
42
範例4.11 請記得... 位置 2.75 16 0 0 | | 22 33 位置 8.25 3.75 Lp決定資料組中百分比位數的位置,而不是百分比位數本身的數值。 第4章 數值的敘述方法
43
四分位距 四分位數可以被用來產生另一個變異性的量數—— 四分位距(interquartile range),定義如下:
四分位距 = Q3 – Q1 四分位距測量中間50%的觀測值離散的情形。 大的四分位距值表示第一與第三四分位數之間是遠 離的,指的是一個高的變異程度。 第4章 數值的敘述方法 第126頁
44
盒形圖 盒形圖(box plot)是描繪5個統計量的方法: • 最小與最大的觀測值,以及 • 第一、第二與第三四分位數 鬍鬚
鬍鬚 (1.5*(Q3–Q1)) 伸出去的兩條線稱為鬍鬚。任何落在鬍鬚之外的點稱為離群值。鬍鬚會向外延伸到1.5倍四分位距之內的最小和最大觀測值,也就是延伸到非離群值的資料最小值和最大值。 第4章 數值的敘述方法 第127頁
45
範例 4.15 速食餐廳大多數有得來速窗口以提供駕駛人與車上乘客快速服務的好處。為了評估服務的品質,一個名為 QSR 的組織計畫了一項研究,此研究是在5家餐廳各抽取一組得來速顧客的樣本,並記錄通過窗口的服務時間。使用一個盒形圖比較這5組的資料,並詮釋其結果。 第4章 數值的敘述方法 第 頁
46
盒形圖 這些盒形圖是根據Xm04-15 的資料。 Wendy’s 餐廳的時間顯然 是最短的,且最一致的。 Hardee’s 餐廳的服務則呈現
相當大的變異性, 最慢的服 務時間是發生在 Jack-in-the-Box餐廳。 第4章 數值的敘述方法 第 頁
47
線性關係的量數 現在我們提出三種數值的線性關係量數以提供兩區 間變數之間如線性關係的強度和方向(strength &
direction) 等資訊 (假如線性關係存在)。 它們是共變異數(covariance),相關係數(coefficient of correlation) 和判定係數(coefficient of determination)。 第4章 數值的敘述方法 第131頁
48
共變異數 母體共變異數: 樣本共變異數: 變數X,變數Y的母體平均數 變數X,變數Y的樣本平均數 注意: 除數是n-1,不是你所預料的n。
第4章 數值的敘述方法 第132頁
49
共變異數 類似於樣本變異數的簡易計算公式,其中無須計算 樣本平均數,這裡是共變異數的一個簡易計算公 式 :
第4章 數值的敘述方法 第132頁
50
共變異數舉例說明… 請檢視下列三組資料(課本§4.4)
三組資料中 X 的值都是相同的,且 Y 的值也都一樣。唯一的差異是Y 值的順序有所不同。 在第一組資料,X 值增加時,Y 值也增加。Sxy 是大的 & 正值 在第二組資料,X 值增加時,Y 值減少。Sxy 是大的 & 負值 在第三組資料,X 值增加時,Y 值沒有朝任何方向移動。Sxy 是“小的”數值 第4章 數值的敘述方法 第 頁
51
共變異數 (一般用語) 當兩個變數朝相同的方向(same direction)移動(兩者都遞增
或兩者都遞減),共變異數將是一個大的正數(large positive number)。 當兩個變數朝相反方向(opposite directions)移動,共變異數 將是一個大的負數(large negative number)。 當沒有特殊型態(no particular pattern)的關係,共變異數將 是一個小的數值(small number)。 然而,共變異數的數值大小可能很難判斷。 幸運的是,我 們可以產生另外一種統計量以改進共變異數所提供的資訊。 第4章 數值的敘述方法 第133頁
52
相關係數 相關係數被定義為將共變異數除以兩個變數標準差 的統計量。 母體相關係數: 樣本相關係數: 這項係數回答此問題:
希臘字母 “rho” 樣本相關係數: 這項係數回答此問題: X 與Y之間的相關性有多強? 第4章 數值的敘述方法 第頁
53
相關係數 相關係數的優點是數值有上限與下限,分別是–1 到 +1,因此: 當兩個變數間有強烈的正線性關係時,相關係數等
於 +1 (完全正線性關係)。 當兩個變數間有強烈的負線性關係時,相關係數等 於 –1 (完全負線性關係)。 當兩個變數間無線性關係時,相關係數趨近於0。 第4章 數值的敘述方法 第 頁
54
相關係數 +1 -1 強烈正線性相關 r 或 r = 無線性關係 強烈負線性相關 第4章 數值的敘述方法 第136頁
55
範例 4.16 計算以上三組資料的相關係數 第4章 數值的敘述方法 第134頁
56
範例 4.16 因為我們已經計算過共變異數,我們只需要計算 X 和Y 的標準差。 第4章 數值的敘述方法 第135頁
57
範例 4.16 標準差是 第4章 數值的敘述方法 第135頁
58
範例 4.16 相關係數是 第一組: 第二組: 第三組: 第4章 數值的敘述方法 第135頁
59
最小平方法 畫散佈圖的目的是要測量線性關係的強度與方向。 藉由畫一條通過資料的直線,兩者能夠更容易地被 判斷。
我們需要用一種客觀的方法來產生一條直線。 這種方法已經被發展了:它被稱為最小平方法(least squares method)。 第4章 數值的敘述方法 第138頁
60
最小平方法 y = mx + b 回顧,一條直線的斜率-截距方程式是以這些項目來表達: 其中: m 是直線的斜率 b 是y-截距
如果我們已經決定共變異數與相關係數兩個變數之間有線性關係,我們是否可以決定這個關係的線性函數? 第4章 數值的敘述方法
61
最小平方法 產生一條穿過各點的直線,此一直線使得各點和線之間的離差平方和為最小。下列的方程式用以表示這條線:
b0 (“b” naught) 是 y 軸的截距, b1 是斜率, (“y” hat) 是由直線所導出的 y 值。 第4章 數值的敘述方法 第 頁
62
最小平方法 給定的b0 與 b1係數是: 第4章 數值的敘述方法
63
固定成本與變動成本 固定成本是無論是否有製造任何產品單位都必須付 出的成本。 在一特定的期間或是在生產的某個範圍內,這些成 本是「固定的」。
變動成本則是直接隨著生產產品數量的不同而改變 的成本。 第4章 數值的敘述方法 第140頁
64
固定成本與變動成本 有一些費用是混合的。 有許多方法可以將混合成本分離,使之成為固定成本與變動成本。 One such method is the least squares line.我們以公式表示某些項目的總成本為 其中 y = 混合成本的總數,b0 = 固定成本, b1 = 變動成本,及 x =變動量。 第4章 數值的敘述方法 第140頁
65
範例 4.17 一位工具與鑄模製造商經營一家製造特殊工具的小店。 他考慮要擴張生意的規模,必須知道更多關於成本的資訊。
其中一項成本是電費,他必須使用電來操作機器以及燈光。(有些工作需要啟用極強的亮光為他的工作照明。) 他記錄每天的電費,以及他當天製造工具的數量。這些資料被列出如下。決定電費的固定成本與變動成本。[Xm04-17] 第4章 數值的敘述方法 第140頁
66
範例 4.17 第4章 數值的敘述方法 第142頁
67
範例 4.17 斜率被定義為上升/平移,它的意思是x(平移)每增加一個單位, y (上升)改變的量。
斜率測量依變數改變的邊際率(marginal)。 改變的邊際率是指增加一個單位的獨立變數所造成的影響。 在此例中斜率是2.25,它在此例中的意思是,每增加一個單位的工具數量,則電費成本的邊際增量為2.25。因此,估計的變動成本是每一個工具$2.25。 第4章 數值的敘述方法 第142頁
68
範例 4.17 y-截距是9.57。也就是,這條線在 y 軸的9.57處通過。 簡單的說,這就是當 x = 0時的值。
第4章 數值的敘述方法 第142頁
69
判定係數 當我們介紹相關係數時,曾經指出除了−1、0和+1之外,我 們無法明確地詮釋它的意義。
我們判斷相關係數只能夠以其最接近 −1、0 和 +1 的關係來 看。 幸運的是我們有另一種能夠被明確詮釋的測量值。它就是判 定係數(coefficient of determination) ,其計算的方法是將相 關係數平方。為了這個原因,我們將它標示為 R2。 判定係數測量依變數中的變異量能夠被獨立變數的變異解釋 的比例。 第4章 數值的敘述方法 第145頁
70
範例 4.18 判定係數是 R2 = .758 這告訴我們在電費成本中75.8%的變異量是可以被工具數量
所解釋的。剩餘的24.2%則是無法被解釋的部份。 第4章 數值的敘述方法 第145頁
71
範例 4.18 計算範例 4.17的判定係數 第4章 數值的敘述方法 第146頁
72
詮釋相關性 我們在第2 章中提醒你正確詮釋兩個區間變數間關係的分析,這是因為它的重要性。也就是說,假如兩個變數是線性相關的,這並不表示X 是造成Y 的原因。它的意思也有可能是另一個變數造成 X 和Y,或是Y 造成 X。請記住 「線性相關並不代表因果關係」 第4章 數值的敘述方法 第147頁
73
參數與統計量 N n S2 S CV cv Sxy r Population Sample Size Mean Variance
Standard Deviation S Coefficient of Variation CV cv Covariance Sxy Coefficient of Correlation r 第4章 數值的敘述方法
Similar presentations