Download presentation
Presentation is loading. Please wait.
1
第 3 章 敘述統計:數值方法
2
本章內容 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置及離群值的偵測 3.4 五數彙總與箱形圖
3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置及離群值的偵測 3.4 五數彙總與箱形圖 3.5 兩變數的相關性量數 3.6 資料儀表板:增加數值量數以提升效能
3
敘述統計:數值方法 測量值是由樣本資料計算而得,則稱之為 樣本統計量(sample statistics)。
若是由整個母體計算而得,則稱之為 母體參數(population parameters)。 統計推論中,樣本統計量是指 相對應的母體參數的 點估計量(point estimator)。 第3章 敘述統計:數值方法 第86-87頁
4
3.1 位置量數 平均數 加權平均數 中位數 幾何平均數 眾數 百分位數 四分位數 第3章 敘述統計:數值方法 第87-95頁
5
平均數 一個變數最重要的位置量數或許就是平均數 (mean 或 average value)。 平均數是一種中央位置量數。
若此資料來自某一樣本,則平均數記為 。 若此資料來自某一母體,則以希臘字母 μ 表示之。 第3章 敘述統計:數值方法 第87頁
6
樣本平均數 資料集中 n 個觀察值的總和 觀察值的樣本數 第3章 敘述統計:數值方法 第87頁
7
母體平均數 資料集中 N 個觀察值的總和 觀察值的樣本數 第3章 敘述統計:數值方法 第88頁
8
平均數實例 假設某大學的就業輔導室寄出一份問卷給被抽中的 商學院畢業生,以調查工作起薪。 表 3.1 為所蒐集的資料。
第3章 敘述統計:數值方法 第88頁
9
平均數實例 樣本中 12 個商學院畢業生之平均起薪計算如下。 第3章 敘述統計:數值方法 第88頁
10
加權平均數 某些情況為反映個別觀察值的重要性,計算平均數 時要對每一觀察值加上權重,以此方式計算而得到 的值即稱為加權平均數 (weighted mean)。 當資料來自樣本時,式 (3.15) 提供了樣本加權平均 數的算法,當資料來自母體時,我們可以用 μ 取 代 ,則式 (3.15) 也可用來計算母體加權平均數。 加權平均數中所使用的權重依實際情況各有不同。 第3章 敘述統計:數值方法 第89-90頁
11
加權平均數 其中 加權資料值的總和 當資料來自母體時,可以用 μ 取代 權重的總和 wi = 第i 個觀察值的權重
第3章 敘述統計:數值方法 第89頁
12
加權平均數實例 我們以過去 3 個月所做的五次採購來說明加權平均 數。 第3章 敘述統計:數值方法 第89頁
13
加權平均數實例 資料顯示,每磅成本由 $2.80至 $3.40不等,而且採 購數量在 500 至 2750 磅之間,假設經理想要瞭解 原料每磅的平均成本,由於訂購數量各有不同,我 們必須應用加權平均數的觀念。資料顯示五筆原料 每磅成本分別為 x1=3.00、x2=3.40、x3 =2.80、x4 =2.90 及 x5=3.25,則 每磅成本的加權平均成本等 於每磅成本乘上其對應採購量加權而得。 第3章 敘述統計:數值方法 第89頁
14
加權平均數實例 所以,本例的權重分別為 w1=1200、w2=500、w3 =2750、 w4=1000 及 w5 =800,應用式 (3.3),我們可以計算加權平 均數如下: 由加權平均數的計算,可以得到原料的每磅平均成本等於 $2.96。值得注意的是,若我們使用式 (3.1) 而非加權平均數 的公式 (3.3),將誤導結果。因為 (3.00+3.40+2.80+2.90+ 3.25)/5=15.35/5=$3.07。這個結果高估了每磅平均採購成 本。 第3章 敘述統計:數值方法 第89頁
15
加權平均數實例 加權平均數中所使用的權重依實際情況各有不同。 以學生的平均成績為例,4 代表 A,3 代表 B,2 代 表 C,1 則代表 D 及 0 代表 F,權重則為學分數, 習題 16 即是計算加權平均數。其他的加權平均數 的例子中,磅數、金額、數量等都常做為權重。不 管何種情況,只要觀察值的重要性有所不同,分析 人員就必須使用權重,以便最適當地反映每個觀察 值在平均數中的重要性。 第3章 敘述統計:數值方法 第90頁
16
中位數 中位數 (median) 是變數的另一種中央位置量數。 將資料值由小排到大時,中位數為中間的值。
若資料個數為奇數時,中位數即位於中間的數值; 若資料項目為偶數時,就沒有單一的中間項。 我們將根據傳統的中位數定義,將中間兩個值之平 均數當作中位數。 第3章 敘述統計:數值方法 第90頁
17
中位數 將資料遞增排列 (即由小到大排列) 。 (a) 資料值為奇數項時,中位數為此資料之中間值。
(b) 資料值為偶數項時,中位數為此資料之中間兩個數值的 平均數。 第3章 敘述統計:數值方法 第90頁
18
中位數實例 計算表 3.1 中商學院 12 位畢業生起薪的中位數, 將資料遞增排列後如下
因為 n=12是偶數,故有兩個中間值:3890 和3920, 中位數為此兩個值之平均。 中間兩個值 第3章 敘述統計:數值方法 第90頁
19
幾何平均數 幾何平均數 (geometric mean) 是位置量數,由 n 個 值的連乘積的 n 次方根,幾何平均數表示為 。
幾何平均數常用來分析財務資料的成長率。 幾何平均數特別普遍地運用在財務、金融及銀行相 關的問題,只要你想決定經過若干連續時期的平均 成長率,就可運用幾何平均數。 其他普遍運用包括物種族群、農作物生產、汙染水 準及出生率的改變。 第3章 敘述統計:數值方法 第91.93頁
20
幾何平均數 第3章 敘述統計:數值方法 第91頁
21
眾數 眾數 (mode) 是資料集中出現次數最多的資料值。 當資料集中出現次數最多的值有兩個或以上時,眾 數就不只一個。
若資料集恰有兩個眾數,則稱此資料為雙峰 (bimodal) 。 若出現兩個以上的眾數時,則稱為多峰 (multimodal) 。 第3章 敘述統計:數值方法 第93頁
22
眾數實例 表3.1的商學院畢業生起薪樣本,出現超過一次的 僅有月薪$3880 。由於此值出現的次數最高,因此 它就是眾數。
第3章 敘述統計:數值方法 第93頁
23
百分位數 百分位數 (percentile) 可讓人瞭解資料在最小值與 最大值間的分布情況。
有 n 個觀察值的資料集合,以 pth 百分位數 (pth percentile) 可將資料分割成兩部分,大約 pth 百分 比的觀察值會小於 pth 百分位數;而大約有 (100 − p) 百分比的觀察值會大於 pth 百分位數。 第3章 敘述統計:數值方法 第93-94頁
24
百分位數 計算 n 個觀察值的 pth 百分位數,必須先將資料依 遞增 (由小至大) 排序。最小值排第 1 位、次小值排 第 2 位,依此類推。pth 百分位數所在位置以 Lp 表 示,計算公式如下: 第3章 敘述統計:數值方法 第94頁
25
百分位數實例 為示範 pth 百分位數的計算方法,我們來計算表3.1 起 薪資料的80th 百分位數。
首先將 12 筆起薪資料依遞增順序排列。 每個觀察值下方的數字即是該觀察值的位置。例如, 最小值 (3710) 在位置 1、次小值 (3755) 在位置 2,依此 類推。運用式 (3.5),p = 80 及 n = 12,80th 百分位數的 位置是 位置 第3章 敘述統計:數值方法 第94頁
26
百分位數實例 L80 = 10.4 的意思是 80th 百分位數落在位置 10 與 位置 11 之間,離位置 10 的距離是位置 10 (4050) 與位置 11 (4130) 之差距的 40%。因此,80th 百分 位數是 80th 百分位數= (4130−4050) = (80) = 4082 第3章 敘述統計:數值方法 第94頁
27
百分位數實例 現在我們來計算起薪資料的50th 百分位數。p = 50 及 n = 12,50th 百分位數的位置是
L50 = 6.5,我們知道 50th 百分位數落在位置 6 與位 置 7 之間,離位置 6 的距離是位置 6 (3890) 與位置 7 (3920) 之差距的 50%。因此,50th 百分位數是 請注意,50th 百分位數剛好也是中位數。 50th 百分位數 = (3920–3890) = (30) = 3905 第3章 敘述統計:數值方法 第94頁
28
四分位數 四分位數 (quartiles) 是百分位數的特例。 Q1 = 第一四分位數或 25th 百分位數
第3章 敘述統計:數值方法 第95頁
29
四分位數實例 要說明有 n 個觀察值時,計算四分位數的方法,我 們以表 3.1 的起薪資料為例。
之前算出起薪資料的 50th 百分位數是3905;因此 ,第二四分位數 (中位數)是Q2 = 3905。要計算第一 及第三四分位數,我們必找出 25th 百分位數與 75th 百分位數。計算方式如下。 第3章 敘述統計:數值方法 第95頁
30
四分位數實例 對 Q1 而言 第一四分位數或 25th 百分位數的位置是在位置 3 與位置 4 之間,與位置 3 的距離是位置 3 (3850) 與 位置 4 (3880) 之距離的 25%。因此, Q1 = (3880 – 3850) = (30) = 第3章 敘述統計:數值方法 第95頁
31
百分位數實例 對 Q3 而言 第三四分位數或 75th 百分位數的位置是在位置 9 與位置 10 之間,與位置 9 的距離是位置 9 (3950) 與位置 10 (4050) 之距離的 75%。因此, Q3 = (4050 – 3950) = (100) = 4025 第3章 敘述統計:數值方法 第95頁
32
四分位數實例 四分位數將起薪分為四部分,每部分包括 25% 的 觀察值。
我們定義了 25th 百分位數、50th 百分位數、75th 百分位數三個四分位數後,便可利用計算百分位數 的規則求出四分位數。 第3章 敘述統計:數值方法 第95頁
33
評註 當資料集出現極端值時,中位數會比平均數更合適 做為中央位置量數。極端值存在時,有時會用到另 一種量數,稱為截尾平均數 (trimmed mean) 。截尾 平均數是刪除資料集的極小值與極大值後,剩下資 料值的平均數。例如,5% 的截尾平均數即是刪除最 小的 5%,以及最大的 5% 觀察值後得到的平均數。 以 n=12 筆起薪資料的樣本為例,12 筆資料的 5% 是 12 × 0.05=0.6,將 0.6 進位為 1,表示 5% 的修截 尾平均數是將最高的一筆起薪資料與最低的一筆起 薪資料刪除後,再求 10 筆起薪資料的平均值。因此 ,對起薪資料的樣本而言,5% 的截尾平均數是 。 第3章 敘述統計:數值方法 第96頁
34
評註 其他常用的百分位數是五分位數 (quintiles) (20th 、40th、60th 及 80th 百分位數),以及十分位數 (10th、20th、30th、40th、50th、60th、70th、 80th 及 90th 百分位數) 。 第3章 敘述統計:數值方法 第96頁
35
3.2 離散量數 除了位置量數外,我們還常希望能知道離散量數或 變異量數。
例如,向兩家不同的供應商訂貨,不僅要考慮其平 均運送時間,還要考慮其運送時間的變異性。 第3章 敘述統計:數值方法 第100頁
36
3.2 離散量數 全距 四分位距 變異數 標準差 變異係數 第3章 敘述統計:數值方法 第 頁
37
全距 最簡單的離散量數就是全距 (range) 。 全距=最大值-最小值 全距僅用到全體資料的兩個值。
全距 最簡單的離散量數就是全距 (range) 。 全距=最大值-最小值 全距僅用到全體資料的兩個值。 第3章 敘述統計:數值方法 第101頁
38
全距實例 參考表 3.1 商學院畢業生的起薪資料,最大值是 4325,最小值是 3710,全距就是4325 − 3710=615 。
參考表 3.1 商學院畢業生的起薪資料,最大值是 4325,最小值是 3710,全距就是4325 − 3710=615 。 假設有一位畢業生的每月起薪是 $10,000,此例的 全距變為 10,000 − 3710 = 6290,而不是 615,這 個值並不是非常適合描述資料集的變異性,因為 12 個資料中的 11 個資料均介於 3710 與 4130 之間 。 第3章 敘述統計:數值方法 第101頁
39
四分位距 四分位距 (interquartile range, IQR) 是第三四分位 數 Q3 與第一四分位數 Q1 的差。
能克服極端資料值的離散量數。 第3章 敘述統計:數值方法 第 頁
40
四分位距實例 參考表 3.1 商學院畢業生的起薪資料,對每月起薪 資料而言,第三四分位數與第一四分位數分別為 Q3=4000 與 Q1=3865,因此,IQR 為 4000 − 3865 =135。 第3章 敘述統計:數值方法 第102頁
41
變異數 變異數 (variance) 是利用到全部資料的離散量數。 變異數是根據每一個觀察值 ( xi ) 與平均數之差而 求得。
每一個觀察值 xi 與平均數 ( 為樣本平均數,μ 為 母體平均數) 之差稱為離差 (deviation about the mean)。 第3章 敘述統計:數值方法 第102頁
42
變異數 當樣本平均數的差距平方和除以n − 1,而非 n 時,此樣本變異數為母體變異數的不偏估計量。 變異數之定義如下:
母體變異數 樣本變異數 第3章 敘述統計:數值方法 第102頁
43
變異數實例 利用 3.1 節中五個大學班級人數的樣本為例。
資料的彙總在表3.3,包括離差及離差平方。離差 平方的總和為 。因此,在 n − 1=4 時,樣本變異數為 第3章 敘述統計:數值方法 第102頁
44
變異數實例 第3章 敘述統計:數值方法 第103頁
45
變異數實例 以表 3.1 的起薪資料為例,說明樣本變異數的計算, 在 3.1 節中,我們算出樣本平均起薪值為 3940。樣 本變異數 (s2=27,440.91) 的結果列於表 3.4。 表 3.3 與 3.4 中值得注意的是,我們算出離差與離 差平方的總和。對於任何資料集,離差的總和必為 0。因此,如同表 3.3 與表 3.4 顯示 , 這是恆成立的,因為正的離差與負的離差會相互抵 銷,而使得離差的總和為 0。 第3章 敘述統計:數值方法 第103頁
46
變異數實例 第3章 敘述統計:數值方法 第103頁
47
標準差 標準差 (standard deviation) 的定義是變異數的正 平方根。
標準差比變異係數容易解釋,因為標準差的衡量 單位與資料相同。 第3章 敘述統計:數值方法 第 頁
48
標準差 由變異數得到標準差的方法如下。 樣本標準差 母體標準差 第3章 敘述統計:數值方法 第104頁
49
標準差實例 以表 3.1 的起薪資料為例,樣本標準差 第3章 敘述統計:數值方法 第104頁
50
變異係數 變異係數 (coefficient of variation)是變異性的相對 衡量,它衡量標準差相對於平均值的大小。
變異係數計算如下: 樣本變異係數 母體變異係數 第3章 敘述統計:數值方法 第104頁
51
變異係數實例 以表3.1起薪資料為例,其樣本平均數 3940 與樣本 標準差 ,變異係數為 [(165.65/3940) × 100]% =4.2%。 一般而言,欲比較具有不同的標準差與平均數的資 料之離散程度時,變異係數是一個有用的統計量。 第3章 敘述統計:數值方法 第104頁
52
表3.1 起薪資料為例 變異數 標準差 變異係數 此樣本之標準差占平均數的4.7% 第3章 敘述統計:數值方法 第 頁
53
評註 我們可以利用統計套裝軟體及試算表來計算本章 所提到的所有敘述統計量。將資料輸入工作表之 後,應用一些簡單的指令就能產生我們想得到的 最終結果。我們會在章末的附錄示範如何利用 Excel 來得到這些敘述統計量。 我們經常應用標準差來計算基金或股票投資的風 險 (Morningstar website, July 21, 2012),可以得知 每月報酬與長期平均報酬之間差距的波動狀況。 第3章 敘述統計:數值方法 第104頁
54
評註 對樣本平均數 四捨五入時,離差平方 (xi − x)2之值會使得計算變異數與標準差產生誤差。為了降低此種誤差,我們建議計算過程中的數值至少要有六位數。最後得到的變異數或標準差再取少一點的位數。 計算樣本變異數的另一種公式是 其中 。 第3章 敘述統計:數值方法 第104頁
55
評註 平均絕對誤差 (mean absolute error, MAE) 是另一個離散量數,計算公式是將觀察值與平均數的離差的絕對值進行加總後再除以觀察值的個數。樣本大小為 n 時,MAE的計算如下: 以 3.1 節的班級人數資料為例, 及MAE=28/5=5.6。 第3章 敘述統計:數值方法 第105頁
56
3.3 分配的形狀的量數、相對位置及 離群值的偵測
z 分數 柴比雪夫定理 經驗法則 偵測離群值 第3章 敘述統計:數值方法 第 頁
57
分配的形狀 衡量分配形狀的重要數值是偏度 (skewness)。 計算偏度的公式有些複雜 。 衡量樣本資料的偏度公式是:
但是若以統計軟體來計算,則非常容易。 第3章 敘述統計:數值方法 第108頁
58
分配的形狀 適度左偏 偏度為負值。 平均數常小於中位數。 第3章 敘述統計:數值方法 第 頁
59
分配的形狀 適度右偏 偏度是正值。 平均數通常大於中位數。 第3章 敘述統計:數值方法 第108頁
60
分配的形狀 對稱 (不偏) 資料的分配是對稱的,偏 度為 0。 對稱分配的平均數及中位 數是相等的。 第3章 敘述統計:數值方法 第108頁
61
分配的形狀 高度右偏 偏度是正值。 (通常大於 1.0)。 平均數通常大於中位數。 第3章 敘述統計:數值方法 第108頁
62
分配的形狀 第3章 敘述統計:數值方法 第108頁
63
z 分數 z 分數通常稱為標準化值 (standardized value)。
每個 xi 會有一個稱之為 z 分數 (z -score) 的數值與 之對應。 其中 zi = xi 的 z 分數 = 樣本平均數 s = 樣本標準差 第3章 敘述統計:數值方法 第109頁
64
z 分數 利用平均數與標準差,我們便能決定任何觀察 值的相對位置。 資料集小於樣本平均數則 z 分數小於 0。
利用平均數與標準差,我們便能決定任何觀察 值的相對位置。 資料集小於樣本平均數則 z 分數小於 0。 資料集大於樣本平均數則 z 分數大於 0。 資料集等於樣本平均數則 z 分數等於 0。 第3章 敘述統計:數值方法 第109頁
65
z 分數實例 表 3.5 是班級人數資料的 z 分數,之前算出平均數 為 =44,樣本標準差為 s=8。第 5 個觀察值的 z 分數為 −1.50,是離平均數最遠的資料值,比平均 數小 1.50個標準差。 第3章 敘述統計:數值方法 第109頁
66
柴比雪夫定理 在資料集內,至少有 (1 − 1/z2) 百分比的觀察值與 平均數的差距必須在 z 個標準差之內, z 為任何大 於 1 之值。 第3章 敘述統計:數值方法 第110頁
67
柴比雪夫定理 至少有0.75 或75% 的觀察值,與平均數的差距在 z = 2 個標準差之內。
第3章 敘述統計:數值方法 第110頁
68
柴比雪夫定理實例 假設某學院商用統計課程有 100 位學生修課,期中 考成績之平均數為 70,標準差為 5 。利用柴比雪 夫定理,有多少學生的分數介於 60 與 80 之間?又 有多少學生的分數介於 58 與 82 之間? 我們注意到 60 小於平均數 2 個標準差,而 80 則大 於平均數 2 個標準差。利用柴比雪夫定理,我們可 看出至少 0.75 或至少 75% 的觀察值與平均數的差 距必須在 2 個標準差之內。因此,至少有75% 的學 生,分數介於 60 與 80 之間。 第3章 敘述統計:數值方法 第110頁
69
柴比雪夫定理實例 而分數介於 58 與 82 的人數又是多少?我們可看出 (58-70)/5 =−2.4,表示 58 是小於平均數 2.4 個標 準差;而 (82 − 70)/5=+2.4,表示 82 大於平均數 2.4 個標準差。利用柴比雪夫定理 z=2.4,我們可 得到 至少有 82.6% 的學生的分數必須介於 58 與 82 之間。 第3章 敘述統計:數值方法 第110頁
70
經驗法則 針對鐘形分配的資料集而言: 大約 68% 的觀察值與平均數的差距在 1 個標準差內。
大約 95% 的觀察值與平均數的差距在 2 個標準差內。 幾乎所有的觀察值與平均數的差距在 3 個標準差內。 第3章 敘述統計:數值方法 第111頁
71
經驗法則 第3章 敘述統計:數值方法 第111頁
72
偵測離群值 有時資料集會有一個或更多極大或極小的觀察值。 我們稱此類極端值為離群值(outliers) 。
使用 z 分數確認離群值時,我們建議觀察值之 z 分 數若小於 −3 或大於 +3,就是離群值。 離群值可能是 未被正確登錄的資料 被錯放在資料集 離群值若是登錄正確的資料,而且也屬於這個資料集的話, 則必須保留。 第3章 敘述統計:數值方法 第112頁
73
偵測離群值 根據資料分析制定決策時,最好先檢查離群值。誤 差通常產生自記錄資料,並將其輸入電腦時。並非 一定要刪除離群值,但必須適當確認其正確性與適 當性。 第3章 敘述統計:數值方法 第112頁
74
離群值的偵測實例 參考表 3.5 的班級人數資料之 z 分數, z 分數為 - 1.50 顯示第 5 個觀察值是離平均數最遠的值。然而 ,此標準化值仍在 −3 到 +3 之間,因此 z 分數顯 示出在班級人數資料中並無離群值。 第3章 敘述統計:數值方法 第112頁
75
評註 柴比雪夫定理適合用於任何資料集,用來指出至 少有多少個觀察值與平均數的差距在特定個標準 差之內。若資料集已知為鐘形時,則會得到更多 的訊息。例如,經驗法則告訴我們:有大約 95% 的觀察值與平均數的差距在 2 個標準差之內;由 柴比雪夫定理所得到的結論只是:至少有 75% 的觀察值會在上述的差距之內。 在分析一個資料集之前,統計學者通常做各種檢 查以確信資料的有效性。在大型研究中,登錄資 料或將資料鍵入電腦的過程中發生錯誤也很常見 。確認離群值是檢查資料有效性的方法之一。 第3章 敘述統計:數值方法 第113頁
76
3.4五數彙總與箱形圖 五數彙總 箱形圖 運用箱形圖做比較分析 第3章 敘述統計:數值方法 第 頁
77
五數彙總 五數彙總 (five-number summary) 是利用下列五個 數來匯總資料。 最小值 第一四分位數 (Q1)
最大值 第3章 敘述統計:數值方法 第115頁
78
五數彙總實例 以表3.1 中的起薪資料為例,可以得到下列結果。 最小值3710,最大值是4325 。
3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 最小值3710,最大值是4325 。 3.1 節已說明如何計算四分位數 (Q1 = ;Q2 = 3905;Q3 = 4025) 。因此,起薪資料的五數彙總是 3710 3857.5 3905 4025 4325 五數彙總資料顯示,起薪的樣本資料介於 3710 與 4325 之間,中位數或中間值是 3905;第一及第三 四分位數顯示大約有 50% 的資料值會介於 與 4025 之間。 第3章 敘述統計:數值方法 第 頁
79
箱形圖 箱形圖 (box plot) 是根據五數彙總而繪製的圖形。 繪製箱形圖的關鍵在求出四分位數距 IQR=Q3-Q1 。
箱形圖是另一種辨別離群值的方法。但是這種方法 不見得會與用 z 分數找出的離群值相同。 運用兩種方法或只用任一種方法皆可行。 第3章 敘述統計:數值方法 第116頁
80
箱形圖 圖 3.6 為每月起薪資料的箱形圖以及上、下界限。 第3章 敘述統計:數值方法 第116頁
81
箱形圖 繪製箱形圖的步驟如下: 箱形圖的繪製以第一四分位數、第三四分位數為前後邊 。以起薪資料為例,Q1 = 且 Q3 = 4025,箱形包 含中間 50% 的資料。 箱子中的垂直線位置為中位數 (以每月起薪資料而言是 )。因此,中位數位置的直線將所有資料分割成兩等 分。 使用四分位距 IQR = Q3-Q1 時,必須設定界限 (limits) ,界限分別位於 Q1之下 1.5(IQR) 或 Q3 之上 1.5 (IQR) 。 以每月起薪資料而言,IQR = Q3-Q1= 4025- = 。因此,界限為 −1.5(167.5) = 與 4025 + 1.5(167.5) = 。在界限之外的值為離群值 。 第3章 敘述統計:數值方法 第116頁
82
箱形圖 圖 3.6 的虛線稱之為鬚 (whiskers)。鬚的畫法是從步驟 3 中箱形的兩邊至界限內最大值與最小值,以圖 3.6 為例, 分別是 3310 與 3730。 最後,以 * 表示離群值的位置;在圖 3.5 中,可看到一 個離群值 3925。 第3章 敘述統計:數值方法 第116頁
83
箱形圖 圖 3.6 中有標示上、下界限的直線。這些線用來標 示資料的範圍,雖然我們會算出這些數值,但在箱 形圖中通常不會顯示出來。圖 3.7 是起薪資料的箱 形圖的常見形式。 第3章 敘述統計:數值方法 第116頁
84
運用箱形圖做比較分析 箱形圖可用在兩群或更多資料的彙整,可直觀地比 較不同組資料。
圖 3.8 是主修為會計、財務、資訊系統、管理及行 銷的畢業生起薪的箱形圖。 請注意,橫軸是不同的主修,每個箱形圖垂直置於 主修別上方。要比較兩個或以上的資料群,以此種 方式呈現箱形圖是傑出的圖形技巧。 第3章 敘述統計:數值方法 第117頁
85
運用箱形圖做比較分析 第3章 敘述統計:數值方法 第117頁
86
運用箱形圖做比較分析 你會如何解釋圖3.8 的箱形圖?我們特別注意到以 下情形: 主修會計的起薪較高;主修管理及行銷的起薪較低。
以中位數而言,主修會計及資訊系統的起薪相同,且高於 其餘主修;主修財務的起薪居次。主修管理及行銷的起薪 較低。 主修會計、財務及行銷的畢業生都有高的起薪離群值。 主修財務的起薪的變異性最低,主修會計的起薪的變異性 最高。 第3章 敘述統計:數值方法 第117頁
87
3.5兩變數的相關性量數 共變異數 共變異數的解釋 相關係數 相關係數的解釋 第3章 敘述統計:數值方法 第 頁
88
共變異數 共變異數 (covariance) 是兩變數間線性相關的敘述 量數。
當共變異數為很大的正值時,表示有很強的正線性 相關,而很大的負值則表示有很強的負線性相關。 管理者或決策者經常會對兩變數間的關係感興趣。 第3章 敘述統計:數值方法 第 頁
89
共變異數 樣本共變異數 母體共變異數 第3章 敘述統計:數值方法 第 頁
90
共變異數實例 回顧 2.4 節立體音響設備店的例子。該店的經理有 興趣研究未來幾個週末的電視廣告與銷售量的關係 ,樣本資料列於表 3.6 。
第3章 敘述統計:數值方法 第120頁
91
共變異數實例 第3章 敘述統計:數值方法 第120頁
92
共變異數實例 圖 3.9 為兩變數的散布圖,顯示出正向關係:較高 的銷售量 (y) 伴隨著較高的廣告次數 (x) 。事實上 ,散布圖顯示出兩變數呈現近似直線的關係 第3章 敘述統計:數值方法 第 頁
93
共變異數實例 為了衡量廣告次數 x 與銷售額 y 的線性關係之強度,我們利用式 (3.13) 計算樣本共變異數。表 3.7 是
的計算過程。請注意 =30/10=3 且 =510/10=51,利用式 (3.12),可得共變異數為 第3章 敘述統計:數值方法 第 頁
94
共變異數實例 第3章 敘述統計:數值方法 第121頁
95
共變異數的解釋 以圖3.10 來解釋樣本共變異數。 第3章 敘述統計:數值方法 第122頁
96
共變異數的解釋 第3章 敘述統計:數值方法 第123頁
97
共變異數的解釋 第3章 敘述統計:數值方法 第123頁
98
共變異數的解釋 第3章 敘述統計:數值方法 第123頁
99
相關係數 相關係數的範圍由 −1 到 +1。 樣本相關係數為 +1 代表兩變數 x 與 y 之間是完全 正線性相關。
第3章 敘述統計:數值方法 第 頁
100
相關係數 皮爾生相關係數:樣本資料 皮爾生相關係數:母體資料 第3章 敘述統計:數值方法 第 頁
101
相關係數實例 以立體音響店的資料為例,求其樣本相關係數。利 用表 3.6 的資料,我們便能計算兩變數的樣本標準 差。
因為 sxy=11,可得到樣本相關係數 第3章 敘述統計:數值方法 第124頁
102
相關係數的解釋 圖 3.12 的散布圖是根據以下樣本資料而得。 第3章 敘述統計:數值方法 第124頁
103
相關係數的解釋 第3章 敘述統計:數值方法 第125頁
104
相關係數的解釋 通過這三點的直線顯示變數 x 與 y 存在有完全線性相關。 為了套用式 (3.15) 來計算樣本相關係數,要先算出 sxy、sx 與 sy,某些計算過程列在表3.8。運用表中的資料,我們發現 因此,樣本相關係數為 1 。 第3章 敘述統計:數值方法 第 頁
105
相關係數的解釋 假設某一特定資料集顯示 x 與 y 間有正線性相關但 不是完全正線性相關, rxy 之值將會小於 1,表示在 散布圖上的點並非全部落在一條直線上。當資料點 愈來愈偏離完全正線性相關,rxy 的值會愈變愈小。 Rxy 之值等於零表示 x 與 y 之間沒有線性關係,且 rxy 之值接近零表示一種微弱的線性相關。 以立體音響設備店的資料為例, rxy=0.93,因此我 們的結論是:廣告次數與銷售量之間存在很強的正 線性關係。更明確地說,廣告次數增加時,銷售量 也增加。 第3章 敘述統計:數值方法 第 頁
106
相關係數實例 第3章 敘述統計:數值方法 第125頁
107
評註 由於相關係數只衡量兩個定量變數間的線性關係 的強度,當兩變數之間的關係是非線性的,線性 係數可能近乎 0,意味著沒有線性關係。例如, 以下散布圖顯示過去 100 天中,小型雜貨店在環 境控制 (如冷氣或暖氣) 的花費與每天室外溫度間 的關係。 這些資料的樣本相關係數是 rxy=−0.007,表示兩變 數間沒有線性相關。然而,散布圖提供強烈的視 覺證據,顯示兩變數間的非線性關係。也就是說 ,我們可以看出,當室外溫度剛升高時,需要較 少暖氣,繼續升高時就需要冷氣,所以環境控制 的花費先減少然後增加。 第3章 敘述統計:數值方法 第126頁
108
評註 第3章 敘述統計:數值方法 第126頁
109
評註 相關係數可以用來衡量兩個定量變數的關係,諸 如斯皮爾曼等級相關係數 (Spearman’s rank correlation coefficient) 的量數,則可用來評估至 少有一變數是名目或順序尺度時兩變數間的關係 。 第3章 敘述統計:數值方法 第126頁
110
3.6 資料儀表板:增加數值量數以提升效能 資料儀表板是用以組織並表達資訊的一組視覺表示, 以易讀易懂易解釋的方式來監控組織或企業的表現。
增加諸如關鍵績效指標 (key performance indicators, KPI) 的平均值與標準差的數值量數到資料儀表板是很 緊要的,因為數值量數可以做為評估 KPI 的目標或標 竿。 資料儀表板經常是互動式的。 向下鑽取 (drilling down) 是指互動式資料儀表板的功能 ,讓使用者可以在更細部的層次存取資訊、進行分析 。 第3章 敘述統計:數值方法 第128頁
111
End of Chapter 3
Similar presentations