Download presentation
Presentation is loading. Please wait.
1
Describing Data: Displaying and Exploring Data
Chapter 4 Copyright © 2015 McGraw-Hill Education. All rights reserved. No reproduction or distribution without the prior written consent of McGraw-Hill Education.
2
Learning Objectives LO4-1 繪製並解釋 點圖 dot plot. LO4-2 繪製並解釋 枝葉圖 stem-and-leaf. LO4-3 Identify and compute measures of position. LO4-4 繪製並分析 箱形圖 box plot. LO4-5 計算並解釋 偏態係數 coefficient of skewness. LO4-6 繪製並解釋 散佈圖 scatter diagram. LO4-7 製作並描述 條件次數表/交叉表 contingency table. 4-*
3
點圖 Dot Plots 點圖 dot plot:盡可能少將資料分組,以免無法識別各個資料的確切數值。
LO4-1 Construct and interpret a dot plot. 點圖 Dot Plots 點圖 dot plot:盡可能少將資料分組,以免無法識別各個資料的確切數值。 在點圖中,每一筆資料都是一個點(dot),被標示在橫軸對應的數值上。 若多個觀察值的數值相等或非常接近,則可將各個資料點堆疊起來( “piled” on top of each other). 4-*
4
點圖 Dot Plots - Example LO4-1
Applewood Auto Group Dealerships的兩個分店(Tionesta Ford Lincoln Mercury and Sheffield Motors, Inc.)的維修部門上個月都營業24天,下表列出這兩家分店上個月維修的車輛數,請製作點圖(dot plots),並做出summary statistics報告來比較兩家分店的營業狀況與表現。 4-*
5
點圖 Dot Plot – Example in Minitab
4-*
6
範例:點圖 抽樣花蓮50位70歲以上的長輩,調查他們過去一年就醫的次數。這組資料以點圖繪製如下: 從點圖中可清楚的看出:
這50位長輩們的去年的就醫次數主要是介於2-4次之間 (共25位)。 有三位沒有就醫記錄 (次數=0) 但有一位就醫次數多達9次。 4- 6
7
點圖的特性 優點: 清楚顯示資料的分配型態,資料集中趨勢,以及最高值、最低值的觀察點。 缺點:
圓點圖只是用於觀察點較少的資料。如果觀察點多的時候,histogram較恰當。 4-
8
枝葉圖 Stem-and-Leaf 第二章中,次數分配將資料組織成有有意義的形式
LO4-2 Construct and describe a stem-and-leaf display. 枝葉圖 Stem-and-Leaf 第二章中,次數分配將資料組織成有有意義的形式 將資料組織成次數分配的主要優勢在於:可輕易看出資料分配的形狀,而 枝葉圖 則可同時看到資料與分配形狀 次數分配有兩個缺點:而枝葉圖則全無此兩項缺點 資料計入組次列表,表中無每一筆資料的確切值 表中僅有組次,卻無各組內的實際分配資料 可用來表現資料分配,同時又能看到每一筆資料的確實數值的方法:枝葉圖 stem-and-leaf display. 4-*
9
LO4-2 枝葉圖 Stem-and-Leaf 枝葉圖(Stem-and-leaf display): 用來組織與呈現資料的統計方法,每一數值被分成兩部分: The leading digit(s) becomes the stem and the trailing digit the leaf. 枝的數值放在縱軸,葉的數值則被疊起來,水平列出。 枝葉圖優於次數分配之處:枝葉圖中,看得到每一筆資料的確實數值 4-*
10
枝葉圖 Stem-and-Leaf 定義(p.96)
(1)將每一觀察值的數字分成兩部分,前數字為「枝」,後數字為「葉」。 例如:數字為89,枝為8,葉為9。 (2)在枝葉圖中分兩欄, 「枝」垂直排列於左邊欄, 「葉」橫向排列於跟其枝相對的右邊欄。 但數值為二位以上數字時,怎麼辦? 一般都是將最後一位的數字作「葉」 , 前面的數字作「枝」 。 例如:數字156,枝是15,葉是6。 Stem-and-leaf display is a statistical technique to present a set of data. Each numerical value is divided into two parts. The leading digit(s) becomes the stem and the trailing digit the leaf. The stems are located along the vertical axis, and the leaf values are stacked against each other along the horizontal axis. 4- 10
11
枝葉圖 Stem-and-leaf Plot Example
製作枝葉圖不必先排序 葉子必須為單位數,較能看出分布狀況 點圖 vs. 枝葉圖:熟好熟壞,見仁見智,但一般常用點圖,而個人使用,為方便計,也可用枝葉圖。 4-
12
枝葉圖 Stem-and-leaf Plot Example (p97)
Table 4–1 列出去年Greater Buffalo Automobile Dealers Association (同業公會)45個會員所購買的廣告單位數(以30秒為1個單位)。 將此資料以枝葉圖方式呈現,請問:資料集中於那個數值?最少買了多少單位的廣告?最多買了多少單位的廣告? 4-*
13
Stem-and-leaf Plot Example
尚未排列 排列後 看出每個層級當中的分配 參考林 (新)p.73頁的圖例若將枝葉圖逆時鐘轉過來看的話,就跟次數分配直方圖一致,主要的差別在於,枝葉圖能將每一個層級中的各個觀察點的數值都列出來,但次數分配直方圖是表達每個層級數值的總數量。 廣告時段的購買數量主要集中在: 110~130之間。 有多少人購買數量介於110~119之間? 有多少人購買廣告數量介於120~129之間? 購買量最少是88,最多是156。 9人 8人 4- 13
14
枝葉圖 Stem-and-leaf Plot Example
組別為:[80,90), [90,100), [100,110), 依此類推 The usual procedure is to sort the leaf values from the smallest to largest. 4-*
15
枝葉圖的特性 優點:能展現資料的次數分配形狀,也能保留資料的原始數值。 缺點:只能用於數量資料,且觀察值數目也不能太多。 4-
16
Minitab的枝葉圖:Ex.7 (p.100) 最左邊多了一欄:以上/以下累積次數 最小值:38 40-49:次數=0
(7)表示:中位數在本組內,且本組的組次=7 組中點以下的組別,則為以上累積次數 4-
17
Ex.7 (p.100) 25 1 38, 106 60, 61, 63, 63, 65, 65, 69 No values 9 76 16 4-
18
Ex. 8 (p. 101) 4-
19
Ex. 8 (p. 101) 50 One 126, 270 155, 158, 159 No values 13 12 193.5 19 4-
20
Self-review 4-1 (p.99) 7 8 9 10 11 2 6 2. 1. (a)79,105 (b)15 (c)From 88 to 97; 75% of the stores are in this range 8 10.1, 10.2, 10.4, 10.8 9.5 11.6, 7.7 4-
21
衡量相關位置 Measures of Position
LO4-3 Identify and compute measures of position. 衡量相關位置 Measures of Position 最常被用來衡量離散度者為標準差 另一衡量資料分布情況的方法是:用數值(資料值)定位,將資料分成數個等分。 這種等分的衡量標準有: 四分位數 (quartiles) 十分位數 (deciles) 百分位數 (percentiles) 4-*
22
資料等分位置的衡量: 四分位數 (Quartiles
四分位數:將順序資料的觀察值分成四個等分數值的分位數 所以四分位數內有三個分位數Qi (i =1,2,3) 至少有i/4的觀察值≦Qi 且有(4-i)/4的觀察值≧Qi *第一四分位數(Q1)標示至少有1/4 (25%)的觀察值小於Q1 *第二四分位數(Q2)標示至少有2/4 (50%)的觀察值小於Q2: 因此,也是中位數 *第三四分位數(Q3)標示至少有3/4 (75%)的觀察值小於Q3 4-
23
十分位數、百分位數(p.107) 十分位數:將順序資料的觀察值分成十個等分數值的分位數 十分位數有幾個分位數? 9個
百分位數:將順序資料的觀察值分成一百個等分數值的分位數 4-
24
百分位數與中位數、四分位數、十分位數之對照
表: 百分位數與中位數、四分位數、十分位數之對照 百分位數 P10 P20 P25 P30 P40 P50 P60 P70 P75 P80 P90 中位數 Me 四分位數 Q1 Q2 Q3 十分位數 D1 D2 D3 D4 D5 D6 D7 D8 D9 4-
25
百分位數 Percentile Computation
LO4-3 百分位數 Percentile Computation 要計算 百分位數 percentile,令Lp 表示第p的百分位數的位置,因此,第33個百分位數,就位於 L33 ,而第50個百分位數,就位於 L50. 觀察值數目為 n, 因此,若我們要找中位數 median的位置,它的位置就在 (n + 1)/2,百分位數或可寫為 (n + 1)(P/100),而 P 為想要的百分位數的數值。 4-*
26
如何計算分位數的位置?(p.102) 該如何計算分位數的位置?可用以下這個公式:
Lp :百分位數的位置,n:觀察值數量,P: 想計算的百分位 例1:60個觀察值中,想找出中位數的位置 P =50,Lp = (60+1)*(50/100)= 30.5 中位數位於第30.5個觀察值 例2: 200個觀察值中,想找出第33個百分位的位置 P =33: 將200個觀察值分成100等分,第33個百分位的位置 L33 = (200+1)*(33/100)= 66.33 第33個百分位數值是第66.33個觀察值 4- 26
27
百分位數 Percentiles - Example
LO4-3 百分位數 Percentiles - Example Listed below are the 酬庸/佣金commissions earned last month by a sample of 15 brokers at Salomon Smith Barney’s Oakland, California, office. $2,038 $1,758 $1,721 $1,637 $2,097 $2,047 $2,205 $1,787 $2,287 $1,940 $2,311 $2,054 $2,406 $1,471 $1,460 Locate the 中位數(median), 第一個四分位數(the first quartile), and 第三個四分位數(the third quartile) for the commissions earned. . 4-*
28
百分位差 Percentiles – Example
LO4-3 百分位差 Percentiles – Example Step 1: 先將資料由低至高排序 4-*
29
百分位差 Percentiles – Example
LO4-3 百分位差 Percentiles – Example Step 2: 計算第一、第三個四分位數,其位於 L25 及 L75 ,可用下式計算: $1,460 $1,471 $1,637 $1,721 $1,758 $1,787 $1,940 $2,038 $2,047 $2,054 $2,097 $2,205 $2,287 $2,311 $2,406 4-*
30
Percentiles – Example (cont.)
Step 1: 將佣金資料從最低至最高值依序排列 $1,460 $1,471 $1,637 $1,721 $1,758 $1,787 $1,940 $2,038 $2,047 $2,054 $2,097 $2,205 $2,287 $2,311 $2,406 Step 2: 計算中位數的位置 應用剛才介紹的公式, Lp = (n+1)*(P/100) n = 15, P = 50, L50 = (15+1)*(50/100) = 8 中位數位於排序資料的第8個 $2,038 Step 3:計算第一四分位數(first quartile)及第三四分位數(third quartile)位置 L25 = (15+1)*(25/100) = 4第一四分位數位於排序資料的第4個$1,721 L75 = (15+1)*(75/100) = 12第三四分位數位於排序資料的第12個$2,205 4- 30
31
百分位差(若區位值LP並非整數)p. 103 LO4-3
前例中的區位都是整數 whole number. 設若樣本中的6個觀察值依序排列為: 43, 61, 75, 91, 101, and 104 , 亦即 n=6, 而我們想找出第一個四分位數的位置? 它位於第一個數值後,再向後移動第一個數值與第二個數值的間距的0.75的位置,這就是第一個四分位差。 正如中位數一樣,四分位差不必拘泥於資料中觀察值的數據,也可以是兩個觀察數據的插值。 在此例中,第一與第二個數值為 43 與 61,向後移動 0.75個間距,第一個四分位差,亦即地 25th 個百分位差(percentile) 為 56.5, 由 *(61- 43) 求出。 4-*
32
四分位數:當觀察值數量為偶數 隨機抽樣6台汽車這星期的加油公升數:91,75,61,101,43,104
請問第二四分位數是多少?第三四分位數是多少? 重點:四分位數不是一定要觀察值中已有的數值 數字排序後為:43,61,75,91,101,104 Lp = (n+1)*(P/100) 第二四分位數的位置:L50 = (6+1)*(50/100)=3.5排序數列中第3.5個 第二四分位數的數值是多少?75+(91-75)*0.5=83 第三四分位數的位置:L75 = (6+1)*(75/100)=5.25排序數列中第5.25個 第三四分位數的數值是多少?101+( )*0.25=101.75 4-
33
Self-review 4-2 (p.105) (a) What is the median weight? Lp=(9+1)*50/100=5 weight of the median= 7.90 (b) Determine the weights corresponding to the first and third quartiles Q1: Lp=(9+1)*25/100=2.5 weight of Q1=7.72+( )*0.5=7.76 Q3: Lp=(9+1)*75/100=7.5 weight of Q3=7.97+( )*0.5=8.015 (C) Determine the weight corresponding to the 46th percentile Lp=(9+1)*46/100=4.6 weight of the 46th percentile=7.86+( )*0.6=7.884=7.88 4-
34
箱型圖/盒鬚圖 Box Plot 盒鬚圖(box plot)乃根據四分位數而繪製,有助於 觀察資料的分布情形
LO4-4 Construct and analyze a box plot. 箱型圖/盒鬚圖 Box Plot 盒鬚圖(box plot)乃根據四分位數而繪製,有助於 觀察資料的分布情形 繪製盒鬚圖,我們僅需5個統計數據: The minimum value 極小值, Q1(the first quartile) 第1個四分位數, The median 中位數, Q3 (the third quartile)第3個四分位數, and The maximum value 極大值. 4-*
35
箱型圖/盒鬚圖 Boxplot - Example
Alexander’s Pizza 15英里內都免費送貨. 老闆 Alex, 想知道送貨所需的時間、一般送抵所耗時間?所耗費的時間在那個範圍(range)內?依據20個送貨的樣本,他得到下列資訊: Minimum value = 13 minutes Q1 = 15 minutes Median = 18 minutes Q3 = 22 minutes Maximum value = 30 minutes 請繪製盒鬚圖. 根據此資訊,你的結論為何?What conclusions can you make about the delivery times? 4-*
36
Boxplot – Example (p.106) 抽樣二十次送貨所花費的時間,他計算出以下的資料: 最小值:13分
Alexander’s Pizza的老闆Alex想知道:一般送貨要多久時間?大部分送貨所費的時間範圍(range)是多大? 抽樣二十次送貨所花費的時間,他計算出以下的資料: 最小值:13分 第一四分位數(Q1):15分 中位數:18分 第三四分位數(Q3):22分 最大值:30分 請用這些數值繪製盒鬚圖。 從盒鬚圖中,對於送貨時間我們可以做出哪些結論? 4- 36
37
箱型圖/盒鬚圖 Boxplot Example
Step1: 在X軸定好適當的格距 Step 2: 由 Q1 (15 minutes) 到 Q3 (22 minutes)繪成一個箱子形狀. 在箱子內的中位數處畫一垂直線來標示 median (18 minutes). Step 3: 從箱子兩端,將水平直線延長至最小值 the minimum value (13 minutes) 與最大值 the maximum value (30 minutes)處. . 4-*
38
這兩條鬍鬚長度涵蓋另外50%的觀察值,代表資料的分散度
Boxplot Example (pp.106-7) Step1: 在橫軸上繪製格線(scale) Step 2: 繪製一盒子(box),一邊始於Q1 (15 minutes),一邊終於Q3 (22 minutes). 並在盒子中繪製一垂直線標示中位數 (18 minutes) 盒子本身涵蓋居中50%的觀察值,這垂直中位數線將盒內資料分成相等的兩部分 (25%),代表資料中心位置。 盒子的寬窄: 居中50%的觀察值集中的情況。 Step 3: 從盒子外左右延伸一橫線,左邊延伸至最小值(13 minutes),右邊延伸至最大值(30 minutes) 這兩條延長橫線很像貓咪的鬍鬚(whiskers) 這兩條鬍鬚長度涵蓋另外50%的觀察值,代表資料的分散度 4- 38
39
盒子內包含居中50%的觀察值i.e.50%的送貨時間介於15分(Q1)及22分(Q3)之間
這個圖告訴我們什麼? (p.107) 盒子內包含居中50%的觀察值i.e.50%的送貨時間介於15分(Q1)及22分(Q3)之間 Q1跟Q3的距離稱為四分位差(interquartile range) =? 呈現居中50%資料的分散度(盒子的長度) (3)盒子外的兩條鬍鬚各含25%的觀察值 右邊25%的送貨時間差距較大,介於22及30分之間。 資料呈右偏還是左偏? 右邊的鬍鬚比左邊長,表示資料是右偏分配。 2. 盒子內,(Me - Q1) < (Q3 – Me) ,表示資料是右偏分配。 4-
40
盒鬚圖 (a) 對稱分配 (b) 左偏分配 (c) 右偏分配 (d) 均勻分配 圖: 四種不同分配的盒鬚圖 4-
41
盒鬚圖 Boxplot – Using Minitab (p. 107)
根據 Applewood Auto Group的資料,繪製買家年齡的盒鬚圖. 對於買家的年齡分配,我們能得出什麼結論? 使用 MINITAB統計軟體:繪圖與統計資料 (chart and summary statistics)對於買家的年齡分配,我們能得出什麼結論? Referring back to the Applewood Auto Group data, we use Minitab to generate a box plot on the variable age of the buyers. What can we conclude about the distribution of the variable age of the buyer? The box plot tells us that the median age of the purchasers was 46 years. About 25% were older than years of age, about half of them were between the ages of 40 and years of age. The distribution of age is symmetric. 買家年齡的中位數是 46 歲. 有25%的買家年齡超過 歲:Q3以上之歲數 有50%的買家年齡介於 40 到 歲之間:Q1到Q3間之歲數 買家年齡的分配是對稱的 (symmetric) 4-*
42
IQR:四分位距 (Interquartile Range)
IQR = Q3 – Q1 可用來建構盒鬚圖 也可用來計算隔離極端值(outlier)的邊界 4-
43
Outlier (極端值/界外值) p.108 何謂極端值?
跟資料中其他數值不一致(inconsistent with the rest of the data) 之前介紹平均值有提及,平均值易受極端值影響,因此判別outlier是否存在是很重要的! 如何定義極端值? 要多大? outlier > Q3+1.5(Q3-Q1) 要多小? outlier < Q1 -1.5(Q3-Q1) Q15. P108 4-
44
盒鬚圖 極端界外值 外圍 平穩界外值 內圍 最小值 Q1 Q3 中位數 最大值 1.5IQR IQR 3IQR
圖 : 盒鬚圖與資料的內外圍和界外值 4-
45
4-
46
LO4-5 Compute and understand the coefficient of skewness.
第三章中介紹了衡量一組資料分配的中間趨勢值 central location (the mean, median, and mode)以及衡量離散度dispersion(the range and standard deviation) 的方法。 衡量分配的另一特性是:形狀 Shape 通常資料分配的形狀有4種: symmetric, 對稱的 positively skewed, 正偏/右偏的 (有極大值) negatively skewed, and 負偏/左偏的(有極小值) bimodal.雙峰的(有兩個眾數) 4-*
47
Commonly Observed Shapes
LO4-5 Commonly Observed Shapes . 4-*
48
偏態量數 (1)曲線為對稱分配,此時中心位置就是平均數、中位數與 眾數的所在,三者為同一點,呈現三點合一的情形。
圖4-1 (1)對稱分配 (2)左偏分配 (3)右偏分配 (1)曲線為對稱分配,此時中心位置就是平均數、中位數與 眾數的所在,三者為同一點,呈現三點合一的情形。 (2)曲線為左偏分配,此時平數最小,中位數則介於平均數與 眾數之間。 (3)曲線為右偏分配,此時平均數為最大,且呈現與左偏分 配相反之位置分布。 4-
49
Computing the Coefficient of Skewness 計算偏態係數
LO4-5 Computing the Coefficient of Skewness 計算偏態係數 偏態係數 介於 -3 與 3之間 若趨近於 -3, 表示資料相當負偏/左偏 negative skewness. 若趨近於 +3表示資料相當正偏/右偏 positive skewness. 當平均數與中位數相等,偏態係數為 0 ,表示其分配為對稱 symmetrical 且 not skewed. Skewness can be calculated using Pearson’s Coefficient of Skewness formula: 4-*
50
資料偏態的衡量值(p.110) 皮爾生偏態係數是測量偏態的衡量值 其數值介於 (-3)~ 3 之間. 當數值是0,表示:
平均數 = 中位數資料次數分配是對稱 當數值接近 -3, 表示: 平均數 < 中位數表示資料呈左偏 當數值接近 3,表示: 平均數 > 中位數表示資料呈右偏 4- 50
51
偏態 Skewness – An Example
LO4-5 偏態 Skewness – An Example 下面是抽樣的15家軟體公司在2010年每股營利(earnings per share), The earnings per share 由小到大排列: 計算平均數 (mean),中位數 (median),標準差 (standard deviation). 請用 Pearson’s estimate來計算偏態係數(coefficient of skewness) 根據此分配的形狀,你的結論是? . 4-*
52
偏態 Skewness – An Example
LO4-5 偏態 Skewness – An Example 4-*
53
Skewness 這組資料呈現右偏分配,也就是有少數觀察值的數值偏高,因此拉高了平均值(>中位數) 4- 53
54
動差: (1) 以0為中心的原動差: (2)以平均數為中心的動差: 偏態係數: 峰度係數: 4-
55
Describing the Relationship between Two Variables描述兩變數之關係
LO4-6 Create and interpret a scatter diagram. Describing the Relationship between Two Variables描述兩變數之關係 當我們研究兩個變數間的關係時,我們稱此資料為二元的 (bivariate) 用來顯示兩個變數間關係的圖形:散佈圖 (scatter diagram) 要繪製 散佈圖(scatter diagram),我們將一個變數值標示在橫軸 (X-axis) ,將另一個變數值標示在縱軸 (Y-axis),然後將每個資料點在此二元圖形中。 4-*
56
散佈圖 Scatter Diagram Examples
LO4-6 散佈圖 Scatter Diagram Examples 4-*
57
散佈圖 scatter plot (P.115) 公車年紀 (X)跟公車維修費用(Y)之間的關係 每一點代表一個觀察點(i.e.公車)。
年紀愈大的公車,所花費的維修費用也就愈高 兩者有正向的關係(positive relationship) 4-
58
散佈圖 scatter plot (P.115) 汽車里程數(x)及拍賣價(y) 汽車里程數愈高,拍賣價格愈低落
兩者成反向的關係(negative relationship) 身高(x)跟年收入(y) 兩者並沒有明顯的關係 4- 58
59
長得高,賺得多? 天下雜誌 394期 長得高,也是一種工作優勢嗎?研究「身高經濟學」的專家最近發現,長得高,有助於增加收入;收入好,也有助於讓人長得高。 工業革命以來,身高一直是衡量工作能力的不成文標準。十九世紀的英國工廠老闆在雇用童工時,就常拿兒童的身高,作為判斷年齡大小與體力好壞的衡量標準。儘管專家認為這種推論太武斷,但「身材較高的人,比較值得雇用」的說法,不無幾分道理,甚至在現代美國,都是如此 最近有兩份研究指出,美國身材最高的四分之一人口,收入比最矮的四分之一人口,多出了9~10%。第一份研究的學者認為,這是因為長得高的青少年比較有自信,有助於社會技能的學習。另一份研究的學者則認為,兒童營養與照顧的多寡,影響腦袋和身體的發展,所以充分發育的人,會比較聰明。 不過,看待身高與收入的關係,也不能這麼直截了當。例如,聯合國的資料顯示,烏干達人雖然比印度人更高,卻比印度人窮。十九世紀末出生的美國人,雖然比他們的祖先更有錢,卻也變矮了些。比爾蓋茲夠高嗎? 這些謎團般的關係,究竟該如何解釋?應該說,人類的身高會隨著富裕而增加,但增高的幅度卻會遞減──隨著收入變多而呈弧形曲線發展。要不然,比爾蓋茲這種有錢人肯定會變成超級巨人。賺夠了錢買營養食物吃,就能明顯改進身高;一旦免去勞役、溫飽無虞,多出來的收入,對身高的幫助就有限了。「身材高矮,是衡量匱乏、而非富饒的有用指標,」美國俄亥俄州立大學教授史戴可一語點出。 4-
60
例子:p115 可看出汽車利潤與買主的年紀呈現微弱的正向關係 其實,看不太出來買主的年紀,與所買汽車的利潤的關係 4-
61
p.116其他可能範例 里程數越高,汽車的價值降低 駕駛越年輕,汽車險的的保費越高
交通警察的年資越長,開的罰單數越少,這可能是因為他們對違規的看法越來越開明(寬鬆),或因他們已經升官,僅監督下屬而不再在路邊值勤開單。 4-
62
Contingency Tables 條件次數表/交叉表/列聯表
LO4-7 Develop and explain a contingency table. Contingency Tables 條件次數表/交叉表/列聯表 假若兩個變數中有一個或兩個變數為名目尺度或排序尺度的資料(nominal or ordinal scale) ,怎麼辦?這時,我們可用列聯表/條件次數表(contingency table)來計數並整理成表。 4-*
63
列聯表/條件次數表/交叉表 Contingency Tables
LO4-7 列聯表/條件次數表/交叉表 Contingency Tables 條件次數表(contingency table)就是同時整理兩個變數的資料並且交叉製表 (cross-tabulation) Examples: 將某大學學生按照性別、與班級排名(class rank)分類 將某商品依照合格(acceptable)或不合格(unacceptable)以及生產的班別(日班、下午班、晚班) 來分類. A voter in a school bond referendum(公投) is classified by party affiliation (Democrat, Republican, and other) and the number of children that voter has attending school in the district (0, 1, 2, etc.). 4-*
64
Contingency Tables – An Example
LO4-7 Contingency Tables – An Example Applewood Auto group有四家分店,若我們想比較每一款車在不同分店的營利情況,換句話說,分店與營利是否有關係?The table below is the cross-tabulation of the raw data. 注意:利潤已被轉換為排序變數 ordinal variable. 4-*
65
Contingency Tables – An Example
LO4-7 Contingency Tables – An Example From the contingency table, we observe the following: 在右邊的總額欄顯示:180輛車中有90輛車以高於中位數的利潤出售,有一半則低於中位數,這非常符合中位數的定義。 而Kane dealership 25 out of the 52, or 48 percent, 的車以高於中位數利潤售出 其他分店高於中位數利潤的比例分別為:50 percent for Olean, 42 percent for Sheffield, and 60 percent for Tionesta. 4-*
66
盒鬚圖—兩組數值比較 業務員Susan與Lauren最近8個星期股票交易的手續費收入如下。請透過盒鬚圖了解兩位營業員業績的全貌。若你是老闆,你要雇用哪位? Susan: min = 30, 第一四分位數=64.5, 中位數=80, 第三四分位數=101, max=270 Lauren: min = 64, 第一四分位數=85, 中位數=93, 第三四分位數=118, max=166 4-
67
業務員業績的盒鬚圖 Susan Lauren 4-
68
比較結果: Lauren業績的盒子比Susan的窄一些, 資料集中度高 表示Lauren的業績較集中。
中位數較大 Lauren業績表現較佳 3. Lauren業績的鬍鬚比Susan短, Lauren的業績分散度小,且較為對稱 Lauren業績較穩定 4-
69
練習 某電池生產商為了測試期所生產的電池使用時間,隨機選取20個電池,測驗結果如下(小時): 請計算: 算數平均數、眾數、中位數
41.0, 40.9, 39.8, 42.6, 41.4, 42.5, 42.4, 40.8, 42.5, 42.8 39.7, 41.8, 42.2, 42.5, 42.6, 40.0, 41.0, 42.4, 42.7, 43.6 請計算: 算數平均數、眾數、中位數 第10及第90百分位數的位置 全距 變異數 皮爾生偏態係數 4-
70
練習 Sample mean = 835.2/20=41.76 mode=42.5 median=(42.2+42.4)/2=42.3
(3) Range = = 3.9 (4) 變異數 S2= Σ(Xi – X)2/(n-1) = /19=1.24 標準差S =1.11 (5) 3( )/1.11= 左偏分配 4-
Similar presentations