第一章 敘述統計學
學習重點 分辨屬性與屬量數據 描述名目、順序、區間跟比例尺度的測量值 描述母體與樣本的差異 計算並解讀百分位數與四分位數 知道如何計算集中傾向的測度並且解釋之 產生各式各樣描述數據集的圖表 利用 Excel 樣板計算各式各樣的測度及產生各種圖表
四種測量尺度 名目尺度 (nominal scale) 只是一個名字 順序尺度 (ordinal scale) 是數據可以依照某種條件由小排到大 區間尺度 (interval scale) 是數據間的距離有意義 比例尺度 (ratio scale) 則是數據間的距離與比例皆有意義
母體與樣本 母體 (population):包含研究者有興趣的所有測量值,亦稱為宇集 (universe)。 樣本 (sample):選自母體的部分集合。
百分位數與四分位數 百分位數 (percentile):比指定的百分比的數據點大的數字 四分位數 (quartile) :25 的倍數的百分位數
百分位數與四分位數 第一個四分位數,也稱為下四分位數 (lower quartile) ,就是第 25 個百分位數。 第二個四分位數是第 50 個百分位數,也叫中四分位數 (middle quartile) 或中位數 (median)。 第三個四分位數是第 75 個百分位數,也叫上四分位數 (upper quartile)。
1-3 Measures of Central Tendency(集中趨勢)or Location Median(中位數) Middle value when sorted in order of magnitude 50th percentile Mode(中數) Most frequently- occurring value Mean(平均數) Average
例1-2 找出世界前20位富翁的第50個跟第80個百分位數 Templates (ch 1: Basic Statistics)
Example – Median (Data is used from Example 1-2) Sales Sorted Sales 9 6 6 9 12 10 10 12 13 13 15 14 16 14 14 15 14 16 16 16 17 16 16 17 24 17 21 18 22 18 18 19 19 20 18 21 20 22 17 24 See slide # 19 for the template output Median 50th Percentile (20+1)50/100=10.5 16 + (.5)(0) = 16 Median The median is the middle value of data sorted in order of magnitude. It is the 50th percentile.
Example - Mode (Data is used from Example 1-2) See slide # 19 for the template output . . . . . . : . : : : . . . . . --------------------------------------------------------------- 6 9 10 12 13 14 15 16 17 18 19 20 21 22 24 Mode = 16 The mode is the most frequently occurring value. It is the value with the highest frequency.
Arithmetic Mean or Average(算術平均) The mean of a set of observations is their average - the sum of the observed values divided by the number of observations. Population Mean Sample Mean m = å x N i 1 x n i = å 1
變化的測度 全距 (range):是最大觀察值減最小觀察值。變異數 (variance) :全部數據點「與平均偏離平方和 」的平均。標準差 (standard deviation):是變異數的方根。
Variance(變異數) and Standard Deviation(標準差) Population Variance Sample Variance n N å ( x - x ) 2 å ( x - m ) 2 s = 2 i = 1 s = ( ) 2 i = 1 n - 1 N ( ) ( ) 2 N n 2 x x å å N å = n = - i 1 å x - i 1 x 2 2 N n = = i = 1 i = 1 ( ) N n - 1 s = s 2 s = s 2
例1-2 找出世界前20位富翁財富的平均數、變異數、標準差
偏度與峰度 偏度 (skewness) 是頻率分配不對稱程度的測度。 偏度為0表示對稱, 偏度為正表示右偏,偏度為負表示左偏。 峰度 (kurtosis) 是頻率分配扁平程度的測度。 峰度越大表示分配越瘦越尖。常態分配的峰度為3 相對扁度 = 絕對扁度 - 3
Summary Measures: Population Parameters Sample Statistics Measures of Central Tendency Median (中位數) Mode (眾數) Mean (平均數) Measures of Variability Range (全距) Interquartile range Variance (變異數) Standard Deviation (標準差) Other summary measures: Skewness (偏態) Kurtosis (峰態)
柴比雪夫定理 柴比雪夫定理 (Chebyshev’s theorem) 的原則如下: 1. 至少有四分之三的經驗值,與平均的偏 離落入兩個標準差內 2. 至少九分之八的觀察值,與平均的偏離 落入三個標準差內
經驗法則 如果數據分配是山形的 (mound-shaped),則此數據集可適用嚴格一點的原則,就是所謂的經驗法則: 1. 大約有 68% 的觀察值,與平均的偏離落 入 1 個標準差內 2. 大約有 95% 的觀察值,與平均的偏離落 入 2 個標準差內 3. 絕大部分 (幾乎全部) 的觀察值,與平均 的偏離落入 3 個標準差內
呈現數據的方法 圓餅圖 (pie chart):簡單描述呈現某種離散型數(分類數據)。 直條圖 (bar chart):用來呈現分類數據,它的測量尺度可以是名目的或是順序的。 頻率多邊形 (frequency polygon):類似直方圖,只有各區間的中點落在與該區間的頻率或相對頻率成比例的高度上。 肩形圖 (ogive):是一種累加頻率圖。
Pie Chart(餅圖)
Bar Chart(直條圖) Fig. 1-11 Airline Operating Expenses and Revenues 2 Average Revenues Average Expenses 1 8 6 4 2 American Continental Delta Northwest Southwest United USAir A i r l i n e
Frequency Polygon(頻率多邊形) and Ogive(累加頻率圖) Relative Frequency Polygon Ogive 5 4 3 2 1 . Relative Frequency Sales 5 4 3 2 1 . Cumulative Relative Frequency Sales
數據探查分析 莖葉圖 (stem-and-leaf display):一種快速審視數據的技巧,包含某些直方圖的特徵。 盒形圖:也叫盒鬚圖,是另一種端詳數據的方法。
Box Plot(盒形圖) Elements of a Box Plot * o Q1 Q3 Inner Fence Outer Median Q1 Q3 Inner Fence Outer Interquartile Range Smallest data point not below inner fence Largest data point not exceeding inner fence Suspected outlier Outlier Q1-3(IQR) Q1-1.5(IQR) Q3+1.5(IQR) Q3+3(IQR)
Example: Box Plot(盒形圖)
例1-8 42位工程師回答他們在銀幕上所看到的狀況,而完成某項工作的時間。 分六組,並繪出折線圖、直條圖、餅圖。
作業 任選並下載一支台灣上市公司過去250天股價資料,使用EXCEL將這些資料計算日報酬率及: 敘述統計 頻率、相對頻率、累加頻率 日報酬頻率分佈圖、累加分佈圖 平均數、變異數、標準差 四分位數、百分位數、偏態係數、峰態係數