Chapter 3 第三章 Numerical Descriptive Measures 數值量測及資料描述

Slides:



Advertisements
Similar presentations
單元九:單因子變異數分析.
Advertisements

第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
Ch12 資料分析.
資料分析 ---敘述統計分析.
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
第一章 生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系,其涉及哪些内容 1.
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
17 類別資料的分析  學習目的.
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
第三章 隨機變數.
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
統計學 授課教師:林志偉 Tel:5021.
Chapter 3 descriptive statistics:numerical methods
假設檢定.
Chap3 Descriptive statistics -numerical measures Minitab & Excel
Descriptive statistics
第3章 資料的整理與表現- 統計表與統計圖.
第零章 統計學概論 0.1 統計學的定義 0.2 敘述統計學與推論統計學 0.3 測量尺度 0.4 資料、資訊與因果關係 ©2009 陳欣得
第十四章 数值变量的统计描述.
第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.
第 3 章 敘述統計:數值方法.
Continuous Probability Distributions
第 5 章 樣本資料的數值分布.
Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用
Sampling Theory and Some Important Sampling Distributions
第一章 敘述統計學.
圖表製作 集中指標 0628 統計學.
第 4 章 分散量數.
第四章 SPSS的基本统计分析.
Interval Estimation區間估計
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第一章 敘述統計學 1.1 原始資料 1.2 統計表 1.3 統計圖 1.4 統計量值 一些經驗法則 44 ©2009 陳欣得
第一次上統計Tutorial 就上手 不是只有上一次嗎.
第二章 機率概論 2.1 相對次數與機率 樣本空間、事件與隨機變數 抽樣與樣本空間 22
第3章 變異量數與分佈形狀.
第七章 调查数据的分析 第一节 数据集中趋势的测定 第二节 数据离散程度的测定 第三节 动态数据的分析 第四节 相关与回归分析.
EXCEL+ORIGN+SPSS的描述统计
資料整理與次數分配 Organizing Data 社會統計(上).
相關統計觀念復習 Review II.
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
Simple Regression (簡單迴歸分析)
Dr. C. Hsieh College of Informatics Kao yuan University
Chapter 5 z-Scores.
Review of Statistics.
Ogive plot example 說明者:吳東陽 2003/10/10.
Chapter 4 Variability 離散趨勢測量 2019/4/26.
Review of Statistics.
生物統計與SAS軟體課程教學(二) 單變項描述 (Descriptive Statistics)
楊志強 博士 統計學 楊志強 博士
第四章 統計資料的整理:統計量數.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
第七章 计量资料的统计分析.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
SAS 統計程序實作 PROC MEANS (一個母體)
Presentation transcript:

Chapter 3 第三章 Numerical Descriptive Measures 數值量測及資料描述 敘述統計方法:資料描述二 Chapter 3 第三章 Numerical Descriptive Measures 數值量測及資料描述

課程目標 1. 數值描述中央集中趨勢 2. 數值描述資料散佈變化情形 數值資料的偏性 1. 數值描述中央集中趨勢 2. 數值描述資料散佈變化情形 數值資料的偏性 資料的相對位置(Numerical Measures of Relative Standing) 標準差的意義與應用

Numerical Data Properties 數值資料的性質

Thinking Challenge 動動腦想一想 Strike $70,000 $20,000 $30,000 $50,000 $400,000 11 total employees; total salaries are $770,000. The mode is $20,000 (Union argument). The median is $30,000. The mean is $70,000 (President argument). Different measures are used! ... employees cite low pay -- most workers earn only $20,000. 員工認為: 薪資太低 ... President claims average pay is $70,000! 總裁宣稱平均薪水高

有關平均薪資的計算 平均每人薪資為70000元 薪 資 人 數 薪資*人數 400000 1 70000 2 140000 50000 薪 資 人 數 薪資*人數 400000 1 70000 2 140000 50000 100000 30000 20000 5 總 計 11 770000 平均每人薪資為70000元

Standard Notation (標準符號) Measure Sample Population Mean  X  Throughout this chapter, we will be using the following notation, which I will introduce now. Stand. Dev. S  2 Variance S  2 Size n N 希臘字(除資料筆數外) 英文字母

Numerical Data Properties數值資料的性質 Central Tendency (Location, 中心位置點) Location (Position) Concerned with where values are concentrated. Variation (Dispersion) Concerned with the extent to which values vary. Shape Concerned with extent to which values are symmetrically distributed. Variation (Dispersion, 數據大小變異程度) Shape (形狀) 以下三種性質與統計推論息息相關(尤其一、二項)

Numerical Data Properties & Measures 數值資料的性質與量測 Central Variation Shape Tendency Mean Range Skew Median Interquartile Range Mode Variance Geometric mean 幾何平均數 Other 其他 Standard Deviation

Central Tendency 中心趨勢

Numerical Data Properties & Measures 數值資料的性質與量測 Central Variation Shape Tendency 中心趨勢 Mean平均數 Range Skew Median Interquartile Range Mode Variance Geometric mean 幾何平均數 Other 其他 Standard Deviation

 Mean平均數 1. 量測資料的中心代表 2. 求解最方便也最常被使用 3. 資料的平衡點,如同翹翹板的支點 1. 量測資料的中心代表 2. 求解最方便也最常被使用 3. 資料的平衡點,如同翹翹板的支點 4. 易受到極端值或離群值得影響 5. 使用的公式 (Sample Mean) n X i    1 2 

Mean平均數 母體與樣本資料的算術平均數 Sample mean Population mean Sample Size Population Size

Mean平均數的範例 資料的平衡點,如同翹翹板的支點 易受到極值的影響 Mean = 5 Mean = 6 (continued) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 Mean = 5 Mean = 6

 Mean平均數範例 原始資料: 10.3 4.9 8.9 11.7 6.3 7.7 X n     10 3 4 9 8 11 原始資料: 10.3 4.9 8.9 11.7 6.3 7.7 X n i    1 2 3 4 5 6   10 3 4 9 8 11 7 6 .  8 30 .

Numerical Data Properties & Measures 數值資料的性質與量測 Central Variation Shape Tendency Mean Range Skew Median中位數 Interquartile Range Mode Variance Geometric mean 幾何平均數 Other 其他 Standard Deviation

Median中位數 4. 不受極端值或離群值的影響 中心趨勢的量測 將資料一數值大小排序後出現在最中間的數值 數列的中間位置 Odd奇數資料時,排序後最中間的數值 Even偶數資料時,排序後最中間的兩數值平均 數列的中間位置 中間位置的計算 (n +1) 2 4. 不受極端值或離群值的影響

Median中位數範例 不受極端值或離群值的影響 Median = 5 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14

Median 中位數範例奇數資料時 原始資料: 24.1 22.6 21.5 23.7 22.6 原始資料: 24.1 22.6 21.5 23.7 22.6 排序後: 21.5 22.6 22.6 23.7 24.1 中位數位置: 1 2 3 4 5 Positionin g Point Median   n 1 2 5 3 22 6 .

Median 中位數範例偶數資料時 原始資料: 10.3 4.9 8.9 11.7 6.3 7.7 原始資料: 10.3 4.9 8.9 11.7 6.3 7.7 排序後: 4.9 6.3 7.7 8.9 10.3 11.7 中位數位置: 1 2 3 4 5 6 Positionin g Point Median   n 1 2 6 3 5 7 8 9 30 .

Numerical Data Properties & Measures 數值資料的性質與量測 Central Variation Shape Tendency Mean Range Skew Median Interquartile Range Mode眾數 Variance Geometric mean 幾何平均數 Other 其他 Standard Deviation

Mode眾數 1.量測資料中心的測量數 2.資料中出現次數最多的數值 3.較不受極端值得影響 4.有可能出現無眾數或多眾數情形 5.可被使用於數值資料且也被使用於類別資料 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mode = 9 No Mode 0 1 2 3 4 5 6

Mode 眾數範例 No Mode無眾數資料 Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 One Mode恰有一眾數資料 Raw Data: 6.3 4.9 8.9 6.3 4.9 4.9 More Than 1 Mode兩個以上眾數資料 Raw Data: 21 28 28 41 43 43

動動腦想一想 你是銘傳投資顧問公司的投資分析顧問。某日你收集了數家欲投資上市公司的股票收盤價格如下 : 17, 16, 21, 18, 13, 16, 12, 11. 請描述以上資料的central tendency中心趨勢. This is the data from problem 3.54 in BL5ed. Give the class 10-15 minutes to compute before showing the answer.

Central Tendency 中心趨勢解答 Mean 平均數 n  X i X  X    X 1 2 8 X  i  1  n 8 17  16  21  18  13  16  12  11  8  15 . 5

Central Tendency 中心趨勢解答 Median 中位數 Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8 Median = 6.5 Position = (n+1)/2 = (10+1)/2 = 5.5 1 2 3 5 6 7 8 8 9 11 1 2 3 4 5 6 7 8 9 10 (n = 10) (6+7)/2 = 6.5  n 1 8 Positionin g Point Median  2 4 5 16 .

Central Tendency 中心趨勢解答 Mode 眾數 Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Mode = 8 Midrange = 6 (Xsmallest + Xlargest)/2 = (1+11)/2 = 6

幾何平均數 Geometric Mean 通常被使用在因時間改變而變動的比率Useful in the measure of rate of change of a variable over time 表達增長率Geometric mean rate of return 量測投資的平均增長率Measures the status of an investment over time

幾何平均數使用範例 某投資總金額為$100,000元在第一年底時,衰退至 $50,000元;而在第二年底時又提升回到$100,000。試求此投資之平均成長率。

幾何平均數使用範例 民國八十年至八十二年的消費者物價指數年增率(%)分別為3.62、4.47、2.94。(資料來源:《中華民國家統計月報》,民國八十三年五月,行政院主計處編印) 試計算這三年期間消費者物價指數年增率的幾何平均數。 解答:[(1+0.0362)*(1+0.0447)*(1+0.0294)]1/3 =1.03674-1=0.03674=3.674%

其他中央趨勢量測 Midrange Midquartile 最大值與最小值的平均 易受極端值的影響 計算公式:(X(1) + X(n)) / 2 Midquartile Q1與Q3兩值的平均 計算較煩瑣,但不受極值的影響 計算公式:(Q1 + Q3) / 2

Central Tendency Measures中心趨勢總結 量測 公式 描述重點 Mean S Xi /n 資料的平衡點 Median (n+1)/2位置 排序後的中間值 Mode 統計次數最多者 出現次數最多者 Midrange (X(1) + X(n)) /2 X(1) 與X(n)的平均 Midquartile (Q1 + Q3) /2 Q1與Q3的平均

Variation 資料的變動性

Numerical Methods for Quantitative Data Numerical Data Properties Central Variation Shape Tendency Mean 全距Range Skew Median Interquartile Range Mode Variance Geometric mean 幾何平均數 Other 其他 Standard Deviation

全距Range 1. 量測資料的散佈Measure of dispersion 資料的最大值減去最小值Difference between largest & smallest observations Range全距=最大值-最小值=X(n)-X(1) 忽略分配情形Ignores how data are distributed 7 8 9 10

Numerical Methods for Quantitative Data Numerical Data Properties Central Variation Shape Tendency Mean Range Skew Median 內四分位距Interquartile Range Mode Variance Geometric mean 幾何平均數 Other 其他 Standard Deviation

變異數Variance & 標準差Standard Deviation 1. 量測資料的散佈情形Measures of dispersion 2. 最常被使用Most common measures 3. 考慮到分配情形Consider how data are distributed 4. 展現對平均數的變動Show variation about mean (X or ) 4 6 8 10 12  X = 8.3

c h c c h c h c h  變異數Sample Variance公式 使用到所有資料; 易受到極值的影響 X  X S  n 2  使用到所有資料; 易受到極值的影響 X  X i 2 S  i  1 n  1 c   c h c h c h 2 2 2 X  X  X  X    X  X 1 2 n  n  1

c h c h c h c h  變異數Sample Variance公式 X  X S  n  1 X  X  X  X  樣本用n-1;母體用N n c h 2  X  X n - 1 in denominator! (Use N if Population Variance) i 2 S  i  1 n  1 c h c h c h 2 2 2 X  X  X  X    X  X 1 2 n  n  1

標準差Sample Standard Deviation公式 2 S  S 變異數及標準差均必為正數 n c h 2  X  X i  i  1 n  1 c h c h c h 2 2 2 X  X  X  X    X  X 1 2 n  n  1

母體與樣本變異數Variance Sample variance: Population variance:

母體與樣本標準差Standard Deviation Sample standard deviation: Population standard deviation:

c h a f a f a f   變異數Variance範例 資料: 10.3 4.9 8.9 11.7 6.3 7.7 X  X 資料: 10.3 4.9 8.9 11.7 6.3 7.7 n c h n 2   X  X X i i 2 S  i  1 where X  i  1  8 . 3 n  1 n a f a f a f 2 2 2 10 . 3  8 . 3  4 . 9  8 . 3    7 . 7  8 . 3 2 S  6  1  6 . 368

動動腦想一想 你是銘傳資訊公司的投資人. 下列資料為今年各月的股票售價平均價: 17, 16, 21, 18, 13, 16, 12, 11. 試問variance(變異數) 和standard deviation(標準差) 為何? Alone Group Class

c h a f a f a f 變異數Variation 解*   樣本變異數Sample Variance 資料: 17 16 21 18 13 16 12 11 n c h n 2   X  X X i i 2 S  i  1 where X  i  1  15 . 5 n  1 n a f a f a f 2 2 2 17  15 . 5  16  15 . 5    11  15 . 5 2 S  8  1  11 . 14

c h 變異數Variation 解*  樣本標準差Sample Standard Deviation X  X S  S   2  X  X i 2 S  S  i  1  11 . 14  3 . 34 n  1

資料的各種變動量測的比較與總結        Measure Equation Description Range X - X Total Spread largest smallest Interquartile Range Q - Q Spread of Middle 50% 3 1 Standard Deviation X n i     2 1 Dispersion about (Sample) Sample Mean Standard Deviation  2 Dispersion about   X   (Population) i Population Mean N Variance  ( X -  X ) 2 Squared Dispersion i (Sample) n - 1 about Sample Mean

Shape 分配的形狀

Numerical Methods for Quantitative Data Numerical Data Properties Central Variation Shape Tendency Mean Range 偏性Skew Median Interquartile Range Mode Variance Geometric mean 幾何平均數 Other 其他 Standard Deviation

分配形狀Shape 1. 描述資料的分配情形Describes how data are distributed 2. 以偏性描述Measured by skew (symmetry) 左偏Left-Skewed Mean Median Mode 對稱Symmetric Mean = Median Mode 右偏Right-Skewed Mode Median Mean

Quartiles & Box Plots 四分位數與箱形圖

四分位數Quartiles 1. 量測非中央趨勢Measure of noncentral tendency 將資料四等分Split ordered data into 4 quarters 四分位數位置Position of i-th quartile Positionin g point of Q i (n    1) 4 25% Q1 Q2 Q3

a f 第一四分位數Quartile (Q1) 範例 資料: 10.3 4.9 8.9 11.7 6.3 7.7 資料: 10.3 4.9 8.9 11.7 6.3 7.7 排序後: 4.9 6.3 7.7 8.9 10.3 11.7 找位置: 1 2 3 4 5 6 a f Q Position 1     4 6 75 2 n . 1 Q  6 3 .

a f 第二四分位數Quartile (Q2) 範例 資料: 10.3 4.9 8.9 11.7 6.3 7.7 資料: 10.3 4.9 8.9 11.7 6.3 7.7 排序後: 4.9 6.3 7.7 8.9 10.3 11.7 位置: 1 2 3 4 5 6 Q Position 2    1 4 6 3 5 n a f . Q   7 8 9 2 3 .

a f 第三四分位數Quartile (Q3) 範例 資料: 10.3 4.9 8.9 11.7 6.3 7.7 資料: 10.3 4.9 8.9 11.7 6.3 7.7 排序後: 4.9 6.3 7.7 8.9 10.3 11.7 位置: 1 2 3 4 5 6 Q Position 3     1 4 6 5 25 n a f . Q  10 3 .

Numerical Methods for Quantitative Data Numerical Data Properties Central Variation Shape Tendency Mean Range Skew Interquartile Range Median Mode Variance Geometric mean 幾何平均數 Other 其他 Standard Deviation

內四分位距Interquartile Range 1. 量測資料的散佈情形Measure of dispersion 2. 也稱為中央散佈Also called midspread 第三與第一四分位的差Difference between third & first quartiles IQR內四分位距=Q3-Q1 4. 資料最中央的百分之五十的散佈Spread in middle 50% 5. 較不受極值的影響Not affected by extreme values

動動腦想一想 你是銘傳資訊公司的投資人. 下列資料為今年各月的股票售價平均價: 17, 16, 21, 18, 13, 16, 12, 11. 試問quartiles(四分位數), Q1 , Q3, 以及 interquartile range(內四分位距)?

a f Quartile四分位數(距)解* Q1 原始資料: 17 16 21 18 13 16 12 11 原始資料: 17 16 21 18 13 16 12 11 排序後: 11 12 13 16 16 17 18 21 位置: 1 2 3 4 5 6 7 8 a f Q Position 1    4 8 n 2.25 Q  12 1

a f Quartile四分位數(距)解* Q3 原始資料: 17 16 21 18 13 16 12 11 原始資料: 17 16 21 18 13 16 12 11 排序後: 11 12 13 16 16 17 18 21 位置: 1 2 3 4 5 6 7 8 Q Position 3     1 4 8 6 75 7 n a f . Q  18 3

Quartile四分位數(距)解* Interquartile Range內四分位距 原始資料: 17 16 21 18 13 16 12 11 排序後: 11 12 13 16 16 17 18 21 位置: 1 2 3 4 5 6 7 8 Interquart ile Range   Q 3 1 18 12 . 6

Box Plot箱型圖 1. 利用5-number summary(五點資料總結)將資料以圖形表達 Median 4 6 8 10 12 Q 3 1 X largest smallest 最小值 中位數 極大值 第一四分位數 第三四分位數 資料標於箱形圖的位置也可用於了解其相對位置,尤其用於標示Outlier離群值。

箱形圖的範例繪製準備—莖葉圖 Stem-and-Leaf of C1 N=50 Leaf Unit =1 9 6 3 3 3 6 6 7 7 8 8 24 7 0 1 1 1 1 1 4 4 5 6 7 8 8 8 9 (17) 8 0 0 1 2 2 3 4 4 4 4 6 7 8 9 9 9 9 0 1 1 2 2 4 4 5 6 Min=63, Q1=71, median=80, Q3=89, max=96

箱形圖繪製的範例 中位數 最小值 極大值 第一四分位數 第三四分位數

Shape & Box Plot 資料分配與箱型圖 左偏 對稱 右偏 Left-Skewed Symmetric Right-Skewed Q Median Q Q Median Q Q Median Q 1 3 1 3 1 3

線性相關係數 Coefficient of Correlation 量測兩數值變數間線性相關的程度Measures the strength of the linear relationship between two quantitative variables

雙數值變數的散佈圖形表達 —正相關例題一

線性相關係數r的計算一

雙數值變數的散佈圖形表達 —負相關例題二

線性相關係數r的計算二

線性相關係數的性質 Features of Correlation Coefficient 無單位Unit free 值在-1與1之間Ranges between –1 and 1 越靠近-1時表示負線性相關越強烈The closer to –1, the stronger the negative linear relationship 越靠近1時表示正線性相關越強烈The closer to 1, the stronger the positive linear relationship 數值靠近0時表示線性相關微弱The closer to 0, the weaker any positive linear relationship

各種線性相關所繪得的散佈圖 Y X Y X Y X r = -1 r = -.6 r = 0 Y X Y X r = .6 r = 1

Empirical rule(經驗規則) 對於近似鐘形分配(單峰對稱)資料其[m-s, m+s]的區間內大約包含68%的資料;而[m-2s, m+2s]的區間內大約包含95%的資料;而[m-3s, m+3s]的區間內大約包含99.7%的資料。

Chebyshev's theorem: 不論何種分配資料其[m-ks, m+ks]的區間內至少包含(1-1/k2)100%的資料。 例如:在[m-2s, m+2s]的區間內至少包含了75%的資料在[m-1.5s, m+1.5s]的區間內至少包含了(1-1/1.52)100%即55.56%的資料。

Empirical rule和Chebyshev’s theorem的比較 資料分佈範圍 Chebyshev's Empirical [m-s, m+s] 至少0% 大約68% [m-2s, m+2s] 至少75% 大約95% [m-3s, m+3s] 至少88.89% 大約99.7% [m-1.5s, m+1.5s] 至少55.56% 大約86.6% 查常態分配表

Empirical rule和Chebyshev’s theorem的範例與比較 Stem-and-Leaf of C1 N=50 Leaf Unit =1 9 6 3 3 3 6 6 7 7 8 8 24 7 0 1 1 1 1 1 4 4 5 6 7 8 8 8 9 (17) 8 0 0 1 2 2 3 4 4 4 4 6 7 8 9 9 9 9 0 1 1 2 2 4 4 5 6 平均數為79.64 標準差為9.70

Empirical rule和Chebyshev’s theorem的範例與比較 資料分佈範圍 [m-ks , m+ks] Chebyshev‘s 理論至少發生百分比 Empirical理論上大約百分比 實際上發生的百分比 K值 實際範圍 1 [69.94, 89.34] 0.00 68.0 64 1.5 [65.09, 94.19] 55.56 86.6 90 2 [60.24, 99.04] 75.00 95.0 100 3 [50.54, 108.74] 88.89 99.7 平均數為79.64 標準差為9.70

資料的相對位置(Numerical Measures of Relative Standing) 定義:某單筆資料對整體資料的相對比較關係,以數值量化來表達。 例如: 百分位數(中位數、四分位數、十分位數) 排序及Quantile z-score 。

資料的相對位置的應用 了解資料(自己)在組內的狀況。 不同組資料與資料間的比較。 可用於了解稀少事件(Rare event) 。 大學聯考的序號、班上同學的名次 不同組資料與資料間的比較。 小明和小華不同班成績如何比較? 可用於了解稀少事件(Rare event) 。 |z-score|>3的機率?

相對位置的應用範例一 小明高中聯考成績序號為9015,總考生人數為35542人。而大學聯考成績序號為39876,總考生人數為90142人。小明的大學聯考相較於高中聯考是否有進步。 小明在甲班就讀成績為班上第十名,班上總人數為70人,而小華在A班就讀成績為班上的第五名,全班人數為60人。小明與小華何人較為優異?

相對位置的應用範例二 某次考試全班共有70人參加。小明考45分;小芳考87分,已知此次考試班上的平均成績為71分、標準差為8分。能否得知小明與小芳此次考試在班上的排序情形?(假設此次考試班上成績是單峰分配) Z1 =(45 - 71) /8 = -3.25 (最後一名) Z2 = (87- 71) /8 = 2(前百分之三、即前三名內名)

百分位數(Percentile)、 序位數(Quantile) 定義:Pk (即k百分位數) ;表示在一組資料中至少有k%的資料小於或等於Pk ;且至少有(100-k)%的資料大於或等於Pk 。 定義:X(i) (即第i序位數) ;表示在一組資料中恰有i-1個資料小於或等於X(i) ;且恰有n-i個資料大於或等於X(i) 。

序位數(Quantile) 範例 最小值為X(1); 最大值為X(n) 資料: 10.3 4.9 8.9 11.7 6.3 7.7 資料: 10.3 4.9 8.9 11.7 6.3 7.7 表示法: x1 X2 X3 X4 X5 X6 排序後: 4.9 6.3 7.7 8.9 10.3 11.7 表示法: x(1) X (2) X (3) X (4) X (5) X (6) 最小值為X(1); 最大值為X(n)

a f 18百分位數(Percentile)範例 資料: 10.3 4.9 8.9 11.7 6.3 7.7 資料: 10.3 4.9 8.9 11.7 6.3 7.7 排序後: 4.9 6.3 7.7 8.9 10.3 11.7 找位置: 1 2 3 4 5 6 公式: a f P18 Position     k 1 100 18 6 26 n . P18  4 9 .

a f 50百分位數(Percentile)範例 資料: 10.3 4.9 8.9 11.7 6.3 7.7 資料: 10.3 4.9 8.9 11.7 6.3 7.7 排序後: 4.9 6.3 7.7 8.9 10.3 11.7 找位置: 1 2 3 4 5 6 公式: P50 Position    k 1 100 50 6 3.5 n a f P50  (7.7+8.9)/2=8.3

z-score(Ζ值) 定義:某單筆資料相對於整體資料平均數幾倍標準差的位置(數值為+時資料在平均數右邊;數值為-時資料在平均數左邊) 。 公式: 母體時 樣本時 a f Z-score  - 或  m s x

z-score範例 資料: 10.3 4.9 8.9 11.7 6.3 7.7 平均數 x =8.3 標準差 s ﹦ 2.5235 公式: Z-score  2.5235 (4.9 - 8.3) = -1.3473

全距R介於3S至6s之間 Stem-and-Leaf of C1 N=50 Leaf Unit =1 9 6 3 3 3 6 6 7 7 8 8 24 7 0 1 1 1 1 1 4 4 5 6 7 8 8 8 9 (17) 8 0 0 1 2 2 3 4 4 4 4 6 7 8 9 9 9 9 0 1 1 2 2 4 4 5 6 全距為33,標準差為9.70;R/S﹦3.4 當資料為30-80筆之間s約為0.25R;原因為考慮常態分配。

(standard deviation/mean)*100% 變異係數範例 公式: 變異係數c.v.(coefficient of variation)為 (standard deviation/mean)*100% 資料: 10.3 4.9 8.9 11.7 6.3 7.7 標準差 s ﹦ 2.5235 平均數 x =8.3 變異係數CV=2.5235/8.3 *100% =30.4%

綜合練習 某保險公司招收業務員,第五梯次有五十名應徵者參加性向測驗,其分數如下: 70 78 94 80 96 92 71 75 84 74 70 78 94 80 96 92 71 75 84 74 84 66 71 82 78 77 91 76 67 68 89 92 90 89 83 66 71 96 67 84 89 94 74 63 63 86 81 71 71 68 63 91 89 78 88 84 80 82 87 79 試根據上述資料,計算各項統計數值,並建立箱形圖。

莖葉圖 -Stem and Leaf display Stem-and-Leaf of C1 N=50 Leaf Unit =1 9 6 3 3 3 6 6 7 7 8 8 24 7 0 1 1 1 1 1 4 4 5 6 7 8 8 8 9 (17) 8 0 0 1 2 2 3 4 4 4 4 6 7 8 9 9 9 9 0 1 1 2 2 4 4 5 6

綜合練習(續) 分數由小到大排列如下: 63 63 63 66 66 67 67 68 68 70 71 71 71 71 71 74 74 75 76 77 78 78 78 79 80 80 81 82 82 83 84 84 84 84 86 87 88 89 89 89 89 90 91 91 92 92 94 94 96 96 最高分為:96 最低分為:63 全距 : 33

資料的各項統計數值描述 1st Qu.: 71.00 Mean: 79.64 Median: 80.00 3rd Qu.: 89.00 Min: 63.00 1st Qu.: 71.00 Mean: 79.64 Median: 80.00 3rd Qu.: 89.00 Max: 96.00 IQR: 17.75 Mode: 71 Midrange: 79.5 Midquartile: 79.875 Variance: 94.03 Std Dev.: 9.6970 Sum: 3982 SE Mean: 1.371 Skewness: -0.077 Kurtosis: -1.137

箱形圖的繪製 中位數 最小值 最大值 第一四分位數 第三四分位數

綜合練習 某次統計學考試共60人參加,經由套裝軟體計算後得到下列結果: Score St dev 7 Q1 60 N Mode 64 Q3 Variable Score St dev 7 Q1 60 N Mode 64 Q3 75 Mean ? Max 88 Sum 4080 Median 66 Min 50 Range 57

綜合練習 64 45人 68 15 右偏 最多的同學得到何種分數? 甲 大約有多少人及格 (高於 60分)? 乙 最多的同學得到何種分數? 甲 大約有多少人及格 (高於 60分)? 乙 班上同學的平均分數為何? 丙 班上同學成績的內四分位距為何(Inter-Quartile Range)? 丁 假設分數是單峰分配的,則資料的偏性skewness應為 戊

兩組資料的相互比較 某次考試相同的考題給兩班同學同時作答,A班共計71人、B班共計66人。排序後的資料以莖葉圖表達。試以各種統計方法比較此次考試兩班的成績情況。

A班的莖葉圖 7 3 1223457 16 4 233578999 35 5 0114456666777778999 (21) 6 011112334445666778999 15 05667899 8 00289 2 9 00

B班的莖葉圖 7 5 2356669 26 6 2344444466667788999 (23) 11122233445555677777889 17 8 0022223345666678 1 9 4

兩組資料統計的相互比較 A.全距/標準差 =59/14.51=4.066 B.全距/標準差 =42/ 9.55=4.398 A班 B班 min 31.00 52.00 Q1 51.00 66.00 mean 60.18 72.61 median 60.00 73.00 mode 57.00 64.00 Q3 69.00 80.00 max 90.00 94.00 s 14.51 9.55 range 59.00 42.00 IQR 17.50 13.75 A.全距/標準差 =59/14.51=4.066 B.全距/標準差 =42/ 9.55=4.398 當資料為30-80筆之間s約為0.25R

Empirical rule和Chebyshev’s theorem的範例與比較 資料分佈範圍 [m-ks , m+ks] Cheby-shev‘s理論至少發生百分比 Empirical理論上大約百分比 A班實際上發生的百分比 B班實際上發生的百分比 K值 實際範圍 1 [m-1s , m+1s] 0.00 68.0 63.4 69.7 1.5 [m-1.5s, m+1.5s] 55.56 86.6 83.1 86.4 2 [m-2s , m+2s] 75.00 95.0 95.8 95.5 3 [m-3s , m+3s] 88.89 99.7 100.0 平均數為79.64 標準差為9.70

兩組資料變異係數的相互比較 A變異係數CV=14.51/60.18 *100% =24.11% =13.15%

兩組資料箱形圖的相互比較

兩組資料直方圖的相互比較 A班的直方圖 B班的直方圖

結論 1. 數值描述中央集中趨勢 2. 數值描述資料散佈變化情形 數值資料的偏性 1. 數值描述中央集中趨勢 2. 數值描述資料散佈變化情形 數值資料的偏性 資料的相對位置(Numerical Measures of Relative Standing) 標準差的意義與應用

關於本課程... 請你靜下來想一想: 1. 你此堂課學到的最重要的關念為何? 2. 是否還有相關問題與疑問? 3. 如何改善今後的學習? 1. 你此堂課學到的最重要的關念為何? 2. 是否還有相關問題與疑問? 3. 如何改善今後的學習? As a result of this class, you will be able to... 70