第 3 章 敘述統計:數值方法.

Slides:



Advertisements
Similar presentations
平台的优点: ( 1 )永久免费: 学校和老师使用校讯通平台发送短信 是免费的,并且通过使用平台,可获得部分购物卡补贴。 ( 2 )移动办公: 校讯通不受时间和空间的限制,只要 有一台可以上网的电脑,老师便可以通过互联网发送短信 给家长,能够实现移动办公,节省老师的工作时间。 ( 3 )简单易用:
Advertisements

2007 年广州市初中信息技术 结业考试海珠区质量分析 海珠区教育发展中心 范谊 2007 年 9 月 8 日.
数 理 统 计 华南农业大学理学院应用数学系 Statistics Applied Mathematic Department, College of Sciences, SCAU.
報告者:蕭曄鴻 班級:溫馨甲孝 指導教授:李開濟博士
單元名稱: 健康的兩性交往.
这辈子只做一件家务,你会做什么? A、拖地 B、洗碗 C、做饭 D、倒垃圾.
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
绩效考核执行方案介绍.
資料分析 ---敘述統計分析.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
第一章 生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系,其涉及哪些内容 1.
第2章 数据处理基础 2.1数据及数据类型 2.2 数据统计特性 2.3 数据预处理 2.4 相似性度量 据的中心度量
2017/3/9 实验误差及其控制 魏敏杰 陈 杰 阮 强 王振宁 单凤平 孟繁浩 富伟能 陈 磊 中国医科大学.
Chapter 3 預測.
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
江西 6、下列关于名著的表述,不正确的一项是
全省水产技术推广补助项目 信息员培训 河南省农业厅水产局 2013年11月17日.
如何撰写教育科研论文 谌 业 锋 四川省凉山州教育科学研究所 欢迎访问 业锋教育在线
工作总结 年度工作总述 招聘工作 劳动关系 培训管理 绩效管理 薪酬管理 制度建设 团队建设 行政工作.
第1,2课时 教学要求 教学内容 教学难点 教学重点 课后作业.
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
北国江南 江南北国 信阳市,位于河南省南部,是中国河南省下辖的一个地级市,在唐代时简称“申州”,故又称“申城”。它是江淮河汉间的战略要地,豫南政治、经济、文化、教育、交通、物流中心,也是“鄂豫皖”区域性中心城市。信阳山水秀丽,气候宜人,素有“北国江南,江南北国”之美誉,是中国著名的宜居之城。信阳自古以来人杰地灵、英雄辈出,境内有中国四大避暑胜地之一的鸡公山、“中原第一湖”南湾湖、国家地质公园金刚台,唐、明两朝国庙灵山寺等著名旅游景点。
統計學 授課教師:林志偉 Tel:5021.
林黛玉进贾府 曹雪芹.
Chapter 3 descriptive statistics:numerical methods
Descriptive statistics
Chapter 2 簡單迴歸模型.
試算表軟體 II 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
SPC introduction.
第十章 兩母體之假設檢定 Inferences Based on Two-Samples:
第十四章 数值变量的统计描述.
分析化学教程 第二章 分析数据处理及 分析测试的质量保证 (1) 分析化学教程( 学年)
第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.
第 5 章 樣本資料的數值分布.
第 3 章 敘述統計II:數值方法 Part B (3.3~3.6).
第一章 敘述統計學.
二元隨機變數(Bivariate Random Variables)
第 4 章 分散量數.
第四章 SPSS的基本统计分析.
Interval Estimation區間估計
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第 7 章 抽樣與抽樣分配 Part A ( ).
第八章 報酬與風險.
第一次上統計Tutorial 就上手 不是只有上一次嗎.
描述性统计学 作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)
第四章 抽樣與抽樣分配 4.1 抽樣與抽樣方法 抽樣分配概論 常見的抽樣分配 中央極限定理55
EXCEL+ORIGN+SPSS的描述统计
相關統計觀念復習 Review II.
準確性(Accuracy) 誤差種類 儀器準確度 時間因素 儀器參數.
國三地理科說明 南山中學10001學校日 地理科教師 林皓芸 分機192.
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
Dr. C. Hsieh College of Informatics Kao yuan University
第三章 平均数、标准差与变异系数 第一节 平均数 上一张 下一张 主 页 退 出.
第四章 集中趋势测量法 算术平均数 主 要 内 容 中位数 众数 几何平均数和调和平均数.
Chapter 5 z-Scores.
Review of Statistics.
(四)标准差(standard deviation)
楊志強 博士 統計學 楊志強 博士
生物统计学 Biostatistics 第一章 统计数据的收集与整理
第七章 计量资料的统计分析.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
认 识 KPI.
這七個故事很簡短,但她們說的都是一個主題——愛情!真心希望你們每個故事都看一下,不會用很長時間,但保證你能感到那種被震撼的感覺!
Presentation transcript:

第 3 章 敘述統計:數值方法

本章內容 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置及離群值的偵測 3.4 五數彙總與箱形圖 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置及離群值的偵測 3.4 五數彙總與箱形圖 3.5 兩變數的相關性量數 3.6 資料儀表板:增加數值量數以提升效能

敘述統計:數值方法 測量值是由樣本資料計算而得,則稱之為 樣本統計量(sample statistics)。 若是由整個母體計算而得,則稱之為 母體參數(population parameters)。 統計推論中,樣本統計量是指 相對應的母體參數的 點估計量(point estimator)。 第3章 敘述統計:數值方法 第86-87頁

3.1 位置量數 平均數 加權平均數 中位數 幾何平均數 眾數 百分位數 四分位數 第3章 敘述統計:數值方法 第87-95頁

平均數 一個變數最重要的位置量數或許就是平均數 (mean 或 average value)。 平均數是一種中央位置量數。 若此資料來自某一樣本,則平均數記為 。 若此資料來自某一母體,則以希臘字母 μ 表示之。 第3章 敘述統計:數值方法 第87頁

樣本平均數 資料集中 n 個觀察值的總和 觀察值的樣本數 第3章 敘述統計:數值方法 第87頁

母體平均數 資料集中 N 個觀察值的總和 觀察值的樣本數 第3章 敘述統計:數值方法 第88頁

平均數實例 假設某大學的就業輔導室寄出一份問卷給被抽中的 商學院畢業生,以調查工作起薪。 表 3.1 為所蒐集的資料。 第3章 敘述統計:數值方法 第88頁

平均數實例 樣本中 12 個商學院畢業生之平均起薪計算如下。 第3章 敘述統計:數值方法 第88頁

加權平均數 某些情況為反映個別觀察值的重要性,計算平均數 時要對每一觀察值加上權重,以此方式計算而得到 的值即稱為加權平均數 (weighted mean)。 當資料來自樣本時,式 (3.15) 提供了樣本加權平均 數的算法,當資料來自母體時,我們可以用 μ 取 代 ,則式 (3.15) 也可用來計算母體加權平均數。 加權平均數中所使用的權重依實際情況各有不同。 第3章 敘述統計:數值方法 第89-90頁

加權平均數 其中 加權資料值的總和 當資料來自母體時,可以用 μ 取代 權重的總和 wi = 第i 個觀察值的權重 第3章 敘述統計:數值方法 第89頁

加權平均數實例 我們以過去 3 個月所做的五次採購來說明加權平均 數。 第3章 敘述統計:數值方法 第89頁

加權平均數實例 資料顯示,每磅成本由 $2.80至 $3.40不等,而且採 購數量在 500 至 2750 磅之間,假設經理想要瞭解 原料每磅的平均成本,由於訂購數量各有不同,我 們必須應用加權平均數的觀念。資料顯示五筆原料 每磅成本分別為 x1=3.00、x2=3.40、x3 =2.80、x4 =2.90 及 x5=3.25,則 每磅成本的加權平均成本等 於每磅成本乘上其對應採購量加權而得。 第3章 敘述統計:數值方法 第89頁

加權平均數實例 所以,本例的權重分別為 w1=1200、w2=500、w3 =2750、 w4=1000 及 w5 =800,應用式 (3.3),我們可以計算加權平 均數如下: 由加權平均數的計算,可以得到原料的每磅平均成本等於 $2.96。值得注意的是,若我們使用式 (3.1) 而非加權平均數 的公式 (3.3),將誤導結果。因為 (3.00+3.40+2.80+2.90+ 3.25)/5=15.35/5=$3.07。這個結果高估了每磅平均採購成 本。 第3章 敘述統計:數值方法 第89頁

加權平均數實例 加權平均數中所使用的權重依實際情況各有不同。 以學生的平均成績為例,4 代表 A,3 代表 B,2 代 表 C,1 則代表 D 及 0 代表 F,權重則為學分數, 習題 16 即是計算加權平均數。其他的加權平均數 的例子中,磅數、金額、數量等都常做為權重。不 管何種情況,只要觀察值的重要性有所不同,分析 人員就必須使用權重,以便最適當地反映每個觀察 值在平均數中的重要性。 第3章 敘述統計:數值方法 第90頁

中位數 中位數 (median) 是變數的另一種中央位置量數。 將資料值由小排到大時,中位數為中間的值。 若資料個數為奇數時,中位數即位於中間的數值; 若資料項目為偶數時,就沒有單一的中間項。 我們將根據傳統的中位數定義,將中間兩個值之平 均數當作中位數。 第3章 敘述統計:數值方法 第90頁

中位數 將資料遞增排列 (即由小到大排列) 。 (a) 資料值為奇數項時,中位數為此資料之中間值。 (b) 資料值為偶數項時,中位數為此資料之中間兩個數值的 平均數。 第3章 敘述統計:數值方法 第90頁

中位數實例 計算表 3.1 中商學院 12 位畢業生起薪的中位數, 將資料遞增排列後如下 因為 n=12是偶數,故有兩個中間值:3890 和3920, 中位數為此兩個值之平均。 3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 中間兩個值 第3章 敘述統計:數值方法 第90頁

幾何平均數 幾何平均數 (geometric mean) 是位置量數,由 n 個 值的連乘積的 n 次方根,幾何平均數表示為 。 幾何平均數常用來分析財務資料的成長率。 幾何平均數特別普遍地運用在財務、金融及銀行相 關的問題,只要你想決定經過若干連續時期的平均 成長率,就可運用幾何平均數。 其他普遍運用包括物種族群、農作物生產、汙染水 準及出生率的改變。 第3章 敘述統計:數值方法 第91.93頁

幾何平均數 第3章 敘述統計:數值方法 第91頁

眾數 眾數 (mode) 是資料集中出現次數最多的資料值。 當資料集中出現次數最多的值有兩個或以上時,眾 數就不只一個。 若資料集恰有兩個眾數,則稱此資料為雙峰 (bimodal) 。 若出現兩個以上的眾數時,則稱為多峰 (multimodal) 。 第3章 敘述統計:數值方法 第93頁

眾數實例 表3.1的商學院畢業生起薪樣本,出現超過一次的 僅有月薪$3880 。由於此值出現的次數最高,因此 它就是眾數。 第3章 敘述統計:數值方法 第93頁

百分位數 百分位數 (percentile) 可讓人瞭解資料在最小值與 最大值間的分布情況。 有 n 個觀察值的資料集合,以 pth 百分位數 (pth percentile) 可將資料分割成兩部分,大約 pth 百分 比的觀察值會小於 pth 百分位數;而大約有 (100 − p) 百分比的觀察值會大於 pth 百分位數。 第3章 敘述統計:數值方法 第93-94頁

百分位數 計算 n 個觀察值的 pth 百分位數,必須先將資料依 遞增 (由小至大) 排序。最小值排第 1 位、次小值排 第 2 位,依此類推。pth 百分位數所在位置以 Lp 表 示,計算公式如下: 第3章 敘述統計:數值方法 第94頁

百分位數實例 為示範 pth 百分位數的計算方法,我們來計算表3.1 起 薪資料的80th 百分位數。 首先將 12 筆起薪資料依遞增順序排列。 每個觀察值下方的數字即是該觀察值的位置。例如, 最小值 (3710) 在位置 1、次小值 (3755) 在位置 2,依此 類推。運用式 (3.5),p = 80 及 n = 12,80th 百分位數的 位置是 3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 位置 1 2 3 4 5 6 7 8 9 10 11 12 第3章 敘述統計:數值方法 第94頁

百分位數實例 L80 = 10.4 的意思是 80th 百分位數落在位置 10 與 位置 11 之間,離位置 10 的距離是位置 10 (4050) 與位置 11 (4130) 之差距的 40%。因此,80th 百分 位數是 80th 百分位數= 4050 + 0.4(4130−4050) = 4050 + 0.4(80) = 4082 第3章 敘述統計:數值方法 第94頁

百分位數實例 現在我們來計算起薪資料的50th 百分位數。p = 50 及 n = 12,50th 百分位數的位置是 L50 = 6.5,我們知道 50th 百分位數落在位置 6 與位 置 7 之間,離位置 6 的距離是位置 6 (3890) 與位置 7 (3920) 之差距的 50%。因此,50th 百分位數是 請注意,50th 百分位數剛好也是中位數。 50th 百分位數 = 3890 + 0.5 (3920–3890) = 3890 + 0.5 (30) = 3905 第3章 敘述統計:數值方法 第94頁

四分位數 四分位數 (quartiles) 是百分位數的特例。 Q1 = 第一四分位數或 25th 百分位數 第3章 敘述統計:數值方法 第95頁

四分位數實例 要說明有 n 個觀察值時,計算四分位數的方法,我 們以表 3.1 的起薪資料為例。 之前算出起薪資料的 50th 百分位數是3905;因此 ,第二四分位數 (中位數)是Q2 = 3905。要計算第一 及第三四分位數,我們必找出 25th 百分位數與 75th 百分位數。計算方式如下。 第3章 敘述統計:數值方法 第95頁

四分位數實例 對 Q1 而言 第一四分位數或 25th 百分位數的位置是在位置 3 與位置 4 之間,與位置 3 的距離是位置 3 (3850) 與 位置 4 (3880) 之距離的 25%。因此, Q1 = 3850 + 0.25(3880 – 3850) = 3850 + 0.25(30) = 3857.5 第3章 敘述統計:數值方法 第95頁

百分位數實例 對 Q3 而言 第三四分位數或 75th 百分位數的位置是在位置 9 與位置 10 之間,與位置 9 的距離是位置 9 (3950) 與位置 10 (4050) 之距離的 75%。因此, Q3 = 3950 + 0.75(4050 – 3950) = 3950 + 0.75(100) = 4025 第3章 敘述統計:數值方法 第95頁

四分位數實例 四分位數將起薪分為四部分,每部分包括 25% 的 觀察值。 我們定義了 25th 百分位數、50th 百分位數、75th 百分位數三個四分位數後,便可利用計算百分位數 的規則求出四分位數。 第3章 敘述統計:數值方法 第95頁

評註 當資料集出現極端值時,中位數會比平均數更合適 做為中央位置量數。極端值存在時,有時會用到另 一種量數,稱為截尾平均數 (trimmed mean) 。截尾 平均數是刪除資料集的極小值與極大值後,剩下資 料值的平均數。例如,5% 的截尾平均數即是刪除最 小的 5%,以及最大的 5% 觀察值後得到的平均數。 以 n=12 筆起薪資料的樣本為例,12 筆資料的 5% 是 12 × 0.05=0.6,將 0.6 進位為 1,表示 5% 的修截 尾平均數是將最高的一筆起薪資料與最低的一筆起 薪資料刪除後,再求 10 筆起薪資料的平均值。因此 ,對起薪資料的樣本而言,5% 的截尾平均數是 3924.50 。 第3章 敘述統計:數值方法 第96頁

評註 其他常用的百分位數是五分位數 (quintiles) (20th 、40th、60th 及 80th 百分位數),以及十分位數 (10th、20th、30th、40th、50th、60th、70th、 80th 及 90th 百分位數) 。 第3章 敘述統計:數值方法 第96頁

3.2 離散量數 除了位置量數外,我們還常希望能知道離散量數或 變異量數。 例如,向兩家不同的供應商訂貨,不僅要考慮其平 均運送時間,還要考慮其運送時間的變異性。 第3章 敘述統計:數值方法 第100頁

3.2 離散量數 全距 四分位距 變異數 標準差 變異係數 第3章 敘述統計:數值方法 第100-104頁

全距 最簡單的離散量數就是全距 (range) 。 全距=最大值-最小值 全距僅用到全體資料的兩個值。 全距  最簡單的離散量數就是全距 (range) 。 全距=最大值-最小值 全距僅用到全體資料的兩個值。 第3章 敘述統計:數值方法 第101頁

全距實例 參考表 3.1 商學院畢業生的起薪資料,最大值是 4325,最小值是 3710,全距就是4325 − 3710=615 。 參考表 3.1 商學院畢業生的起薪資料,最大值是 4325,最小值是 3710,全距就是4325 − 3710=615 。 假設有一位畢業生的每月起薪是 $10,000,此例的 全距變為 10,000 − 3710 = 6290,而不是 615,這 個值並不是非常適合描述資料集的變異性,因為 12 個資料中的 11 個資料均介於 3710 與 4130 之間 。 第3章 敘述統計:數值方法 第101頁

四分位距 四分位距 (interquartile range, IQR) 是第三四分位 數 Q3 與第一四分位數 Q1 的差。 能克服極端資料值的離散量數。 第3章 敘述統計:數值方法 第101-102頁

四分位距實例 參考表 3.1 商學院畢業生的起薪資料,對每月起薪 資料而言,第三四分位數與第一四分位數分別為 Q3=4000 與 Q1=3865,因此,IQR 為 4000 − 3865 =135。 第3章 敘述統計:數值方法 第102頁

變異數 變異數 (variance) 是利用到全部資料的離散量數。 變異數是根據每一個觀察值 ( xi ) 與平均數之差而 求得。 每一個觀察值 xi 與平均數 ( 為樣本平均數,μ 為 母體平均數) 之差稱為離差 (deviation about the mean)。 第3章 敘述統計:數值方法 第102頁

變異數 當樣本平均數的差距平方和除以n − 1,而非 n 時,此樣本變異數為母體變異數的不偏估計量。 變異數之定義如下: 母體變異數 樣本變異數 第3章 敘述統計:數值方法 第102頁

變異數實例 利用 3.1 節中五個大學班級人數的樣本為例。 資料的彙總在表3.3,包括離差及離差平方。離差 平方的總和為 。因此,在 n − 1=4 時,樣本變異數為 第3章 敘述統計:數值方法 第102頁

變異數實例 第3章 敘述統計:數值方法 第103頁

變異數實例 以表 3.1 的起薪資料為例,說明樣本變異數的計算, 在 3.1 節中,我們算出樣本平均起薪值為 3940。樣 本變異數 (s2=27,440.91) 的結果列於表 3.4。 表 3.3 與 3.4 中值得注意的是,我們算出離差與離 差平方的總和。對於任何資料集,離差的總和必為 0。因此,如同表 3.3 與表 3.4 顯示 , 這是恆成立的,因為正的離差與負的離差會相互抵 銷,而使得離差的總和為 0。 第3章 敘述統計:數值方法 第103頁

變異數實例 第3章 敘述統計:數值方法 第103頁

標準差 標準差 (standard deviation) 的定義是變異數的正 平方根。 標準差比變異係數容易解釋,因為標準差的衡量 單位與資料相同。 第3章 敘述統計:數值方法 第103-104頁

標準差 由變異數得到標準差的方法如下。 樣本標準差 母體標準差 第3章 敘述統計:數值方法 第104頁

標準差實例 以表 3.1 的起薪資料為例,樣本標準差 第3章 敘述統計:數值方法 第104頁

變異係數 變異係數 (coefficient of variation)是變異性的相對 衡量,它衡量標準差相對於平均值的大小。 變異係數計算如下: 樣本變異係數 母體變異係數 第3章 敘述統計:數值方法 第104頁

變異係數實例 以表3.1起薪資料為例,其樣本平均數 3940 與樣本 標準差 165.65,變異係數為 [(165.65/3940) × 100]% =4.2%。 一般而言,欲比較具有不同的標準差與平均數的資 料之離散程度時,變異係數是一個有用的統計量。 第3章 敘述統計:數值方法 第104頁

表3.1 起薪資料為例 變異數 標準差 變異係數 此樣本之標準差占平均數的4.7% 第3章 敘述統計:數值方法 第102-104頁

評註 我們可以利用統計套裝軟體及試算表來計算本章 所提到的所有敘述統計量。將資料輸入工作表之 後,應用一些簡單的指令就能產生我們想得到的 最終結果。我們會在章末的附錄示範如何利用 Excel 來得到這些敘述統計量。 我們經常應用標準差來計算基金或股票投資的風 險 (Morningstar website, July 21, 2012),可以得知 每月報酬與長期平均報酬之間差距的波動狀況。 第3章 敘述統計:數值方法 第104頁

評註 對樣本平均數 四捨五入時,離差平方 (xi − x)2之值會使得計算變異數與標準差產生誤差。為了降低此種誤差,我們建議計算過程中的數值至少要有六位數。最後得到的變異數或標準差再取少一點的位數。 計算樣本變異數的另一種公式是 其中 。 第3章 敘述統計:數值方法 第104頁

評註 平均絕對誤差 (mean absolute error, MAE) 是另一個離散量數,計算公式是將觀察值與平均數的離差的絕對值進行加總後再除以觀察值的個數。樣本大小為 n 時,MAE的計算如下: 以 3.1 節的班級人數資料為例, 及MAE=28/5=5.6。 第3章 敘述統計:數值方法 第105頁

3.3 分配的形狀的量數、相對位置及 離群值的偵測 z 分數 柴比雪夫定理 經驗法則 偵測離群值 第3章 敘述統計:數值方法 第108-113頁

分配的形狀 衡量分配形狀的重要數值是偏度 (skewness)。 計算偏度的公式有些複雜 。 衡量樣本資料的偏度公式是: 但是若以統計軟體來計算,則非常容易。 第3章 敘述統計:數值方法 第108頁

分配的形狀 適度左偏 偏度為負值。 平均數常小於中位數。 第3章 敘述統計:數值方法 第108-109頁

分配的形狀 適度右偏 偏度是正值。 平均數通常大於中位數。 第3章 敘述統計:數值方法 第108頁

分配的形狀 對稱 (不偏) 資料的分配是對稱的,偏 度為 0。 對稱分配的平均數及中位 數是相等的。 第3章 敘述統計:數值方法 第108頁

分配的形狀 高度右偏 偏度是正值。 (通常大於 1.0)。 平均數通常大於中位數。 第3章 敘述統計:數值方法 第108頁

分配的形狀 第3章 敘述統計:數值方法 第108頁

z 分數 z 分數通常稱為標準化值 (standardized value)。 每個 xi 會有一個稱之為 z 分數 (z -score) 的數值與 之對應。 其中 zi = xi 的 z 分數 = 樣本平均數 s = 樣本標準差 第3章 敘述統計:數值方法 第109頁

z 分數 利用平均數與標準差,我們便能決定任何觀察 值的相對位置。 資料集小於樣本平均數則 z 分數小於 0。 利用平均數與標準差,我們便能決定任何觀察 值的相對位置。 資料集小於樣本平均數則 z 分數小於 0。 資料集大於樣本平均數則 z 分數大於 0。 資料集等於樣本平均數則 z 分數等於 0。 第3章 敘述統計:數值方法 第109頁

z 分數實例 表 3.5 是班級人數資料的 z 分數,之前算出平均數 為 =44,樣本標準差為 s=8。第 5 個觀察值的 z 分數為 −1.50,是離平均數最遠的資料值,比平均 數小 1.50個標準差。 第3章 敘述統計:數值方法 第109頁

柴比雪夫定理 在資料集內,至少有 (1 − 1/z2) 百分比的觀察值與 平均數的差距必須在 z 個標準差之內, z 為任何大 於 1 之值。 第3章 敘述統計:數值方法 第110頁

柴比雪夫定理 至少有0.75 或75% 的觀察值,與平均數的差距在 z = 2 個標準差之內。 第3章 敘述統計:數值方法 第110頁

柴比雪夫定理實例 假設某學院商用統計課程有 100 位學生修課,期中 考成績之平均數為 70,標準差為 5 。利用柴比雪 夫定理,有多少學生的分數介於 60 與 80 之間?又 有多少學生的分數介於 58 與 82 之間? 我們注意到 60 小於平均數 2 個標準差,而 80 則大 於平均數 2 個標準差。利用柴比雪夫定理,我們可 看出至少 0.75 或至少 75% 的觀察值與平均數的差 距必須在 2 個標準差之內。因此,至少有75% 的學 生,分數介於 60 與 80 之間。 第3章 敘述統計:數值方法 第110頁

柴比雪夫定理實例 而分數介於 58 與 82 的人數又是多少?我們可看出 (58-70)/5 =−2.4,表示 58 是小於平均數 2.4 個標 準差;而 (82 − 70)/5=+2.4,表示 82 大於平均數 2.4 個標準差。利用柴比雪夫定理 z=2.4,我們可 得到 至少有 82.6% 的學生的分數必須介於 58 與 82 之間。 第3章 敘述統計:數值方法 第110頁

經驗法則 針對鐘形分配的資料集而言: 大約 68% 的觀察值與平均數的差距在 1 個標準差內。 大約 95% 的觀察值與平均數的差距在 2 個標準差內。 幾乎所有的觀察值與平均數的差距在 3 個標準差內。 第3章 敘述統計:數值方法 第111頁

經驗法則 第3章 敘述統計:數值方法 第111頁

偵測離群值 有時資料集會有一個或更多極大或極小的觀察值。 我們稱此類極端值為離群值(outliers) 。 使用 z 分數確認離群值時,我們建議觀察值之 z 分 數若小於 −3 或大於 +3,就是離群值。 離群值可能是 未被正確登錄的資料 被錯放在資料集 離群值若是登錄正確的資料,而且也屬於這個資料集的話, 則必須保留。 第3章 敘述統計:數值方法 第112頁

偵測離群值 根據資料分析制定決策時,最好先檢查離群值。誤 差通常產生自記錄資料,並將其輸入電腦時。並非 一定要刪除離群值,但必須適當確認其正確性與適 當性。 第3章 敘述統計:數值方法 第112頁

離群值的偵測實例 參考表 3.5 的班級人數資料之 z 分數, z 分數為 - 1.50 顯示第 5 個觀察值是離平均數最遠的值。然而 ,此標準化值仍在 −3 到 +3 之間,因此 z 分數顯 示出在班級人數資料中並無離群值。 第3章 敘述統計:數值方法 第112頁

評註 柴比雪夫定理適合用於任何資料集,用來指出至 少有多少個觀察值與平均數的差距在特定個標準 差之內。若資料集已知為鐘形時,則會得到更多 的訊息。例如,經驗法則告訴我們:有大約 95% 的觀察值與平均數的差距在 2 個標準差之內;由 柴比雪夫定理所得到的結論只是:至少有 75% 的觀察值會在上述的差距之內。 在分析一個資料集之前,統計學者通常做各種檢 查以確信資料的有效性。在大型研究中,登錄資 料或將資料鍵入電腦的過程中發生錯誤也很常見 。確認離群值是檢查資料有效性的方法之一。 第3章 敘述統計:數值方法 第113頁

3.4五數彙總與箱形圖 五數彙總 箱形圖 運用箱形圖做比較分析 第3章 敘述統計:數值方法 第115-117頁

五數彙總 五數彙總 (five-number summary) 是利用下列五個 數來匯總資料。 最小值 第一四分位數 (Q1) 最大值 第3章 敘述統計:數值方法 第115頁

五數彙總實例 以表3.1 中的起薪資料為例,可以得到下列結果。 最小值3710,最大值是4325 。 3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 最小值3710,最大值是4325 。 3.1 節已說明如何計算四分位數 (Q1 = 3857.5;Q2 = 3905;Q3 = 4025) 。因此,起薪資料的五數彙總是 3710  3857.5  3905  4025  4325 五數彙總資料顯示,起薪的樣本資料介於 3710 與 4325 之間,中位數或中間值是 3905;第一及第三 四分位數顯示大約有 50% 的資料值會介於 3857.5 與 4025 之間。 第3章 敘述統計:數值方法 第116-117頁

箱形圖 箱形圖 (box plot) 是根據五數彙總而繪製的圖形。 繪製箱形圖的關鍵在求出四分位數距 IQR=Q3-Q1 。 箱形圖是另一種辨別離群值的方法。但是這種方法 不見得會與用 z 分數找出的離群值相同。 運用兩種方法或只用任一種方法皆可行。 第3章 敘述統計:數值方法 第116頁

箱形圖 圖 3.6 為每月起薪資料的箱形圖以及上、下界限。 第3章 敘述統計:數值方法 第116頁

箱形圖 繪製箱形圖的步驟如下: 箱形圖的繪製以第一四分位數、第三四分位數為前後邊 。以起薪資料為例,Q1 = 3857.5 且 Q3 = 4025,箱形包 含中間 50% 的資料。 箱子中的垂直線位置為中位數 (以每月起薪資料而言是 3905 )。因此,中位數位置的直線將所有資料分割成兩等 分。 使用四分位距 IQR = Q3-Q1 時,必須設定界限 (limits) ,界限分別位於 Q1之下 1.5(IQR) 或 Q3 之上 1.5 (IQR) 。 以每月起薪資料而言,IQR = Q3-Q1= 4025-3857.5 = 167.5 。因此,界限為 3857.5−1.5(167.5) = 3606.25 與 4025 + 1.5(167.5) = 4276.25。在界限之外的值為離群值 。 第3章 敘述統計:數值方法 第116頁

箱形圖 圖 3.6 的虛線稱之為鬚 (whiskers)。鬚的畫法是從步驟 3 中箱形的兩邊至界限內最大值與最小值,以圖 3.6 為例, 分別是 3310 與 3730。 最後,以 * 表示離群值的位置;在圖 3.5 中,可看到一 個離群值 3925。 第3章 敘述統計:數值方法 第116頁

箱形圖 圖 3.6 中有標示上、下界限的直線。這些線用來標 示資料的範圍,雖然我們會算出這些數值,但在箱 形圖中通常不會顯示出來。圖 3.7 是起薪資料的箱 形圖的常見形式。 第3章 敘述統計:數值方法 第116頁

運用箱形圖做比較分析 箱形圖可用在兩群或更多資料的彙整,可直觀地比 較不同組資料。 圖 3.8 是主修為會計、財務、資訊系統、管理及行 銷的畢業生起薪的箱形圖。 請注意,橫軸是不同的主修,每個箱形圖垂直置於 主修別上方。要比較兩個或以上的資料群,以此種 方式呈現箱形圖是傑出的圖形技巧。 第3章 敘述統計:數值方法 第117頁

運用箱形圖做比較分析 第3章 敘述統計:數值方法 第117頁

運用箱形圖做比較分析 你會如何解釋圖3.8 的箱形圖?我們特別注意到以 下情形: 主修會計的起薪較高;主修管理及行銷的起薪較低。 以中位數而言,主修會計及資訊系統的起薪相同,且高於 其餘主修;主修財務的起薪居次。主修管理及行銷的起薪 較低。 主修會計、財務及行銷的畢業生都有高的起薪離群值。 主修財務的起薪的變異性最低,主修會計的起薪的變異性 最高。 第3章 敘述統計:數值方法 第117頁

3.5兩變數的相關性量數 共變異數 共變異數的解釋 相關係數 相關係數的解釋 第3章 敘述統計:數值方法 第120-126頁

共變異數 共變異數 (covariance) 是兩變數間線性相關的敘述 量數。 當共變異數為很大的正值時,表示有很強的正線性 相關,而很大的負值則表示有很強的負線性相關。 管理者或決策者經常會對兩變數間的關係感興趣。 第3章 敘述統計:數值方法 第120-122頁

共變異數 樣本共變異數 母體共變異數 第3章 敘述統計:數值方法 第120.121頁

共變異數實例 回顧 2.4 節立體音響設備店的例子。該店的經理有 興趣研究未來幾個週末的電視廣告與銷售量的關係 ,樣本資料列於表 3.6 。 第3章 敘述統計:數值方法 第120頁

共變異數實例 第3章 敘述統計:數值方法 第120頁

共變異數實例 圖 3.9 為兩變數的散布圖,顯示出正向關係:較高 的銷售量 (y) 伴隨著較高的廣告次數 (x) 。事實上 ,散布圖顯示出兩變數呈現近似直線的關係 第3章 敘述統計:數值方法 第120-121頁

共變異數實例 為了衡量廣告次數 x 與銷售額 y 的線性關係之強度,我們利用式 (3.13) 計算樣本共變異數。表 3.7 是 的計算過程。請注意 =30/10=3 且  =510/10=51,利用式 (3.12),可得共變異數為 第3章 敘述統計:數值方法 第120-121頁

共變異數實例 第3章 敘述統計:數值方法 第121頁

共變異數的解釋 以圖3.10 來解釋樣本共變異數。 第3章 敘述統計:數值方法 第122頁

共變異數的解釋 第3章 敘述統計:數值方法 第123頁

共變異數的解釋 第3章 敘述統計:數值方法 第123頁

共變異數的解釋 第3章 敘述統計:數值方法 第123頁

相關係數 相關係數的範圍由 −1 到 +1。 樣本相關係數為 +1 代表兩變數 x 與 y 之間是完全 正線性相關。 第3章 敘述統計:數值方法 第122-124頁

相關係數 皮爾生相關係數:樣本資料 皮爾生相關係數:母體資料 第3章 敘述統計:數值方法 第123-124頁

相關係數實例 以立體音響店的資料為例,求其樣本相關係數。利 用表 3.6 的資料,我們便能計算兩變數的樣本標準 差。 因為 sxy=11,可得到樣本相關係數 第3章 敘述統計:數值方法 第124頁

相關係數的解釋 圖 3.12 的散布圖是根據以下樣本資料而得。 第3章 敘述統計:數值方法 第124頁

相關係數的解釋 第3章 敘述統計:數值方法 第125頁

相關係數的解釋 通過這三點的直線顯示變數 x 與 y 存在有完全線性相關。 為了套用式 (3.15) 來計算樣本相關係數,要先算出 sxy、sx 與 sy,某些計算過程列在表3.8。運用表中的資料,我們發現 因此,樣本相關係數為 1 。 第3章 敘述統計:數值方法 第124-125頁

相關係數的解釋 假設某一特定資料集顯示 x 與 y 間有正線性相關但 不是完全正線性相關, rxy 之值將會小於 1,表示在 散布圖上的點並非全部落在一條直線上。當資料點 愈來愈偏離完全正線性相關,rxy 的值會愈變愈小。 Rxy 之值等於零表示 x 與 y 之間沒有線性關係,且 rxy 之值接近零表示一種微弱的線性相關。 以立體音響設備店的資料為例, rxy=0.93,因此我 們的結論是:廣告次數與銷售量之間存在很強的正 線性關係。更明確地說,廣告次數增加時,銷售量 也增加。 第3章 敘述統計:數值方法 第125-126頁

相關係數實例 第3章 敘述統計:數值方法 第125頁

評註 由於相關係數只衡量兩個定量變數間的線性關係 的強度,當兩變數之間的關係是非線性的,線性 係數可能近乎 0,意味著沒有線性關係。例如, 以下散布圖顯示過去 100 天中,小型雜貨店在環 境控制 (如冷氣或暖氣) 的花費與每天室外溫度間 的關係。 這些資料的樣本相關係數是 rxy=−0.007,表示兩變 數間沒有線性相關。然而,散布圖提供強烈的視 覺證據,顯示兩變數間的非線性關係。也就是說 ,我們可以看出,當室外溫度剛升高時,需要較 少暖氣,繼續升高時就需要冷氣,所以環境控制 的花費先減少然後增加。 第3章 敘述統計:數值方法 第126頁

評註 第3章 敘述統計:數值方法 第126頁

評註 相關係數可以用來衡量兩個定量變數的關係,諸 如斯皮爾曼等級相關係數 (Spearman’s rank correlation coefficient) 的量數,則可用來評估至 少有一變數是名目或順序尺度時兩變數間的關係 。 第3章 敘述統計:數值方法 第126頁

3.6 資料儀表板:增加數值量數以提升效能 資料儀表板是用以組織並表達資訊的一組視覺表示, 以易讀易懂易解釋的方式來監控組織或企業的表現。 增加諸如關鍵績效指標 (key performance indicators, KPI) 的平均值與標準差的數值量數到資料儀表板是很 緊要的,因為數值量數可以做為評估 KPI 的目標或標 竿。 資料儀表板經常是互動式的。 向下鑽取 (drilling down) 是指互動式資料儀表板的功能 ,讓使用者可以在更細部的層次存取資訊、進行分析 。 第3章 敘述統計:數值方法 第128頁

End of Chapter 3