第 3 章敘述統計：數值方法.

Slides:

Advertisements

Similar presentations

平台的优点：（ 1 ）永久免费：学校和老师使用校讯通平台发送短信是免费的，并且通过使用平台，可获得部分购物卡补贴。（ 2 ）移动办公：校讯通不受时间和空间的限制，只要有一台可以上网的电脑，老师便可以通过互联网发送短信给家长，能够实现移动办公，节省老师的工作时间。（ 3 ）简单易用：

Advertisements

2007 年广州市初中信息技术结业考试海珠区质量分析海珠区教育发展中心范谊 2007 年 9 月 8 日.

数理统计华南农业大学理学院应用数学系 Statistics Applied Mathematic Department, College of Sciences, SCAU.

報告者:蕭曄鴻班級:溫馨甲孝指導教授:李開濟博士

單元名稱：健康的兩性交往.

这辈子只做一件家务，你会做什么？ A、拖地 B、洗碗 C、做饭 D、倒垃圾.

第二章语言测试的功能与分类湖南师范大学外国语学院邓杰教授.

绩效考核执行方案介绍.

資料分析 ---敘述統計分析.

Dr. Baokun Li 经济实验教学中心商务数据挖掘中心

人群健康研究的统计方法预防医学系指导教师：方亚电话：

Measures of location and dispersion

第一章生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系，其涉及哪些内容 1.

第2章数据处理基础 2.1数据及数据类型 2.2 数据统计特性 2.3 数据预处理 2.4 相似性度量据的中心度量

2017/3/9 实验误差及其控制魏敏杰陈杰阮强王振宁单凤平孟繁浩富伟能陈磊中国医科大学.

Chapter 3 預測.

SPSS统计软件的使用方法基础主讲人：宋振世（闵行校区）电话：

江西 6、下列关于名著的表述，不正确的一项是

全省水产技术推广补助项目信息员培训河南省农业厅水产局 2013年11月17日.

如何撰写教育科研论文谌业锋四川省凉山州教育科学研究所欢迎访问业锋教育在线

工作总结年度工作总述招聘工作劳动关系培训管理绩效管理薪酬管理制度建设团队建设行政工作.

第1,2课时教学要求教学内容教学难点教学重点课后作业.

第三章资料的统计描述上一张下一张主页退出.

3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量

北国江南江南北国信阳市，位于河南省南部，是中国河南省下辖的一个地级市，在唐代时简称“申州”，故又称“申城”。它是江淮河汉间的战略要地，豫南政治、经济、文化、教育、交通、物流中心，也是“鄂豫皖”区域性中心城市。信阳山水秀丽，气候宜人，素有“北国江南，江南北国”之美誉，是中国著名的宜居之城。信阳自古以来人杰地灵、英雄辈出，境内有中国四大避暑胜地之一的鸡公山、“中原第一湖”南湾湖、国家地质公园金刚台，唐、明两朝国庙灵山寺等著名旅游景点。

統計學授課教師:林志偉 Tel:5021.

林黛玉进贾府曹雪芹.

Chapter 3 descriptive statistics：numerical methods

Descriptive statistics

Chapter 2 簡單迴歸模型.

試算表軟體 II 醫務管理暨醫療資訊學系陳以德副教授: 濟世CS 轉

SPC introduction.

第十章兩母體之假設檢定 Inferences Based on Two-Samples:

第十四章数值变量的统计描述.

分析化学教程第二章分析数据处理及分析测试的质量保证（1）分析化学教程（学年)

第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.

第 5 章樣本資料的數值分布.

第 3 章敘述統計II：數值方法 Part B (3.3~3.6).

第一章敘述統計學.

二元隨機變數(Bivariate Random Variables)

第 4 章分散量數.

第四章 SPSS的基本统计分析.

Interval Estimation區間估計

統計量數集中趨勢量數離散趨勢量數相對位置量數分配形態量數.

敍述統計學許明宗.

第 3 章敘述統計II：數值方法 Part A (3.1~3.2).

Review 統計方法的順序確定目的蒐集資料整理資料分析資料推論資料 (變量，對象) (方法：普查，抽樣)

第 7 章抽樣與抽樣分配 Part A ( ).

第八章報酬與風險.

第一次上統計Tutorial 就上手不是只有上一次嗎.

描述性统计学作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)

第四章抽樣與抽樣分配 4.1 抽樣與抽樣方法抽樣分配概論常見的抽樣分配中央極限定理55

EXCEL+ORIGN+SPSS的描述统计

相關統計觀念復習 Review II.

準確性(Accuracy) 誤差種類儀器準確度時間因素儀器參數.

國三地理科說明南山中學10001學校日地理科教師林皓芸分機192.

Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現，(1)請依此數據完成下頁表格之統計值並說明之；(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次各場次ERA

Dr. C. Hsieh College of Informatics Kao yuan University

第三章平均数、标准差与变异系数第一节平均数上一张下一张主页退出.

第四章集中趋势测量法算术平均数主要内容中位数众数几何平均数和调和平均数.

Chapter 5 z-Scores.

Review of Statistics.

（四）标准差(standard deviation)

楊志強博士統計學楊志強博士

生物统计学 Biostatistics 第一章统计数据的收集与整理

第七章计量资料的统计分析.

主講人陳陸輝特聘研究員兼主任政治大學選舉研究中心美國密西根州立大學博士

這七個故事很簡短，但她們說的都是一個主題——愛情！真心希望你們每個故事都看一下，不會用很長時間，但保證你能感到那種被震撼的感覺！

Presentation transcript:

第 3 章敘述統計：數值方法

本章內容 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置及離群值的偵測 3.4 五數彙總與箱形圖 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置及離群值的偵測 3.4 五數彙總與箱形圖 3.5 兩變數的相關性量數 3.6 資料儀表板：增加數值量數以提升效能

敘述統計：數值方法測量值是由樣本資料計算而得，則稱之為樣本統計量(sample statistics)。若是由整個母體計算而得，則稱之為母體參數(population parameters)。統計推論中，樣本統計量是指相對應的母體參數的點估計量(point estimator)。第3章敘述統計：數值方法第86-87頁

3.1 位置量數平均數加權平均數中位數幾何平均數眾數百分位數四分位數第3章敘述統計：數值方法第87-95頁

平均數一個變數最重要的位置量數或許就是平均數 (mean 或 average value)。平均數是一種中央位置量數。若此資料來自某一樣本，則平均數記為。若此資料來自某一母體，則以希臘字母 μ 表示之。第3章敘述統計：數值方法第87頁

樣本平均數資料集中 n 個觀察值的總和觀察值的樣本數第3章敘述統計：數值方法第87頁

母體平均數資料集中 N 個觀察值的總和觀察值的樣本數第3章敘述統計：數值方法第88頁

平均數實例假設某大學的就業輔導室寄出一份問卷給被抽中的商學院畢業生，以調查工作起薪。表 3.1 為所蒐集的資料。第3章敘述統計：數值方法第88頁

平均數實例樣本中 12 個商學院畢業生之平均起薪計算如下。第3章敘述統計：數值方法第88頁

加權平均數某些情況為反映個別觀察值的重要性，計算平均數時要對每一觀察值加上權重，以此方式計算而得到的值即稱為加權平均數 (weighted mean)。當資料來自樣本時，式 (3.15) 提供了樣本加權平均數的算法，當資料來自母體時，我們可以用 μ 取代，則式 (3.15) 也可用來計算母體加權平均數。加權平均數中所使用的權重依實際情況各有不同。第3章敘述統計：數值方法第89-90頁

加權平均數其中加權資料值的總和當資料來自母體時，可以用 μ 取代權重的總和 wi = 第i 個觀察值的權重第3章敘述統計：數值方法第89頁

加權平均數實例我們以過去 3 個月所做的五次採購來說明加權平均數。第3章敘述統計：數值方法第89頁

加權平均數實例資料顯示，每磅成本由 $2.80至 $3.40不等，而且採購數量在 500 至 2750 磅之間，假設經理想要瞭解原料每磅的平均成本，由於訂購數量各有不同，我們必須應用加權平均數的觀念。資料顯示五筆原料每磅成本分別為 x1＝3.00、x2＝3.40、x3 ＝2.80、x4 ＝2.90 及 x5＝3.25，則每磅成本的加權平均成本等於每磅成本乘上其對應採購量加權而得。第3章敘述統計：數值方法第89頁

加權平均數實例所以，本例的權重分別為 w1＝1200、w2＝500、w3 ＝2750、 w4＝1000 及 w5 ＝800，應用式 (3.3)，我們可以計算加權平均數如下：由加權平均數的計算，可以得到原料的每磅平均成本等於 $2.96。值得注意的是，若我們使用式 (3.1) 而非加權平均數的公式 (3.3)，將誤導結果。因為 (3.00＋3.40＋2.80＋2.90＋ 3.25)/5＝15.35/5＝$3.07。這個結果高估了每磅平均採購成本。第3章敘述統計：數值方法第89頁

加權平均數實例加權平均數中所使用的權重依實際情況各有不同。以學生的平均成績為例，4 代表 A，3 代表 B，2 代表 C，1 則代表 D 及 0 代表 F，權重則為學分數，習題 16 即是計算加權平均數。其他的加權平均數的例子中，磅數、金額、數量等都常做為權重。不管何種情況，只要觀察值的重要性有所不同，分析人員就必須使用權重，以便最適當地反映每個觀察值在平均數中的重要性。第3章敘述統計：數值方法第90頁

中位數中位數 (median) 是變數的另一種中央位置量數。將資料值由小排到大時，中位數為中間的值。若資料個數為奇數時，中位數即位於中間的數值；若資料項目為偶數時，就沒有單一的中間項。我們將根據傳統的中位數定義，將中間兩個值之平均數當作中位數。第3章敘述統計：數值方法第90頁

中位數將資料遞增排列 (即由小到大排列) 。 (a) 資料值為奇數項時，中位數為此資料之中間值。 (b) 資料值為偶數項時，中位數為此資料之中間兩個數值的平均數。第3章敘述統計：數值方法第90頁

中位數實例計算表 3.1 中商學院 12 位畢業生起薪的中位數，將資料遞增排列後如下因為 n＝12是偶數，故有兩個中間值：3890 和3920，中位數為此兩個值之平均。 3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 中間兩個值第3章敘述統計：數值方法第90頁

幾何平均數幾何平均數 (geometric mean) 是位置量數，由 n 個值的連乘積的 n 次方根，幾何平均數表示為。幾何平均數常用來分析財務資料的成長率。幾何平均數特別普遍地運用在財務、金融及銀行相關的問題，只要你想決定經過若干連續時期的平均成長率，就可運用幾何平均數。其他普遍運用包括物種族群、農作物生產、汙染水準及出生率的改變。第3章敘述統計：數值方法第91.93頁

幾何平均數第3章敘述統計：數值方法第91頁

眾數眾數 (mode) 是資料集中出現次數最多的資料值。當資料集中出現次數最多的值有兩個或以上時，眾數就不只一個。若資料集恰有兩個眾數，則稱此資料為雙峰 (bimodal) 。若出現兩個以上的眾數時，則稱為多峰 (multimodal) 。第3章敘述統計：數值方法第93頁

眾數實例表3.1的商學院畢業生起薪樣本，出現超過一次的僅有月薪$3880 。由於此值出現的次數最高，因此它就是眾數。第3章敘述統計：數值方法第93頁

百分位數百分位數 (percentile) 可讓人瞭解資料在最小值與最大值間的分布情況。有 n 個觀察值的資料集合，以 pth 百分位數 (pth percentile) 可將資料分割成兩部分，大約 pth 百分比的觀察值會小於 pth 百分位數；而大約有 (100 − p) 百分比的觀察值會大於 pth 百分位數。第3章敘述統計：數值方法第93-94頁

百分位數計算 n 個觀察值的 pth 百分位數，必須先將資料依遞增 (由小至大) 排序。最小值排第 1 位、次小值排第 2 位，依此類推。pth 百分位數所在位置以 Lp 表示，計算公式如下：第3章敘述統計：數值方法第94頁

百分位數實例為示範 pth 百分位數的計算方法，我們來計算表3.1 起薪資料的80th 百分位數。首先將 12 筆起薪資料依遞增順序排列。每個觀察值下方的數字即是該觀察值的位置。例如，最小值 (3710) 在位置 1、次小值 (3755) 在位置 2，依此類推。運用式 (3.5)，p = 80 及 n = 12，80th 百分位數的位置是 3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 位置 1 2 3 4 5 6 7 8 9 10 11 12 第3章敘述統計：數值方法第94頁

百分位數實例 L80 ＝ 10.4 的意思是 80th 百分位數落在位置 10 與位置 11 之間，離位置 10 的距離是位置 10 (4050) 與位置 11 (4130) 之差距的 40%。因此，80th 百分位數是 80th 百分位數＝ 4050 + 0.4(4130−4050) ＝ 4050 + 0.4(80) ＝ 4082 第3章敘述統計：數值方法第94頁

百分位數實例現在我們來計算起薪資料的50th 百分位數。p = 50 及 n = 12，50th 百分位數的位置是 L50 = 6.5，我們知道 50th 百分位數落在位置 6 與位置 7 之間，離位置 6 的距離是位置 6 (3890) 與位置 7 (3920) 之差距的 50%。因此，50th 百分位數是請注意，50th 百分位數剛好也是中位數。 50th 百分位數 = 3890 + 0.5 (3920–3890) = 3890 + 0.5 (30) = 3905 第3章敘述統計：數值方法第94頁

四分位數四分位數 (quartiles) 是百分位數的特例。 Q1 ＝第一四分位數或 25th 百分位數第3章敘述統計：數值方法第95頁

四分位數實例要說明有 n 個觀察值時，計算四分位數的方法，我們以表 3.1 的起薪資料為例。之前算出起薪資料的 50th 百分位數是3905；因此，第二四分位數 (中位數)是Q2 = 3905。要計算第一及第三四分位數，我們必找出 25th 百分位數與 75th 百分位數。計算方式如下。第3章敘述統計：數值方法第95頁

四分位數實例對 Q1 而言第一四分位數或 25th 百分位數的位置是在位置 3 與位置 4 之間，與位置 3 的距離是位置 3 (3850) 與位置 4 (3880) 之距離的 25%。因此， Q1 = 3850 + 0.25(3880 – 3850) = 3850 + 0.25(30) = 3857.5 第3章敘述統計：數值方法第95頁

百分位數實例對 Q3 而言第三四分位數或 75th 百分位數的位置是在位置 9 與位置 10 之間，與位置 9 的距離是位置 9 (3950) 與位置 10 (4050) 之距離的 75%。因此， Q3 = 3950 + 0.75(4050 – 3950) = 3950 + 0.75(100) = 4025 第3章敘述統計：數值方法第95頁

四分位數實例四分位數將起薪分為四部分，每部分包括 25% 的觀察值。我們定義了 25th 百分位數、50th 百分位數、75th 百分位數三個四分位數後，便可利用計算百分位數的規則求出四分位數。第3章敘述統計：數值方法第95頁

評註當資料集出現極端值時，中位數會比平均數更合適做為中央位置量數。極端值存在時，有時會用到另一種量數，稱為截尾平均數 (trimmed mean) 。截尾平均數是刪除資料集的極小值與極大值後，剩下資料值的平均數。例如，5% 的截尾平均數即是刪除最小的 5%，以及最大的 5% 觀察值後得到的平均數。以 n＝12 筆起薪資料的樣本為例，12 筆資料的 5% 是 12 × 0.05＝0.6，將 0.6 進位為 1，表示 5% 的修截尾平均數是將最高的一筆起薪資料與最低的一筆起薪資料刪除後，再求 10 筆起薪資料的平均值。因此，對起薪資料的樣本而言，5% 的截尾平均數是 3924.50 。第3章敘述統計：數值方法第96頁

評註其他常用的百分位數是五分位數 (quintiles) (20th 、40th、60th 及 80th 百分位數)，以及十分位數 (10th、20th、30th、40th、50th、60th、70th、 80th 及 90th 百分位數) 。第3章敘述統計：數值方法第96頁

3.2 離散量數除了位置量數外，我們還常希望能知道離散量數或變異量數。例如，向兩家不同的供應商訂貨，不僅要考慮其平均運送時間，還要考慮其運送時間的變異性。第3章敘述統計：數值方法第100頁

3.2 離散量數全距四分位距變異數標準差變異係數第3章敘述統計：數值方法第100-104頁

全距最簡單的離散量數就是全距 (range) 。全距＝最大值－最小值全距僅用到全體資料的兩個值。全距　最簡單的離散量數就是全距 (range) 。全距＝最大值－最小值全距僅用到全體資料的兩個值。第3章敘述統計：數值方法第101頁

全距實例參考表 3.1 商學院畢業生的起薪資料，最大值是 4325，最小值是 3710，全距就是4325 − 3710＝615 。參考表 3.1 商學院畢業生的起薪資料，最大值是 4325，最小值是 3710，全距就是4325 − 3710＝615 。假設有一位畢業生的每月起薪是 $10,000，此例的全距變為 10,000 − 3710 ＝ 6290，而不是 615，這個值並不是非常適合描述資料集的變異性，因為 12 個資料中的 11 個資料均介於 3710 與 4130 之間。第3章敘述統計：數值方法第101頁

四分位距四分位距 (interquartile range, IQR) 是第三四分位數 Q3 與第一四分位數 Q1 的差。能克服極端資料值的離散量數。第3章敘述統計：數值方法第101-102頁

四分位距實例參考表 3.1 商學院畢業生的起薪資料，對每月起薪資料而言，第三四分位數與第一四分位數分別為 Q3＝4000 與 Q1＝3865，因此，IQR 為 4000 − 3865 ＝135。第3章敘述統計：數值方法第102頁

變異數變異數 (variance) 是利用到全部資料的離散量數。變異數是根據每一個觀察值 ( xi ) 與平均數之差而求得。每一個觀察值 xi 與平均數 (　為樣本平均數，μ 為母體平均數) 之差稱為離差 (deviation about the mean)。第3章敘述統計：數值方法第102頁

變異數當樣本平均數的差距平方和除以n − 1，而非 n 時，此樣本變異數為母體變異數的不偏估計量。變異數之定義如下：母體變異數樣本變異數第3章敘述統計：數值方法第102頁

變異數實例利用 3.1 節中五個大學班級人數的樣本為例。資料的彙總在表3.3，包括離差及離差平方。離差平方的總和為。因此，在 n − 1＝4 時，樣本變異數為第3章敘述統計：數值方法第102頁

變異數實例第3章敘述統計：數值方法第103頁

變異數實例以表 3.1 的起薪資料為例，說明樣本變異數的計算，在 3.1 節中，我們算出樣本平均起薪值為 3940。樣本變異數 (s2＝27,440.91) 的結果列於表 3.4。表 3.3 與 3.4 中值得注意的是，我們算出離差與離差平方的總和。對於任何資料集，離差的總和必為 0。因此，如同表 3.3 與表 3.4 顯示，這是恆成立的，因為正的離差與負的離差會相互抵銷，而使得離差的總和為 0。第3章敘述統計：數值方法第103頁

變異數實例第3章敘述統計：數值方法第103頁

標準差標準差 (standard deviation) 的定義是變異數的正平方根。標準差比變異係數容易解釋，因為標準差的衡量單位與資料相同。第3章敘述統計：數值方法第103-104頁

標準差由變異數得到標準差的方法如下。樣本標準差母體標準差第3章敘述統計：數值方法第104頁

標準差實例以表 3.1 的起薪資料為例，樣本標準差第3章敘述統計：數值方法第104頁

變異係數變異係數 (coefficient of variation)是變異性的相對衡量，它衡量標準差相對於平均值的大小。變異係數計算如下：樣本變異係數母體變異係數第3章敘述統計：數值方法第104頁

變異係數實例以表3.1起薪資料為例，其樣本平均數 3940 與樣本標準差 165.65，變異係數為 [(165.65/3940) × 100]% ＝4.2%。一般而言，欲比較具有不同的標準差與平均數的資料之離散程度時，變異係數是一個有用的統計量。第3章敘述統計：數值方法第104頁

表3.1 起薪資料為例變異數標準差變異係數此樣本之標準差占平均數的4.7% 第3章敘述統計：數值方法第102-104頁

評註我們可以利用統計套裝軟體及試算表來計算本章所提到的所有敘述統計量。將資料輸入工作表之後，應用一些簡單的指令就能產生我們想得到的最終結果。我們會在章末的附錄示範如何利用 Excel 來得到這些敘述統計量。我們經常應用標準差來計算基金或股票投資的風險 (Morningstar website, July 21, 2012)，可以得知每月報酬與長期平均報酬之間差距的波動狀況。第3章敘述統計：數值方法第104頁

評註對樣本平均數四捨五入時，離差平方 (xi − x)2之值會使得計算變異數與標準差產生誤差。為了降低此種誤差，我們建議計算過程中的數值至少要有六位數。最後得到的變異數或標準差再取少一點的位數。計算樣本變異數的另一種公式是其中。第3章敘述統計：數值方法第104頁

評註平均絕對誤差 (mean absolute error, MAE) 是另一個離散量數，計算公式是將觀察值與平均數的離差的絕對值進行加總後再除以觀察值的個數。樣本大小為 n 時，MAE的計算如下：以 3.1 節的班級人數資料為例，及MAE＝28/5＝5.6。第3章敘述統計：數值方法第105頁

3.3 分配的形狀的量數、相對位置及離群值的偵測 z 分數柴比雪夫定理經驗法則偵測離群值第3章敘述統計：數值方法第108-113頁

分配的形狀衡量分配形狀的重要數值是偏度 (skewness)。計算偏度的公式有些複雜。衡量樣本資料的偏度公式是：但是若以統計軟體來計算，則非常容易。第3章敘述統計：數值方法第108頁

分配的形狀適度左偏偏度為負值。平均數常小於中位數。第3章敘述統計：數值方法第108-109頁

分配的形狀適度右偏偏度是正值。平均數通常大於中位數。第3章敘述統計：數值方法第108頁

分配的形狀對稱 (不偏) 資料的分配是對稱的，偏度為 0。對稱分配的平均數及中位數是相等的。第3章敘述統計：數值方法第108頁

分配的形狀高度右偏偏度是正值。 (通常大於 1.0)。平均數通常大於中位數。第3章敘述統計：數值方法第108頁

分配的形狀第3章敘述統計：數值方法第108頁

z 分數 z 分數通常稱為標準化值 (standardized value)。每個 xi 會有一個稱之為 z 分數 (z -score) 的數值與之對應。其中 zi = xi 的 z 分數 = 樣本平均數 s = 樣本標準差第3章敘述統計：數值方法第109頁

z 分數利用平均數與標準差，我們便能決定任何觀察值的相對位置。資料集小於樣本平均數則 z 分數小於 0。利用平均數與標準差，我們便能決定任何觀察值的相對位置。資料集小於樣本平均數則 z 分數小於 0。資料集大於樣本平均數則 z 分數大於 0。資料集等於樣本平均數則 z 分數等於 0。第3章敘述統計：數值方法第109頁

z 分數實例表 3.5 是班級人數資料的 z 分數，之前算出平均數為＝44，樣本標準差為 s＝8。第 5 個觀察值的 z 分數為 −1.50，是離平均數最遠的資料值，比平均數小 1.50個標準差。第3章敘述統計：數值方法第109頁

柴比雪夫定理在資料集內，至少有 (1 − 1/z2) 百分比的觀察值與平均數的差距必須在 z 個標準差之內， z 為任何大於 1 之值。第3章敘述統計：數值方法第110頁

柴比雪夫定理至少有0.75 或75% 的觀察值，與平均數的差距在 z ＝ 2 個標準差之內。第3章敘述統計：數值方法第110頁

柴比雪夫定理實例假設某學院商用統計課程有 100 位學生修課，期中考成績之平均數為 70，標準差為 5 。利用柴比雪夫定理，有多少學生的分數介於 60 與 80 之間？又有多少學生的分數介於 58 與 82 之間？我們注意到 60 小於平均數 2 個標準差，而 80 則大於平均數 2 個標準差。利用柴比雪夫定理，我們可看出至少 0.75 或至少 75% 的觀察值與平均數的差距必須在 2 個標準差之內。因此，至少有75% 的學生，分數介於 60 與 80 之間。第3章敘述統計：數值方法第110頁

柴比雪夫定理實例而分數介於 58 與 82 的人數又是多少？我們可看出 (58－70)/5 ＝−2.4，表示 58 是小於平均數 2.4 個標準差；而 (82 − 70)/5＝＋2.4，表示 82 大於平均數 2.4 個標準差。利用柴比雪夫定理 z＝2.4，我們可得到至少有 82.6% 的學生的分數必須介於 58 與 82 之間。第3章敘述統計：數值方法第110頁

經驗法則針對鐘形分配的資料集而言：大約 68% 的觀察值與平均數的差距在 1 個標準差內。大約 95% 的觀察值與平均數的差距在 2 個標準差內。幾乎所有的觀察值與平均數的差距在 3 個標準差內。第3章敘述統計：數值方法第111頁

經驗法則第3章敘述統計：數值方法第111頁

偵測離群值有時資料集會有一個或更多極大或極小的觀察值。我們稱此類極端值為離群值(outliers) 。使用 z 分數確認離群值時，我們建議觀察值之 z 分數若小於 −3 或大於＋3，就是離群值。離群值可能是未被正確登錄的資料被錯放在資料集離群值若是登錄正確的資料，而且也屬於這個資料集的話，則必須保留。第3章敘述統計：數值方法第112頁

偵測離群值根據資料分析制定決策時，最好先檢查離群值。誤差通常產生自記錄資料，並將其輸入電腦時。並非一定要刪除離群值，但必須適當確認其正確性與適當性。第3章敘述統計：數值方法第112頁

離群值的偵測實例參考表 3.5 的班級人數資料之 z 分數， z 分數為－ 1.50 顯示第 5 個觀察值是離平均數最遠的值。然而，此標準化值仍在 −3 到＋3 之間，因此 z 分數顯示出在班級人數資料中並無離群值。第3章敘述統計：數值方法第112頁

評註柴比雪夫定理適合用於任何資料集，用來指出至少有多少個觀察值與平均數的差距在特定個標準差之內。若資料集已知為鐘形時，則會得到更多的訊息。例如，經驗法則告訴我們：有大約 95% 的觀察值與平均數的差距在 2 個標準差之內；由柴比雪夫定理所得到的結論只是：至少有 75% 的觀察值會在上述的差距之內。在分析一個資料集之前，統計學者通常做各種檢查以確信資料的有效性。在大型研究中，登錄資料或將資料鍵入電腦的過程中發生錯誤也很常見。確認離群值是檢查資料有效性的方法之一。第3章敘述統計：數值方法第113頁

3.4五數彙總與箱形圖五數彙總箱形圖運用箱形圖做比較分析第3章敘述統計：數值方法第115-117頁

五數彙總五數彙總 (five-number summary) 是利用下列五個數來匯總資料。最小值第一四分位數 (Q1) 最大值第3章敘述統計：數值方法第115頁

五數彙總實例以表3.1 中的起薪資料為例，可以得到下列結果。最小值3710，最大值是4325 。 3710　3755　3850　3880　3880　3890　3920　3940　3950　4050　4130　4325 最小值3710，最大值是4325 。 3.1 節已說明如何計算四分位數 (Q1 = 3857.5；Q2 = 3905；Q3 = 4025) 。因此，起薪資料的五數彙總是 3710　　3857.5　　3905　　4025　　4325 五數彙總資料顯示，起薪的樣本資料介於 3710 與 4325 之間，中位數或中間值是 3905；第一及第三四分位數顯示大約有 50% 的資料值會介於 3857.5 與 4025 之間。第3章敘述統計：數值方法第116-117頁

箱形圖箱形圖 (box plot) 是根據五數彙總而繪製的圖形。繪製箱形圖的關鍵在求出四分位數距 IQR＝Q3－Q1 。箱形圖是另一種辨別離群值的方法。但是這種方法不見得會與用 z 分數找出的離群值相同。運用兩種方法或只用任一種方法皆可行。第3章敘述統計：數值方法第116頁

箱形圖圖 3.6 為每月起薪資料的箱形圖以及上、下界限。第3章敘述統計：數值方法第116頁

箱形圖繪製箱形圖的步驟如下：箱形圖的繪製以第一四分位數、第三四分位數為前後邊。以起薪資料為例，Q1 ＝ 3857.5 且 Q3 ＝ 4025，箱形包含中間 50% 的資料。箱子中的垂直線位置為中位數 (以每月起薪資料而言是 3905 )。因此，中位數位置的直線將所有資料分割成兩等分。使用四分位距 IQR ＝ Q3－Q1 時，必須設定界限 (limits) ，界限分別位於 Q1之下 1.5(IQR) 或 Q3 之上 1.5 (IQR) 。以每月起薪資料而言，IQR ＝ Q3－Q1＝ 4025－3857.5 ＝ 167.5 。因此，界限為 3857.5−1.5(167.5) ＝ 3606.25 與 4025 ＋ 1.5(167.5) ＝ 4276.25。在界限之外的值為離群值。第3章敘述統計：數值方法第116頁

箱形圖圖 3.6 的虛線稱之為鬚 (whiskers)。鬚的畫法是從步驟 3 中箱形的兩邊至界限內最大值與最小值，以圖 3.6 為例，分別是 3310 與 3730。最後，以 * 表示離群值的位置；在圖 3.5 中，可看到一個離群值 3925。第3章敘述統計：數值方法第116頁

箱形圖圖 3.6 中有標示上、下界限的直線。這些線用來標示資料的範圍，雖然我們會算出這些數值，但在箱形圖中通常不會顯示出來。圖 3.7 是起薪資料的箱形圖的常見形式。第3章敘述統計：數值方法第116頁

運用箱形圖做比較分析箱形圖可用在兩群或更多資料的彙整，可直觀地比較不同組資料。圖 3.8 是主修為會計、財務、資訊系統、管理及行銷的畢業生起薪的箱形圖。請注意，橫軸是不同的主修，每個箱形圖垂直置於主修別上方。要比較兩個或以上的資料群，以此種方式呈現箱形圖是傑出的圖形技巧。第3章敘述統計：數值方法第117頁

運用箱形圖做比較分析第3章敘述統計：數值方法第117頁

運用箱形圖做比較分析你會如何解釋圖3.8 的箱形圖？我們特別注意到以下情形：主修會計的起薪較高；主修管理及行銷的起薪較低。以中位數而言，主修會計及資訊系統的起薪相同，且高於其餘主修；主修財務的起薪居次。主修管理及行銷的起薪較低。主修會計、財務及行銷的畢業生都有高的起薪離群值。主修財務的起薪的變異性最低，主修會計的起薪的變異性最高。第3章敘述統計：數值方法第117頁

3.5兩變數的相關性量數共變異數共變異數的解釋相關係數相關係數的解釋第3章敘述統計：數值方法第120-126頁

共變異數共變異數 (covariance) 是兩變數間線性相關的敘述量數。當共變異數為很大的正值時，表示有很強的正線性相關，而很大的負值則表示有很強的負線性相關。管理者或決策者經常會對兩變數間的關係感興趣。第3章敘述統計：數值方法第120-122頁

共變異數樣本共變異數母體共變異數第3章敘述統計：數值方法第120.121頁

共變異數實例回顧 2.4 節立體音響設備店的例子。該店的經理有興趣研究未來幾個週末的電視廣告與銷售量的關係，樣本資料列於表 3.6 。第3章敘述統計：數值方法第120頁

共變異數實例第3章敘述統計：數值方法第120頁

共變異數實例圖 3.9 為兩變數的散布圖，顯示出正向關係：較高的銷售量 (y) 伴隨著較高的廣告次數 (x) 。事實上，散布圖顯示出兩變數呈現近似直線的關係第3章敘述統計：數值方法第120-121頁

共變異數實例為了衡量廣告次數 x 與銷售額 y 的線性關係之強度，我們利用式 (3.13) 計算樣本共變異數。表 3.7 是的計算過程。請注意＝30/10＝3 且　＝510/10＝51，利用式 (3.12)，可得共變異數為第3章敘述統計：數值方法第120-121頁

共變異數實例第3章敘述統計：數值方法第121頁

共變異數的解釋以圖3.10 來解釋樣本共變異數。第3章敘述統計：數值方法第122頁

共變異數的解釋第3章敘述統計：數值方法第123頁

共變異數的解釋第3章敘述統計：數值方法第123頁

共變異數的解釋第3章敘述統計：數值方法第123頁

相關係數相關係數的範圍由 −1 到 +1。樣本相關係數為 +1 代表兩變數 x 與 y 之間是完全正線性相關。第3章敘述統計：數值方法第122-124頁

相關係數皮爾生相關係數：樣本資料皮爾生相關係數：母體資料第3章敘述統計：數值方法第123-124頁

相關係數實例以立體音響店的資料為例，求其樣本相關係數。利用表 3.6 的資料，我們便能計算兩變數的樣本標準差。因為 sxy＝11，可得到樣本相關係數第3章敘述統計：數值方法第124頁

相關係數的解釋圖 3.12 的散布圖是根據以下樣本資料而得。第3章敘述統計：數值方法第124頁

相關係數的解釋第3章敘述統計：數值方法第125頁

相關係數的解釋通過這三點的直線顯示變數 x 與 y 存在有完全線性相關。為了套用式 (3.15) 來計算樣本相關係數，要先算出 sxy、sx 與 sy，某些計算過程列在表3.8。運用表中的資料，我們發現因此，樣本相關係數為 1 。第3章敘述統計：數值方法第124-125頁

相關係數的解釋假設某一特定資料集顯示 x 與 y 間有正線性相關但不是完全正線性相關， rxy 之值將會小於 1，表示在散布圖上的點並非全部落在一條直線上。當資料點愈來愈偏離完全正線性相關，rxy 的值會愈變愈小。 Rxy 之值等於零表示 x 與 y 之間沒有線性關係，且 rxy 之值接近零表示一種微弱的線性相關。以立體音響設備店的資料為例， rxy＝0.93，因此我們的結論是：廣告次數與銷售量之間存在很強的正線性關係。更明確地說，廣告次數增加時，銷售量也增加。第3章敘述統計：數值方法第125-126頁

相關係數實例第3章敘述統計：數值方法第125頁

評註由於相關係數只衡量兩個定量變數間的線性關係的強度，當兩變數之間的關係是非線性的，線性係數可能近乎 0，意味著沒有線性關係。例如，以下散布圖顯示過去 100 天中，小型雜貨店在環境控制 (如冷氣或暖氣) 的花費與每天室外溫度間的關係。這些資料的樣本相關係數是 rxy＝−0.007，表示兩變數間沒有線性相關。然而，散布圖提供強烈的視覺證據，顯示兩變數間的非線性關係。也就是說，我們可以看出，當室外溫度剛升高時，需要較少暖氣，繼續升高時就需要冷氣，所以環境控制的花費先減少然後增加。第3章敘述統計：數值方法第126頁

評註第3章敘述統計：數值方法第126頁

評註相關係數可以用來衡量兩個定量變數的關係，諸如斯皮爾曼等級相關係數 (Spearman’s rank correlation coefficient) 的量數，則可用來評估至少有一變數是名目或順序尺度時兩變數間的關係。第3章敘述統計：數值方法第126頁

3.6 資料儀表板：增加數值量數以提升效能資料儀表板是用以組織並表達資訊的一組視覺表示，以易讀易懂易解釋的方式來監控組織或企業的表現。增加諸如關鍵績效指標 (key performance indicators, KPI) 的平均值與標準差的數值量數到資料儀表板是很緊要的，因為數值量數可以做為評估 KPI 的目標或標竿。資料儀表板經常是互動式的。向下鑽取 (drilling down) 是指互動式資料儀表板的功能，讓使用者可以在更細部的層次存取資訊、進行分析。第3章敘述統計：數值方法第128頁

End of Chapter 3