第 5 章 樣本資料的數值分布.

Slides:



Advertisements
Similar presentations
考试 1. 时间 :2011 年 11 月 14 日 18:30 2. 地点 : 待定 3. 方式 : 开卷考试 4. 题目类型:待定 5. 计算机操作要求:会用 spss 录数据、计算机 操作、认读结果、制作统计表、按假设检 验步骤进行假设检验.
Advertisements

2007 年广州市初中信息技术 结业考试海珠区质量分析 海珠区教育发展中心 范谊 2007 年 9 月 8 日.
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
資料分析 ---敘述統計分析.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
张博恒 MD, PhD 复旦大学循证医学中心 国际临床流行病学上海培训中心
2017/3/9 实验误差及其控制 魏敏杰 陈 杰 阮 强 王振宁 单凤平 孟繁浩 富伟能 陈 磊 中国医科大学.
8+2-3=? 統計 吳函儒、李雅芳 吳秉蓉、王農景 - =
挖掘市场预期分布 建立有效投资策略 权证市场2006年中期投资策略
九十四年度社區腎臟保健推廣 成果報告 財團法人彰化基督教醫院 楊郁 醫師.
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
講員:謝浩明 桃園縣中壢市32054中大路300號 中央大學資訊管理系 中央大學土木系
all right reserved 岗位分析,评估和工资架构 all right reserved.
第1,2课时 教学要求 教学内容 教学难点 教学重点 课后作业.
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
統計學 授課教師:林志偉 Tel:5021.
Descriptive statistics
試算表軟體 II 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
第十四章 数值变量的统计描述.
分析化学教程 第二章 分析数据处理及 分析测试的质量保证 (1) 分析化学教程( 学年)
第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.
第 3 章 敘述統計:數值方法.
Continuous Probability Distributions
Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用
Sampling Theory and Some Important Sampling Distributions
第一章 敘述統計學.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
第 4 章 分散量數.
第四章 SPSS的基本统计分析.
Interval Estimation區間估計
本章重點: 一、集中量數的意義和種類 二、算術平均數 三、中位數(中數) 四、眾 數 五、其他集中量數 六、SPSS12.0實務操作
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
受欢迎的课堂具有什么特征 课堂观察研究 问卷调查研究
以每年參觀Lake Keepit的人數為例
描述性统计学 作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)
網路遊戲版 幸福農場168號.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 调查数据的分析 第一节 数据集中趋势的测定 第二节 数据离散程度的测定 第三节 动态数据的分析 第四节 相关与回归分析.
EXCEL+ORIGN+SPSS的描述统计
抽樣分配 Sampling Distributions
相關統計觀念復習 Review II.
Chapter 04 流程能力與績效分析.
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
Dr. C. Hsieh College of Informatics Kao yuan University
第三章 平均数、标准差与变异系数 第一节 平均数 上一张 下一张 主 页 退 出.
第四章 集中趋势测量法 算术平均数 主 要 内 容 中位数 众数 几何平均数和调和平均数.
Chapter 5 z-Scores.
计量资料的统计描述 赵耐青 复旦大学卫生统计教研室.
资料的描述性分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
統計學回顧 區國強.
Review of Statistics.
(四)标准差(standard deviation)
楊志強 博士 統計學 楊志強 博士
第四章 常用概率分布 韩国君 教授.
第7章 基本统计分析 2019/5/14.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
Probability Statistics p65 ~ 85 & p119~ /6/7
第七章 计量资料的统计分析.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
抽樣分配.
分類樹(Classification Tree)探討Baseball Data
Presentation transcript:

第 5 章 樣本資料的數值分布

統計量(statistic)或表徵數:依據樣本資料計算出具有特定意義的數值,是描述統計學(Descriptive Statistics)的主要內容,也是推論統計學的推論基礎。 統計量的測量(measure)或統計量的計算:定義和計算出統計量的過程或方法。

曲線圖與統計量的關係: 1. 集中趨勢量數(measures of central tendency):位於圖形最高點附近的統計量,包含平均數(Mean)、中位數(Median)和眾數(Mode); 2. 差異量數(measures of variability):集中趨勢量數平均數上下界限的統計量,包含標準差(Std deviation)和變異數(Variance);

3. 大小量數(measures for size):位於圖形二極端點的統計量,包括最大值(Maximum)、最小值(Minimum)和全距(Range); 4. 偏差量數(measures of deviation from normality):表示圖形是否常態分布的統計量,包括偏態(Skewness)和峰度(Kurtosis)。

具有特殊意義的圖形或量數: 1. 抽樣誤差(sampling error)或平均數穩定性量數(measures of stability):用標準誤差(S.E. mean)來表示,是推論統計學的基礎; 2. 五數綜合(five-number summary)圖:最大值(Maximum) 、第一四分位數(first quartile)、中位數(Median)、第三四分位數(third quartile)和最小值(Minimum);

3. 盒形圖(boxplot):將五數綜合圖加上二個內柵,用來找出離群值(outlier); 4. 相對變異量數(measures of relative variability):比較不同單位變項間的變異,例如變異係數(coefficient of variation)。

5.1 常用數學運算符號 1. 求總和的數學符號Σ(sigma): (5.1) 2. 求連乘積的數學符號是 (pei): (5.2)

5.1 常用數學運算符號 3. 用積分符號表示機率函數: (5.6)

5.2 集中趨勢量數 集中趨勢量數(measures of central tendence)或中心位置量數(measures of central location):圖形最高點的統計量,平均數(Mean)、中位數(Median)或眾數(Mode)。

5.2.1 算術平均數 (5.7) 算術平均數 (arithmetic mean) :觀測值總和 ,除以有效樣本數 n :

5.2.2 中位數 中位數(Median) 或稱二分位數:資料分布的中間值。 中位數求算步驟如下: 1. n 個觀測值由小到大重新排列。 5.2.2 中位數 中位數(Median) 或稱二分位數:資料分布的中間值。 中位數求算步驟如下: 1. n 個觀測值由小到大重新排列。 2. 求出中項 O (md): (5.8)

5.2.2 中位數 3. 求出中項的對應值中位數 md: (5.9) (5.10)

5.2.3 眾 數 眾數(Mode)mo:出現次數最多次的值。 5.2.3 眾 數 眾數(Mode)mo:出現次數最多次的值。 眾數求算步驟如下: 1. 將 n 個觀測值由小到大重新排列。 2. 重複出現次數最多的觀測值就是眾數。

5.2.4 集中量數間的關係 算術平均數 、中位數 md 和眾數 mo 關係圖形: 1. 單峰對稱 (symmetric) 分布: 5.2.4 集中量數間的關係 算術平均數 、中位數 md 和眾數 mo 關係圖形: 1. 單峰對稱 (symmetric) 分布: 參閱圖 5.1。 圖5.1 單峰對稱分布

5.2.4 集中量數間的關係 2. 單峰左偏 (skewed to left)分布: 參閱圖 5.2。 圖5.2 單峰左偏分布

5.2.4 集中量數間的關係 3. 單峰右偏 (skewed to right)分布: 參閱圖5.3。 圖5.3 單峰右偏分布

5.2.5 平均數與中位數的使用時機 選用原則如下: 1. 常態分布,二者皆可使用,優先使用平均數。 5.2.5 平均數與中位數的使用時機 選用原則如下: 1. 常態分布,二者皆可使用,優先使用平均數。 2. 偏態分布,中位數比平均數具代表性。 3. 序位變項或整群抽樣資料,使用中位數。 4. 指數或對數分布變項,使用中位數。 5. 母數推論統計法使用平均數,無母數推論統計法使用中位數。

5.3 平均數的差異量數 差異量數(measures of variability)、離勢量數(measures of dispersion)或分散量數(measures of spread):表示分散情形的統計量,標準差(Standard deviation)和變異數(Variance)。

5.3.1 變異數 (5 .11) 樣本變異數(Variance):觀測值與算術平均數差距平方和 ,除以自由度 :

5.3.1 變異數 自由度 df (degree of freedom): (5 .12) 母體變異數: (5 .13)

5.3.2 標準差 樣本標準差S.D. (Standard deviation):樣本變異數平方根值: (5 .14)

5.3.2 標準差 母體標準差: (5 .15) 變異數或標準差大,表示觀測值差異性或分散程度大。

5.4 分布的大小量數 大小量數(measures for size)或分布的分散(spread of the distribution):觀測值或圖形二極端值的統計量,最大值(Maximum)、最小值(Minimum)和全距(Range)。 最大值(Maximum):最大的觀測值。 最小值(Minimum):最小的觀測值。 全距R(Range):最大值 max 和最小值 min 的差: (5 .16)

5.5 常態分布的偏差量數 偏差量數(measures of deviation from normality):判斷資料是否常態分布的統計量,偏態(Skewness)和峰度(Kurtosis)。

5.5.1 峰 度 峰度(Kurtosis)或峰度係數:量度尖(peakness)或平(flatness)程度的統計量: 判斷標準如下: 5.5.1 峰 度 峰度(Kurtosis)或峰度係數:量度尖(peakness)或平(flatness)程度的統計量: (5.17) 判斷標準如下: (1) 高窄峰 (leptokurtic):峰度 Kur > 3。 (2) 常態峰 (mesokurtic):峰度 Kur = 3。 (3) 低闊峰 (platykurtic):峰度 Kur < 3。

5.5.1 峰 度 (5.18) 標準化峰度 Nkur:

5.5.1 峰 度 判斷標準: (1) 高窄峰 (leptokurtic):峰度 Kur > 0。 參閱圖 5.5 5.5.1 峰 度 判斷標準: (1) 高窄峰 (leptokurtic):峰度 Kur > 0。 參閱圖 5.5 (2) 常態峰 (mesokurtic):峰度 Kur = 0。 參閱圖 5.1 (3) 低闊峰 (platykurtic):峰度 Kur < 0。 參閱圖 5.4

5.5.1 峰 度 圖5.5 高窄峰 圖5.4 低闊峰

5.5.2 偏 態 偏態(Skewness)或偏態係數:量度偏離對稱程度的統計量: (5.19)

5.5.2 偏 態 判斷標準如下: (1) 右偏 (skewed to the right):偏態 Sk > 0。 參閱圖 5.2。 5.5.2 偏 態 判斷標準如下: (1) 右偏 (skewed to the right):偏態 Sk > 0。 參閱圖 5.2。 (2) 對稱 (symmetry):偏態 Sk = 0 。 參閱圖 5.1。 (3) 左偏 (skewed to the left):偏態Sk < 0 。 參閱圖 5.3。

5.5.3 簡易判斷法 快速判斷偏差形態的方法: 1. 中距值(mid-range)與平均數比較,二數有明顯差異,是偏差形態,中距值 MR: 5.5.3 簡易判斷法 快速判斷偏差形態的方法: 1. 中距值(mid-range)與平均數比較,二數有明顯差異,是偏差形態,中距值 MR: (5.20) 2. 標準差與平均數比較,標準差超過平均數 25%,是偏差形態。 3. 最大值和最小值與 比較,超出 範圍,是偏差形態。

5.6 穩定性量數 標準誤差(S.E. mean 或Standard errors)或標準誤:表示平均數穩定性或抽樣誤差大小的統計量: 5.6 穩定性量數 標準誤差(S.E. mean 或Standard errors)或標準誤:表示平均數穩定性或抽樣誤差大小的統計量: (5.21)

5.7 分布的比較及離群值 五數綜合(five-number summary)圖:最大值(maximum) 、第一四分位數(first quartile)、中位數(median)、第三四分位數(third quartile)和最小值(minimum)。 盒形圖(boxplot):由五數綜合圖增加二內柵而成,用來找出離群值(outlier)。

5.7.1 四分位數 四分位數(quartile):將數列分割成四等份,由小到大依序是第一四分位數 Q1、第二四分位數 Q2 和第三四分位數 Q3,分割步驟如下: 1. 將 n 個觀測值由小到大重新排列。 2. 將數列分割成四等份。 3. 第一個分割點 25% 的位置O(Q1): (5.22)

5.7.1 四分位數 4. 第二個分割點 50%的位置O(Q2)或O(md): (5.8)

5.7.1 四分位數 5. 第三個分割點 75% 的位置 O ( Q3 ): 6. Q1、Q2 和 Q3 分別是: (5.23) 5.7.1 四分位數 5. 第三個分割點 75% 的位置 O ( Q3 ): (5.23) 6. Q1、Q2 和 Q3 分別是: (5.24) (5.25)

5.7.2 五數綜合圖 五數綜合圖:將最小值 min、第一四分位數 Q1、中位數 md、第三四分位數 Q3 和最大值 max 依序按比例大小排列,五條垂直線表示五數的位置,然後在 Q1、md和 Q3之間繪出盒形,如圖 5.6 所示: 圖5.6 五數綜合圖

5.7.3 四分位差 四分位差 Q.D.(quartile deviation): Q3和 Q1 的差距離: (5.26)

5.7.4 盒形圖 盒形圖:將五數綜合圖中間的盒形邊緣向二端各延伸相同距離的內柵(inner fence)。 內柵 IF 1和 IF2: 5.7.4 盒形圖 盒形圖:將五數綜合圖中間的盒形邊緣向二端各延伸相同距離的內柵(inner fence)。 內柵 IF 1和 IF2: (5.27)

5.7.4 盒形圖 盒形圖如圖5.7所示: 圖5.7 含有內柵的盒形圖

5.8 相對離勢量數 相對離勢量數(measures of relative dispersion):比較相同或不同單位變項間相對變異情形的統計量,例如變異係數(coefficient of variation)。 變異係數(coefficient of variation) C.V.:標準差和算術平均數的比值: (5.28) 變異係數沒有單位,變異係數大者,該變項分散程度或差異性較大。

5.9 偏態資料的處理 偏態資料來源: 1. 資料本身具有偏態的特性 2. 受離群值影響。

5.9.1 資料轉換 轉換前變數 x 和轉換後變數 x (5.29) 或 (5.30)

5.9.2 幾何平均數 幾何平均數 G: (5.31)

5.9.3 截尾算術平均數 截尾算術平均數(trimmed mean)或修剪平均數: (5.32) 此處 (5.33)

5.9.4 Windsorized 算術平均數 Windsorized 算術平均數計算步驟如下: 1. 求出 Q1 和 Q3。 4. 計算修改後的算術平均數。 5. 此種算術平均數稱為Windsorized 算術平均數 (Windsorized mean)。

5.10 例 題

5.10 例 題

5.11 結 語 1. 常態分布資料,算術平均數具有足夠代表性,使用母數統計法是最佳選擇。 5.11 結 語 1. 常態分布資料,算術平均數具有足夠代表性,使用母數統計法是最佳選擇。 2. 偏態分布資料,將資料轉換、刪除或修改成常態分布,然後使用母數統計法推論和分析。 3. 不能轉換或修改偏態分布資料,中位數比算術平均數更具代表性,使用無母數統計法是最佳的選擇。

5.11 結 語 4. 算術平均數搭配變異數或標準差,中位數通常四分位數或全距。 5. 中位數和眾數是研究質性資料的重要統計量。