Descriptive statistics

Slides:



Advertisements
Similar presentations
2007 年广州市初中信息技术 结业考试海珠区质量分析 海珠区教育发展中心 范谊 2007 年 9 月 8 日.
Advertisements

数 理 统 计 华南农业大学理学院应用数学系 Statistics Applied Mathematic Department, College of Sciences, SCAU.
心理与教育测量学 贵州师范大学教育科学学院 赵守盈.
SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
資料分析 ---敘述統計分析.
資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作 商管研究資料分析SPSS的應用 Chapter 1 資料概說.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
第一章 生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系,其涉及哪些内容 1.
概率论与数理统计 课件制作:应用数学系 概率统计课程组.
第一章 緒論.
张博恒 MD, PhD 复旦大学循证医学中心 国际临床流行病学上海培训中心
8+2-3=? 統計 吳函儒、李雅芳 吳秉蓉、王農景 - =
香港快樂指數 Hong Kong Happiness Index 2009
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
第 1 章 資料與統計.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
第一章、統計的基本概念 國立高雄餐旅大學 沈瑞棋副教授.
統計學 授課教師:林志偉 Tel:5021.
Population proportion and sample proportion
第四章 單變量描述性分析 第一節 描述性統計原理 第二節 報告(Reports)
初級統計學 陳信如.
第十四章 数值变量的统计描述.
第 3 章 敘述統計:數值方法.
第七章 SPSS的非参数检验.
Continuous Probability Distributions
第 5 章 樣本資料的數值分布.
Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用
Properties of Continuous probability distributions
Sampling Theory and Some Important Sampling Distributions
敘述統計-資料的特性 Properties of Variable
實驗室通風.
Chapter 9 Intelligence.
第一章 敘述統計學.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
圖表製作 集中指標 0628 統計學.
第四章 SPSS的基本统计分析.
Interval Estimation區間估計
本章重點: 一、集中量數的意義和種類 二、算術平均數 三、中位數(中數) 四、眾 數 五、其他集中量數 六、SPSS12.0實務操作
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Workshop on Statistical Analysis
描述性统计学 作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)
生物統計 1 課程簡介 (Introduction)
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
Introduction to Basic Statistics
EXCEL+ORIGN+SPSS的描述统计
抽樣分配 Sampling Distributions
相關統計觀念復習 Review II.
Introduction to Basic Statistics
Chapter 04 流程能力與績效分析.
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
Dr. C. Hsieh College of Informatics Kao yuan University
Chapter 5 z-Scores.
統計學簡介 許明宗.
統計學回顧 區國強.
Review of Statistics.
(四)标准差(standard deviation)
楊志強 博士 統計學 楊志強 博士
第7章 基本统计分析 2019/5/14.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
第七章 计量资料的统计分析.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
SAS 統計程序實作 PROC MEANS (一個母體)
Presentation transcript:

Descriptive statistics for one variable 描述性统计

统计方法的类型 Inferential Statistics 对数据来自的总体分布进行推断 Descriptive Statistics 通过数值和图的方式,清楚明了地对样本数据进行总结描述 Inferential Statistics 对数据来自的总体分布进行推断

描述什么? 数据的“位置”或者“中心” (“measures of location”) 数据的波动 (“measures of variability”).

使用统计方法的原因 有助于总结信息 有助于了解当前数据内在特点 有助于从数据中导出“信息” 有助于交流

数据的类型 根据测量的尺度不同,可以分为: 名义尺度:Nominal scales are read as discrete measurements at each level (no ordering) 顺序尺度:Ordinal measures show tendencies, but categories should not be compared (ordering exists, but not distance) 区间尺度:Interval (distance exists, but no ratios) 比例尺度: ratio scales (ratios exist) all for comparison among categories

Frequency distribution 频率分布

频率分布 频率分布是描述一组数据最常用的(图形)工具之一,它有时候也通过罗列观测数据的频率表来表示。 特点 频率分布是描述一组数据最常用的(图形)工具之一,它有时候也通过罗列观测数据的频率表来表示。  特点 可以通过直方图、密度直方图、累计频率分布图等等表示 可以描述数据的分布特点 可以推测总体的特征

例:开车最快速度调查数据

分类数据的盒形图

Source: Protecting Children from Harmful Television: TV Ratings and the V-chip Amy I. Nathanson, PhD Lecturer, University of California at Santa Barbara Joanne Cantor, PhD Professor, Communication Arts, University of Wisconsin-Madison

Source: http://www.elonka.com/kryptos/ Web page on cryptography

Source: Cornell University website

Source: www.cit.cornell.edu/computer/students/bandwidth/charts.html

The percentage of online searches done by US home and work web surfers in July 2006

NY Times

Old Faithful Geyser

Duration in seconds of 272 eruptions of the Old Faithful geyser. library(datasets) > faithful[1:10,] eruptions waiting 1 3.600 79 2 1.800 54 3 3.333 74 4 2.283 62 5 4.533 85 6 2.883 55 7 4.700 88 8 3.600 85 9 1.950 51 10 4.350 85 > summary(faithful) eruptions waiting Min. : 1.600 Min. : 43.0 1st Qu. : 2.163 1st Qu.: 58.0 Median : 4.000 Median : 76.0 Mean : 3.488 Mean : 70.9 3rd Qu. : 4.454 3rd Qu.: 82.0 Max. : 5.100 Max. : 96.0

正态分布 总体中的许多特征都依“正态”的形式分布 正态曲线有很好的统计性质 Parametric statistics are based on the assumption that the variables are distributed normally Most commonly used statistics This is the famous “Bell curve” where many cases fall near the middle of the distribution and few fall very high or very low I.Q.

Statistical properties of the normal distribution

I.Q. distribution

“中心”的度量 众数,Mode (Mo): 样本数据中出现次数最多的点 中位数,Median (Md): 样本数据的中点. good for nominal data 中位数,Median (Md): 样本数据的中点. (50% cases above/50% cases below) – insensitive to extreme cases --Interval or ratio Source : Reasoning with Statistics, by Frederick Williams & Peter Monge, fifth edition, Harcourt College Publishers.

“中心”的度量 样本平均值(Mean) 样本分位数 有很多良好的统计性质 许多统计方法是基于平均值的 常见1/4, 3/4分位数 但是对极值点敏感 许多统计方法是基于平均值的 样本分位数 常见1/4, 3/4分位数 对极值点不敏感

Index of central tendency Source: http://www.uwsp.edu/psych/stat/5/skewnone.gif

例:开车最快速度调查数据 Sex N Mean Median TrMean StDev SE Mean female 126 91.23 90.00 90.83 11.32 1.01 male 100 96.79 110.00 105.62 17.39 1.74 Minimum Maximum Q1 Q3 female 65.00 120.00 85.00 98.25 male 75.00 162.00 95.00 118.75

Source: Scianta.com

Source: www.wilderdom.com/.../L2-1UnderstandingIQ.html

Source: CSAP’s Data Pathways

“散布”程度的度量 研究数据的散布程度 具有相同中心的不同数据集,散布可以不同 为了解数据集的散布程度,我们需要计算每个数据到中心的距离 和均值一样,仅对区间尺度或者比例尺度下的数据有意义

“散布”程度的度量 Range 样本数据的最大值与最小值之间的距离; 一般和其他工具一起用来描述数据的散布程度 对极值点敏感; IQR:3/4-quantile-1/4quantile 一般和其他工具一起用来描述数据的散布程度

Range Source: www.animatedsoftware.com/ statglos/sgrange.htm

Source: http://pse.cs.vt.edu/SoSci/converted/Dispersion_I/box_n_hist.gif

Measures of dispersion 样本方差,Sample Variance (S2) Average of squared distances of individual points from the mean High variance means that most scores are far away from the mean. Low variance indicates that most scores cluster tightly about the mean. 

标准偏差(SD) A summary statistic of how much scores vary from the mean Square root of the Variance expressed in the original units of measurement Used in a number of inferential statistics

方差 vs. 标准偏差 Variance Standard Deviation Population Sample

分布的偏度 度量数据的分布偏斜程度 中位数和平均值不同时,意味着数据的分布有偏. 当偏斜很严重时候,经常需要对数据进行变换(因为很多统计方法是基于正态假设的)

Different Shapes of Distributions Source: http://faculty.vassar.edu/lowry/f0204.gif

Skewness of distributions Source: http://www.polity.org.za/html/govdocs/reports/aids/images/image022.gif

Distribution of posting frequency on Usenet

峰度 Kurtosis