第1章 统计学的基本概念 什么是统计学 基本概念
学习目的 什么是统计学? 理解统计学的一些基本概念,包括总体、样本、变量、数据、参数与统计量等
第1节 什么是统计学
一、统计学的定义 统计学是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法( Gudmund R. Iversen, Mary Gergen )。 统计学指是一种方法,用来设计实验、获得数据,然后在这些数据基础上组织、概括、演示、分析、解释和得出结论(Mario F.Triola,《初级统计学》) 。 统计是一门收集、分析、解释和提供数据的科学(韦伯斯特国际辞典第3版)。
统计学是:“关于收集和分析数据的科学与艺术(art)”(不列颠百科全书)。 统计学是一门关于使用科学方法收集、整理、汇总、描述和分析数据资料,并在此基础上进行推断和决策的科学( M. R. 斯皮格尔,L. J. 斯蒂芬斯)。
什么是统计学? 数据收集 数据分析 数据显示 数据特征 分析数据 决策制定 e.g. 调查 为什么? e.g. 统计图和统计表 © 1984-1994 T/Maker Co. 决策制定 © 1984-1994 T/Maker Co.
什么是统计学? 统计学是收集、分析、描述和解释数据的科学,其内容包括数据收集、数据整理、数据分析、数据解释。 Statistics: the science of collecting, organizing, and interpreting data.
Statistics is the science and art, which studies how to collect, organize, analyze and interpret data reflecting social, economic and management problems, and makes statistical inference on the research objectives . Statistics is the science dealing with the collections, analysis, interpretation and presentation of masses of data.(Webster 国际大词典)
统计学 统计学 统计学是一系列从数据中获取有用信息以帮助决策的原理和方法。 Statistics is a collection of procedures and principles for gathering data and analyzing information in order to help people make decisions when faced with uncertainty. 统计学
二、统计学的分类 美国数学学会出版的《数学评论》中对统计学的分类: A.基础; B.充分性和信息; C.决策理论; D.抽样理论和抽样调查; E.分布理论; F.参数推断; G.非参数推断; H.多元分析; I.线性推断; J.试验设计; K.序贯分析; L.随机过程推断; M.工程统计学; N.应用; O.统计表
统计学与其他学科的关系
1、统计学与数学 数学是统计学发展的重要理论基础。 统计学不是数学分支,统计学与数学是两门不同的学科。 统计学与数学有交叉。
2、统计学与其他学科的关系 统计学可为各具体的应用领域提供数据分析工具。 统计学只能为各学科提供数据分析的工具,而分析所存在的问题和解决问题则必须依靠各学科的专业知识。
统计学与其他学科 方法论和理论解说 当人类科学家在探索问题的丛林中遇到难以逾越的障碍时,惟有统计学工具可以为其开辟一条前进的道路 ———Galton F. 统计学基本是寄生的,靠研究其他领域的工作而生存,这不是对统计学表示轻视,这是因为对很多寄主来说,如果没有寄生虫就会死,对有的动物来说,如果没有统计学,虽然不会死亡,但一定会变得很弱。 ———Salvage L. J.
第2节 基本概念 总体、总体单位和样本 标志、变量及其测度 指标与指标体系 数据及其类型 参数和统计量
统计分析过程 基于统计或实际观察提出假设(问题) 概念的可操作型定义 样本 统计推断 总体 调查 实验设计 结果发现,对总体进行分析 抽取样本或受试者 调查 实验设计 数据收集 数据整理 编制图表、统计描述 解释 样本 数据是总体或样本 统计推断 总体 结果发现,对总体进行分析
一、总体、总体单位和样本 总体(population) the set of all items of interest in a statistical problem 总体包含所研究的全部个体(或数据)的集合 ; 统计意义上的总体,通常不是一群人或一些物品的集合,而是一组数据。 样本(sample) a subset of population 从总体中抽取的一部分元素的集合 。
总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。 统计总体和总体单位 由客观存在的、在同一性质基础上结合起来的许多个别单位所形成的集合 统计 总体 具有客观性、大量性、同质性、变异性、相对性等特点 总体 单位 指构成总体的个体即每一个单位 总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。
总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。 总体、总体单位 总体、总体单位 总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。
统计总体的种类 有限总体 无限总体 大总体 小总体 可加总体 不可加总体 指所包含的单位数目有限的总体 指所包含的单位数目无限的总体 指大总体的各组成部分 可加总体 不可加总体 指总体单位可以合计的总体 指总体单位不能合计的总体
二、标志和变量 标志 指总体单位所具有的属性和特征,标志的具体表现称为标志值 品质标志 是表明事物“质” 的特性的标志 数量标志 是表明事物“质” 的特性的标志 是表明事物“量” 的特性的标志 其中,可变的数量标志又被叫作变量 统计研究是从登记标志开始,并通过对标志的综合来反映总体的数量特征,因此标志是统计研究的起点。
标志 标志值 性别 男 品质标志 文字表述 民族 汉族 宗教信仰 佛教 政治倾向 无党派 年龄 数量标志 43岁 数据表述 身高 182cm 体重 男 汉族 佛教 无党派 43岁 182cm 75公斤 品质标志 文字表述 数量标志 数据表述
标志和变量 不变标志 总体单位标志 品质标志 数量标志 (变量) 变异标志 不变标志决定总体的同质性 (标志表现无差别) (标志表现有差别) 数量标志 (变量) 变异标志决定总体的差异性
变量的种类 区分变量的意义 确定性变量 随机变量 连续型变量 离散型变量 如何描述(规模、集中趋势等) 如何推断(估计、检验等) 度量取得、重叠组限、连续分布、概率密度函数 计数取得、间断或连续组限、离散分布(二项分布、泊松分布等) 连续型变量 离散型变量
确定性变量 指受确定性因素影响的变量 总收入-总成本费用=企业利润 明确的、可解释的、人为的或者受人控制的因素 总收入↓-总成本费用↓=企业利润(↑或↓) 总收入↑-总成本费用↓=企业利润(↑) 总收入↓-总成本费用↑=企业利润(↓) 总收入↑-总成本费用↑=企业利润(↑或↓)
随机变量 周一下午1时~3时的股票成交量 指受随机因素影响的变量 不确定的、偶然的、非人为控制的、不可解释的因素 行情预期、各种消息、购买行为、资金数量、新股上市、其它… 周一下午1时~3时的股票成交量
连续型变量 在一个区间内可以连续不断取值的变量 人的身高、体重、年龄 需要使用度量工具取值 产品的产量(重量、体积、面积等),产值、销售额等价值量 需要使用度量工具取值 165 166 165.1 165.2 ● 身高的例子:
离散型变量 特定范围的人口数、汽车数量、企业数量、林木株数、畜禽数量等等 其一切可能取值都以整数形式出现,并可以一一列举的变量 取值不需要用工具度量,用计数的方式即可
在统计学中,为便于叙述,也有时把标志值抽象化,把原总体与反映总体单位特征的变量等同起来,把变量值的集合看成总体,每一个变量值也就是一个总体单位。
变量(variable) 1、什么是变量? A VARIABLE is a characteristic of interest for the elements 说明研究对象某种特征的概念 ; 我们给所要研究的事物起的名字 。
2、特点: 从一次观察到下一次观察,该特征会呈现出差别或变化; 从一个个体到另一个个体,该特征会呈现出差别或变化; 不能用一个常数来表示 。
变量的测量尺度 测量(measurement) 统计测量(statistic measurement) 测量的主要步骤 变量的测量尺度 (Levels of Measurement)
(一)测量(measurement) 用仪器确定空间、时间、温 度、速度、功能等的有关数值。
(二)统计测量 (statistic measurement) 在管理研究中,经常需要测定各种变量。 按照一定的规则,用数字和符号来表示某一社会现象的属性和特征。
测量在管理研究中的地位 在管理研究中,测量处于整个研究中非常关键的地位。 只要是定量研究,一般来说就必须要对相关变量进行测量,它是提出假设之后的后续工作,也是检验假设的必要前提。 测量的主要作用在于作出准确的分类和比较。通过一定工具进行的测量往往比仅靠人自身感觉的测量要精确得多。 运用某种方法使自然或社会经济现象量化。
(三)测量的主要步骤 要把测量对象以概念的形式表示出来,或形成概念化认识。 对概念进行操作化加工,将它们变为可测量的变量。 用测量工具对测量对象进行经验观察,这是“数据收集”的任务。 测量的工具:测量尺度、量表
(四)变量的测量尺度 统计学中,通常将测量分为: 1968年,美国统计学家斯蒂文斯按照变量的性质和数学运算的特点,将变量的测量尺度分为定类、定序、定比和定距 。 统计学中,通常将测量分为: Scale(定比测量,或定距测量) Ordinal (定序测量,或顺序测量) Nominal (定类测量,或名义测量)。
变量的测量尺度与类型 定类尺度 精 确 程 度 定序尺度 定距尺度 定比尺度 俱乐部: 休斯顿火箭 健康状况: 良好 出生年份: 1980 体重: 134公斤
1、定类尺度 (Nominal Scale) 例如:性别、民族、职业 变量的取值表现为“类别” 各类之间无等级次序 各类别可以用数字代码、字母表示 根据定类尺度得到的数据为分类数据。
2、定序尺度(Ordinal Scale) 例如健康状况、质量等级 变量的取值表现为“类别” 可对等级、大小等排序 未测量出类别之间的准确差值 根据定序尺度得到的数据为顺序数据。
3、定距尺度 Interval Scale 例如年份、摄氏温度 变量的取值表现为“数值” 可以进行加减运算 “0”是只是尺度上的一个点,不代表“不存在”
4、定比尺度 Ratio Scale 例如体重、身高 变量的取值表现为“数值” 可以进行加减、乘除运算 “0”表示“没有”或“不存在”
定距尺度与定比尺度的区别 定距尺度中“0”表示一个具体数值,不表示“没有”或“不存在”,定比尺度中“0”表示“没有”或“不存在” 。 0 ℃ - 273.15℃ -123.15 ℃ 26.85℃ 定比尺度 0K 150K 300K
定距尺度与定比尺度的区别 在实际应用中定距尺度与定比尺度差别微不足道,往往不作区分。 例如在SPSS中,数据的测量尺度被分为3类: Nominal Ordinal Scale
四种测量尺度的对比 测定尺度 特征 运算功能 举例 计数 计数;排序 计数;排序; 加减 乘除 定类测量 定序测量 定距测量 定比测量 分类 分类;排序 分类;排序; 有基本测量单位 有基本测量单位; 有绝对零点 产业分类 企业等级 产品质量 差异 商品销售 额
× 对于不同的现象,注意准确性 宗教、种族、民族、性别、党派、国别、职业等等品质方面的差异 四种测量尺度的正确运用 定类测量 定序测量 定距测量 定比测量 ×
对于人的主观态度,定序尺度可能是最好的方法 四种测量尺度的正确运用 对于人的主观态度,定序尺度可能是最好的方法 对于不同的现象,注意准确性 定距以上的尺度不一定合适 你对圣亚海洋世界的评价
文盲半文盲、小学、初中、高中、大专、大学本科、硕士研究生、博士研究生 四种测量尺度的正确运用 对数量差异的度量,注意层次 博士研究生 顺序性差异、绝对差异距离、相对差异 文盲半文盲、小学、初中、高中、大专、大学本科、硕士研究生、博士研究生 (定序测量) 定比测量 顺序性差异、绝对差异距离 定距测量 顺序性差异 定序测量 文盲半文盲 对受教育程度的度量方法
对测量尺度层次的判断 低 测量精度 高 较低层次的测量尺度 较高层次的测量尺度 少 计算方法 多 小 信息数量 大
注意 在自然或社会经济领域里,单纯的定距变量是很少的,绝大多数定距变量同时也是定比变量。 定距测量与定比测量的区别只在理论上有意义,在实际工作中常将二者归为一类。
变量的分类 变量类型、特别是变量结果的数据类型,是数据分析时选择统计学方法的重要依据。 定类变量 定序变量 数值型变量
1、定类变量 (categorical /nominal variable) 又称分类变量、名义变量 说明事物类别的一个名称。 身份证号、学号、班号、性别、企业性质、账户、籍贯,血型、星座;
性别 种族 运动项目
2、定序变量(rank /ordinal variable) 又称顺序变量、等级变量、有序变量 说明事物有序类别的一个名称。 奖牌、意见、成绩、受教育水平、满意程度、空气污染指数、风力、产品质量;
> 大学生 中学生 小学生 - ≠ ≠
3、数值型变量 (metric /scale variable) 又称定量变量、数量变量 说明事物数字特征的一个名称。 产量、销售额、年龄; 贸易额,FDI,汇率,价格;
温度 天气预报:长沙:最高温度12℃,最低7℃ 大连:最高温度6℃,最低-2℃ 两地最高温度相差6℃ 长沙最低温度较大连最低温度低9℃ 长沙最高温度是大连最高温度的2倍
二人年龄 之差:1986-1971=15岁 或 30-15=15岁 二人年龄之比:30÷15=2(倍) 甲 乙 1971年出生 1986年出生 30岁 15岁 二人年龄 之差:1986-1971=15岁 或 30-15=15岁 二人年龄之比:30÷15=2(倍) 1986÷1971=1.0076(倍)
定性变量与定量变量 象性别,观点之类的取非数量值的变量就称为定性变量(或属性变量,qualitative variable); 当变量按照随机规律所取的值是数量时,该变量称为定量变量或数量变量(quantitative variable)。
不同类型变量间关系 定量变量 定序变量 定类变量 例:一组2040岁成年人的血压 8 正常血压 12 轻度高血压 15 中度高血压 <8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压 定序变量 以12kPa为界分为正常与异常两组 定类变量
三、指标与指标体系 ★
综合性 数量性 具体性 统计指标 构成要素: 性质: 反映社会经济现象总体数量特征的概念及其具体数值 计算方法 时间限制 空间限制 具体数值 计量单位 指标名称 570 1999年末 大连市 总人口 万人 性质: 综合性 数量性 具体性
统计指标的性质 数量性 具体性 综合性
× 数量性:统计指标是数量范畴,“没有没有数量的指标”。 某系男生数量占全系学生数的比重为100% 某系学生的性别为男 “男”不是数量,因此这不是指标,而是标志。
具体性:总体在具体时间、地点、条件下的数量特征,即统计指标“质的规定性”。 住本地(乡、镇、街道),户口在本地; 住本地半年以上,户口在外地; 住本地不满半年,离开户口登记地半年以上; 住本地,户口待定; 原住本地,现在国外工作或学习。 常住人口 指标解释
综合性:对总体数量特征的综合说明,是由个体数量综合而来的。 赵大60分+钱二78分+孙三80分+李四55分+……+上官95分+欧阳76分 全班学生数 平均分数
标志与指标的联系与区别: 联系: (1)标志是总体指标的来源和基础,指标则是标志的综合。 (2)数量标志与指标之间存在着变换关系。
区别: (1)标志是说明总体单位特征的,指标则是说明统计总体数量特征的。 (2)有的标志用数值表示,有的标志用文字表示,而指标都是用数值表示的。
统计指标的基本分类 数 量 指 标 统 计 指 标 质 量 指 标 实物指标 价值指标 总量指标 时期指标 劳动指标 相对指标 时点指标 (吨、台等) 统计指标的基本分类 数 量 指 标 价值指标 (元、美元等) 总量指标 (单一计量单位) 时期指标 (一段时期累计总 量及据此计算的 相对、平均指标) 统 计 指 标 劳动指标 (工、台时等) 相对指标 (无计量单位) 质 量 指 标 时点指标 (瞬间的总量及 据此计算的相 对、平均指标) 平均指标 (双重计量单位) 按时间特征 分类 按表现形式 分类 按内容特征 分类 按计量单位 分类
数量指标: 反映的是所研究总体的规模和水平,其大小取决于总体单位数目的多少及其标志水平的高低。 质量指标: 反映的是与总体单位数相对应的标志的平均水平或其它数量对比关系。
具有某种内在联系的一系列统计指标所构成的整体 统计指标体系 存在确定的数量关系: 产量× 价格=产值 存在某种共同性: 产销比率、盈利水平、劳动效率、偿债能力
指标体系的作用: 全面、综合地对客观事物进行描述、分析。 国家统计局制订的工业企业综合经济效益评价指标体系: 财政部制订的企业经济效益评价指标体系: 销售利润率 总资产报酬率 资本收益率 资本保值增值率 资产负债率 流动比率 应收账款周转率 存货周转率 社会贡献率 社会积累率 国家统计局制订的工业企业综合经济效益评价指标体系: 总资产贡献率 资本保值增值率 资产负债率 全员劳动生产率 成本费用利润率 流动资产周转率 产品销售率
四、参数和统计量 参数(parameter) 研究者想要了解的总体的某种特征值 所关心的参数主要有总体均值()、标准差()、总体比例()等 总体参数通常用希腊字母表示 统计量(statistic) 根据样本数据计算出来的一个量 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等 样本统计量通常用小写英文字母来表示
总体 样本 统计量 x s p 平均数 标准差 比例 参数
总 体 样 本 统 计 量 描述 作出推断 随机 抽样