Presentation is loading. Please wait.

Presentation is loading. Please wait.

第五章 抽样调查 第一节 抽样调查概述 第二节 抽样调查的数理基础 第三节 抽样误差与参数估计 第四节 抽样调查的组织方式

Similar presentations


Presentation on theme: "第五章 抽样调查 第一节 抽样调查概述 第二节 抽样调查的数理基础 第三节 抽样误差与参数估计 第四节 抽样调查的组织方式"— Presentation transcript:

1 第五章 抽样调查 第一节 抽样调查概述 第二节 抽样调查的数理基础 第三节 抽样误差与参数估计 第四节 抽样调查的组织方式
第五章 抽样调查 第一节 抽样调查概述 第二节 抽样调查的数理基础 第三节 抽样误差与参数估计 第四节 抽样调查的组织方式 2017/3/18

2 一是通过全面调查方式,如普查、全面统计报表等。
总量指标 相对指标 反映总体数量特征 综合指标 平均指标 变异指标 如何取得总体指标数据? 一是通过全面调查方式,如普查、全面统计报表等。 二是通过抽样调查(即抽样推断)方式。 2017/3/18

3 . 第一节 抽样调查概述 一、抽样调查的概念、特点及作用 二、抽样调查中的基本概念 三、抽样调查的一般步骤 2017/3/18

4 一、抽样调查的概念、特点及作用 (一)抽样调查的概念 (二)抽样调查的特点 (三)抽样调查的应用场合 (四)抽样调查推断总体的两种类型
2017/3/18

5 (一)抽样调查的概念 抽样调查是以概率论和数理统计理论为基础,按照随机原则从调查总体中抽取一部分单位作为样本进行调查,再用样本数值,对总体数量特征作出具有一定可靠程度的推断。 也称为抽样推断、抽样估计或统计推断,是一种非全面调查。 2017/3/18

6 【例】要得到某厂生产10000只灯泡的平均耐用时间,就只能采用抽样调查的方法,从中随机抽取100只灯泡组成样本,对样本进行检验。
  【例】要得到某厂生产10000只灯泡的平均耐用时间,就只能采用抽样调查的方法,从中随机抽取100只灯泡组成样本,对样本进行检验。 总体 样本 抽样 N =10000 n = 100 推断 (样本指标) (总体指标) 2017/3/18

7 ⑴能使样本分布与总体分布相同或相近,使样本代表性变强。
(二) 抽样调查的特点 1、实施随机抽样,即按照随机原则从总体中抽取样本,使各个调查单位被抽中的概率相等。 2、调查目的是根据样本指标来推断总体; 3、在调查之前可以计算出抽样误差和控制大小; 4、运用概率对总体进行估计和推断。 实施随机抽样的原因: ⑴能使样本分布与总体分布相同或相近,使样本代表性变强。 ⑵能使样本统计量成为具有一定分布规律的随机变量,可以根据样本统计量的分布规律,运用概率理论对抽样调查结果的误差进行计算和评价。 2017/3/18

8 ⒈用于不能用全面调查方式进行调查的现象。
(三)抽样调查的应用 ⒈用于不能用全面调查方式进行调查的现象。 如调查某地区的矿藏、某城市的空气质量等。 ⒉用于通过全面调查后结果将失去意义的现象。 如炮弹射程的测量,电视、灯泡等耐用时数的检验等属于破坏性调查。 ⒊用于经全面调查后成本过高或调查精度要求不高的现象。 如某市居民家计调查,某林区的木材储存量调查等。 2017/3/18

9 如为满足领导机关及时制订政策、安排工作需要而进行的民意测验,某农产品的产量调查等。
⒋用于调查时效性要求较强的现象。 如为满足领导机关及时制订政策、安排工作需要而进行的民意测验,某农产品的产量调查等。 5.用于修正全面调查的结果。 如在人口普查结束后,运用抽样调查的方法对普查结果进行修正等。 1994年,我国确立了以周期性普查为基础,以经常性抽样调查为主体,同时辅之以重点调查、科学核算等综合运用的统计调查方法体系,抽样调查的主体方法地位得以正式确立。 2017/3/18

10 (四)抽样调查推断总体的两种类型 一类是参数估计:研究的是用样本指标(统计量)估计总体指标(参数)的方法。 一类是假设检验: 它是先对总体参数或特征提出一个假设,然后利用样本信息去检验这个假设是否成立。如果成立,就接受这个假设;如果不成立,就放弃这个假设。 例: 【例】对可口可乐公司生产的一种瓶装雪碧产品进行检查,包装上标明其净含量是500ml。在市场上随机抽取了50瓶,测得到其平均含量为499.5ml,标准差为2.63ml。根据这些数据可以进行: 一是参数估计:用95%的概率保证,该种包装的雪碧平均含量在 ml之间; 二是假设检验:根据样本数据结合统计分布规律,对 “该种瓶装雪碧重量不符合所标明的重量”假设进行否定或肯定。 2017/3/18

11 二、抽样调查中的基本概念 (一)抽样调查中常用的指标 (二)抽样方法 (三)抽样框 (四)样本的可能个数 2017/3/18

12 1、总体与总体指标 总体:即根据研究目的确定的所要研究的同类事物的全体,也称为全集总体、母体。
总体单位:组成总体的各个单位,也称为个体或子体。 总体容量:总体单位的总数,一般用“N”表示。 2017/3/18

13 总体指标,或总体参数:它是用来反映总体数量特征的指标。
注意:由于总体是唯一确定的,所以总体指标也是唯一确定的,但又是未知的,需要用样本指标来估计。 总体 是唯一确定的 总体参数 总体参数的具体形式见后表:抽样调查中常用的指标 2017/3/18

14 样本:也称为抽样总体,是从总体中按随机原则抽取出来的一部分单位的组成集合体,作为总体的代表。
2、样本与样本指标 样本:也称为抽样总体,是从总体中按随机原则抽取出来的一部分单位的组成集合体,作为总体的代表。 样本容量:样本中包含的单位数,一般用n表示。 n≥30为大样本,n<30为小样本 由于抽样方法和样本容量的不同,从一个总体中可以抽出许多个不同的样本。在实际调查时,一般只从总体中抽取一个或几个样本进行调查,哪一个样本被抽到完全是随机的。 总体 样本k 是唯一确定的 不是唯一确定的 2017/3/18

15 样本指标,也称为样本统计量、估计量:是根据样本中各个单位数据计算的反映样本特征的指标。
样本指标是随机变量,它会随着样本的不同而有不同的取值。 抽样调查中常用的指标: 总量指标 平均数(均值) 方差或标准差 成数或比例(是非标志比重) (计算公式见下表) 注意:总体指标(参数)和样本指标(统计量)是一一对应的。 2017/3/18

16 表5-1 抽样调查中常用指标及计算公式 参数(总体指标) 统计量(样本指标) 变量 总 体 变量 样 本 总体平均 数 样本平均 数
表 抽样调查中常用指标及计算公式 参数(总体指标) 统计量(样本指标) 变量 变量 总体平均 数 样本平均 数 总体标准 差 样本标准 差 属性 属性 样本平均 数 总体平均 数 总体成数 样本标准 差 总体标准 差 性质 性质 是随机变量,它会随着样本的不同而有不同的取值 是唯一确定的 2017/3/18

17 (二)抽样方法 重复抽样 不重复抽样 2017/3/18

18 1、重复抽样 (重置抽样,有放回的抽样) (即每次抽取是独立的,条件相同)
即指要从总体的N个单位中随机抽取一个单位数为n的样本,每次抽出一个单位记录其特征后,再放回总体中参加下一次抽选。这样连续抽n次即得到所需样本。 (即每次抽取是独立的,条件相同) 2017/3/18

19 2、不重复抽样(不重置抽样,无放回的抽样)
即每次从总体N个单位中随机抽出一个单位后,就不再放回总体中,下一个样本单位再从余下的总体单位中抽取。这样连续抽n次即得到一个单位数为n的样本。 (即每次抽取不是独立的,条件不同) 2017/3/18

20 此外,从抽取样本的随机性看,分为两类形式:
概率抽样(随机抽样):是指按照随机原则抽取样本单位。 非概率抽样(非随机抽样):是指调查单位的抽取是非随机的。 重点调查、典型调查、方便抽样中单位的选取就属于非随机抽样形式。在抽样调查中有时也采用非概率抽样方式抽取样本。 2017/3/18

21 (三)抽样框 抽样框是包括全部总体单位名单的框架。 实施概率抽样必须具备抽样框。 抽样框的形式有: 区域,以小区域为抽样单位。
名单抽样框:列出全部单位名单的一览表。 区域抽样框:按地理位置将总体范围划分为若干小的 区域,以小区域为抽样单位。 时间表抽样框:将总体全部单位按时间顺序排列,把总 体的时间分为若干小段时间,以各个小 段的时间单位为抽样单位。 2017/3/18

22 (四)样本的可能个数 它是指从总体N个单位中随机抽选n个单位构成样本,结果有排列组合,一种排列组合便构成一个可能的样本,排列组合的总数称为样本的可能个数。 【例】假设总体有A、B、C、D、E五个单位,现纯随机重复抽取2个单位组成样本,求全部可能样本个数。 (N = 5 n = 2) 2017/3/18

23 (1)在 n 次抽样中,总体每个单位在各次抽样中被抽取的概率都相同(即均为 1/N );
解: 第一次抽取: (抽后放回) AA AB AC AD AE BA BB BC BD BE CA CB CC CD CE DA DB DC DD DE EA EB EC ED EE 第二次抽取: 即: 则所有可能的样本个数为: 重复抽样的特点: (1)在 n 次抽样中,总体每个单位在各次抽样中被抽取的概率都相同(即均为 1/N ); (2)共可组成 个样本,每个样本在各次抽样中被抽取的概率都相同(即均为1/k) 。 2017/3/18

24 【例】假设总体有A、B、C、D、E五个单位,现纯随机不重复抽取2个单位组成样本,求全部可能样本个数。
(N = 5 n = 2) 解: 第一次抽取: (抽后不放回) — AB AC AD AE BA — BC BD BE CA CB — CD CE DA DB DC — DE EA EB EC ED — 第二次抽取: 则所有可能的样本个数为: 2017/3/18

25 (1)n次抽样中,总体每个单位在各次抽样中被抽取的概率不相同(第1次是1/N,第2次是1/N-1, ··· );
不重复抽样的特点: (1)n次抽样中,总体每个单位在各次抽样中被抽取的概率不相同(第1次是1/N,第2次是1/N-1, ··· ); (2)可组成k = N(N-1) (N -2) ······ (N -n + 1)个样本,每个样本在各次抽样中被抽取的概率都相同(即均为1/k) 。 2017/3/18

26 抽样方法 重复抽样 不重复抽样 考虑顺序 不考虑顺序
可能的样本个数计算公式 抽样方法 重复抽样 不重复抽样 考虑顺序 不考虑顺序 2017/3/18

27 三、抽样调查的一般步骤 设计抽样方案 抽取样本单位 收集样本数据 计算样本统计量 推断总体 界定调查总体 选择收集资料的方式 选择抽样框
确定抽样组织形式 确定抽样方法 确定样本单位数 设计抽样方案 抽取样本单位 抽取样本 评估样本 收集样本数据 计算样本统计量 推断总体 2017/3/18

28 . . 样本 (可以计算) N =10000 n = 100 M个样本 总体 随机原则 推断 (抽样误差) (样本指标) (总体指标)
(无法计算) 抽样实际误差 M个样本 (可以计算) 抽样平均误差 抽样极限误差 概率度 置信度(概率) 2017/3/18 .

29 . 第二节 抽样调查的数理基础 一、概率 二、随机变量及其分布 三、大数定律和中心极限定理 四、抽样分布 2017/3/18

30 一、概率 (一)随机事件 (二)事件的概率 (三)概率的基本性质 2017/3/18

31 (一)随机事件 ⒈随机现象:在一定条件下可能发生也可能不发生的现象。
如,“一分钟内从某十字路口通过30辆汽车” “抛一次硬币,正面朝上”…。 与随机现象相对应的是确定性现象,是指在一定条件下,能够明确预见其结果的现象。 ⒉随机试验:对随机现象进行观察的过程。 ①可在相同条件下重复进行; ②所有可能结果可知; ③事先不能肯定哪一结果出现。 须满足三 个条件: 2017/3/18

32 ①基本事件(样本点):不可能再分的事件; 例如:掷一枚骰子出现的点数,有“1”、“2”…“6”6个
⒊随机事件:随机试验的每一可能结果。 ①基本事件(样本点):不可能再分的事件; 例如:掷一枚骰子出现的点数,有“1”、“2”…“6”6个 ②样本空间 (基本空间):基本事件的全体(Ω)。 一个试验中所有基本事件的集合,用表示 例如:在掷枚骰子的试验中, {1,2,3,4,5,6} 在投掷硬币的试验中,{正面,反面} 2017/3/18

33 ③复杂事件:由某些基本事件组合而成的事件。 ④必然事件:每次试验必然发生的事件(Ω)。
⑤不可能事件:每次试验必然不会发生的事件(φ)。 例如,在掷一枚骰子观察点数的试验中, “出现的点数不超过6”是必然事件; “出现8点”是不可能事件; “出现点数是奇数”是复杂事件,是由若干个基本事件组合而成的。 2017/3/18

34 (二)事件的概率 概率(几率)是指随机事件发生的可能性。事件A的概率是对事件A在试验中出现的可能性大小的一种度量;
事件A的概率表示为P(A); 概率的定义有:古典定义、统计定义和主观概率定义 2017/3/18

35 【例】投掷 2 枚骰子,求 2 枚骰子中至少有一枚出现 6 点,且点数之和为偶数的概率。
⒈古典定义: 某一事件A发生的概率,是该事件所包含的基本事件数 m与基本空间中基本事件总数n 的比值。(客观存在) 【例】投掷 2 枚骰子,求 2 枚骰子中至少有一枚出现 6 点,且点数之和为偶数的概率。 解:A有“(6,2),(6,4),(6,6),(2,6),(4,6)”5种; 2017/3/18

36 【例】某钢铁公司所属三个工厂的职工人数如下表。从该公司中随机抽取1人,问: (1)该职工为男性的概率; (2)该职工为炼钢厂职工的概率。
某钢铁公司所属企业职工人数 工厂 男职工 女职工 合计 炼钢厂 炼铁厂 轧钢厂 4000 3200 900 1800 1600 600 6200 4800 1500 8500 12500 2017/3/18

37 (1)用A 表示“抽中的职工为男性”这一事件;A为全公司男职工的集合;基本空间为全公司职工的集合。则
解: (1)用A 表示“抽中的职工为男性”这一事件;A为全公司男职工的集合;基本空间为全公司职工的集合。则 (2) 用B 表示“抽中的职工为炼钢厂职工”;B为炼钢厂 全体职工的集合;基本空间为全体职工的集合。则 2017/3/18

38 ⒉ 统计定义: 在相同条件下重复进行n次试验,事件A发生m次,随着试验次数n的增大,事件A发生的频率 m/n 围绕某一常数p上下波动的幅度愈来愈小,且逐步趋于稳定,则称p为事件A的概率。(多次试验) (5.2) 如: 2017/3/18

39 【例】投掷一枚硬币,出现正面和反面的频率,随着投掷次数 n 的增大,出现正面和反面的频率稳定在1/2左右
试验的次数 正面 /试验次数 1.00 0.00 0.25 0.50 0.75 25 50 75 100 125 2017/3/18

40 解:上个月30天的记录可以看作是重复进行了30次试验,试验A表示用电超过指标出现了12次。根据概率的统计定义有
【例】某工厂为节约用电,规定每天的用电量指标为1000度。按照上个月的用电记录,30天中有12天的用电量超过规定指标,若第二个月仍没有具体的节电措施,试问该厂第一天用电量超过指标的概率。 解:上个月30天的记录可以看作是重复进行了30次试验,试验A表示用电超过指标出现了12次。根据概率的统计定义有 2017/3/18

41 人们根据经验和所掌握的有关信息,对事件发生的可能性大小给出的估计值。(调查研究)
⒊ 主观定义: 人们根据经验和所掌握的有关信息,对事件发生的可能性大小给出的估计值。(调查研究) 例如,高考填志愿时,某考生估计自己被一本第一志愿录取的可能性为80%;如果一本落榜,被二本第一志愿录取的可能性为99%。 2017/3/18

42 (三)概率的基本性质 非负性 对任意事件A,有 0  P  1 规范性
必然事件的概率为1;不可能事件的概率为0。即P (  ) = 1; P (  ) = 0 可加性 若A与B互斥,则P( A∪B ) = P( A ) + P( B ) 推广到多个两两互斥事件A1,A2,…,An,有 P ( A1∪A2 ∪… ∪An) = P ( A1 ) + P (A2 ) + …+ P (An ) 2017/3/18

43 (四)概率的加法法则(两个) 法则1:两个互斥事件之和的概率,等于两个事件概率之和。假设A和B是互斥事件,则:
法则2:对于任意两个随机事件,它们之和的概率等于两事件的概率之和减去两事件之交的概率。即: 2017/3/18

44 【例】设某地有甲、乙两种报纸,该地成年人中有20%读甲报纸,16%读乙报纸,8%两种报纸都读,问成年人中有百分之几至少读一种报纸? 解:设A={读甲报纸},B={读乙报纸},C={至少读一种报纸},则:       由题意知       于是      即有28%的成年人至少读一种报纸。 2017/3/18

45 二、随机变量及其分布 (一)随机变量 (二)离散型随机变量的概率分布 (三)连续型随机变量的概率分布 (四) 正态分布 2017/3/18

46 (一)随机变量 ⒈随机变量的概念:描述随机现象某一侧面的变量,是对一次试验的结果的数值性描述。 一般用 X、Y、Z 来表示。
⒉随机变量的特点: ①取值的随机性;②取值的规律性。 3.随机变量的种类:根据取值情况的不同分 离散型随机变量 连续型随机变量 2017/3/18

47 (1)离散型随机变量 概念:随机变量 X 取有限个值或所有取值都可以逐个列举出来 X1 , X2,… 离散型随机变量的例子: 试验 随机变量
可能的取值 抽查100个产品 一家餐馆营业一天 电脑公司一个月的销售 销售一辆汽车 取到次品的个数 顾客数 销售量 顾客性别 0,1,2, …,100 0,1,2, … 0,1, 2,… 男性为0,女性为1 2017/3/18

48 (2)连续型随机变量 概念:随机变量 X 取无限个值。 取数轴上某一区间内的任意点。 所有可能取值不可以逐个列举出来。
连续型随机变量的例子: 试验 随机变量 可能的取值 抽查一批电子元件 新建一座住宅楼 测量一个产品的长度 使用寿命(小时) 半年后工程完成的百分比 测量误差(cm) X  0 0 X 100 2017/3/18

49 (二)离散型随机变量的概率分布 pi0 X = xi x1 ,x2 ,… ,xn P(X =xi)=pi p1 ,p2 ,… ,pn
用下面的表格来表示: X = xi x1 ,x2 ,… ,xn P(X =xi)=pi p1 ,p2 ,… ,pn P(X =xi)=pi称为离散型随机变量的概率函数 pi0 2017/3/18

50 X = xi 0 1 2 3 P(X=xi)pi 0.05 0.10 0.55 0.30 2、离散型随机变量的概率分布举例:
【例】如规定打靶中域Ⅰ得3分,中域Ⅱ得2分,中域Ⅲ得1分,中域外得0分。 今某射手每100次射击,平均有30次中域Ⅰ,55次中域Ⅱ,10次中Ⅲ,5次中域外。则考察每次射击得分为0,1,2,3这一离散型随机变量,其概率分布为 As a result of this class, you will be able to ... X = xi P(X=xi)pi 2017/3/18

51 超几何分布 离散型随机变量的概率分布 泊松分布 二项分布
3、离散型随机变量的概率分布的类型 超几何分布 离散型随机变量的概率分布 泊松分布 二项分布 2017/3/18 3

52 (1) 二项分布(0—1分布) 产生二项分布的过程称为贝努里试验。每一次试验只有两个结果的重复试验称为贝努里试验。 贝努里试验的特点:
第一,每次试验只有两种可能结果:成功或失败、是或否… 第二,不管进行多少次,任何一次试验结果的概率是固定的 第三,试验是相互独立的 2017/3/18

53 列出随机变量取这两个值的概率,就形成二项分布。
一个离散型随机变量X只取两个可能的值; 例如: 男性用 1表示,女性用0表示; 合格品用 1 表示,不合格品用0表示 列出随机变量取这两个值的概率,就形成二项分布。 随机变量X服从参数n和p的二项分布,记为: ,其期望值等于 ,其方差等于 。 2017/3/18

54 【例】已知一批产品的次品率为p=0. 05,合格率为q=1-p=1-0. 5=0
0.5 1 x P(x) X = xi P(X=xi)=pi As a result of this class, you will be able to ... 二项分布的概率分布表达式: 2017/3/18

55 (2)泊松分布 泊松分布是一种描述离散型随机变量的概率分布。若 代表离散型随机变量, 值可以取 ,用小写的 表示变量 可能取的某个具体值,则事件恰好发生 次的泊松分布公式为: 式中: ——是 的期望和方差 ——是自然对数的底,约等于 ——是 的阶乘 2017/3/18

56 泊松分布图一般是正偏斜的, 值越小,偏斜度越大,随着 的值的增大,偏斜度逐渐缩小。如左图所示。
泊松分布图一般是正偏斜的, 值越小,偏斜度越大,随着 的值的增大,偏斜度逐渐缩小。如左图所示。 =2 = 3 = 5 = 10 = 15 2017/3/18

57 当二项试验中样本容量 很大而成功的概率 很小时,那么,二项概率一般可以采用泊松分布所产生的相应概率来逼近。为了逼近二项概率分布,可以令 。当 很大而 又很小 ( 为最佳)时,泊松分布就成了二项概率的良好近似方法。 当要研究在指定时间或空间区间内随机现象发生的问题时,比如说,单位时间、单位长度或单位面积上观察到的次品数,或在某一固定时间区间内到达某加油站的顾客数,以及某企业每月发生的工伤事故次数等等,就产生了泊松分布的重要应用。泊松分布可以用于解决指定时间或空间区间内随机现象发生的问题。 2017/3/18

58 (3)超几何分布 若随机变量具有下述概率密度函数,则称为服从 超几何分布
二项分布主要用于计算有限总体重复抽样的概率,而如果在有限总体中进行不重复抽样,就会破坏有关贝努里试验独立性的条件。而超几何分布就是研究不重复抽样的适当的模型。 若随机变量具有下述概率密度函数,则称为服从 超几何分布 2017/3/18

59 (4) 均匀分布 一个离散型随机变量取各个值的概率相同。 列出随机变量取值及其取值的概率,就形成了均匀分布。 2017/3/18

60 【例】投掷一枚骰子,出现的点数是个离散型随机变量,其概率分布为
X = xi P(X=xi)=pi 1/6 1/6 1/6 1/6 1/6 1/6 As a result of this class, you will be able to ... 1/6 P(x) 1 x 2 3 4 5 6 2017/3/18

61 期望值 在描述具体的统计数据时,我们使用均值来描述数据的集中趋势。而期望值是均值的一种推广,它反映随机变量的平均水平。
4、离散型随机变量的数学期望和方差 期望值   在描述具体的统计数据时,我们使用均值来描述数据的集中趋势。而期望值是均值的一种推广,它反映随机变量的平均水平。 方差   除了随机变量的平均水平之外,有时我们还要测定它的离散程度。前面我们曾用方差来描述数据的离散程度。同样,这里我们用随机变量的方差来反映随机变量取值的离散程度。 2017/3/18

62 概念:在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和。
离散型随机变量的数学期望 概念:在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和。 作用:描述离散型随机变量取值的集中程度 公式: 2017/3/18

63 概念:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)。 作用:描述离散型随机变量取值的分散程度 公式:
离散型随机变量的方差 概念:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)。 作用:描述离散型随机变量取值的分散程度 公式: 2017/3/18

64 X = xi 1 2 3 4 5 6 P(X =xi)=pi 1/6 1/6 1/6 1/6 1/6 1/6
例:离散型随机变量的指标计算 【例】投掷一枚骰子,出现的点数是个离散型随机变量,其概率分布为如下。计算数学期望和方差 X = xi P(X =xi)=pi 1/6 1/6 1/6 1/6 1/6 1/6 As a result of this class, you will be able to ... 解:数学期望为: 方差为: 2017/3/18

65 (三)连续型随机变量的概率分布 由于连续型随机变量可以取某一区间或整个实数轴上的任意一个值,它取任何一个特定的值的概率都等于0,所以不能列出每一个值及其相应的概率。通常研究它取某一区间值的概率。 连续型随机变量的概率分布用数学函数的形式和分布函数的形式来描述。 2017/3/18

66 注意:f(x)不是概率,是一种函数 1、概率密度函数的概念 设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件
2017/3/18

67 密度函数 f(x)表示X 的所有取值 x 及其频数f(x)
(值, 频数) 频数 f(x) a b x 2017/3/18

68 在平面直角坐标系中画出f(x)的图形,则对于任何实数 x1<x2,P(x1<Xx2)是该曲线下从x1 到 x2的面积
概率是曲线下的面积 f(x) x a b 2017/3/18

69 2、分布函数 连续型随机变量的概率也可以用分布函数F(x)来表示 分布函数定义为: 根据分布函数,P(a<X<b)可以写为:
2017/3/18

70 3、分布函数与密度函数的图示 f(x) x x0 密度函数曲线下的面积等于1; 分布函数是曲线下小于 x0 的面积。 F ( x0 )
2017/3/18

71 4、连续型随机变量的期望和方差 数学期望为 方差为 2017/3/18

72 5、常见的连续型随机变量的概率分布 指数分布 连续型随机变量的概率分布 正态分布 均匀分布 其他分布 2017/3/18 3

73 (四) 正态分布 1. 正态分布在统计学中的地位 正态分布是统计和抽样的基础,在统计中具有极其重要的理论意义和实践意义,主要表现在:
(1)客观世界中有许多随机现象都服从或近似服从正态分布; (2)正态分布具有很好的数学性质,根据中心极限定理,很多分布的极限是正态分布,在抽样时有些总体虽然不知道其确定的分布,但随着样本容量的增大,很多统计量可以看作近似正态分布;可用于近似离散型随机变量的分布。 (3)尽管经济管理活动中的有些变量是正偏斜的,但并不影响正态分布在抽样应用中的地位。 2017/3/18

74 2、正态分布的概率密度函数 f(x) = 随机变量 X 的频数  = 总体方差  =3.14159; e = 2.71828
 = 总体均值 2017/3/18

75 概率密度函数在x 的上方,即f (x)>0; 正态曲线的最高点在均值,它也是分布的中位数 和众数;
3、正态分布函数的性质 概率密度函数在x 的上方,即f (x)>0; 正态曲线的最高点在均值,它也是分布的中位数 和众数; 正态分布是一个分布族,每一特定正态分布通过 均值的标准差来区分。 决定曲线的高度, 决定曲线的平缓程度,即宽度; 曲线f(x)相对于均值对称,尾端向两个方向无限 延伸,且理论上永远不会与横轴相交; 正态曲线下的总面积等于1; 随机变量的概率由曲线下的面积给出。 2017/3/18

76 平均数μ决定密度函数 f(x)的中心位置。 如图:
4、参数μ和σ对正态曲线的影响 平均数μ决定密度函数 f(x)的中心位置。 如图: 2017/3/18

77 标准差σ决定 f(x)曲线的陡缓程度,σ越大曲线越平缓,σ越小曲线越陡峭。 如图:
2017/3/18

78 正态分布的概率 a b x f(x) 概率是曲线下的面积。 2017/3/18

79 5、标准正态分布 (1)标准正态分布的重要性 一般的正态分布取决于均值和标准差 ,计算概率时 ,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的,若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表即可。 2017/3/18

80 (2)标准正态分布函数 任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布 标准正态分布的概率密度函数 标准正态分布的分布函数
2017/3/18

81 标准正态分布形式  =1 Z 标准正态分布    x m s 一般正态分布 2017/3/18

82 (3)标准正态分布表的使用 将一个一般的转换为标准正态分布,在计算概率时 ,查标准正态概率分布表
对于负的 x ,可由 (-x) x得到; 对于标准正态分布,即X ~ N(0,1),有 P (a X b)  b  a P (|X| a) 2 a 1 对于一般正态分布,即X ~ N( , ),有 2017/3/18

83 x  =5 =10 6.2  =1 Z  0 0.12 【例】设X ~ N(5,10),计算 P(5  X  6.2)
一般正态分布 6.2  =1 Z 标准正态分布  0 0.12 .0478 2017/3/18 查表P= =0.0478

84 【例】设X ~ N(5,10),计算P(2.9  X  7.1) 标准正态分布 一般正态分布 0.1664 .0832
2017/3/18

85 (1) P(X 10) ; (2) P(2<X <10) 解: (1)
【例】设X ~ N(5,32),求以下概率 (1) P(X 10) ; (2) P(2<X <10) 解: (1) As a result of this class, you will be able to ... (2) 2017/3/18 注意:  (-x) x

86 三、大数定律与中心极限定理 (一)大数定律 (二)中心极限定理 2017/3/18

87 (一)大数定律 大数定律是阐述大量随机变量的平均结果具有稳定性的一系列定律的总称。 本节只介绍两个最常用的大数定律。
⒈独立同分布大数定律:独立随机变量x1,x2,…,具有相同分布,且存在有限的数学期望μ和方差σ2,则对于任意小的正数ε,有 2017/3/18

88 该定律表明,当n足够大时,独立同分布的一系列随机变量的均值接近(依概率收敛于)数学期望,即平均数具有稳定性。
2017/3/18

89 例如,调查成年男性的平均身高,可能会有如下结果:
2017/3/18

90 发生(“成功”)的次数,p是事件A在每次试验 中发生的概率,则对于任意小的正数ε,有
⒉贝努力大数定律: 设m是n次独立随机试验中事件A 发生(“成功”)的次数,p是事件A在每次试验 中发生的概率,则对于任意小的正数ε,有 该定律表明,当n足够大时,事件A发生的频率接近于事件A发生的概率,即频率具有稳定性。 2017/3/18

91 (二)中心极限定理 中心极限定理是阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。
独立同分布中心极限定理:设x1,x2,…是独立同分布的随机变量序列,且存在有限的数学期望μ和方差σ2,那么当n→∞时, 2017/3/18

92 该定理表明,不论总体服从什么分布,只要其数学期望和方差存在,对这一总体进行重复抽样,当样本容量n充分大时,其标志总量或均值就趋于正态分布。
例如,调查成年男性的平均身高,可能会有如右图。 2017/3/18

93 四、抽样分布 样本统计量的概率分布(理论分布) 构造抽样分布的步骤: 样本统计量全部可能的数值对应的频数分布,即抽样分布。
2017/3/18

94 样本平均数的抽样分布 (例题分析) 【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下: 均值和方差 总体分布 1 4 2 3 .1 .2 .3 2017/3/18

95 所有可能的n = 2 的样本(共16个) 第一个 观察值 第二个观察值 1 2 3 4 1 2 3 4
1,1 1,2 1,3 1,4 2 2,1 2,2 2,3 2,4 3 3,1 3,2 3,3 3,4 4 4,1 4,2 4,3 4,4 2017/3/18

96 计算出各样本的均值,如下表。并给出样本均值的 抽样分布。
16个样本的均值(x) P ( x ) 0.3 第一个 观察值 第二个观察值 1 2 3 4 0.2 1 1.0 1.5 2.0 2.5 0.1 2 1.5 2.0 2.5 3.0 3 2.0 2.5 3.0 3.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x 4 2.5 3.0 3.5 4.0 样本均值的抽样分布 2017/3/18

97 样本均值的分布与总体分布的比较 (例题分析)
样本均值的分布与总体分布的比较 (例题分析) 总体分布 抽样分布 P ( x ) .3 1 4 2 3 .1 .2 .3 .2 .1 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x  = 2.5 σ2 =1.25 2017/3/18

98 样本平均数的抽样分布 数字特征 数学期望 抽样分布 方 差 一般认为样本容量足够大的标准为:n 大于等于30
方 差 1 当总体服从正态分布时,从该总体中取样所得到的样本均 值仍然服从正态分布。 2 从非正态总中抽取的样本,只要容量足够大,根据中心极 限定理可知,样本均值的分布也趋向正态分布。 一般认为样本容量足够大的标准为:n 大于等于30 2017/3/18

99 几种常用的样本指标分布律 t 分布、 分布和 F 分布
t 分布是小样本分布,小样本指 n < 30。 t 分布适用于当总体标准差未知时用样本标准差代替总体标准差,由样本平均数推断总体平均数以及两个小样本之间差异的显著性检验等。 t 分布的性质: 1. t 分布是对称分布,均值为0。 2. 样本容量大于或等于30时, t 分布接近于标准正态分布,这时可用标准正态分布来代替t 分布。 3. t 分布是一个分布族,不同的样本容量对应不同的 t 分布。 4. 与标准正态分布相比,t 分布的中心部分较低,两个尾部较高。 5. 变量t 的取值范围在 与 之间。 2017/3/18

100 /2 /2 • •  • • t 分布表的使用: -t/2(n-1) t/2 (n-1) -t (n-1) t (n-1)
2017/3/18

101 分布 分布是一种抽样分布,自由度为n。适用于对拟合优度检验和独立性检验,以及对总体方差的估计和检验等。 分布的性质:
分布是一个以自由度n为参数的分布族,不同的n对应不同的 分布。 2. 分布是一种非对称分布,为正偏分布。自由度n达到相当大时, 分布接近于正态分布。 分布的变量值始终为正。 2017/3/18

102 分布图 n=2 n = 3 n = 5 n = 10 n = 15 2017/3/18

103 分布表的使用: 2017/3/18

104 F分布定义为两个独立的 分布被各自的自由度除以后的比率,这一统计量的分布,可用于方差分析、协方差分析和回归分析等。
2. F 分布有两个自由度,相应的分布为F(n1-1, n2-1)。 3. 2017/3/18

105 F(10,15) F 分布图 F(10,10) F(10,4) 2017/3/18

106 F分布表的使用: 2017/3/18 F(n,m)


Download ppt "第五章 抽样调查 第一节 抽样调查概述 第二节 抽样调查的数理基础 第三节 抽样误差与参数估计 第四节 抽样调查的组织方式"

Similar presentations


Ads by Google