第六章 概率分布
教学目标 了解有关概率的基本知识; 理解常用概率分布的基本特征; 掌握正态分布与二项分布的具体应用。
本章内容 第一节 概率的基本概念 第二节 正态分布 第三节 二项分布 第四节 样本分布
与前面所学知识的关系 前面各章讲对一组或几组数据进行描述时所用的各种指标,讲的主要是描述统计的内容。 研究的目的是通过样本推论总体的状况,这时就要用到统计推断的内容。 这章讲推论统计的一些基础知识,包括概率分布的概念,以及各种常用的分布。
本章内容 第一节 概率的基本概念 第二节 正态分布 第三节 二项分布 第四节 样本分布
一、什么是概率 定义 分类 表明随机事件出现可能性大小的客观指标叫做概率。 后验概率(计算出来的) 先验概率(理论假设的) 两类概率的关系:当观测次数无限增大,后验概率接近先验概率(例如抛硬币)。
二、概率的基本性质 1、概率的公理系统 2、概率的加法定理 3、概率的乘法定理 任何一个随机事件A的概率非负; 在一定条件下必然发生的必然事件概率为1; 在一定条件下必然不发生的事件概率为0。 2、概率的加法定理 互不相容事件A和B:P(A+B)=P(A)+P(B) 3、概率的乘法定理 独立事件A和B:P(AB)=P(A)*P(B)
三、概率分布类型 定义 分类 概率分布是指对随机变量取值的概率分布情况用数学方法(函数)进行描述。 按照随机变量是否连续划分为:离散分布和连续分布; 按照分布函数的来源划分为:经验分布和理论分布; 按照概率分布描述的数据特征划分为:基本随机变量分布和抽样分布。
本章内容 第一节 概率的基本概念 第二节 正态分布 第三节 二项分布 第四节 样本分布
第二节 正态分布 一、正态分布特征 二、正态分布表的编制与使用 三、次数分布是否正态的检验方法 四、正态分布理论在测验中的应用
正态分布的定义 正态分布(normal distribution)也称常态分布或常态分配,是连续随机变量概率分布的一种,是在数理统计的理论与实际应用中占有重要地位的一种理论分布。 自然界,人类社会,心理与教育中大量现象均按正态形式分布。
第二节 正态分布 一、正态分布特征 二、正态分布表的编制与使用 三、次数分布是否正态的检验方法 四、正态分布理论在测验中的应用
(一)正态分布曲线函数 正态分布曲线函数又称密度函数: π是圆周率3.14159… e是自然对数的底2.71828… x为随机变量取值-∞<x<∞ μ为理论的平均数 σ2为理论的方差 y为概率密度 即正态分布上的纵坐标
(二)正态分布的特征 1、以经过平均数点的垂线为对称轴,成抽对称图形; 2、中央点最高,逐渐向两侧下降,但始终不与基线相交,拐点位于正负1个标准差处; 3、正态曲线下面积为1,正态曲线下各对应的横坐标处与平均数之间的面积可用积分公式计算:
(二)正态分布的特征 4、正态分布是一族分布,随机变量的平均数和标准差决定着正态分布的形态和位置。所有正态分布都可以通过标准分数转化为标准正态分布; 5、正态分布中各差异量数值相互间有固定比率(p.180); 6、在正态分布曲线下,标准差和概率(面积)有一定的数量关系(记住几个临界值)。
第二节 正态分布 一、正态分布特征 二、正态分布表的编制与使用 三、次数分布是否正态的检验方法 四、正态分布理论在测验中的应用
(一)正态分布表的编制与结构 两种编制方法: 本书正态分布表的结构: 从Z为负无穷开始到Z为0; 从Z为0开始到Z为正无穷(书后为这种)。 第二栏:密度函数y; 第三栏:概率值p。
(二)正态分布表的使用 1、依据Z分数求概率p: 求某Z分数值与平均数(Z=0)之间的概率(如Z=1与平均数之间);
(二)正态分布表的使用 2、从概率p求Z分数: 已知从平均数开始的概率值求Z值(如求p=0.25);
(二)正态分布表的使用 3、已知概率或Z值,求概率密度y,即正态曲线的高(需要区分已知概率是位于正态曲线的中间部分,还是两尾端部分)。
第二节 正态分布 一、正态分布特征 二、正态分布表的编制与使用 三、次数分布是否正态的检验方法 四、正态分布理论在测验中的应用
进行正态检验的原因 在心理与教育的实际测量和实验中所获得的基本随机变量。有些具有正态分布的形式,有些则不具备。 其中常见到一种正偏态分布,这种分布的右侧部分偏长左侧偏短,还有一种负偏态分布是左侧偏长而右侧偏短。 有时为了统计分析需要,常要分析次数分布是否为正态分布。
(一)皮尔逊偏态量数法 皮尔逊发现在偏态分布中平均数距中数较近而离众数较远。在正偏态中M>Md>M0,在负偏态中M<Md<M0,而在正态分布中三者合于一点。 他根据平均数与众数或中数的距离,提出一个偏态量数公式,用以描述分布形态: 或 当SK=0时,分布对称,当SK为正数时,分布属正偏态,当SK为负数时,分布属负偏态。
(二)峰度、偏度检验法 这种方法是根据分布的峰度系数与偏度系数,确定分布形态。一般情况下,需要观测数据的数目足够大,应用这种方法才有意义。 偏度系数: 峰度系数:
(三)累加次数曲线法 因为标准正态分布的形式固定,因此其累加概率与标准差的关系也固定。根据这一点,可将一般分布的累加概率与标准正态分布累加概率相比较。 这种方法只能直观比较,而无定量描述及检验方法。
第二节 正态分布 一、正态分布特征 二、正态分布表的编制与使用 三、次数分布是否正态的检验方法 四、正态分布理论在测验中的应用
(一)化等级评定为测量数据 等级评定经常遇到的问题: 解决办法——化等级评定为测量数据(只适用于心理量符合正态分布的情况)。 第一是不同评价者由于各自的标准不同,在对同一个心理量进行评定时可能给以不同的等级分数,这时应如何综合各评价者的结果? 第二是等级分数界线宽,又不一定是等距的尺度,要比较不同被评价的心理量的差异,应如何进行? 解决办法——化等级评定为测量数据(只适用于心理量符合正态分布的情况)。
具体方法: ①根据各等级被评者的数目求各等级的人数比率; ②求各等级比率值的中间值,作为该等级的中点; ③求各等级中点以上(或以下)的累加比率; ④用累加比率查正态表求Z值,该Z分数就是各等级代表性的测量值; ⑤求各被评者所得评价等级的测量数据的算术平均数,即为每个学生的综合评定分数。
例题(p.186):
(二)确定测验题目的难易度 难易度一般可用答对者的百分数确定。但是百分数不是等距尺度,有时欲比较不同难易度题目之间的难度距离,需要将难易百分数根据正态分布概率转换成难度分数。 原理是假设一个测验中不同难易测验题目的分布是正态的,即一个测验中通过率较大和较少的题目较少,而通过率居中的题目较多。
具体方法: ①计算各题目的通过率,即答对人数与参加测验人数的比例; ②用0.5减去通过率,不计正负号,获得正态分布表中的概率值。 ③依通过率查正态表求Z分数,通过率大于50%者的Z分数为负值,通过率小于50%的Z分数为正值; ④将查表得到的Z分数加上5(假定正负5个标准差包括了全体)便可得到从0-10的十进制的难度分数值。
例题(p.188):
(三)在能力分组或等级评定时确定人数 假定能力是正态分布。这时若将能力分组,各组人数应是多少?或评定不同等级,各等级人数应是多少,才能使分组或评定等级构成等距的尺度? 这时应该依据正态分布理论确定各组或各等级的人数。
具体方法: ①将6个标准差(假定6个标准盖包括了全体)除以分组的或等级的数目,做到Z分数等距; ②查正态表,从Z求P,即各等级或各组在等距的情况下应有的比率; ③将比率乘以欲分组的人数,便得到各等级或分组该有的人数。 注:有时结果不能与总数相符,这时应将居中的那一组做适当的增加或减少。
例题(p.189): 要想把100人在某一能力上分成5个等级,各等级应该有多少人,才能使等级评定做到等距?
(四)测验分数的正态化 在编制测验时,常会遇到已知某总体的分布为正态,但由于所取样本不是正态的,这时按其总体,将样本分布正态化,很有必要。 这种将样本原始分数分布转换成为正态分布,称作次数分布的正态化。 T分数是经过正态化的一种标准分数。其平均数为50,标准差为10,它是麦克尔(W.A.McCall l939)创用的方法。心理与教育测验常用它来建立常模。
具体方法: ①将原始数据整理成次数分布表; ②计算各分组上限以下的累积次数cf; ③计算每组中点的累积次数,即前一组上限以下的累加次数加上该组次数的一半; ④各组中点以下的累加次数除以总数求累积比率; ⑤将各组中点以下累积比率视为正态分布的概率,查正态表,将概率转化为Z分数,这一步是关键; ⑥将正态化的Z值加以直线转换。
例题(p.191):
课堂练习: 学生A、B、C参加全校越野赛,越野赛成绩呈正态分布,总人数350人。成绩的平均数为40分钟,标准差为8分钟。学生A成绩为30分钟,学生B成绩为52分钟,学生C后面的人占全体人的37%。 请问: (1)有百分之几的人跑在A前面? (2)有百分之几的人跑在B前面? (3)A和B之间间隔着多少人? (4)学生C的标准分为几?
本章内容 第一节 概率的基本概念 第二节 正态分布 第三节 二项分布 第四节 样本分布
第三节 二项分布 二项分布是离散型随机变量的概率分布,又称贝努里分布。 二项分布也是心理与教育统计中常用的一种基本随机变量分布。
一、二项试验与二项分布 二项试验(需满足以下条件): 举例:投掷硬币 任何一次随机试验恰好有两个结果,成功或失败; 试验重复n次; 每次试验之间相互独立; 某种试验结果出现的概率在每次试验中保持不变。 举例:投掷硬币
一、二项试验与二项分布 二项分布: 具体定义: 指试验仅有两种不同性质结果的概率分布。 设有n次试验,每次试验之间相互独立,每次试验中,事件A出现的概率均为p,不出现的概率为q=1-p,那么在n次试验中,事件A出现x次的概率为:
二项分布的应用举例 例题(p.196):10个硬币掷一次,或一个硬币掷十次。 问五次正面向上的概率是多少? 五次及五次以上正面向上的概率是多少?
二、二项分布的性质 p=q时,二项分布的概率密度函数为对称分布; ,n较大,满足 或 时,二项分布近似于正态分布; 二项分布成功次数X对应的理论均值和标准差分别为:
三、二项分布的应用 二项分布主要用于解决含有机遇性质的问题。 所谓机遇问题,指在实验或调查中,实验结果可能是由于猜测而造成的,比如选择题的回答。 对于这类问题,欲区分由猜测而造成的结果与真实结果之间的界限,就要应用二项分布来解决。
例题(p.199) 有10道正误题,问答对几题才能认为他是真的会做? 有10道5选1的选择题,问答对几题才能说不是出于猜测的原因。
本章内容 第一节 概率的基本概念 第二节 正态分布 第三节 二项分布 第四节 样本分布
第四节 样本分布 样本分别是指样本统计量的分布,是统计推论的重要依据。 随机抽样,各个样本相互独立,且服从同样的分布。
一、正态分布及渐近正态分布 (一)样本平均数的分布(方差已知) 1、总体分布为正态,且方差已知,样本平均数服从正态分布; 2、总体分布非正态,但方差已知,当样本容量足够大时,其样本平均数的分布渐近正态分布。 样本平均数分布的平均数、标准差,与母总体的平均数与标准差的关系:
一、正态分布及渐近正态分布 (二)方差和标准差的分布 总体服从正态分布,当n足够大时,样本标准差的分布,渐近于正态分布,其均值和标准差分别为 和 如果n不够大,通常用标准差和方差的精确分布——卡方分布。
二、t分布 t分布定义 自由度定义 t分布是一种左右对称、峰态比较高狭,分布形状随样本容量n-1的变化而变化的一族分布。
(一)t分布的特点 1、平均值为0。 2、以平均值0左右对称,左侧的t为负值,右侧的t为正值。 3、变量取值在-∞—+∞ 之间。 4、当样本容量趋于∞时,t分布为正态分布,方差为1;当n-1>30以上时,t分布接近正态分布。
(二)t分布表的使用 t分布表的构成: t值、自由度、显著性水平。 查表(p.494)
(三)样本平均数的分布(方差未知) 关系: 1、总体分布为正态,方差未知时,样本平均数的分布为t分布;
三、卡方分布 含义(p.206) 特点: 1、正偏态分布; 2、都是正值; 3、卡方分布具有可加性; 4、当df>2时,卡方分布的平均数为df,方差为2df; 5、卡方分布是连续型分布,但有些离散型的分布也近似卡方分布。
卡方分布表的使用 χ2分布表是根据χ2分布函数计算出来的,χ2分布曲线下的面积都是1。但随自由度不同,同一χ2值以下或以上所含面积与总面积之比率不同。 故一般χ2表,要列出自由度、及某一χ2值以上χ2分布曲线下的概率。 练习使用(p.516)
四、F分布 含义(p.208) 特点 F分布形态是一个正偏态的分布,它的分布曲线的形式随分子、分母的自由度不同而不同,它是一族分布,随df1与df2的增加而渐趋正态分布; F总为正值 ; 当分子的自由度为1,分布的自由度为任意值时,F值与分母自由度相同概率的t值的平方相等。
F分布表的使用 F分布表是根据F分布函数计算得来 。 查表时需确定分子、分母自由度。