体 育 统 计 学
正 态 分 布
目 标 要 求 1 了解正态分布概念和掌握正态分布的性质 2 了解正态分布转化标准正态分布的思路 3 会查正态分布表 4 掌握正态分布的计算方法 5 掌握正态分布在体育中的几种应用
第一部分 正态分布的概念与性质 正态分布的由来 正态分布的概念 正态分布曲线的性质 标准正态分布及正态分布表
一 正态分布的由来 1 直方图 在平面坐标上,以横轴根据各组组距的宽度标明各组组距,以纵轴根据次数的高度标示各组次数绘制成的统计图。纵轴的左侧标明次数,右侧标明频率,如果没有频率,直方图只在左侧标明次数。
一 市场及其相关概念
一 正态分布的由来(续) 2 折线图 折线图是在直方图的基础上,用折线连接各个直方形顶边中点,并在直方图形两侧各延伸一组,使折线与横轴相连。也可根据各组组中值与次数求出各组的坐标点,并用折线连接各点而成。折线所覆盖的面积等于直方图条形的面积,表示总次数。
一 正态分布的由来(续)
一 正态分布的由来(续) 3 正态曲线 当样本的含量不断增大,组距越取越小,分组越来越多时,其频数分布直方图的阶梯逐渐接近;最后当样本含量n ∞,组距I 0时可形成一条光滑的钟形曲线,这种中间隆起,对称地向两边下降的曲线,我们称它为正态曲线。
一 正态分布的由来(续) 3 正态分布曲线图 频率 组距 产品 尺寸 (mm) 总体密度曲线 总体在区间 内取值的概率 a b
二 正态分布的概念 定义:若随机变量X的概率分布密度函数是: 式中,μ和δ都是常数,且δ>0,- ∞<x<∞,称随机变量X服从参数为μ和δ的正态分布,记为X~N( μ, δ2)。
三 正态分布的性质 (1)曲线在x轴的上方,与x轴不相交. (2)曲线关于直线x=μ对称. (3)当x=μ时,曲线位于最高点. 三 正态分布的性质 (1)曲线在x轴的上方,与x轴不相交. (2)曲线关于直线x=μ对称. (3)当x=μ时,曲线位于最高点. (4)变量x可在全横轴(-∞<x< ∞)取值,曲线覆盖的区域里的概率等于1.
三 正态分布的性质(续) (5)当x<μ时,曲线上升(增函数);当x>μ时,曲线下降(减函数).并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近. (6)μ一定时,曲线的形状由σ确定. σ越大,曲线越“矮胖”,总体分布越分散; σ越小,曲线越“高”,总体分布越集中。
四 标准正态分布 为了分析问题的方便,把任何不同参数的正态分布改造成标准正态分布。其具体步骤如下:
四 标准正态分布 由此,可使正态分布的概率密度函数改造成标准正态分布的概率密度函数,其函数式为
案例分析:由一般正态分布转化成标准正态分布 若有中学男生50m跑成绩的资料,其总体均数μ=8.5s,总体标准差δ=0.2s,假设该变量服从正态分布(简称为正态)。(如图5.5)
案例分析:由一般正态分布转化成标准正态分布 如果图5.5的纵轴平移至均数 所在的位置,便得到图5.6中的横轴变量,即所有原始变量都减均数 得 = ,此时已将均数转换为0。
案例分析:由一般正态分布转化成标准正态分布 最后再将 除以标准差得 ,可得到图5.7中的横轴变量,该变量为标准正态变量。此时已将标准差转换成1。
说明: 在具体的研究工作中,我们常以样本的资料作为分析基础,往往难以获取总体的均数μ和标准差δ,所以,在变量的标准化时,常常以样本的均数 和标准差S代替总体均数μ和标准差δ,这是一种近似处理方法。这样,就把变量标准化的(5.2)用下式代替,即
第二部分 正态分布表的使用 正态分布表的基本简况 正态分布表的使用和计算方法
一 正态分布表的基本简况 正态分布表由两部分构成,第一部分是标准正态分布的横轴变量u,也就是附表1中,左上角u所对应的行和列,列变量的值是0.0-3.4;行变量的值是0.00-0.09;第二部分是附表1里面所350个数据,从0.500-0.998。这些数据是根据标准正态分布的概率密度函数(5.3)式逐个积分获得的,即
一 正态分布表的基本简况(续) 可以把(5.5)式看成是一个求面积的公式(在正态分布曲线下某个(a,b)区间积分值是变量在该区间的分布的概率,由于在几何图形上概率值是以面积的形式表现出来的,故通常地称为(a,b)区间的面积),式中的∮(u)就是标准正态曲线下由- ∞到某个u值所围成的面积(概率)时,就无需直接解(5.5)式,而只要查正态分布表就可以得到相应区间的面积(概率)。
一 正态分布表的基本简况(续) 要说明的是,由于正态分布曲线具有对称性质,附表中所给出的面积数据只是在u≥0时( - ∞,u)的面积(概率)。如( - ∞,1)的面积(概率)可直接查表求得,而- ∞,-1)区间的面积(概率)是无法直接查到的,对于后一种情况只有通过对称性质方可求得。
二 正态分布表的使用和计算方法 第一种是根据U变量的值查出对应的面积(概率)。 第二种则是根据面积(概率)去找出相应的U变量的值。
二 正态分布表的使用和计算方法(续) 1.求从-∞到某一正的U值所围成的面积(概率)
二 正态分布表的使用和计算方法(续) 2.求从某一∞到某一负的u值所围成的面积(概率) 要根据正态分布曲线的对称性和曲线下面积为1这两个性质,求出一∞到某一负值所未成的面积(概率)值。 例:要求(一∞,-1)区间面积(概率)。
二 正态分布表的使用和计算方法(续) 3.求某个u值以上的面积 由于正态分布曲线下从(- ∞,+∞)所围成的面积(概率)等于1,所以,在求某u值以上面积(概率)时,只要将- ∞到该u值的面积(概率)查出,然后由1减去该面积(概率)值就可得到某个u值以上的面积。 例:要求(1.96, +∞)的面积(概率)
二 正态分布表的使用和计算方法(续) 4.求两个正的u值所围成的面积(概率) 由于在正态分布表中从- ∞到正的u值所围成的面积(概率)都能查到,所以,要求两个正u值所围成的面积(概率)时,只需将面积(概率)数值大的减去面积(概率)数值小的即可得到。 例:求(1,2)所围成的面积(概率)。
二 正态分布表的使用和计算方法(续) 5.求两个负的u值所围成的面积(概率) 当遇到要求出两个负u值所围成面积(概率)时,就要根据正态分布曲线的对称性性质,在正态曲线图的右边找出两个正u值,使其所围成的面积(概率)与两个负u值所围成的面积(概率)相等,此时只要求出了两个正u值所围成的面积(概率),目的就达到了。 例:求(-1.5,-0.5)区间的面积(概率)?
二 正态分布表的使用和计算方法(续) 6.求一个负的u值和一个正的u值所围成的面积(概率) 例如:求(-1,2)的面积(概率)?
二 正态分布表的使用和计算方法(续) 7 已知某区间的面积(概率)求与之对应的u值 上面6种情况,均是已知u值去求出相应的面积(概率),而本处所介绍的查表方式正好相反。在一些情况下,我们要反查正态分布表,也就是说要通过面积去找相对应的u值。 例如,已知(0,u)所围成的面积(概率)为.3830,试求对应的u值。
二 正态分布表的使用和计算方法(续) 在实际统计工作中,常用到下列u值以及相应的面积(概率)。见图: IuI=1,区间(-1,1)的面积(概率)P=0.6826,占整个正态曲线下面积(概率)的68.26%。 IuI=1.96,区间(-1.96,1.96)的面积(概率)P=0.95,占整个正态曲线下面积(概率)的95%。
二 正态分布表的使用和计算方法(续) IuI=2.58,区间(-2.58,2.58)的面积(概率)P=0.99,占整个正态曲线下面积(概率)的99%。 另外:IuI=3,区间(-3,3)的面积(概率)P=0.9974,占整个正态曲线下面积(概率)的99.74%。在以前曾介绍过 ±3S法审核可疑数据,就是以这个原理为依据的。
二 正态分布表的使用和计算方法(续) 上面是标准正态分布,其横轴是标准变量u。若将标准正态分布还原成一般正态分布,则上述各类区间的上下限分别又可用原始变量X的值予以表示,即 (μ-1δ, μ+1δ) 所围成的面积(概率)P=0.6826;(μ-1.96δ, μ+1.96δ) 所围成的面积(概率) P=0.95;(μ-2.58δ, μ+2.58δ) 所围成的面积(概率)P=0.99;(μ-3δ, μ+3δ) 所围成的面积(概率)P=0.9974;
二 正态分布表的使用和计算方法(续) 由于一般情况下,我们很难获得总体的均数μ和标准差δ,故在描述原始变量的区间时,常以样本均数和标准差S代替总体均数μ和标准差δ。原始变量的各区间以及相应的面积概率为: (-1S, +1s) P=0.6826,68.26% (-1.96S, +1.96s)P=0.95,95% (-2.58S, +2.58s)P=0.99,99% ( -3S, +3s) P=0.9974,99.74%
第三部分 正态分布在体育中的应用 正态分布理论在制定考核标准研究中的应用 正态分布理论在离差评价表中的应用 正态分布理论在人数估计研究中的应用 正态分布理论统一变量单位在综合评价中的应用
一 正态分布理论在制定考核标准研究中的应用 在制定考核标准之前要做两件预备工作: 一是获取各项目建标数据,并求出各项目数据的平均数和标准差S。 二是根据教学要求和实际需要,合理地定出达到优秀、良好、中等、及格和不及格的登记人数的百分比例。
一 正态分布理论在制定考核标准研究中的应用(续) 1 制定考核标准的步骤 制作正态曲线的分布草图 计算出从-∞到各ui值 所围成的面积(概率) 查表求各等级的ui 求各等级标准 的原始成绩Xi值
一 正态分布理论在制定考核标准研究中的应用(续) 2 考核标准的制定 例5.1 测得上届学生毕业时推铅球的平均数 =7.3m,标准差S=0.4m,经检验,原始数据基本服从正态分布。现要建立本届学生年末时推铅球的考核标准,假定本届学生的该项成绩与上届学生该项成绩具有相同的正态分布,那么,就可按上届学生的资料,规定各等级的人数比例为:优秀10%,良好20%,中等30%,及格32%,不及格8%,试确定各等级的成绩标准。
一 正态分布理论在制定考核标准研究中的应用(续) 2 考核标准的制定 步骤: 第一步:制作正态曲线的分布草图 第二步:计算从- ∞到各等级ui值的面积(概率)。 第三步:求各等级的ui值。 第四步:求各等级的标准xi。根据变量标准公式(5.4)可得: X=uS+ x
二 正态分布理论在制定离差评价表中的应用 在体育教学和训练中,广大的体育教师和教练员渴望了解学生或运动员的各种情况,同时,学生或运动员也希望了解自己在某个时期的学习和训练中各种身体技能、素质等方面的发展状况。离差评价表可以解决上述问题。
二 正态分布理论在制定离差评价表中的应用 例如,测得某校初三年级女生的身高 X=154cm,S1=5cm;60m跑 X2=11.2cm;S2=0.8;体重 X3=45kg,S3=5kg;铅球X4=500cm , S4=45cm;胸围X5=74cm,S5=4cm,跳高X6=96cm,S6=10cm,肺活量X7=2202 ml,S7=364ml,跑X8=92s,S8=9s, 经检验,上述指标变量均服从正态分布,试根据该资料制定离差评价表。具体制法如下:
二 正态分布理论在制定离差评价表中的应用(续) 第一步,根据指标总数画好框表 第二步,将各指标的平均数,填入中间那条等级线与各指标线的交叉处 第三步,计算各指标的 Xi+Si 和 Xi+2Si 第四步,将表重复制作多份,发给学生。
三 正态分布理论在人数估计研究中的应用 在体育教学和运动训练的实践中,各等级成绩一般事先已规定,在一定条件下可根据体育教学训练的情况,运用正态分布理论估计人数。在学校体育工作的检查过程中,常常以达标人数或达标率作为评价指标。 在根据正态分布理论做人数估计前,需调查学生的原有水平,算出某项成绩的平均数 和标准差S。
三 正态分布理论在人数估计研究中的应用(续) 估计人数的步骤有: 1.作一个正态分布草图,以确定估计范围; 2.计算估计范围的ui值; 3.查表找到估计范围的面积(概率); 4.计算估计范围的人数。 现以例子说明估计人数的全过程:
三 正态分布理论在人数估计研究中的应用(续) 例:已测得某大学男生跳远成绩的平均数 =5.20m,标准差S=0.15m,原始变量基本呈正态分布,该学校男生共1500人,现要分别估计跳远成绩在5.50m以上、5.30-5.50m、4.9-5.30m、4.9m以下的人数。 第一步:作正态分布曲线的草图。 第二步:求各区间的ui值。 第三步:根据ui值求各区间的面积(概率)。 第四步:求各区间的人数。
三 正态分布理论统一变量单位在综合评价中的应用 体育教学效果的评价、运动员的选材、学生的体质评价等方面的研究,从单一角度单一指标是不可能得到合理的结果的。只有从多角度多指标进行综合研究,才能得到科学的结果。因此,我们在认识体育的各种事物、现象时,要将视点从单一角度单一指标转向多角度多指标的综合评价研究的方式上来。
三 正态分布理论统一变量单位在综合评价中的应用 (一)综合评价模型 1.平均型综合评价模型 该模型对被判别事物的所有构成指标的得分平均,得到综合评价值W,其数学模型为 式中W为综合评价值,n为评价指标的个数,xi为各评价指标的数值(i=1,2,…,n)。
三 正态分布理论统一变量单位在综合评价中的应用(续) 例:某一学生五项运动素质的情况分别为: x1(100m)=90分, x2(1500m)=82分, x3(立定跳远)=88分, x4(引体向上)=73分, x5(铅球)=80分。 试求学生运动素质水平的综合得分。
三 正态分布理论统一变量单位在综合评价中的应用(续) 2.加权平均型综合评价模型 该模型式将被判别事物所有的评价指标的得分与其各自权重(所谓权重式指反映评价指标对某事物在评价中的重要程度的系数)乘积的和,得综合评价的值W。其数学模型为:
三 正态分布理论统一变量单位在综合评价中的应用(续) 2.加权平均型综合评价模型 式中W为综合评价值,n为评价指标的个数,xi为各评价指标的数值,ki为各评价指标的权重。 仍以前面为例进行计算。
三 正态分布理论统一变量单位在综合评价中的应用(续) 介绍了两种模型后,不难看出,平均型综合评价模型式把每个评价指标的重要程度等同处理,而加权平均模型综合评价模型是以权重(k系数)形式区分了各评价指标的重要程度,然后再加以处理。由于构成事物的各模型时,应尽可能采用加权平均型模型。
三 正态分布理论统一变量单位在综合评价中的应用(续) 1 U分法 U分法是将原始变量转换成标准正态分布的横轴变量的一种统一单位的方法。该方法的计算公式与第一节的公式5.4相同,在此不再详述。
三 正态分布理论统一变量单位在综合评价中的应用(续) 1 Z分法 Z分法是根据正态分布理论以插值的方式建立的一种统一变量单位的方法。该方法的计算公式为:
三 正态分布理论统一变量单位在综合评价中的应用(续) 式中Z为标准分,“±”号是在不同情况下选用的,在水平越高变量数值也越大的情况下(如跳高、跳远等),使用“+”;在水平越低变量的数值越大的情况下(如100m跑,400m跑等),使用“-”。
三 正态分布理论统一变量单位在综合评价中的应用(续) 例已知有一群运动员100m跑的 1=11.8s,S1=0.2s;反应时 2=0.3s,S2=0.03s;大腿力量 3=95kg。S3=5kg。若有一位运动员的三项指标的成绩分别为:100m(x1)=11.5s,反应时(x2)=0.28s,大腿力量(x3)=100kg,试求该运动员各指标的标准z分。
三 正态分布理论统一变量单位在综合评价中的应用(续) 3 累进记分法 体育项目有一个明显的特点,即运动水平越高,成绩上升一个单位的难度越大。例如,100m跑的成绩从12s上升到11.9s的难度要比从15s升到14.9s的难度大得多。所以,在很多情况下,在变量的标准化过程中还要考虑到运动项目变化的难度特征。
三 正态分布理论统一变量单位在综合评价中的应用(续) 累进记分的分数是与运动成绩提高的难度相适应的。累进积分法的公式为 y=kD2-Z (5.10) 式中,y为累进分数,k为系数,D为变量,Z为常数。 要使用(5.10)式,首先要求出系数k和常数Z,然后将k和Z带入方程式。(5.10)式中的D变量是一个新出现的变量,它与原始变量X和标准变量U的对应关系见下表:
三 正态分布理论统一变量单位在综合评价中的应用(续) 表5.2 X、U、D变量对应表
三 正态分布理论统一变量单位在综合评价中的应用(续) 根据这个对应表,D变量的转换公式为: (5.11) (5.12) (5.11)式中是用于田赛项目的变量转换,(5.12)式是用于径赛项目的变量转换的。在使用时要注意它们的区别。
三 正态分布理论统一变量单位在综合评价中的应用(续) 例 已知有一群运动员100m跑的 1=11.8s,S1=0.2s;反应时 2=0.3s,S2=0.03s;大腿力量 3=95kg,S3=5kg。若有一位运动员的三项指标的成绩分别为:100m(x1)=11.5s,反应时(x2)=0.28s,大腿力量(x3)=100kg,试求该运动员各指标的累进记分。
三 正态分布理论统一变量单位在综合评价中的应用(续) 4 百分位数法 百分位法是以某变量分布的百分位数记录分数,它要求观测值从小到大进行排列,并以一定的方式把某变量的值转换成分数。若某一观测值X0转换为75分,则表明在所测得的观测值中有75%的观测值小于X0。百分位数的最大分为100分,最小分为0分。在具体应用中,常常是以频数分布表来计算百分位数。
三 正态分布理论统一变量单位在综合评价中的应用(续) 例:某年级学生纵跳成绩频数分布如表5.3 表5.3 纵跳成绩频数分布表(I=2cm) 单位cm
三 正态分布理论统一变量单位在综合评价中的应用(续) 式中: Xi为某人的某指标的实际观测值;组下限为xi所在组下限;组内数为xi所在组的频数;组前累计频数为xi所在组的前一组的累计频数;n为总频数。
三 正态分布理论统一变量单位在综合评价中的应用(续) 上面介绍了4种统一变量单位的方法,其中U分法和Z分法尽管形式上有区别,但有一个共同特征,即等距升分。也就是说,不管变量的数值水平高低,只要在某一水平上上升一个单位,则所进升的分数是相同的。累计记分法是根据变量的值上升时的难度,不等距升分,故此方法较合理些。百分位数法是在变量不服从正态分布时使用的变量标准化方法。在实际研究中,虽然U分法和Z分法操作较简单,但仍具有实用价值。
课后习题 1.正态分布曲线有哪些性质? 2.现有一组男子200m跑的 =26s,S=0.4s ,原始变量基本服从正态分布,若规定12%为优秀,20%为良好,30%为及格,8%为不及格,试求各等级的标准。 3.某年级男生100m跑的成绩 =13.2s,S=0.4s,该年级有n=300 人,若要估计100m跑的成绩在13s-13.8s之间的人数,问该区间的理论人数为多少?
课后习题 4.随机抽测了一批男大学生的体质指标,其结果为:身高 =170.3cm, =5.2cm;体重 =56kg, =4kg, 60m跑 =8.2s, =0.2s,跳远 =0.2m,肺活量 =3380mL,=250mL;安静脉搏 =72次/min, =3次min。试根据上述材料,建立离差评价表。 5.若有120名成年女子身高的=162.1cm,S=4cm,现有两位女子的身高分别为150 ,和164 ,试求她们的标准U分和Z分。
课后习题 7.已知一群运动员的4个指标为:跳远成绩 =6.1m,S1=0.12m;30m跑 =2.9s,S2=0.1s;纵跳=80cm,S3=3cm;大腿力量 =100kg,S4=4kg。现有两名跳远运动员的上述4项指标的水平为 甲队员: =6.3m, =2.8s, =84m, =105kg; 乙队员: =6.4m, =2.7s, =83m, =95kg ; 4项指标的权重分别为0.3、0.3、0.2、0.2 ,试采用加权平均型综合评价模型对甲、乙两运动员的综合能力进行评价。
谢谢大家