第四章 概率、正态分布、常用统计分布
第一节 概率及概率分布
1. 什么是随机现象?P64 具有非确定性、随机性的现象 2. 什么是概率?P65 随机现象发生可能性大小的数量表示 3. 概率的计算方法:频率法 P66 随机现象E出现的次数/N
概率分布要回答的是,随机现象一共有多少种结果,以及每种结果所伴随的概率是多少? 4. 什么是概率分布?P90 概率分布要回答的是,随机现象一共有多少种结果,以及每种结果所伴随的概率是多少? 例如,家庭结构(核心家庭、主干家庭、联合家庭、其他家庭(单亲家庭、残缺家庭等) )的概率分布。 5. 什么是概率分布图?P92 把概率分布画成折线图 6. 什么是概率密度、概率密度分布图?P95 当△x趋近于0时,随x变化的概率分布图(曲线图) 举例:北京大学居民的家庭规模?1、2、3、4、5、6、7、8 北京大学居民的收入?
多种概率密度分布图。 P41 偏态分布。P106 其中有一种叫正态分布, 对统计推论特别重要。
第二节 正态分布
正态分布的重要性 描述连续型随机变量的最重要的分布 社会科学领域很多变量是正态分布,或者可 以转化为正态分布 统计推断的基础 x j (x)
正态分布的概率密度函数 ¥ < - = x j , e 2 1 p ( ) j(x) = 随机变量 X 的频数 = 总体方差 m s p j(x) = 随机变量 X 的频数 = 总体方差 =3.14159; e = 2.71828 x = 随机变量的取值 (- < x < ) = 总体均值
正态分布的概率 概率是曲线下的面积! j(x) x a b 左右各一个标准差范围内的面积:68.27%; 左右各一个标准差范围内的面积:95.45%; P148 左右各一个标准差范围内的面积:99.73%;
正态分布函数的性质 概率密度函数在x 的上方,即j(x)>0 正态曲线的最高点在均值,它也是分布的中位数和众数 正态分布是一个分布族,每一特定正态分布通过均值的 标准差来区分。 正态分布曲线的位置,由决定: 当 不变,增大,图形右移; 正态分布曲线的“高矮胖瘦”由决定:当不变,越小,图形越尖 瘦。 曲线j(x)相对于均值对称,尾端向两个方向无限延伸, 且理论上永远不会与横轴相交 正态曲线下的总面积等于1
正态分布函数的特征 一个高峰 一个对称轴 一个渐进线 P144
使正态分布的峰度不同、位置不同(因为调查单位不同)。P151 因此,为了可以比较分析,必须对正态分布标准化。 和 对正态曲线的影响 使正态分布的峰度不同、位置不同(因为调查单位不同)。P151 因此,为了可以比较分析,必须对正态分布标准化。 x j(x) C A B
标准正态分布
标准正态分布的重要性 一般的正态分布取决于均值和标准差 计算概率时 ,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表(P485)
标准正态分布函数 任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布 标准正态分布的概率密度函数 ¥ < - = x , e 2 1 ) ( p j
标准正态分布 x m s 一般正态分布 标准正态分布 =1 Z
标准正态分布表的使用 计算概率时 ,先计算变量取值的标准分, 再查标准正态概率分布表P485 对于标准正态分布,即X~N(0,1),有 (-z) z P (a z b) b a P (| z | a) 2 a 1
标准化的例子 怎么样查标准正态概率分布表? P157-160
第三节 其它几种常用的统计分布
样本方差的2分布
样本方差的2分布 设总体服从正态分布N ~ (μ,σ2 ), X1,X2,…,Xn为来自该正态总体的样本,则样本方差 s2 的分布为 将2(n – 1)称为自由度为(n-1)的卡方分布 P160
卡方 (c2) 分布 s m c2 总体 选择容量为n 的 简单随机样本 不同容量样本的抽样分布 计算样本方差S2 计算卡方值 计算出所有的 2值 65
小样本的t分布
t分布(小样本) t 设X1,X2,…,Xn1是来自正态总体N~(μ1,σ12 )的一个样本, 称 为统计量,它服从自由度为(n-1)的t 分布 P163 t 标准正态分布与 不同自由度的t分布 标准正态分布 t (df = 13) t (df = 5) Z 当自由度无限大时,t分布趋近于标准正态分布
方差分析的F分布
方差分析的F分布 a F(k-1,n-k) F 分布 P164 拒绝H0 不能拒绝H0 F 拒绝H0 不能拒绝H0 F 检验两组数据之间有没有差异?如两个班级学习成绩的有没有差异?
定类变量的二项分布与泊松分布
定类变量的二项分布与泊松分布 定类变量的二项分布;P122 当n 很小时,定类变量将是超几何分布; 当n很大,p又极小时,二项分布的极限分布是泊松分布;P137,比如交通事故率、公共电话的呼叫率等; 当np≥5时,二项分布近似于正态分布。
第四节 大数定理与中心极限定理
大数定理 少量的随机现象是没有稳定性规律的; 大量随机现象构成的总体,呈现的规律具有稳定性,有关这一系列的定理,称大数定理; 大数定理有:贝努里大数定理、切贝谢夫大数定理;P168 大数定理说明了大量现象的稳定规律:频率值趋于概率值,平均值趋于期望值。 例如,一家一户,在自然的生育的情况下,生男生女纯属偶然,但统计成千上万户的结果后,其性别比约为1/2将是稳定的。 所以,大数定理是把偶然性因素消除掉,使共性表现出来 大数定理抽样调查的大样本(n≧50)提供了理论基础
中心极限定理 中心极限定理研究在什么条件下,随机变量之和的分布可以近似为正态分布。 中心极限定理表明,如果一个现实的量是由大量独立偶然因素的影响叠加而得,且其中每一个偶然因素的影响又是均匀地微小的话,则可以断定这个量将近似服从正态分布。 这就解释了为什么在社会科学领域大量存在着服从正态分布的随机变量,例如身高、体重、智商、婚龄等,因为影响它们的因素都是大量的。 中心极限定理告诉我们:在抽样调查中,只要样本容量足够大,样本均值的分布都将是已知的,都接近正态分布。
样本均值的抽样分布 与中心极限定理 当总体服从正态分布N ~ (μ,σ2 )时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n) = 50 =10 X 总体分布 n = 4 抽样分布 X n =16
中心极限定理(图示) 中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布 当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布 一个任意分布的总体 X