第四节 统计初步和数据整理 在这一节中我们将介绍统计学的基本知识。统计学是一门古老而又年轻的学科,例如为了征兵和收税的早期的人口统计,甚至在公元前就出现了。但是近代数理统计学,却主要是从20世纪初开始发展的。其主要特征是运用概率论的知识进行统计推断。即从所研究的全部对象中抽取部分个体,并通过对这部分个体的观察和分析,对全部对象的有关问题作出推断。数理统计学已经建立了一套系统的理论,有着广泛的应用。下面先介绍统计学中最基本的概念。

Slides:



Advertisements
Similar presentations
简单迭代法的概念与结论 简单迭代法又称逐次迭代法,基本思想是构造不动点 方程,以求得近似根。即由方程 f(x)=0 变换为 x=  (x), 然后建立迭代格式, 返回下一页 则称迭代格式 收敛, 否则称为发散 上一页.
Advertisements

校园及周边治安防范 暨应急预案桌面演练 实 训 乐山应急管理学会 贾 伟. 目 录 校园治安问题包含的内容 校园治安问题的特点 避免引发校园治安问题的对策 校园应急预案桌面演练实训 校园治安问题的成因.
版 画 制 作版 画 制 作 版 画 种 类版 画 种 类 版 画 作 品版 画 作 品 刘承川.
“ 我不能 上学了,我 每天还要帮 家里拾柴火 呢。 ” 给远方的小学生写一封信 书信的基本格式: 开头顶格写称呼,打上冒号; 换行空两格写问候语; 接下来换行空两格写正文部分; 正文结束后,换行写祝颂语; 最后在右下方写上寄信人姓名和 写信日期。
2.5 微分及其应用. 三、可微的条件 一、问题的提出 二、微分的定义 六、微分的形式不变性 四、微分的几何意义 五、微分的求法 八、小结 七、微分在近似计算中的应用.
中醫藥就醫用藥 - 婦女篇 中醫藥安全衛生教育資源中心 中醫藥就醫用藥百分百、就是藥做到: 停、看、聽、選、用專業.
下背痛 林口長庚醫院內科 住院醫師 毛畯台. 下背痛常見原因 軟組織受傷/背部筋膜發炎 椎間盤突出症 脊椎退化性關節炎 壓迫性骨折 椎間盤滑脫 惡性腫瘤 泌尿道疾患 姿勢不良.
華德學校上午校 「協助小學中國語文科教師建立專業學習型社群」計劃 (2008) 總結分享會 二零零九年一月十日.
園藝二乙 1 號 丁楷儒 32 號 孫子恩. 1. 福山萵苣 ( 大陸妹 ) : 福山萵苣,萵苣家族成員之一,鮮甜脆綠又帶有萵苣類的 特殊苦味,用來代替生菜搭配烤肉也別具風味。極少病蟲 害,只需定時澆水施肥就能健康長大,是相當容易種植又 能有大收穫的蔬菜 。 感想: 雖然大陸妹好吃又好種,但種了太多而吃不完.
大学物理实验 第一讲 南昌大学物理实验中心 2013年2月.
第五单元 口语交际和作文.
窦娥冤 关汉卿 感天动地 元·关汉卿.
第八章 負債 8-1 負債之意義及內容 8-2 流動負債 8-3 長期負債 8-4 其他負債.
工业财务状况表 财务部分培训 (2010年年报).
专利技术交底书的撰写方法 ——公司知识产权讲座
探究实验的教学设计和教学策略 ENTER 余杭勾庄中学 郭 琳
这是一个数字的 乐园 这里埋藏着丰富的 宝藏 请跟我一起走进数学的 殿堂.
第五章 主张超尘绝俗的 佛家.
定海区渔农村集体资产 股份合作制改革工作 档案管理培训班
北京市工作居住证办理讲解.
祝贺您获得国家留学基金资助 请您登陆“国家留学网”查看《出国留学人员须知》,您在出国前及在外学习期间所需要办理的手续及具体流程,以及可能遇到的政策上疑问均在此《须知》上有所列明。
南京师范大学数学科学院 涂荣豹 中 国 数 学 教 学 的 继 承 与 发 展 南京师范大学数学科学院 涂荣豹
知其不可而为之.
实际问题与一元二次方程(一).
股票市場技術面概念介紹 斗六高中 馬明宏.
中国画家协会理事、安徽省美术家协会会员、 工艺美术师、黄山市邮协常务理事余承平主讲
第二课 扬起自信的风帆 我能“行”.
审题与立意 夏邑高中高四语文组.
第二章 语音 第六节 音变 轻 声1.
述职报告 ( 二○○七年度 ) 述职人: xxx 部 门: 计划财务部 岗 位: 部门经理.
转正述职报告 电商文案策划 XXX.
护患沟通技巧 护理部 马红云.
一、會計循環之意義 二、會計憑證概要 三、日記簿概要 四、分類帳概要
第九章 求职礼仪 本章从求职者的应聘资料准备、个人形象设计、言谈举止、应试技艺等方面作如下介绍。 求职前的准备: 一、知已知彼,有的放矢
危害辨識、分析講解及實作演練.
思想道德修养与法律基础 主讲人:XXX.
特种设备安全法简介 中原油田分公司 杜习广 2015年4月 视频.
马街乡综治维稳工作情况汇报 汇报人:xxx.
汉字的构造.
诵读欣赏 古代诗词三首.
組員:簡年佑組員:xxx 組員:xxx組員:xxx
第三課 宗教(倫理)的獨特向度 單元 3.2 全球倫理:兩項原則和四項座右銘
通病文章 休 闲   今天天气真好,晴空万里,天上飘着朵朵白云。(偶可从没见过这样的情景^_^)我和同学小刚一起骑车去上学,突然他的车气门芯坏了,我就把我车上的拔下来给他装上,我俩继续一起高高兴兴地骑车往学校赶。(原来“我”的自行车可以不用气门芯啊^_^)   我们经过一家百货商店时,我不禁感慨道:啊!看来人民生活水平的确提高了,你看那位农民老大爷,左手一台电冰箱,右手一台电视机,一溜小跑回家去了。(比周星弛在《功夫》里还要厉害?!)都说一心不能二用,当我注视老大爷的时候,冷不丁岔道里冲出来一位老太太,说
科學與科技課程 教師分享會 二OO四年五月七日.
初中《思想品德》课程改革 回顾·现状·展望
应如何深化普通高中学生综合素质评价 北京教科院基础教育研究所 赵学勤 2010、12、14-15.
四种命题 班级:C274 指导教师:钟志勤 任课教师:颜小娟.
一、情境设置 思考: 下列语句的表述形式有什么特点? 你能判断它们的真假吗? (1)若直线a//b,则直线a和直线b无公共点;(2)2+4=7; (3)垂直于同一条直线的两个平面平行; (4)若x2=1,则x=1; (5)两个全等三角形的面积相等; (6)3能被2整除.
增值评价 2014级 初中起点报告 解读培训 辽宁省基础教育质量监测与评价中心.
学习风格差异.
追问课堂,寻求效益 —有效教学的几点思考 牟平区实验小学 战丽娜.
主要内容 §6.1 系统预测概述 §6.2 物流系统需求预测的特征 §6.3 物流系统需求预测的方法 §6.4 基于神经网络的物流系统预测法
第十一章 预算控制 学习目的与要求:掌握全面预算的相关知识以及预算控制的几种形式
第五章 定积分及其应用.
苏教版小学数学六年级(下册) 认识正比例的量 执教者:朱勤.
贴近教学 服务师生 方便老师.
六年级 语文 下册 第四单元 指尖的世界.
(浙教版)四年级品德与社会下册 共同生活的世界 第四单元 世界之窗 第二课时.
第十八章 技术.
10.2 直方图.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第十四章 数理统计方法 §14.1 数理统计的基本概念 §14.2 参数的点估计 §14.3 区间估计 §14.4 回归分析 返回.
导数的应用 ——函数的单调性与极值.
第13章收益管理 第1节营业收入 第2节税金与纳税筹划 第3节利润预测与计划.
导入新课 在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为: 画散点图 求回归直线方程
第 四 章 迴歸分析應注意之事項.
两个变量的线性相关 琼海市嘉积中学 梅小青.
Xián 伯 牙 绝 弦 安徽淮南市八公山区第二小学 陈燕朵.
线性回归.
函数与导数 临猗中学 陶建厂.
Presentation transcript:

第四节 统计初步和数据整理 在这一节中我们将介绍统计学的基本知识。统计学是一门古老而又年轻的学科,例如为了征兵和收税的早期的人口统计,甚至在公元前就出现了。但是近代数理统计学,却主要是从20世纪初开始发展的。其主要特征是运用概率论的知识进行统计推断。即从所研究的全部对象中抽取部分个体,并通过对这部分个体的观察和分析,对全部对象的有关问题作出推断。数理统计学已经建立了一套系统的理论,有着广泛的应用。下面先介绍统计学中最基本的概念。

一、统计的基本概念 1. 总体 在讨论一个统计问题时,把研究对象的全体称为总体或母体,而其中的每一个对象称为个体。 例如我们要研究某企业生产的一批电视机显象管的平均使用寿命,那么这一批显象管的全体就组成一个总体,其中每一只显象管就是一个个体。 在实际中我们所研究的往往是总体中个体的某种数值指标,例如显象管的寿命指标X,它是一个随机变量。如果我们主要关心的只是这个数值指标X,为了方便起见,我们就将这个指标的所有可能取值的全体看作总体。如果X的分布函数是F(x),我们也称这一总体为具有分布函数F(x)的总体。

2. 样本 为了了解总体的情况,例如上面提到的一批电视机显象管的平均使用寿命,不可能测试每一只显象管的寿命,只能抽取其中的一部分显象管进行寿命测试,再通过对这一部分显象管的测试数据的分析对整批显象管的寿命作出推断。 从总体中抽出的部分个体称为样本或子样。样本中所含个体的数目称为样本容量。对于样本中的个体,感兴趣的是它的某个数值指标。从总体X中抽取n个个体,这n个数值指标记作X1,X2,…,Xn,显然每一个Xi都是一个随机变量。称X1,X2,…,Xn为来自总体X的一个容量为n的样本。

在抽取样本时,我们希望抽取的每一个个体都不受前面抽出的个体的影响,能够尽量多的反映总体的信息 。例如要知道N件产品中的正品率,我们抽取n件产品进行检验,当N不太大时,为了使每一个个体都能够尽量反映总体的信息我们必须采用有放回的抽取方法,即抽取一个个体对它进行检测之后放回总体中,充分混和之后再抽取下一个个体。如果N很大,而n相对于N又比较小的话就可以不放回而直接从总体中随机地抽取。这种抽取样本的方法叫作随机抽样。

今后我们讲的样本都是通过随机抽样方法得到的。 在一次实际的抽样中,我们得到样本X1,X2,…,Xn的一组观察值,用小写的x1, x2,…,xn表示,它是一组具体的数字,例如从某厂生产的显象管中随机抽出10个显象管,测得寿命如下(单位千小时) 4.8, 3.4, 5.2, 4.7, 5.5, 4.2, 4.5, 3.9, 5.0, 4.9 这十个数据就是样本容量为10的样本X1,X2,…,X10的一组观察值。

5.4.2 数据的整理和分析 一.频数与频率分布表 对于通过抽样获得的数据,或收集来的统计数据,如果不经过整理,很难看出有什么规律。我们常常要根据这些数据的变化情况,按照一定的方法进行分类整理,以便找出其中的规律。数据的频数或频率分布表就是常用的方法之一。

例5.35 从学校一次数学统测的成绩中,随机抽 取30个学生的成绩如下: 例5.35 从学校一次数学统测的成绩中,随机抽 取30个学生的成绩如下: 85 90 77 71 96 68 61 83 74 80 95 87 88 76 73 83 63 81 94 82 78 88 76 82 77 79 91 72 71 66. 现在我们对数据作如下加工整理: ⑴ 找出最大值,最小值,并计算极差R R=最大值-最小值=96-61=35。 极差R反映了数据波动的幅度。

⑵ 确定分组个数k和决定组距d 为了找出数据的分布情况,我们对数据进行分组,分组的个数一般根据数据量的多少来确定,当数据量在30左右时,可分为5—6个组,随着数据量n的增加,分组的数目也逐步增加,一般k在5到15之间。如果n很大k也可以取到20。 如何确定分组的个数k没有严格的规定,一个可供参考的计算公式(Sturges公式)是 k=1+3.222lgn. 实际的分组数可以是比上面公式计算出的k大些或小些 的整数。

在本例中n=30,我们取k=6。组数确定之后便可以决定组距,一般采用等距分组,本例中组距为:       。

⑶ 确定各组区间的上、下限   在确定各组的上、下限时,应使得最低一组区间包含最小值,最高一组区间包含最大值。另外,要使得每一个数据只能落在一个组区间中,特别是当数据落在两个组区间的分界点处时,要明确规定该数据属于较高的组区间还是属于较低的组区间。   有一种简单确定各组的上,下限的办法是使得组区 间的上,下限的数值比原始数据的精确度提高一位。 例如在本例中k=6,d=6,将数据变动范围[61,96]扩大 为(60.5, 96.5)分组结果见下表。

组号 组区间 组频数 组频率 1 60.5--66.5 3 0.1 2 66.5—72.5 4 0.133 72.5—78.5   7 0.233 78.5—84.5 5 94.5—90.5 0.166 6 90.5—96.5   总计 30 1

将每组的组频数除以数据总数得到每组的组频率,即: 组频率= 它表示各组组频数占总数据个数的比例。把组频率也记在表A中。 ⑷ 统计组频数   数出数据落入各个组区间中的个数,这个数就称为各组的组频数。将各组的组频数记入表A。   ⑸ 计算组频率 将每组的组频数除以数据总数得到每组的组频率,即:     组频率= 它表示各组组频数占总数据个数的比例。把组频率也记在表A中。

2. 直方图   直方图能够非常直观 地将数据整理结果表示出来的一种方法。在平面坐标,以横轴x表示所考察的变量,纵轴y表示频数,以表A为例,在横轴上标出6个等长的区间,在纵轴上标出频数,以区间组距为底边,各组的组频数为高作矩形。就得到了频数直方图。 60.5 66.5 72.5 78.5 84.5 96.5 3 4 7 5 图5.8

如果纵轴取为频率,按上面方法作出的直方图叫作频率直方图。   如果纵轴取为频率,按上面方法作出的直方图叫作频率直方图。   

三、经验分布 在前面概率论的讨论中我们总是假设随机变量的分布是已经知道的。但是在实际工作中总体X的分布往往是未知的,是需要我们去探求的。这里讲述的经验分布可以作为总体分布的一个近似。

  设x1, x2,…,xn是取自分布为F(x)的总体的一个样本的观察值。我们把样本的观察值由小到大进行排列,得到: 这里x(1)是样本的观察值x1, x2,…,xn中最小的一个,x(i)是样本的观察值中第i个小的数 (i=1,2,…,n)。则:

Fn(x)称为经验分布函数。当n比较大时,Fn(x)是总体分布函数F(x) 的一个良好的近似 Fn(x)称为经验分布函数。当n比较大时,Fn(x)是总体分布函数F(x) 的一个良好的近似.在图B中我们画出容量为100 的某个样本的经验分布函数F100(x)和相应总体的 分布函数F(x)。

四、 样本均值和样本方差 数学期望和方差是描述随机变量的重要指标,我们希望从样本的信息中给出总体期望和方差的估计。 设X1,X2,…,Xn是取自总体X的一个容量为n的样本,则 称为样本均值;         以及 分别称为样本方差和样本标准差。

我们可以用样本均值和样本方差来估计总体的数学期望和方差。如果x1, x2,…,xn是一个样本观察值,那么样本方差和样本标准差的观察值 就是总体的数学期望和方差的一个估计值。

例5.36 从某高校一年级男生中任意抽取12名,测得他 们的身高如下(单位:cm):171,165,174,175, 168,164,173,178,168,170,172,173,试估计该 年级男生的平均身高,并估计其方差和标准差。 解: =(171+165+174+175+168+164+173+178+168+170+172 +173)÷12 =170.92 s2 =[(171-170.92)2+(165-170.92)2+(174-170.92)2+…+(173- 170.92)2]÷11 =16.99 s=4.12。

该年级男生的平均身高是170.92 cm;男生身高的方差是16.99,标准差是4.12。 样本均值和样本方差的计算公式比较复杂,具体计算,特别是数据比较复杂时,计算很繁锁。但是不要紧,现在大部分的计数器都有统计计算的功能,只要进入计数器的统计状态,按照规定输入数据计数器就能自动计算出和s(或s2)。具体的操作要参考各个计数器的使用说明。可见只要学会了计数器统计功能的使用,计算样本均值和样本方差还是非常方便的。

第五节 回归分析

一、回归概念 自然界中有许多现象之间存在着相互依赖,相互制约的关系。这些关系有两类,一类是函数关系,即变量之间有着确定的联系(如圆面积与圆半径的关系);另一类是相关关系,例如: 子女的身高和父母的身高; ……。 这些变量相互关连着,但是这种联系又不能由一个法则或函数来确定。例如,一般说来父母身材高的,子女的身材也高一些,但是父母的身高与子女的身高并不存在一种确定的函数关系,仅呈现出某种趋势。这种不呈现确定性关系的变量之间的关系就是相关关系。

相关关系表示变量y的变化和另一个变量x的取值有关, 但关系是不确定的。 于是人们希望通过对y和x的一组观察值(xi, yi), i=1,2,3,…,n的分析找出对它们之间关系的一种描述。这种方法就是回归分析。“回归”一词最早出自于英国生物统计学家高尔顿(Galton)。他在研究人类身高的遗传问题时分析了儿子身高的和父母身体平均高度的关系。他发现很高(很矮)的双亲的儿子们一般高于(矮于)平均值但不象他们的双亲那么高(矮),因此儿子的身高将“回归”到平均身高而不是更趋极端,这也是“回归”一词的最初的含义。

二、 一元线性回归

利用微积分的知识可以求出使Q(a,b)达到最小的a,b满足下面的线性方程组: y=a*+b*x 称为回归方程。

例5.37 某农科所为了试验某种有机综合肥料的用量 对谷物产量的影响进行了科学试验,得到以下数据: 肥料的用量: 15 20 25 30 35 40 45 谷物 产 量: 330 345 365 405 445 490 455 求回归方程并预测肥料的用量为42时谷物的产量。 解:列表计算系数: i xi yi xi2 xiyi 1 15 330 225 4950 2 20 345 400 6900 3 25 365 625 9125 4 30 405 900 12150 5 35 445 1225 15575 6 40 490 1600 19600 7 45 455 2025 20475 Σ 210 2835 7000 88775

写出法方程: 解出:a*=245.36、b*=5.3214 于是回归方程为: y=245.36+5.3214x; i xi yi xi2 xiyi 1 15 330 225 4950 2 20 345 400 6900 3 25 365 625 9125 4 30 405 900 12150 5 35 445 1225 15575 6 40 490 1600 19600 7 45 455 2025 20475 Σ 210 2835 7000 88775 解出:a*=245.36、b*=5.3214 于是回归方程为: y=245.36+5.3214x; 将x=42代入回归方程,可以得 到谷物产量的预测值为: 468.86。