Presentation is loading. Please wait.

Presentation is loading. Please wait.

§1 回归分析.

Similar presentations


Presentation on theme: "§1 回归分析."— Presentation transcript:

1 §1 回归分析

2 基础知识是形成学科能力的源头。本栏目根据课标要求,精准梳理,清晰呈现主要知识及内在关系。关键处合理挖空、易错处及时提醒,多策并举,夯实基础。请以此为载体,安排学生课前预习,以便打造高效课堂!

3 1.掌握线性回归方程的求解方法. 2.会利用相关系数来判断变量之间的相关程度. 3.了解非线性模型通过变换转化为线性回归模型的方法.

4 1.本课重点是线性回归方程的求解和相关系数的求解以及相关性判断.
2.本课难点是非线性回归模型与线性回归模型的转换.

5 1.回归分析 (1)相关关系的特点:非确定关系,即因变量的取值不是随自 变量的取值而确定的,因变量的取值有_______; 随机性

6 (2)线性回归方程 ①原理 一般地,设有n个收集数据如下: 当a ,b能够满足使得Q=(y1-bx1-a)2+(y2-bx2-a)2+…+(yn-bxn- a)2取得最小值时,就称y=bx+a为拟合这n对数据的线性回归方 程,该方程所表示的直线称为_____直线. x x1 x2 x3 xn y y1 y2 y3 yn 回归

7 ②公式 y=bx+a,其中

8 2.相关系数的计算 (1)范围:|r|≤1;(2)|r|越接近__,x,y的线性相关程度越高;(3)|r|越接近0,x,y的线性相关程度越___. 1

9 3.正相关、负相关与线性不相关 (1)正相关:当r>0时,lxy>0,从而b= >0,两个变量的值总 体上呈现出_____增减的趋势,此时称两个变量正相关. (2)负相关:当r<0时,b<0,一个变量_____,另一个变量有 _____的趋势,称两个变量有负相关. (3)线性不相关:当____时,称两个变量线性不相关. 同时 增加 减少 r=0

10 4.可线性化的回归分析 常见的变形形式 类型 变形方法 ①幂函数曲线y=axb 两边取对数变形为 lny=lna+blnx ,令 y′=lny,x′=lnx,a′=lna ,从而得到y′=a′+bx′ ②指数曲线 y=aebx 两边取对数变形为 lny=lna+bx ,令y′=lny,a′=lna ,从而得到y′=a′+bx

11 类型 变形方法 ③倒指数曲线 两边取对数变形为 ,令 得y′=a′+bx′ ④对数曲线y=a+blnx 令x′=lnx ,得y=a+bx′

12 1.相关关系与函数关系有怎样的区别? 提示:相关关系是不确定关系,而函数关系是确定关系. 2.求线性回归方程前必须进行相关性检验吗? 提示:是的,必须检验两个变量是否具有线性相关关系,具有线性相关关系,求出的线性回归方程才有意义. 3.利用线性回归方程求出的值是估计值还是准确值? 提示:利用线性回归方程求出的值是估计值.

13 4.以下给出的两个变量间是相关关系的有________.
①肥胖与血压; ②立方体的棱长与体积; ③球的半径与表面积; ④性别与性格; ⑤勤奋与学习成绩; ⑥节日与交通状况 【解析】②③是函数关系,其他是相关关系. 答案:①④⑤⑥

14 1.线性回归方程和相关系数公式 这两个公式形式和推导过程都比较复杂,只需要掌握公式的简单变形,对于公式的具体形式不要求记忆. 2.散点图与相关系数的关系 通过观察散点图可以判断变量间有无线性相关关系,但只能粗略地说明两个变量之间关系的密切程度,而相关系数能精确地描述两个变量相关关系的密切程度.

15 3.回归分析的意义 (1)回归分析的前提是两个变量之间具有相关关系; (2)对两个变量之间数量变化进行一般关系的测定,确定一个相应的数学表达式,即线性回归方程,达到由一个已知量推测或控制另一个变量的值的目标,是统计的一个重要方法; (3)线性回归方程是根据样本数据得到的一个确定性的函数关系,是用来对未知变量进行预测的,为了预测的效果更好,减小误差,应在求回归方程时尽量多地选取样本,选择代表性较强的样本,使得预测值尽量地接近真实值.

16 核心要点是提升学科素养的关键。本栏目突破核心要点,讲练结合,提醒认知误区,点拨规律技巧,循序渐进,培养主动思考意识,提升自主探究能力。请根据授课情况有选择地讲解,帮助学生理解突破知识重难点!

17 变量间的相关关系及判定 【技法点拨】 变量间相关关系判定的前提和方法 (1)前提:作出散点图; (2)方法:①若图中所有点看上去都在一条直线的附近波动,则这两个变量是线性相关的,②若所有的点看上去在某条曲线的附近波动,则称这个变量是非线性相关,③若所有点在图中没有显示任何关系,则称变量间不相关.

18 【典例训练】 1.对变量x,y有观测数据(xi,yi) (i=1,2,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )

19 (A)变量x与y正相关,u与v正相关 (B)变量x与y正相关,u与v负相关 (C)变量x与y负相关,u与v正相关 (D)变量x与y负相关,u与v负相关

20 2.有下列说法: ①回归分析就是由样本点去寻找一条直线方程,刻画这些样本点之间的关系的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以利用线性关系表示;

21 ③通过线性回归方程y=bx+a及其回归系数b,可以估计和预测变量的取值和变化趋势;
④因为任何一组观测值都能求得一个线性回归方程,所以没有必要进行相关性检验. 其中正确的命题是______.

22 【解析】1.选C.由这两个散点图可以判断,变量x与y负相关, u与v正相关,故选C.
2.①反映的是最小二乘法思想,是正确的; ②反映的是散点图的作用,是正确的; ③反映的是求线性回归方程y=bx+a的目的,是正确的; ④是不正确的,在求线性回归方程之前必须进行相关性检验,以体现两变量的关系. 答案:①②③

23 【想一想】判断变量间是否具备相关关系的主要方法是什么?散点图中点的分布形式主要有几种?
提示:(1)判断变量间是否具备相关关系,主要是利用散点图或求线性相关系数进行;(2)散点图中点的分布形式主要有两种,一种是从左下到右上,另一种是从左上到右下.

24 【变式训练】有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;
③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.其中两个变量成正相关的是( ) (A)①③ (B)②④ (C)②⑤ (D)④⑤ 【解析】选C.其中①③成负相关关系,④成函数关系.

25 线性回归方程及相关系数 【技法点拨】 线性回归方程的求解步骤 第1步:画出散点图,通过图形来判断是否线性相关; 第2步:计算 的值,代入线性回归方程求解公 式解得a,b; 第3步:写出线性回归方程y=bx+a.

26 【典例训练】 1.如图所示的5组数据中,去掉_____组数据后,剩下的4组数据的线性相关系数最大.( ) (A)点A (B)点B (C)点C (D)点D

27 2.某种产品的广告费用支出x万元与销售额y万元之间有如下的对应数据:
(1)求y对x的线性回归方程; (2)据此估计广告费用为10万元时销售收入y的值. 【解析】1.选D.相关系数反映线性相关程度,要使相关系数比原来大,应使得提供的各点尽量在一条直线附近,因此应去掉点D. x 2 4 5 6 8 y 30 40 50 60 70

28 2.(1) ∴y对x的线性回归方程为y=7x+15.

29 (2)当x=10时,预报y的值为y=7×10+15=85. 即广告费用为10万元时销售收入y的值大约为85万元.

30 【互动探究】在题2中,要使这种产品的销售额突破150万元,则广告支出至少多少万元?
【解析】由y=7x+15≥150,解得x≥19.3, 即要使这种产品的销售额突破150万元,则广告支出至少19.3万元.

31 【想一想】求解线性回归方程容易出现哪些错误?求解线性回归方程的关键是什么?
提示:(1)求解线性回归方程容易出现不依据散点图判断是否相关,而直接代入公式求解的错误;(2)求解线性回归方程的关键是对数据进行准确的处理.

32 【变式训练】已知某商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
(1)画出y关于x的散点图. (2)用最小二乘法求出需求量y对商品价格x的线性回归方程. x 14 16 18 20 22 y 12 10 7 5 3

33 【解析】(1)

34 (2) , , ∴b=-1.15, , 线性回归方程为y=-1.15x+28.1.

35 可线性化的回归分析 【技法点拨】 求解可线性化的回归分析的具体步骤 (1)画散点图; (2)根据散点图确定相应的回归模型; (3)模型变换; (4)求解变换后的回归方程; (5)求y与x间的回归方程.

36 【典例训练】 1.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( ) (A)y=a·xb (B)y=a+blnx (C)y=a·ebx (D)

37 若y与t之间近似满足y=a·ebt,求人口y对年份t的回归方程,若按此增长趋势,估计大约在哪一年我国人口达到14亿?
2.下表是我国 年人口数据资料 若y与t之间近似满足y=a·ebt,求人口y对年份t的回归方程,若按此增长趋势,估计大约在哪一年我国人口达到14亿? 年份 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 t 1 2 3 4 5 6 7 8 9 人口 y(万 人) 55 196 56 300 57 482 58 796 60 266 61 456 62 828 64 563 65 994 67 207

38 【解析】1.选B.由散点图知,此曲线类似对数函数型曲线,可用B项函数进行拟合.
2.设u=lny,c=lna,则u=c+bt,记1950年为t=0,则上表中数据经变换后如下表: t 1 2 3 4 u 5 6 7 8 9

39

40 令y= ,则 t=ln 所以t≈ ,即大约在1950年后的第42年(即1992)年我国人口达到14亿.

41 【想一想】求解可线性化的回归分析问题的关键是什么?解决这类问题容易忽视的环节有哪些?
提示:(1)求解可线性化的回归分析问题的关键是回归模型的选取和变换;(2)解决这类问题容易忽视的问题是最后的回归方程的还原.

42 【变式训练】某地区不同身高的未成年男性的体重平均值如下表:
身高x/cm 60 70 80 90 100 110 体重y/kg 6.13 7.90 9.99 12.15 15.02 17.50 120 130 140 150 160 170 20.92 26.86 31.11 38.85 47.25 55.05

43 (1)试建立y与x之间的回归方程; (2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8 倍为偏瘦,那么这个地区一名身高为175 cm体重为82 kg的在校男 生体重是否正常?

44 【解题指南】解答本题可先画出散点图,判断身高和体重是否线性相关,若不是线性相关,则转化为线性相关再求出回归方程,然后,再预测身高为175 cm的体重是多少来判断体重是否正常.
【解析】(1)根据上表中的数据画出散点图(如图所示).

45 由图可看出,样本点分布在某条指数型函数曲线y=c1ec2x的周围,于是令z=lny,得下表:
作出散点图如图所示. x 60 70 80 90 100 110 120 130 140 150 160 170 z 1.81 2.07 2.30 2.50 2.71 2.86 3.04 3.29 3.44 3.66 3.86 4.01

46 由表中数据可得z与x之间的线性回归方程为
z= x,则有y=e x. (2)当x=175时,预测平均体重为y=e ×175 ≈66.22, 由于66.22×1.2≈79.47<82, 所以这个男生偏胖.

47 规避误区、规范解答是提高数学成绩的有效途径。本栏目通过“见式得分,踩点得分”呈现得分点,点评失分点,帮助学生形成识错、纠错、避错能力,借以养成严谨的数学思维和良好的规范答题习惯。

48 【规范解答】与线性回归方程相关的综合问题
【典例】(12分)某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月1日至3月5日的每天昼夜温差x(℃)与实验室每天每100颗种子浸泡后的发芽数y(颗),得到如下资料: 日期 3月1日 3月2日 3月3日 3月4日 3月5日 温差x/℃ 10 11 13 12 8 发芽数y/颗 23 25 30 26 16

49 (1)从3月1日至3月5日中任选2天,记发芽的种子数分别为m,n,求事件m,n均不小于25的概率;
(2)若选取的是3月1日与3月5日的两组数据,请根据3月2日至3月4日的数据,求出y关于x的线性回归方程y=bx+a; (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?

50 【解题指导】

51 【规范解答】(1)m,n的所有取值情况有 (23,25),(23,30),(23,26),(23,16),(25,30), ①(25,26),(25,16),(30,26),(30,16),(26,16), 共有10个……………………………………………………… 2分 设“m,n均不小于25”为事件A,则包含的基本事件有 (25,30),(25,26),(30,26)①, 所以 ,故事件A的概率为 .……………………3分

52 (2)由数据得 ………………………… 6分 由公式,得 ∴y关于x的线性回归方程为 ……………… 9分

53 (3)当x=10时,y=22,|22-23|<2③,当x=8时,y=17,|17-16| <2.
所以得到的线性回归方程是可靠的.……………………… 12分

54 【阅卷人点拨】通过阅卷后分析,对解答本题的失分警示和解题启示总结如下:(注:此处的①②③见规范解答过程)
在解题过程中,若对古典概型中的事件数处理错误,即①处基本事件和满足条件的事件数分别是10,3;若事件数求解错误进而导致概率求解错误,考试中至少失掉3分; 若在求解线性回归方程的过程中,②处数据处理不当引发错误,数值过大过多是产生错误的根源,另外易将线性回归方程的书写形式和一次函数混淆导致失误,此处失误至少失掉2分;

55 ③若在③处出现全部数据进行验证的解题方式,未能理解数据误差标准的含义,虽然不会导致失分,但加大了解题的复杂程度. 利用线性回归分析,最主要的过程是求解回归方程,而这一过程的前提是依据散点图对相关性进行判断,解题时还要注意对数据的准确处理.

56 【规范训练】(12分)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了数据统计如下:
零件的个数x(个) 2 3 4 5 加工的时间y(小时) 2.5 4.5

57 (1)在给定坐标系中画出表中数据的散点图;
(2)求y关于x的线性回归方程y=bx+a; (3)试预测加工10个零件需要多少时间?

58 【解题设问】求解线性回归方程的过程中需要求出 的值吗?_______.
【规范答题】(1)散点图如图: ……………………………………………………………… 3分 不需要

59 (2) ……………………………………5分 ……………………7分 ∴y关于x的线性回归方程为y=0.7x+1.05.………………… 9分

60 (3)当x=10时,y=0.7× =8.05, ∴预测加工10个零件需要8.05小时. ………………………12分

61 1.下列变量间关系是相关关系的是( ) ①学生的学习态度与学习成绩; ②教师的执教水平与学生的学习成绩; ③学生的身高与学生学习成绩; ④家庭经济条件与学生学习成绩. (A)①② (B)①③ (C)②③ (D)②④ 【解析】选A.③④不具有相关关系.

62 2.工人月工资(元)依劳动生产率(千元)变化的回归方程为y=60+90x,下列判断正确的是( )
(A)劳动生产率为1000元时,工资为150元 (B)劳动生产率提高1000元时,工资提高150元 (C)劳动生产率提高1000元时,工资提高90元 (D)劳动生产率为1000元时,工资为90元 【解析】选C.此直线的斜率为90,所以劳动生产率提高1000元时,工资提高90元.

63 3.在两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的相关系数r如下,其中拟合程度最好的模型是( )
(A)模型1的相关系数为0.99 (B)模型2的相关系数为0.96 (C)模型3的相关系数为0.76 (D)模型4的相关系数为0.85 【解析】选A.相关系数的绝对值越接近1,则相应的回归模型拟合程度越好.

64 4.某同学由x与y之间的数据关系求得两个变量间的线性回归方程为y=bx-1,已知数据x的平均值为2,y的平均值为3,则b的值为 _____ .
【解析】由线性回归方程知,点(2,3)在方程y=bx-1上,将(2,3)代入得b=2. 答案:2

65 5.已知变量x,y有下列四对对应数据: 求y关于x的回归方程. 【解析】 所以 a= ×2.5=-0.25, 所以y关于x的回归方程为y=bx+a=0.8x-0.25. x 1 2 3 4 y 0.5 1.5

66

67


Download ppt "§1 回归分析."

Similar presentations


Ads by Google