优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。

Slides:



Advertisements
Similar presentations
第8章 非线性回归 8.1 可化为线性回归的曲线回归 8.2 多项式回归 8.3 非线性模型 8.4 本章小结与评注.
Advertisements

大学物理实验 第一讲 南昌大学物理实验中心 2013年2月.
中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报 华中师范大学 中国旅游研究院武汉分院 二〇一一年十二月.
实 验 设 计 基 础.
无锡商业职业技术学院 机电工程学院党总支孙蓓雄
这是一个数字的 乐园 这里埋藏着丰富的 宝藏 请跟我一起走进数学的 殿堂.
南京市国税局国际税务管理处 二00九年二月二十四日
全面了解入党程序 认真履行入党手续 第一讲 主讲人:陈亭而.
中共湖北大学知行学院委员会党校 入党材料规范填写指导 学工处 李华琼 二〇一三年十二月.
云南财经大学2010年党员发展培训—— 党员发展工作培训 校党委组织部 2010年9月17日.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
第七章 多變數微積分 課程目標 多變數函數 偏微分 多變數函數的極值 受制型極值與拉氏乘子法 最小平方法 全微分 二重積分.
前言 MINITAB 是为质量改善、教育和研究应用领域提供统计软件和服务的先导。是一个很好的质量管理和质量设计的工具软件,更是持续质量改进的良好工具软件。 MINITAB 统计软件为质量改善和概率应用提供准确和易用的工具。MINITAB 被许多世界一流的公司所采用,包括通用电器、福特汽车、通用汽车、3M、霍尼韦尔、LG、东芝、诺基亚、以及.
國小學童性教育介入行動研究— 以屏東縣里港國民小學五年級學生為例
22.3 实际问题与一元二次方程(1).
Chapter 3 預測.
第二章 语音 第六节 音变 轻 声1.
第四章 回归假设的二级检验: 计量经济学检验
第三讲 事务性文书的写作 (计划 总结 调查报告 ).
如何开好通表会 荔湾区教育局第二期学生团干培训 2009年9月 1.
初中语文总复习 说明文 阅读专题 西安市第六十七中学 潘敏.
如何撰写教育科研论文 谌 业 锋 四川省凉山州教育科学研究所 欢迎访问 业锋教育在线
第八章 诉讼法 第一节 诉讼法概述 第二节 民事诉讼法 第三节 行政诉讼法 第四节 刑事诉讼法.
1.1.2 四 种 命 题.
普及纳米知识 推动科技进步.
第五章 营销调研和预测.
第四节 统计初步和数据整理 在这一节中我们将介绍统计学的基本知识。统计学是一门古老而又年轻的学科,例如为了征兵和收税的早期的人口统计,甚至在公元前就出现了。但是近代数理统计学,却主要是从20世纪初开始发展的。其主要特征是运用概率论的知识进行统计推断。即从所研究的全部对象中抽取部分个体,并通过对这部分个体的观察和分析,对全部对象的有关问题作出推断。数理统计学已经建立了一套系统的理论,有着广泛的应用。下面先介绍统计学中最基本的概念。
通 知 通知是批转下级机关的公文,转发上级机关和不相隶属机关的公文,传达要求下级机关办理和需要有关单位周知或执行的事项,任免人员时使用的公文。
第8章 回归分析 本章教学目标: 了解回归分析在经济与管理中的广泛应用; 掌握回归分析的基本概念、基本原理及其分析应用的基本步骤;
Chapter 2 簡單迴歸模型.
第 14 章 複迴歸與相關分析.
关于虚拟变量回归模型 教学目的:了解虚拟变量的含义及使用,能够应用软件进行实例模拟。 教学内容: 虚拟变量的基本含义及使用
版权所有,引用请注明出处 第三章、运算方法与运算器 原著 谭志虎 主讲(改编) 蒋文斌.
第六章 正态条件下回归的推论.
一元线性回归(二).
第一章.
Stochastic Relationships and Scatter Diagrams
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
Chapter 14 Simple Linear Regression
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
第一章 质点的运动 §1 质点 参考系 运动表式 一.质点 忽略物体形状和大小,保留其质量的物理点模型。 .二. 参照系 坐标系
数据、模型与决策 汕头大学商学院 林佳丽.
寫作評估 實用文寫作講解 1.
DOE Minitab实践.
灵敏度分析 (what-if分析) 在实际问题中,我们首先收集有关数据,建立线性规划模型,用Excel求解.
庄文忠 副教授 世新大学行政管理学系 相关分析与简单回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.
MyLibrary ——数字图书馆的个性化服务
computer organization principle
第3章 預測 2019/4/11 第3章 預測.
迴歸分析 行銷、財務、人資研究.
一、迴歸分析的基本概念 二、SPSS的線性迴歸分析 三、迴歸模型的檢驗與意義
判別下列何者是 x 的多項式。以「○」表示是x的多項式,「×」表示不是 x的多項式 :
課程十 迴歸3.
(multiple linear regression)
第7章 回归分析.
导入新课 在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为: 画散点图 求回归直线方程
第 四 章 迴歸分析應注意之事項.
第3章 多维随机向量及其分布 3.1 随机向量及其联合分布函数 3.2 二维离散型随机向量 3.3 二维连续型随机向量
两个变量的线性相关 琼海市嘉积中学 梅小青.
(5) (-5x)(-7x+2) =__________ (6) 7x(5x2+6x-3) = _______________ -27x2
线性回归.
百雞問題 製作者:張美玲 資料來源:數學誕生的故事—凡異出版社.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
在下列空格中,填入適當的式子: (1)(-3x)‧9x=__________ -27x2 (2)(3x2)2 =__________
8的乘法口诀 导入 新授 练习.
Presentation transcript:

优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。 · 多元线性回归方程建立、显著性检验、偏回归平方和。 · 回归分析法在试验设计中的作用和地位。 · 正交多项式回归设计及回归方程的建立。

相关关系的特征是: 变量之间的关系很难用一 5.1 一元线性回归 5.1.1 引言 确定关系 变量之间的关系 相关关系 确定性关系 身高和体重 相关关系   相关关系的特征是: 变量之间的关系很难用一 种精确的方法表示出来.

十九世纪,英国生物学家兼统计学家高尔顿研究发现: 其中x表示父亲身高, y 表示成年儿子的身高(单位:英寸,1英寸=2.54厘米)。这表明子代的平均高度有向中心回归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。

回归分析处理的是变量与变量间的关系。变量间常见的关系有两类:确定性关系与相关关系。 变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。 回归分析便是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出它们的表达形式——回归函数的估计。

根据相关关系的程度划分 1、不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量x变动时,因变量y的数值不随之相应变动。例如,产品税额的多少与工人的出勤率、家庭收入多少与孩子的多少之间都不存在相关关系。 2、完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。 3、不完全相关。如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。如妇女的结婚年龄与受教育程度之间的一种关系。 大多数相关关系属于不完全相关,是统计研究的主要对象

回归分析所能解决的问题 回归分析主要解决以下几方面的问题: (1)确定几个特定变量之间是否存在相关关系,如果存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一个变量的取值,并且要知道这种预报或控制的精确度 (3)进行因素分析,确定因素的主次以及因素之间的相互关系等等

一元线性回归分析,只要解决: (1)求变量x与y之间的回归直线方程 (2)判断变量x和y之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变量的取值

案例 某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。 该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。 根据冶金学的专业知识和实践经验,该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。 为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99%以上。

如何制订含碳量的控制标准? 为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。 这是一个典型的产品质量控制问题,可以使用回归分析方法求解。

5.1.2 一元线性回归方程的确定

进行回归分析首先是回归函数形式的选择。 当只有一个自变量时,通常可采用画散点图 的方法进行选择。 0.1 42 0.11 43 0.12 45 0.13 0.14 0.15 47.5 0.16 49 0.17 53 0.18 50 0.2 55 0.21 0.23 60 例1 合金的强度y (×107Pa) 与合金中碳的含量x (%) 有关。为研究两个变量间的关系。首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,,n。本例中,我们收集到12组数据,列于表中

表1 合金钢强度y与碳含量x的数据 序号 x(%) y (×107Pa) 1 0.10 42.0 7 0.16 49.0 2 0.11 43.0 8 0.17 53.0 3 0.12 45.0 9 0.18 50.0 4 0.13 10 0.20 55.0 5 0.14 11 0.21 6 0.15 47.5 12 0.23 60.0

为找出两个量间存在的回归函数的形式,可以画一张图:把每一对数(xi,yi)看成直角坐标系中的一个点,在图上画出n个点,称这张图为散点图,见图。

从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为 y = 0+ 1x +  (1) 这便是y关于x的一元线性回归的数据结构式。通常假定 E() =0, Var() =  2 (2) 在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即 y ~N(0+ 1x,  2 ) (3) 显然,假定(3) 比 (2) 要强。

由于0, 1均未知,需要我们从收集到的数据(xi,yi),i=1,2,…,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行,即假定y1, y2,, yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型: (4)

由数据(xi,yi),i=1,2,…,n,可以获得0, 1的估计 ,称 (5) 为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。给定x=x0后,称 为回归值(在不同场合也称其为拟合值、预测值)。

回归系数的最小二乘估计

一般采用最小二乘方法估计模型中的0, 1 :令: 应该满足 称这样得到的 称为0, 1的最小二乘估计,记为LSE (Least Squares Estimation)。

最小二乘估计可以通过求偏导数并命其为0而得到: (6) 这组方程称为正规方程组,经过整理,可得 (7)

解(7)可得 (8) 这就是参数的最小二乘估计,其中

使用例中合金钢强度和碳含量数据,我们可求得回归方程,见下表 xi=1.90 n=12 yi=590.5 xi2=0.3194 xi yi =95.9250 yi2=29392.75 lxx=0.0186 lxy=2.4292 lyy=335.2292 由此给出回归方程为:

说明 分别是0,1的无偏估计; 是E(y0)=0+ 1 x0的无偏估计; 除 外, 与 是相关的; 除 外, 与 是相关的; 要提高 的估计精度(即降低它们的方 差)就要求n大,lxx大(即要求x1, x2,, xn较 分散)。

Regression Analysis: y versus x The regression equation is y = 28.1 + 133 x Predictor Coef SE Coef T P Constant 28.083 1.567 17.92 0.000 x 132.899 9.606 13.83 0.000 S = 1.309 R-Sq = 95.0% R-Sq(adj) = 94.5% Analysis of Variance Source DF SS MS F P Regression 1 327.93 327.93 191.40 0.000 Residual Error 10 17.13 1.71 Total 11 345.06

三种等价的检验方法 回归方程是否有意义的判断 在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。 F 检验 T检验 r检验

一、F 检验

图示离差平方和的分解 y {  } } x 离差分解图

若取=0.01,则F0.99(1,10) =10<F,因此在显著性水平0.01下回归方程是显著的。 在合金钢强度的例中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有 来源 平方和 自由度 均方和 F比 回归 SR =317.2589 fA=1 MSA=317.2589 176.55 残差 Se =17.9703 fe=10 MSe= 1.79703 总和 ST =335.2292 fT=11 若取=0.01,则F0.99(1,10) =10<F,因此在显著性水平0.01下回归方程是显著的。

Regression Analysis: y versus x The regression equation is y = 28.1 + 133 x Predictor Coef SE Coef T P Constant 28.083 1.567 17.92 0.000 x 132.899 9.606 13.83 0.000 S = 1.309 R-Sq = 95.0% R-Sq(adj) = 94.5% Analysis of Variance Source DF SS MS F P Regression 1 327.93 327.93 191.40 0.000 Residual Error 10 17.13 1.71 Total 11 345.06

二、 t 检验 对H0:1 =0的检验也可基于t分布进行。 由于, 因此在H0为真时,有 ,其中 ,它可用来检验假设H0。对给定的显著性水平?,拒绝域为 . 由于 ,称 为 的标准误,即 的标准差的估计。

注意到t2=F,因此,t检验与F检验是等同的。 以例中数据为例,可以计算得到 若取 =0. 01,则由于13. 2872>3

三、相关系数检验 一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数的检验进行。它的一对假设是 H0:=0 vs H1: 0 所用的检验统计量为样本相关系数 拒绝域为W={rc},其中临界值c应是H0: =0成立下r的分布的1 分位数,故记为c=r1-(n2).

由样本相关系数的定义可以得到 r与F统计量之间的关系 这表明, r是F的严格单调增函数,故可以从F分布的1 分位数 F1-(1, n2) 得到 r 的1 分位数为

譬如,对 =0.01,n=12, F0.99(1,10)=10.04 ,于是 。 为实际使用方便,人们已对r1- (n-2)编制了专门的表,见P151页表7-1。 以例中数据为例,可以计算得到 若取 =0.01,查P182页表7-1知 r0.99(10)=0.708, 由于0.9728>0.708,因此,在显著性水平0.01下回归方程是显著的。

相关系数临界值表 n-2 1 2 3 4 5 6 7 8 9 10 0.05 0.01 0.997 0.950 0.878 0.811 0.754 0.707 0.666 0.632 0.602 0.576 1.000 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.708 11 12 13 14 15 16 17 18 19 20 0.553 0.532 0.514 0.479 0.482 0.468 0.456 0.444 0.433 0.413 0.684 0.661 0.641 0.623 0.606 0.590 0.575 0.561 0.549 0.537 21 22 23 24 25 26 27 28 29 30 0.404 0.396 0.388 0.381 0.374 0.367 0.364 0.355 0.349 0.526 0.515 0.505 0.496 0.487 0.478 0.470 0.463 0.449

在一元线性回归场合,三种检验方法是等价 的:在相同的显著性水平下,要么都拒绝原假设 ,要么都接受原假设,不会产生矛盾。 三种检验方法具有等价特性 在一元线性回归场合,三种检验方法是等价 的:在相同的显著性水平下,要么都拒绝原假设 ,要么都接受原假设,不会产生矛盾。 F 检验可以很容易推广到多元回归分析场合,而其他二个则无法完成,所以,F检验是最常用的关于回归方程显著性检验的检验方法。

当我们求得变量x、y之间的回归方程后,往往通过方程回答这样两方面的问题: 预报与控制问题 当我们求得变量x、y之间的回归方程后,往往通过方程回答这样两方面的问题: (1)对任何一个给定的观测点x0,推断y0大致落的范围 (2)若要求观测值y在一定的范围y1<y<y2内取值,应将变量控制在什么地方 前者就是所谓的预报问题,后者称为控制问题

E(y0)的置信区间 于是E(y0)的1 的置信区间(CI)是 其中

y0的预测区间 实用中往往更关心x=x0时对应的因变量y0的取值范围。y0的最可能取值为 ,于是,我们可以使用以 为中心的一个区间 作为y0的取值范围。经推导, 的表达式为 上述预测区间(PI)与E(y0)的置信区间的差别就在于根号里多个1。

在例中,如果x0=0. 16,则得预测值为 若取 =0. 05,则t0. 975(10)=2. 2281, 又 , 故x0=0 在例中,如果x0=0.16,则得预测值为 若取 =0.05,则t0.975(10)=2.2281, 又 , 故x0=0.16对应因变量y0的均值E(y0)的0.95置信区间为(49.4328-1.0480, 49.4328+1.0480)=(48.3488, 50.5168)

可以计算得到, 从而y0的概率为0. 95的预测区间为 E(y0)的0. 95置信区间比y0的概率为0

minitab软件求解置信区间与预测区间

非线性回归方程的线性化 在实际问题中,有时两个变量间的关系不是线性相关关系,而是某种曲线相关关系,这时如果仍作线性回归,就不能反映出两个变量之间的内在联系,而必须作非线性回归。 在许多情况下,可通过对变量作适当的代换,化为线性回归问题处理,求出它的回归方程。

例 炼钢厂出钢水时用的钢包,在使用过程中由于钢水及炉渣对耐火材料的浸蚀,其容积不断增大。现在钢包的容积用盛满钢水时的重量y (kg)表示,相应的试验次数用x表示。数据见表,要找出y 与x的定量关系表达式。

钢包的重量y与试验次数x数据 下面我们分三步进行。 序号 x y 1 2 106.42 8 11 110.59 3 108.20 9 14 110.60 4 109.58 10 15 110.90 5 109.50 16 110.76 7 110.00 12 18 111.00 6 109.93 13 19 111.20 110.49   下面我们分三步进行。

1 确定可能的函数形式 为对数据进行分析,首先描出数据的散点图,判断两个变量之间可能的函数关系,图是本例的散点图。 观测这13个点构成的散点图,我们可以看到它们并不接近一条直线,用曲线拟合这些点应该是更恰当的,这里就涉及如何选择曲线函数形式的问题。

首先,如果可由专业知识确定回归函数形式,则应尽可能利用专业知识。当若不能有专业知识加以确定函数形式,则可将散点图与一些常见的函数关系的图形进行比较,选择几个可能的函数形式,然后使用统计方法在这些函数形式之间进行比较,最后确定合适的曲线回归方程。为此,必须了解常见的曲线函数的图形。

本例中,散点图呈现呈现一个明显的向上且上凸的趋势,可能选择的函数关系有很多,我们可以给出如下四个曲线函数: 1) 1/y=a+b/x 2) y=a+blnx 3) 4) 在初步选出可能的函数关系(即方程)后,我们必须解决两个问题:如何估计所选方程中的参数?如何评价所选不同方程的优劣?

2 参数估计 对上述非线性函数,参数估计最常用的方法是“线性化”方法。 以1/y=a+b/x为例,为了能采用一元线性回归分析方法,我们作如下变换u=1/x,v=1/y 则曲线函数就化为如下的直线v=a+bu 这是理论回归函数。对数据而言,回归方程为 vi=a+ bui + i 于是可用一元线性回归的方法估计出a,b。

参数估计计算表 1/y = 0.00897 +0.000829 1/x

用类似的方法可以得出其它两个曲线回归方程,它们分别是:

第一种情况的minitab求解

Regression Analysis: 1/y versus 1/x The regression equation is 1/y = 0.00897 +0.000829 1/x Predictor Coef SE Coef T P Constant 0.00896663 0.00000837 1071.14 0.000 1/x 0.00082917 0.00004118 20.14 0.000 S = 0.00001903 R-Sq = 97.4% R-Sq(adj) = 97.1% Analysis of Variance Source DF SS MS F P Regression 1 1.46905E-07 1.46905E-07 405.44 0.000 Residual Error 11 3.98564E-09 3.62331E-10 Total 12 1.50891E-07

Unusual Observations Obs 1/x 1/y Fit SE Fit Residual St Resid 1 0.500 0.009397 0.009381 0.000015 0.000016 1.33 X 3 0.250 0.009126 0.009174 0.000007 -0.000048 -2.69R R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence. 异常观测值 标准化 观测值 1/x 1/y 拟合值 拟合值标准误 残差 残差 1 0.500 0.009397 0.009381 0.000015 0.000016 1.33 X 3 0.250 0.009126 0.009174 0.000006 -0.000048 -2.69R R 表示此观测值含有大的标准化残差 X 表示受 X 值影响很大的观测值。

第二种情况的minitab求解

回归方程为 y = 106 + 1.71 lnx 自变量 系数 系数标准误 T P 常量 106.315 0.430 247.22 0.000 lnx 1.7140 0.1933 8.87 0.000 S = 0.486379 R-Sq = 87.7% R-Sq(调整) = 86.6% 方差分析 来源 自由度 SS MS F P 回归 1 18.608 18.608 78.66 0.000 残差误差 11 2.602 0.237 合计 12 21.211

第三种情况的minitab求解

Regression Analysis: y versus x^1/2 The regression equation is y = 106 + 1.19 x^1/2 Predictor Coef SE Coef T P Constant 106.301 0.600 177.03 0.000 x^1/2 1.1947 0.1884 6.34 0.000 S = 0.6437 R-Sq = 78.5% R-Sq(adj) = 76.6% Analysis of Variance Source DF SS MS F P Regression 1 16.653 16.653 40.20 0.000 Residual Error 11 4.557 0.414 Total 12 21.211

第四种情况

第四种情况的minitab求解

回归分析:ln(y-100) 与 1/x 回归方程为 ln(y-100) = 2.46 - 1.13 1/x 自变量 系数 系数标准误 T P 常量 2.46391 0.01314 187.50 0.000 1/x -1.12564 0.06464 -17.41 0.000 S = 0.0298812 R-Sq = 96.5% R-Sq(调整) = 96.2% 方差分析 来源 自由度 SS MS F P 回归 1 0.27073 0.27073 303.21 0.000 残差误差 11 0.00982 0.00089 合计 12 0.28055

回归方程为 ln(y-100) = 2.46 - 1.13 1/x 自变量 系数 系数标准误 T P 常量 2.46391 0.01314 187.50 0.000 1/x -1.12564 0.06464 -17.41 0.000

3 曲线回归方程的比较 我们上面得到了四个曲线回归方程,通常可采用如下二个指标进行选择。 (1)决定系数R2:类似于一元线性回归方程中相关系数,决定系数定义为: R2越大,说明残差越小,回归曲线拟合越好, R2从总体上给出一个拟合好坏程度的度量。 残差平方和 总变差平方和

(2)剩余标准差s:类似于一元线性回归中标准差的估计公式,此剩余标准差可用残差平方和来获得,即 s为诸观测点yi与由曲线给出的拟合值 间的平均偏离程度的度量,s越小,方程越好。

在观测数据给定后,不同的曲线选择不会影响 的取值,但会影响到残差平方和 的取值。因此,对选择的曲线而言,决定系数和剩余标准差都取决于残差平方和 ,从而,两种选择准则是一致的,只是从两个不同侧面作出评价。

表给出第一个曲线回归方程的残差平方和的计算过程, 由于n=13, ,故其决定系数及剩余标准差分别为: 其它三个方程的决定系数及剩余标准差可同样计算,我们将它们列在表中。

四种曲线回归的决定系数及剩余标准差 模型编号 1) 2) 3) 4) R2 0.9729 0.8773 0.7851 0.9623 s 1.9E-5 0.4864 0.6437 0.0298 从表中可以看出,第一个曲线方程的决定系数最大,剩余标准差最小,在这四个曲线回归方程中,不论用哪个标准,都是第一个方程拟合得最好。因此,近似得比较好的定量关系式就是 1/y = 0.00897 +0.000829 1/x

§5-2 多元回归分析方法 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回归问题为多元回归分析。 例如,影响用电量的因素就有,国民收入、经济增长率、工业发展速度,居民用电水平等。如果这些因素与用电量之间的关系都具有线性关系时,这就是多因素线性相关关系问题,则可以用多元线性回归模型来解决。

解决多元线性回归模型的原理与解决一元线性回归模型的原理完全相同,也是用最小二乘法确定多元线性回归模型的常数项和回归系数。 (1)模型 设因变量 y 与自变量 x1,x2,…,xk,有关系: Y = b0 + b1x1 + … + bkxk + ε 其中 ε 是随机项

现有几组数据: ( y1;x11,x21…,xk1) ( y2;x12,x22…,xk2) …… (yn;x1n,x2n…,xkn) 其中:xij是自变量xi的第 j 个值,yj 是 Y 的第 j 个观测值。

显然,多元线性统计模型是: 多元线性回归分析原理,与一元线性回归分析原理完全相同只是计算上复杂得多。但是用计算机来进行计算工作量与一元线性回归相比,复杂程度并不大。根据最小二乘法,应使残差: 最小 回归值 试验值

多元线性回归方差分析表

1、偏回归系数的标准化 回归方程中因素主次判断 偏回归系数b1,b2,...,bk表示xi对y的具体效应,但其自身大小并不能直接反应自变量的相对重要性。 主要是bj取值受到对应因素的单位和取值的影响。 标准化后可以解决这一问题

偏回归系数bj标准化回归系数Pj 标准化回归系数Pj越大,因素越重要。

2、偏回归系数的显著性检验 计算每个偏回归系数的偏回归平方和SSj

例 7-3 某种水泥在凝固时放出的热量 Y(卡/克)与水泥中下列 4 种化学成分有关: 应用举例 例 7-3 某种水泥在凝固时放出的热量 Y(卡/克)与水泥中下列 4 种化学成分有关: x1t:3CaO·Al2O3 的成份(%); x2t:3CaO·SiO2 的成份(%); x3t:4CaO·Al2O3·Fe2O3 的成份(%); x4t:2CaO·SiO2 的成份(%)。 作 Y 对 x1,x2,x3,x4的线性回归分析

表7-5 试验观测数据 编号 x1t x2t x3t x4t x5t = yt 1 7 26 6 60 78.5 2 29 15 52 74.3 3 11 59 8 20 104.3 4 31 47 87.5 5 33 95.9 55 9 22 109.2 21 17 102.7 44 72.5 54 18 93.1 10 115.9 40 23 34 83.8 12 66 113.3 13 68 109.4

(a)原始数据:是水泥在凝固时放出的热量 Y 与 4种成份关系的数据; (b)每个变量的总和及平均数(以下为方便起见有时记 y为 x5t)。

(c)各变量的交叉乘积和 (见表 7-6)。

表7-6 变量的交叉乘积及求和值 x1t x2t x3t x4t x5t = yt 1139 4922 769 2620 10032.0 33050 7201 15739 62027.8 2293 4628 13981.5 15062 34733.5 121088. 9

(d)正规方程的系数及常数项 li j及 y 的总平方和 ly y= l55(Y的总平方和) 表7-7 正规方程的系数及常数项 li j 1 2 3 4 5 415.23 251.08 -372.62 -290.00 775.96 2905.69 -166.54 -3041.00 2292.95 492.31 38.00 -618.23 3362.00 -2481.70 2715.76

(e)解正规方程并求其系数矩阵 L=(lij)k×k,的逆矩阵 C=(Ci j),正规方程(矩阵方程表达式为)

解之: b1= 1. 5511,b2= 0. 5101,b3= 0. 1019,b4= - 0.1441 ∴回归方程为: = 62. 4052 + 1. 5511x1 + 0. 5101 x2 + 0. 1019 x3 - 0. 1441 x4

按线性代数的矩阵求逆法,系数正规方程矩阵 L= ( l ) 的逆矩阵为:

(f)方差分析 表7-8 方差分析表 F 变 差来 源 平 方 和 自 由 度 均 方 回归 2667.90 4 111** 剩余 47.86 8 总计 2715.76 12

(g)偏回归平方和及其显著性检验

经检验,除了 P1 在α= 0. 10的水平上显著外,其余的三个因素都不显著,这个结论似乎与总回归的高度显著性有矛盾,实则不然,这是由于自变量之间有密切的相关而造成的。

(h)从回归方程中剔除一个自变量 由于偏回归平方和中有不显著的因素,剔除其中最小者 x3,此时 Y 对 x1,x2,x4的回归系数如下: 故新的回归方程为: = 71. 6482 + 1. 4519x1 + 0. 4161 x2 + 0. 2365 x4

虽然剩余标准差S没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好一些。 minitab求解 虽然剩余标准差S没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好一些。

SPSS多元非线性回归分析 研究12寸晶圆切割过程中喷涂工艺设备参数对保护性薄膜厚度的影响,提高设备调整效率和工艺质量,采用均匀设计的实验方法,以薄膜在测试量块上的厚度为目标,对影响厚度的主要因素:涂料压力(X1)、微调阀(X2)和雾化压力(X3)进行研究。本试验共3个因素,每个因素9个水平,因素水平表见表1。

表1 试验因素水平表 水平数 X1/10-5m X2/psi X3/psi 1 33 17 15 2 34 18 16 3 35 19 4 36 20 5 37 21 6 38 22 7 39 23 8 40 24 9 41 25

表2 U10*(108)均匀设计实验方案及试验数据表 试验次数 X1/10-5m X2/psi X3/psi W 1 1(33) 5(21) 7(21) 106.39 2 2(34) 10(26) 3(17) 150.68 3 3(35) 4(20) 10(24) 93.49 4 4(36) 9(25) 6(20) 136.96 5 5(37) 3(19) 2(16) 112.15 6 6(38) 8(24) 9(23) 123.64 7 7(39) 2(18) 5(19) 97.54 8 8(40) 7(23) 1(15) 143.83 9 9(41) 1(17) 8(22) 83.52

其中W(Y/K)为薄膜重量均值,可由表3得到。而薄膜厚度Y值可根据Y=KW得到。以薄膜厚度为目标的非线性回归方程模型为

表3 回归方程变量表 X1 X2 X3 X11 X12 X13 X22 X23 X33 W 33 21 1089 693 441 106.39 34 26 17 1156 884 578 676 442 289 150.68 35 20 24 1225 700 840 400 480 576 93.49 36 25 1296 900 720 625 500 136.96 37 19 16 1369 703 592 361 304 256 112.15 38 23 1444 912 874 552 529 123.64 39 18 1521 702 741 324 342 97.54 40 15 1600 920 600 345 225 143.83 41 22 1681 697 902 374 484 83.52

选择逐步回归确定了回归方程,用进入和删除的概率分别为0. 05和0 选择逐步回归确定了回归方程,用进入和删除的概率分别为0.05和0.1来进行对因变量影响不显著的自变量项排除,在输出的统计结果里可以看到回归方程模型、方差分析表和系数表等,可以知道,优化的三元二次方程为:

表4 方差分析表 模型 平方和 df 均方 F Sig. 回归 4610.764 4 1152.691 37505.376 表4 方差分析表 模型 平方和 df 均方 F Sig. 回归 4610.764 4 1152.691 37505.376 2.24×10-11 残差 0.154 5 0.031 总计 4610.918 9

对实验数据采用SPSS进行非线性逐步回归得到了薄膜厚度的数学模型,揭示了各因素的交互关系,为测机调整提供数据依据,节省大量反复测机时间,在保证工艺质量的同时提高了喷涂设备的生产效率。该模型已成功运用于某芯片封装测试厂的喷涂设备,并取得了显著效果。

Excel求解步骤 用Excel电子表格 选择 “回归”项 点击下拉菜单“工具”栏 选择 “回归”项 点击 “数据分析”项 按回归对话框中的提示,进行选择操作,即可得出全部的回归系数、相关系数、标准偏差等数据。 根据计算出的回归系数写出回归方程。

多元线性回归还可以扩展到更为普遍的情况。假定有: 多元曲线回归 多元线性回归还可以扩展到更为普遍的情况。假定有: (5-54) 式中, 是x的已知函数,不含有未知参数c,则显然对待定参数c 而言,该式仍为线性函数。 如下面函数式的格式就是此类函数的一例:

一般,常用的统计数学模型为G-1阶多项式: 任何函数至少在一个比较小的范围内可以用多项式任意逼近。因此,在比较复杂的实际问题中,往往不管 y 与各因素的关系如何,而采用多项式进行回归。可见,多项式回归在回归问题中占有特殊的地位。

点击下拉菜单的“工具”项,点击“数据分析”。 Excel方法步骤如下 根据x列的数据分别计算x2、lnx、1/x、(lnx)2。按顺序排列于x列的右则。 将数据成列输入到Excel电子表格中 点击下拉菜单的“工具”项,点击“数据分析”。 在数据分析对话框中,选取“回归”项,点击确定,出现回归对话框。 按对话框中的提示进行操作,可得出多项式回归曲线中各项中的系数。然后按 x, x2、lnx、1/x、(lnx)2的对应关系代入方程中即得出回归曲线的多项式方程。