数据挖掘 DATA MINING 刘鹏张燕总主编王朝霞主编施建强杨慧娟陈建彪副主编

数据挖掘 DATA MINING 刘鹏张燕总主编王朝霞主编施建强杨慧娟陈建彪副主编
高级大数据人才培养丛书之一，大数据挖掘技术与应用数据挖掘 DATA MINING 刘鹏张燕　总主编王朝霞　主编　　施建强杨慧娟陈建彪副主编曹洁宁亚辉王伟嘉袁晓东张卫明编者（按姓氏首字母排序）

第四章回归 More 应用到市场营销的各个方面，如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。
高级大数据人才培养丛书之一，大数据挖掘技术与应用第四章　回归回归是一种基于统计原理，对大量统计数据进行数学处理，并确定变量（或属性）之间的相关关系，建立一个相关性的回归方程（函数表达式），并加以外推，用于预测今后的因变量的变化的方法。根据因变量和自变量的函数表达式分为：线性回归分析、非线性回归分析。根据因变量和自变量的个数可分为：一元回归分析、多元回归分析、逻辑回归分析和其它回归分析等。 More 应用到市场营销的各个方面，如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。 2 of 59

第四章回归 4.1 回归基本概念 4.2 一元回归分析 4.3 多元线性回归分析 4.4 逻辑回归分析 3.1 数据挖掘概述
高级大数据人才培养丛书之一，大数据挖掘技术与应用第四章　回归 4.1　回归基本概念 4.2　一元回归分析 4.3　多元线性回归分析 4.4　逻辑回归分析 3.1　数据挖掘概述 4.5　其他回归分析 4.6　实战：用回归分析方法给自己的房子定价习题 3 of 59

4.1　回归基本概念第四章回归 4.1.1 回归分析的定义对于社会经济现象，很难确定因变量和自变量之间的关系，因为它们大多是随机的，只有通过大量的观察统计，才能找出其中的规律，随机分析是利用统计学原理描述随机变量关系的一种方法。回归分析可简单理解为信息分析与预测，信息即统计数据，分析即对信息进行数据处理，预测就是加以外推，也就是适当扩大已有自变量取值范围，并承认该回归方程在该扩大的定义域内成立，然后就可以在该定义域上取值进行“未来预测”。当然，对回归方程可以进行有效的控制。因此，回归分析主要解决下面两方面的问题： 1) 确定变量之间是否存在相关关系，若存在，则找出数学表达式。 2)根据一个或几个变量的值，预测或控制另一个或几个变量的值，且要估计这种控制或预测或以达到何种精确度。 4 of 59

4.1 回归基本概念 4.1.2 回归分析步骤 1)根据自变量与因变量的现有数据以及关系，初步设定回归方程。 2)求出合理的回归系数。
4.1　回归基本概念第四章回归 4.1.2 回归分析步骤 1)根据自变量与因变量的现有数据以及关系，初步设定回归方程。 2)求出合理的回归系数。 3)进行相关性检验，确定相关系数。 4)在符合相关性要求后，即可根据已经得到的回归方程与具体条件相结合，来确定事物的未来状况，并计算预测值的置信区间。回归分析中常用到的几个概念：实际值：实际观测到的研究对象特征数据值；理论值：根据实际值我们可以得到一条倾向线，用数学方法拟合这条曲线，可以得到数学模型，根据这个数学模型计算出来的、与实际值相对应的值，称为理论值；预测值：实际上也是根据数学模型计算出来的理论值，但它是与未来对应的理论值。表示符号：实际值，用 𝑦 𝑖 表示；理论值，用 𝑦 𝑖 表示；预测值，用 𝑦 0 表示。 5 of 59

4.1　回归基本概念第四章回归 4.1.2 回归分析要注意的问题为使回归分析方程较能符合实际，首先应尽可能判断自变量的可能种类和个数，并在观察事物发展规律的基础上定性回归方程的可能类型；其次，力求掌握较充分的高质量统计数据，再运用统计方法，利用数学工具和相关软件，从定量方面计算或改进定性判断。 6 of 59

4.2 一元回归分析 4.2.1 一元回归分析的模型设定 y=𝑓 𝑥,𝜃 +𝜀 （4.1） 𝑦= 𝛽 0 + 𝛽 1 𝑥+𝜀 (4.2)
4.2　一元回归分析第四章回归 4.2.1 一元回归分析的模型设定设x, y为两个经济变量，变量 y 受到变量x的影响。将 y 和x之间的关系表示为： y=𝑓 𝑥,𝜃 +𝜀 （4.1）（4.1）称为一元回归模型，其中𝑓为满足一定条件的函数，称为回归函数； 𝜃为参数，称为回归模型参数； 𝜀为随机变量，称为误差项或扰动项； y称为因变量， 𝑥称为自变量。当研究一个经济变量对另一个经济变量的影响时，一元回归分析是最为常用的方法。在简单的回归模型中，回归函数为解释变量的线性函数，回归模型称为一元线性回归模型，表达式为： 𝑦= 𝛽 0 + 𝛽 1 𝑥+𝜀 (4.2) 其中的回归模型参数 𝛽 0 、 𝛽 1 称为回归系数。 𝛽 0 称为常数项，也称截距项， 𝛽 1 称为斜率。 8 of 59

4.2　一元回归分析第四章回归 4.2.1 一元回归分析的模型设定回归模型的设定给出了回归函数的形式，但模型中的回归参数是未知的。要对模型参数进行估计和统计推断，需要从总体中抽取样本以获得数据。设从总体中抽取n 个样本，样本编号为i ，i = 1,2,…,n。第i 个样本为xi和yi 。将回归模型（4.2）应用于每个样本得出： 𝑦 𝑖 = 𝛽 0 + 𝛽 1 𝑥 𝑖 + 𝜀 𝑖 ,𝑖=1,2,…,𝑛 (4.3) （4.3）称为样本回归模型。注意，来自同一个总体的不同样本，其回归模型具有不同的误差项 𝜀 𝑖 。 9 of 59

4.2 一元回归分析例4.1 在进行消费行为研究中，从一个地区抽取20 个不同家庭的月可支配收入和消费数据，如下表所示：序号
4.2　一元回归分析第四章回归例4.1 在进行消费行为研究中，从一个地区抽取20 个不同家庭的月可支配收入和消费数据，如下表所示：序号消费（百元）可支配收入（百元） 1 72.3 100 11 132.3 189 2 92.51 120 12 149.8 214 3 135.2 200 13 115.3 188 4 94 130 14 132.2 197 5 163.5 240 15 149.5 206 6 114 16 100.25 142 7 86.5 126 17 79.6 112 8 142.36 213 18 90.2 134 9 156 19 116.5 169 10 112.56 167 20 170 10 of 59

4.2 一元回归分析例4.1 以可支配收入为横轴、消费为纵轴画出样本数据的散点图
4.2　一元回归分析第四章回归例4.1 以可支配收入为横轴、消费为纵轴画出样本数据的散点图从图中可以看出，可支配收入和消费之间存在明显的线性关系。但所有点并不在一条直线上，表明二者之间的关系是一种随机关系。 11 of 59

4.2　一元回归分析第四章回归 4.2.1 一元回归分析的模型设定在获得样本之后，要对模型（4.2）进行参数估计和统计推断，需要对样本回归模型的误差项进行一些假设。一元线性回归模型误差项的基本假设有四个，这些假设也是模型设定的一部分。（1）零均值，误差项的数学期望等于 0， 𝑢 𝑦|𝑥 是x的线性函数 𝑢 𝑦|𝑥 = 𝛽 0 + 𝛽 1 𝑥。（2）同方差，即方差齐次性：对于任意的x，有 𝜎 𝑦|𝑥 2 = 𝜎 2 。（3）独立性：y之间相互独立。（4）正态分布：对于任一固定x值，Y是一个随机变量，有确定的概率分布𝑌|𝑋~𝑁( 𝑢 𝑦|𝑥 , 𝜎 𝑦|𝑥 2 )。满足四个基本假设的线性回归模型（4.2）称为古典线性回归模型。古典线性回归模型是一种理想模型，实际情况很难满足其苛刻的条件，但它提供了一种研究变量之间关系的基本方法，即普通最小二乘法。当有关的条件不满足时，我们可以对模型及其估计方法进行改进，得出更加合理的模型和方法。 12 of 59

4.2　一元回归分析第四章回归 4.2.2 一元线性回归模型的参数估计模型（4.2）中有三个待估计参数：回归系 𝛽 0 、 𝛽 1 和误差方差 σ 2 。估计模型参数的方法有三种：普通最小二乘法、矩方法和极大似然方法。普通最小二乘法（OLS：Ordinary Least Square）是最为直观的估计方法，对模型条件要求最少，也就是使散点图上的所有观测值到回归直线距离平方和最小。 13 of 59

4.2 一元回归分析 4.2.3 基本假设下OLS估计的统计性质数理统计中给出的估计量基本评价标准有三个：
4.2　一元回归分析第四章回归 4.2.3 基本假设下OLS估计的统计性质数理统计中给出的估计量基本评价标准有三个：无偏性在假设1 满足时，OLS 估计是无偏估计，无偏性是 𝛽 0 ， 𝛽 1 的抽样分布性质，并不能说明从具体的样本计算出的一个估计量与参数的真实值 𝛽 0 ， 𝛽 1 有多大的偏差。因此，除了无偏性之外，还需要其它性质来进一步样本量足够大时，参数估计值逐渐接近真实值。一致估计在假设1 和假设3 成立时，OLS 估计是一致估计。一致性告诉我们，当样本量增大时，参数估计 𝛽 0 以概率趋近于参数真值 𝛽 0 。我们不能像理解微积分中的收敛概念一样理解 𝛽 0 对 𝛽 0 的趋近，以概率收敛只能保证当样本量足够大时，随机变量 𝛽 0 与常数 𝛽 0 的距离可以任意接近的概率趋近1，因此，不管样本容量多么大，仍然存在 𝛽 0 与常数 𝛽 0 “相去甚远”的情况发生的可能性，只是这种可能性随着样本增加越来越接近0。有效性（马尔可夫性）如果线性回归模型（4.2）满足假设 1－3，则在 𝛽 0 ， 𝛽 1 的所有线性无偏估计中，OLS估计量β_0，β_1的方差最小。马尔可夫性从理论上保证，如果模型满足假设1－3，则在所有线性无偏估计中，由最小二乘得出的估计量是最优的，这就保证了采用OLS 估计的合理性。但OLS 估计量的有效性是需要条件的，如果假设1－3 中的条件不成立，则不能保证OLS 的最小方差性。实际上，当假设2 和（或）假设3 不成立时，OLS 确实不再是最小方差线性无偏估计，而采用广义最小二乘得出的估计量才具有最优性。 14 of 59

𝑉𝑎𝑟 𝛽 0 = 𝑛 −1 𝑖=1 𝑛 𝑥 𝑖 2 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝜎 2
4.2　一元回归分析第四章回归 4.2.3 基本假设下OLS估计的统计性质如果假设 1－假设 4 成立，则 OLS估计量β ̂_0，β ̂_1服从正态分布，其方差分别为： 𝑉𝑎𝑟 𝛽 0 = 𝑛 −1 𝑖=1 𝑛 𝑥 𝑖 2 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝜎 2 𝑉𝑎𝑟 𝛽 1 = 𝜎 2 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 （4.4） 15 of 59

𝑡 𝛽 0 = 𝛽 0 − 𝛽 0 s 𝛽 0 ~𝑡 𝑛−2 ，𝑡 𝛽 1 = 𝛽 1 − 𝛽 1 s 𝛽 1 ~𝑡 𝑛−2 （4.7）
4.2　一元回归分析第四章回归 4.2.4 误差方差估计总体方差可以用样本方差来估计。如果能够得到误差项的样本值，可以很容易地给出 𝜎 2 的估计。困难在于误差项不可观测，不能得到样本。为此，必须寻找一个可以观测的量来替代误差项。显然，在可以代替误差项 𝜀 𝑖 的量中，残差 𝜀 𝑖 是最容易想到的。用残差代替误差，用残差值 𝜀 𝑖 作为误差的样本构造误差方差的估计量。设 𝜀 𝑖 为线性回归模型（4.2）的最小二乘残差，定义 𝜎 2 = 𝑠 2 = i=1 𝑛 𝜀 𝑖 2 𝑛− （4.5）为误差项方差 𝜎 2 估计量，其平方根 𝜎 =s称为回归标准误。 𝜎 2 是 𝜎 2 的无偏估计量。将 𝜎 2 = s 2 代替（4.4）中的σ^2可以得出估计量方差的估计，由此得 𝛽 0 , 𝛽 1 标准差的估计量： s 𝛽 0 = 𝑛 −1 𝑖=1 𝑛 𝑥 𝑖 2 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 ×𝑠，s 𝛽 1 = 1 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 ×𝑠 （4.6）分别称为 𝛽 0 、 𝛽 1 的标准误。用标准误将估计量标准化，并由t分布的定义知，标准化估计量分布服从t分布，则统计量： 𝑡 𝛽 0 = 𝛽 0 − 𝛽 0 s 𝛽 0 ~𝑡 𝑛−2 ，𝑡 𝛽 1 = 𝛽 1 − 𝛽 1 s 𝛽 1 ~𝑡 𝑛−2 （4.7） 16 of 59

4.2 一元回归分析 4.2.6 拟合优度和模型检验（F 检验）
4.2　一元回归分析第四章回归 4.2.6 拟合优度和模型检验（F 检验）对因变量y的样本离差平方和进行分解： 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 ) 2 = 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 𝑖 + 𝑦 𝑖 − 𝑦 ) 2 = 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 𝑖 ) 2 + 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 ) （4.9）式中最左边是因变量 y的样本离差平方和，也称为总平方和，记为TSS （Total sum of squares），最右边表达式中第一项为残差平方和RSS ，第二项称为解释平方和（也称回归平方和），记为ESS （explained sum of squares）。 TSS = RSS + ESS （4.10）回归平方和占总平方和的比例称为模型的拟合优度，记为R^2（R-squared），即 R 2 = 𝐸𝑆𝑆 𝑇𝑆𝑆 =1− 𝑅𝑆𝑆 𝑇𝑆𝑆 显然0 ≤ 𝑅 2 ≤1， 𝑅 2 越接近 1，残差平方和越接近 0，y 和x的线性关系越明显，模型拟合数据的效果越好； 𝑅 2 越接近 0，回归平方和越接近 0，y 和x的线性关系越不明显，模型拟合数据的效果越差。用回归平方和 ESS 与残差平方和RSS 的比作为模型整体效果的度量。 𝐹= 𝐸𝑆𝑆/1 𝑅𝑆𝑆/(𝑛−2) = 𝐸𝑆𝑆 𝑅𝑆𝑆 ×(𝑛−2) 设检验假设为 H 0 : 𝛽 1 =0， H 1 : 𝛽 1 ≠0。可以证明，如果模型假设 1－4 成立，在原假设下F 服从第一自由度为 1、第二自由度为n − 2的F 分布。F 值越大，越能拒绝原假设。 17 of 59

4.3　多元线性回归分析第四章回归 4.3.1多元线性回归模型多元回归分析预测法，是指通过对两上或两个以上的自变量与一个因变量的相关分析，建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时，称为多元线性回归分析。多元回归分析可以达到以下目的： 1. 了解因变量和自变量之间的关系是否存在，以及这种关系的强度。也就是以自变量所解释的因变量的变异部分是否显著，且因变量变异中有多大部分可以由自变量来解释。 2. 估计回归方程，求在自变量已知的情况下因变量的理论值或预测值，达到预测目的。 3. 评价特定自变量对因变量的贡献，也就是在控制其他自变量不变的情况下，该处变量的变化所导致的因变量变化情况。 4. 比较各处变量在拟合的回归方程中相对作用大小，寻找最重要的和比较重要的自变量。 19 of 59

Y= 𝛽 0 + 𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 +…+ 𝛽 𝑘 𝑥 𝑘 +𝜇 （4.11）
4.3　多元线性回归分析第四章回归 4.3.1多元线性回归模型假定被解释变量y与多个解释变量 𝑥 1 , 𝑥 2 ,…, 𝑥 𝑘 之间具有线性关系，是解释变量的多元线性函数，称为多元线性回归模型。即 Y= 𝛽 0 + 𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 +…+ 𝛽 𝑘 𝑥 𝑘 +𝜇 （4.11）其中y为被解释变量， 𝑥 𝑗 (𝑗=1,2,…,𝑘)为k个解释变量， 𝛽 𝑗 (𝑗=1,2,…,𝑘)为k+1个未知参数， 𝛽 0 是常数项， 𝛽 1 𝛽 2 … 𝛽 𝑘 是回归系数， 𝛽 1 是 𝑥 2 , 𝑥 3 ,…, 𝑥 𝑘 固定时， 𝑥 1 每增加一个单位对y的效应，即 𝑥 1 对y的偏回归系数，同理， 𝛽 2 是 𝑥 2 对y的偏回归系数， 𝜇为随机误差项。被解释变量y的期望值与解释变量 𝑥 1 , 𝑥 2 ,…, 𝑥 𝑘 的线性方程为： E Y = 𝛽 0 + 𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 +…+ 𝛽 𝑘 𝑥 𝑘 （4.12）称为多元总体线性回归方程，简称总体回归方程。对于n组观测值，其方程组形式为： Y 𝑖 = 𝛽 0 + 𝛽 1 𝑥 1𝑖 + 𝛽 2 𝑥 2𝑖 +…+ 𝛽 𝑘 𝑥 𝑘𝑖 + 𝜇 𝑖 （4.13）多元线性回归模型包含多个解释变量，多个解释变量同时对被解释变量Y发生作用，若要考察其中一个解释变量对Y的影响就必须假设其它解释变量保持不变来进行分析。因此多元线性回归模型中的回归系数为偏回归系数，即反映了当模型中的其它变量不变时，其中一个解释变量对因变量Y的均值的影响。 20 of 59

4.3　多元线性回归分析第四章回归 4.3.1多元线性回归模型建立多元性回归模型时，为了保证回归模型具有优良的解释能力和预测效果，应首先注意自变量的选择，其准则是： 1. 自变量对因变量必须有显著的影响，并呈密切的线性相关； 2. 自变量与因变量之间的线性相关必须是真实的，而不是形式上的； 3. 自变量之间应具有一定的互斥性，即自变量之间的相关程度不应高于自变量与因变量之因的相关程度； 4. 自变量应具有完整的统计数据，其预测值容易确定。 21 of 59

4.3　多元线性回归分析第四章回归 4.3.2 多元线性回归模型的假定与一元线性回归模型相同，多元线性回归模型利用普通最小二乘法(OLS)对参数进行估计时，有如下假定：假定1 零均值假定假定2 同方差假定假定3 无自相关性假定4 随机误差项μ与解释变量X不相关假定5 随机误差项μ服从均值为零，方差为 𝜎 2 的正态分布假定6 解释变量之间不存在多重共线性 22 of 59

4.3 多元线性回归分析 4.3.3 多元线性回归模型的参数估计
4.3　多元线性回归分析第四章回归 4.3.3 多元线性回归模型的参数估计 1.回归参数的最小二乘估计对于含有k个解释变量的多元线性回归模型 Y 𝑖 = 𝛽 0 + 𝛽 1 𝑥 1𝑖 + 𝛽 2 𝑥 2𝑖 +…+ 𝛽 𝑘 𝑥 𝑘𝑖 + 𝜇 𝑖 (𝑖=1,2,…,𝑛) 设 𝛽 0 , 𝛽 1 , 𝛽 2 ,…, 𝛽 𝑘 分别作为参数 𝛽 0 , 𝛽 1 , 𝛽 2 ,…, 𝛽 𝑘 的估计量，得样本回归方程为： Y 𝑖 = 𝛽 𝛽 1 𝑥 1𝑖 + 𝛽 2 𝑥 2𝑖 +…+ 𝛽 𝑘 𝑥 𝑘𝑖 观测值 Y 𝑖 与回归值 Y 𝑖 的残差 𝑒 𝑖 为： 𝑒 𝑖 = Y 𝑖 − Y 𝑖 = Y 𝑖 −（ 𝛽 𝛽 1 𝑥 1𝑖 + 𝛽 2 𝑥 2𝑖 +…+ 𝛽 𝑘 𝑥 𝑘𝑖 ）设 𝛽 = 𝛽 0 𝛽 1 𝛽 2 ⋮ 𝛽 𝑘 为估计值向量，样本回归模型𝑌=𝑋 𝛽 +𝑒两边同乘样本观测值矩阵X的转置 𝑋 𝑡 矩阵，由统计学原理可得 𝛽 = ( 𝑋 𝑡 𝑋) −1 𝑋 𝑡 𝑌 （4.20）则为向量β的OLS估计量。 23 of 59

4.3 多元线性回归分析 4.3.3 多元线性回归模型的参数估计
4.3　多元线性回归分析第四章回归 4.3.3 多元线性回归模型的参数估计 1.回归参数的最小二乘估计对于含有k个解释变量的多元线性回归模型 Y 𝑖 = 𝛽 0 + 𝛽 1 𝑥 1𝑖 + 𝛽 2 𝑥 2𝑖 +…+ 𝛽 𝑘 𝑥 𝑘𝑖 + 𝜇 𝑖 (𝑖=1,2,…,𝑛) 设 𝛽 0 , 𝛽 1 , 𝛽 2 ,…, 𝛽 𝑘 分别作为参数 𝛽 0 , 𝛽 1 , 𝛽 2 ,…, 𝛽 𝑘 的估计量，得样本回归方程为： Y 𝑖 = 𝛽 𝛽 1 𝑥 1𝑖 + 𝛽 2 𝑥 2𝑖 +…+ 𝛽 𝑘 𝑥 𝑘𝑖 观测值 Y 𝑖 与回归值 Y 𝑖 的残差 𝑒 𝑖 为： 𝑒 𝑖 = Y 𝑖 − Y 𝑖 = Y 𝑖 −（ 𝛽 𝛽 1 𝑥 1𝑖 + 𝛽 2 𝑥 2𝑖 +…+ 𝛽 𝑘 𝑥 𝑘𝑖 ）设 𝛽 = 𝛽 0 𝛽 1 𝛽 2 ⋮ 𝛽 𝑘 为估计值向量，样本回归模型𝑌=𝑋 𝛽 +𝑒两边同乘样本观测值矩阵X的转置 𝑋 𝑡 矩阵，由统计学原理可得 𝛽 = ( 𝑋 𝑡 𝑋) −1 𝑋 𝑡 𝑌 （4.20）则为向量β的OLS估计量。 24 of 59

4.3 多元线性回归分析 4.3.3 多元线性回归模型的参数估计 2.随机误差项μ的方差 𝝈 𝝁 𝟐 的估计量
4.3　多元线性回归分析第四章回归 4.3.3 多元线性回归模型的参数估计 2.随机误差项μ的方差 𝝈 𝝁 𝟐 的估计量样本回归方程得到的被解释变量估计值 𝑌 𝑖 与实际观测值 𝑌 𝑖 之间的偏差称为残差 𝑒 𝑖 𝑒 𝑖 = 𝑌 𝑖 − 𝑌 𝑖 = 𝑌 𝑖 −( 𝛽 𝛽 1 𝑥 1𝑖 + 𝛽 2 𝑥 2𝑖 +…+ 𝛽 𝑘 𝑥 𝑘𝑖 ) 残差的平方和为 𝑒 𝑖 2 = 𝜎 𝜇 2 [𝑛−(𝑘+1)] 随机误差项𝜇的方差 𝜎 𝜇 2 为： 𝜎 𝜇 2 = 𝐸( 𝑒 𝑡 𝑒) 𝑛−(𝑘+1) =𝐸( 𝑒 𝑡 𝑒 𝑛−(𝑘+1) ) 随机误差项𝜇的方差 𝜎 𝜇 2 的无偏估计量，记作 𝑆 𝑒 2 ，即 𝐸(𝑆 𝑒 2 )= 𝜎 𝜇 2 ， 𝑆 𝑒 2 = 𝜎 𝜇 2 ， 𝑆 𝑒 为残差的标准差(或回归标准差)。因此 𝑆 𝑒 2 = 𝑒 𝑖 2 𝑛−𝑘−1 = 𝑒 𝑡 𝑒 𝑛−𝑘−1 其中 𝑒 𝑖 2 = 𝑒 𝑡 𝑒= 𝑌 𝑡 𝑌− 𝛽 𝑡 𝑋 𝑡 𝑌 （4.21） 25 of 59

4.3 多元线性回归分析 4.3.3 多元线性回归模型的参数估计 3.估计参数的统计性质（1）线性性（2）无偏性（3）最小方差性
4.3　多元线性回归分析第四章回归 4.3.3 多元线性回归模型的参数估计 3.估计参数的统计性质（1）线性性（2）无偏性（3）最小方差性 26 of 59

4.3　多元线性回归分析第四章回归 4.3.4 显著性检验对所有自变量与因变量之间的直线回归关系的拟合程度，可以用统计量 𝑅 2 来度量，其公式如下： 𝑅 2 = 𝐸𝑆𝑆 𝑇𝑆𝑆 =1− 𝑅𝑆𝑆 𝑇𝑆𝑆 其中： TSS 称为总偏差平方和，其值为 ( 𝑌 𝑖 − 𝑌 ) 2 ，体现了观测值 y 1 , y 2 ,…, y 𝑛 总波动大小。 ESS（Explained Sum of Squares，或U）它是由于Y与自变量 𝑥 1 , 𝑥 2 ,…, 𝑥 𝑛 的变化而引起，被称作为回归平方和，其值为 𝑌 𝑖 − 𝑌 𝑖 2 ，体现了n个估计值 y 1 , y 2 ,…, y 𝑛 的波动大小。 RSS（Residual Sum of Squares，或Q）称为残差平方和，其值为 ( 𝑌 𝑖 − 𝑌 ) 2 。 𝑅 2 称为样本决定系数，对于多元回归方程，其样本决定系数为复决定系数或多重决定系数。回归模型的显著性检验包括：①对整个回归方程的显著性检验；②对回归系数的显著性检验。 27 of 59

4.3 多元线性回归分析 4.3.4 回归变量的选择与逐步回归 1. 变量选择问题选择合适的变量用于建立一个“最优”的回归方程
4.3　多元线性回归分析第四章回归 4.3.4 回归变量的选择与逐步回归 1. 变量选择问题选择合适的变量用于建立一个“最优”的回归方程（1）逐步回归法(Stepwise) （2）向前引入法（Forward）（3）向后剔除法(Backward)。 28 of 59

4.3 多元线性回归分析 4.3.4 回归变量的选择与逐步回归 2. 逐步回归分析（1）基本思想
4.3　多元线性回归分析第四章回归 4.3.4 回归变量的选择与逐步回归 2. 逐步回归分析（1）基本思想逐个引入自变量。每次引入对Ｙ影响最显著的自变量，并对方程中的老变量逐个进行检验，把变为不显著的变量逐个从方程中剔除掉，最终得到的方程中既不漏掉对Ｙ影响显著的变量，又不包含对Ｙ影响不显著的变量。 29 of 59

4.3 多元线性回归分析 4.3.4 回归变量的选择与逐步回归 2. 逐步回归分析（2）筛选的步骤 ①从回归方程中考虑剔除不显著变量。
4.3　多元线性回归分析第四章回归 4.3.4 回归变量的选择与逐步回归 2. 逐步回归分析（2）筛选的步骤 ①从回归方程中考虑剔除不显著变量。 ②从不在方程中的变量考虑引入新变量。 30 of 59

4.4　逻辑回归分析第四章回归 logit变换研究某一事件A发生的概率p，p值的大小与某此因素有关。因p的值在[0, 1]区间内，所以p不可能是x的线性函数或二次函数，一般多项式函数也不适合，这就给此类的回归带来困难。另一方面，当p接近于0或1时，一些因素即使有很大变化，p值的变化也不会显著。从数学上看，就是函数p对x的变化在p=0或1附近不敏感的、缓慢的，而且非线性的程度较高，于是要寻求一个函数θ(p)，使得它在p=0或p=1附近时变化幅度较大，而函数形式又不是太复杂。首先考虑用 𝑑𝜃(𝑝) 𝑑𝑝 来反映θ(p)在p附近的变化是合理，同时在p=0或1时， 𝑑𝜃(𝑝) 𝑑𝑝 应有较大的值。即： 𝑑𝜃(𝑝) 𝑑𝑝 ∝ 1 𝑝(1−𝑝) ，取成等式： 𝑑𝜃(𝑝) 𝑑𝑝 = 1 𝑝(1−𝑝) = 1 𝑝 + 1 1−𝑝 ，再求积分：𝜃 𝑝 =𝑙𝑛 𝑝 1−𝑝 。上述的变化过程称为logit变换，很明显θ(p)在p=0与p=1附近的变化幅度很大，而且当p从0变到1时，θ(p)从-∞变到+∞，这样就克服了一开始指出两点困难。如果p对x不是线性关系，θ对x就可以是线性的关系了，这给数据处理带来了很多方便。从前式，将p由θ来表示，就得到：𝑝= 𝑒 𝜃 1+ 𝑒 𝜃 。如果𝜃是某些自变量 𝑥 1 ,…, 𝑥 𝑘 的线性函数 𝑖=1 𝑘 𝑎 𝑖 𝑥 𝑖 ，则p就是 𝑥 1 ,…, 𝑥 𝑘 的函数： 𝑝= 𝑒 𝑖=1 𝑘 𝑎 𝑖 𝑥 𝑖 𝑒 𝑖=1 𝑘 𝑎 𝑖 𝑥 𝑖 32 of 59

4.4 逻辑回归分析 4.4.3 Logistic分布如果分布函数满足以下形式：
4.4　逻辑回归分析第四章回归 Logistic分布如果分布函数满足以下形式： 𝐹 𝑥 = (1+ 𝑒 −(𝑥−𝑢)/𝜎 ) −1 ,−∞<𝑥<∞（其中−∞<𝜇<∞,𝜎>0）该分布函数称为Logistic分布。另外𝐹 𝑥 函数也可表示成： 𝐹 𝑥 = tanh 𝑥−𝜇 2𝜎 其密度函数为 𝑓 𝑥 = 1 𝜎 𝑒 𝑥−𝜇 𝜎 1+𝑒𝑥𝑝 − 𝑥−𝜇 𝜎 −2 再将p表示成𝐹 𝑥 的形式： 𝑝=1−𝐹 𝑥 = 𝑒 − (𝑥−𝜇) 𝜎 (1+ 𝑒 −(𝑥−𝜇) 𝜎 ) 相应地，θ=− 𝑥−𝜇 𝜎 。上式说明logit变换与Logistic分布的关系。上式还说明，Logistic分布仍然是属于位置-尺度参数族，其中𝜇是位置参数，𝜎尺度参数，这样凡是与位置-尺度参数有关的结果，均对Logistic分布有效。当𝜇=0, 𝜎=1时，在分布称为标准Logistic分布，它的分布函数 𝐹 0 𝑥 与公布密度函数 𝑓 0 𝑥 为： 𝐹 0 𝑥 = (1+ 𝑒 −𝑥 ) −1 𝑓 0 𝑥 = 𝑒 −𝑥 (1+ 𝑒 −𝑥 ) 2 ,−∞<𝑥<∞ 很明显，如果考虑： 𝐺 0 𝑥 = 𝑒 𝑥 (1+ 𝑒 𝑥 ) ,−∞<𝑥<∞ 则 𝐺 0 𝑥 也是一个Logistic分布函数，且如下关系式： 𝐺 0 𝑥 =1− 𝐹 0 −𝑥 = 𝐹 0 𝑥 33 of 59

4.4 逻辑回归分析 4.4.4 列连表的Logistic回归模型以一个例子说明如何将一个列联表转化为Logistic回归模型：
4.4　逻辑回归分析第四章回归 4.4.4 列连表的Logistic回归模型以一个例子说明如何将一个列联表转化为Logistic回归模型：假定吸烟人得肺癌概率为p1，不得肺癌的概率就是1- p1，不吸烟的人得肺癌的概率是p2，不得肺癌的概率为1- p2。于是经过logit变换后： 𝜃 1 =𝑙𝑛 𝑝 1 1− 𝑝 1 ， 𝜃 2 =𝑙𝑛 𝑝 2 1− 𝑝 2 如果记 𝜃 2 为𝜃，则 𝜃 1 = 𝜃 1 + 𝜃 1 − 𝜃 2 =θ+∆。因此患肺癌是否与吸烟有关，就等价于检验 𝐻 0 :∆=0。考察了92个吸烟者，其中60个得肺癌，对于不吸烟的14个人中有3个得肺癌。更一般地，若考察了n1个吸烟者，得肺癌有r1个；考察n2个不吸烟者，得肺癌有r2个，因此p1与p2的估计值分别为 𝑝 1 = 𝑟 1 𝑛 1 , 𝑝 2 = 𝑟 2 𝑛 2 。令： 𝑧 𝑖 =𝑙𝑛 𝑟 𝑖 𝑛 𝑖 − 𝑟 𝑖 ,𝑖=1,2 可以证明，当 𝑛 𝑖 充分大时，有下列等式成立： 𝐸 𝑧 𝑖 = 𝜃 𝑖 ,𝑉𝑎𝑟 𝑧 𝑖 = 1 𝑛 𝑖 𝑝 𝑖 (1− 𝑝 𝑖 ) ,𝑖=1,2 34 of 59

4.4 逻辑回归分析 4.4.4 列连表的Logistic回归模型如果写成向量式，就是：
4.4　逻辑回归分析第四章回归 4.4.4 列连表的Logistic回归模型如果写成向量式，就是： 𝐸 𝑧 1 𝑧 1 = 𝜃 ∆ 𝑉𝑎𝑟 𝑧 1 𝑧 2 = 1 𝑛 1 𝑝 1 (1− 𝑝 1 ) 𝑛 2 𝑝 2 (1− 𝑝 2 ) 如果z1,z2是正态变量，这就是2×2列联表的Logistic回归模型。一般地，当ni充分大时，zi服从渐近正态分布，并将这一类问题的回归称为Logistic回归。 35 of 59

4.5 其他回归分析 4.5.1 多项式回归（Polynomial Regression）
4.5　其他回归分析第四章回归 4.5.1 多项式回归（Polynomial Regression）对于一个回归方程，如果自变量的指数大于1，那么它就是多项式回归方程。如果自变量只有一个时，称为一元多项式回归；如果自变量有多个时，称为多元多项式回归。在一元回归分析中，如果依变量y与自变量x的关系为非线性的，但是又找不到适当的函数曲线来拟合，则可以采用一元多项式回归。在这种回归技术中，最佳拟合线不是直线。而是一个用于拟合数据点的曲线。多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近，直至满意为止。事实上，多项式回归可以处理相当一类非线性问题，它在回归分析中占有重要的地位，因为任一函数都可以分段用多项式来逼近。因此，在通常的实际问题中，不论依变量与其他自变量的关系如何，我们总可以用多项式回归来进行分析。多项式回归问题可以通过变量转换化为多元线性回归问题来解决。多项式回归在回归分析中很重要，因为任意一个函数至少在一个较小的范围内都可以用多项式任意逼近，因此在比较复杂的实际问题中，有时不问y与诸元素的确切关系如何，而用回归分析进行分析运算。 37 of 59

4.5 其他回归分析 4.5.2 逐步回归（Stepwise Regression）
4.5　其他回归分析第四章回归 4.5.2 逐步回归（Stepwise Regression）在处理多个自变量时，我们可以使用这种形式的回归。在这种技术中，自变量的选择是在一个自动的过程中完成的，其中包括非人为操作。这一壮举是通过观察统计的值，如R-square，t-stats和AIC指标，来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法：标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。向前选择法从模型中最显著的预测开始，然后为每一步添加变量。向后剔除法与模型的所有预测同时开始，然后在每一步消除最小显着性的变量。这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。 38 of 59

4.5 其他回归分析 4.5.3 岭回归（Ridge Regression）
4.5　其他回归分析第四章回归 4.5.3 岭回归（Ridge Regression）当自变量间存在多重共线性关系时，回归系数方差变大，使得一个或多个自变量因为无法通过参数的显著性检验而被舍弃，这些自变量就不适合放入同一模型。因此，在建模前，需要对变量间的多重共性进行检查，最直接的方法是同一模型中避免选取有高度相关性的自变量，另一种办法就是采用岭回归来降低回归系数估计值的方差。岭回归分析是一种用于存在多重共线性（自变量高度相关）数据的技术。在多重共线性情况下，尽管最小二乘法（OLS）对每个变量很公平，但它们的差异很大，使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度，来降低标准误差。在一个线性方程中，预测误差可以分解为2个子分量。一个是偏差，一个是方差。预测错误可能会由这两个分量或者这两个中的任何一个造成的。我们可以通过计算方差膨胀因子（VIF）来表示多重共线性的指数，其计算公式为： 𝑉𝐼𝐹 𝑖 = 1 1− 𝑅 2 ,i=1,2,…,𝑚 当 𝑅 2 =0时，表示第i个自变量与其他m-1个自变量不相关，则 𝑉𝐼𝐹 𝑖 =1； 𝑅 2 =1，表示第i个自变量与其他m-1个自变量趋近于完全相反，则 𝑉𝐼𝐹 𝑖 =∞，可见 𝑉𝐼𝐹 𝑖 具有测度多重共线性的能力。m个自变量可以计算出m个𝑉𝐼𝐹值，其中若是最大的𝑉𝐼𝐹值超过10（表明至少某个判定系数大于0.9），则认为自变量存在着高度的多重共线性，当自变量过多时，可以对m个𝑉𝐼𝐹求平均数，若平均数明显大于1，则认为多重共线性存在。 39 of 59

4.5 其他回归分析 4.5.4 套索回归（Lasso Regression）
4.5　其他回归分析第四章回归 4.5.4 套索回归（Lasso Regression）套索回归类似于岭回归，（Least Absolute Shrinkage and Selection Operator, Lasso）也会惩罚回归系数的绝对值大小。此外，它能够减少变化程度并提高线性回归模型的精度。 Lasso 回归与Ridge回归有一点不同，它使用的惩罚函数是绝对值，而不是平方。这导致惩罚（或等于约束估计的绝对值之和）值使一些参数估计结果等于零。使用惩罚值越大，进一步估计会使得缩小值趋近于零。这将导致我们要从给定的n个变量中选择变量。除常数项以外，这种回归的假设与最小二乘回归类似；它收缩系数接近零（等于零），这确实有助于特征选择；这是一个正则化方法，使用的是L1正则化。如果预测的一组变量是高度相关的，Lasso 会选出其中一个变量并且将其它的收缩为零。 40 of 59

4.5 其他回归分析 4.5.5 弹性网络（ElasticNet）
4.5　其他回归分析第四章回归 4.5.5 弹性网络（ElasticNet） ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时，ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个，而ElasticNet则会选择两个。 Lasso和Ridge之间的实际的优点是，它允许ElasticNet继承循环状态下Ridge的一些稳定性。在高度相关变量的情况下，它会产生群体效应；选择变量的数目没有限制；它可以承受双重收缩。 41 of 59

4.6　实战：第四章回归用回归分析方法给自己的房子定价房子的价格（因变量）是很多自变量-房子的面积、占地的大小、厨房是否有花岗石以及卫生间是否刚重装过等的结果。所以，不管是购买过一个房子还是销售过一个房子，您都可能会创建一个回归模型来为房子定价。这个模型建立在邻近地区内的其他有可比性的房子的售价的基础上（模型），然后再把您自己房子的值放入此模型来产生一个预期价格。房子面积（平方英尺）占地的大小卧室花岗岩卫生间有无重装？销售价格 3529 9191 6 $205,000 3247 10061 5 1 $224,900 4032 10150 $197,900 2397 14156 4 $189,900 2200 9600 1` $195,000 3536 19994 $325,000 2983 9351 $230,000 3198 9669 ???? 43 of 59

4.6 实战： 4.6.1 为WEKA构建数据集 @RELATION house @ATTRIBUTE houseSize NUMERIC
4.6　实战：第四章回归 4.6.1 为WEKA构建数据集 @RELATION house @ATTRIBUTE houseSize NUMERIC @ATTRIBUTE lotSize NUMERIC @ATTRIBUTE bedrooms NUMERIC @ATTRIBUTE granite NUMERIC @ATTRIBUTE bathroom NUMERIC @ATTRIBUTE sellingPrice NUMERIC @DATA 3529,9191,6,0,0,205000 3247,10061,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,195000 3536,19994,6,1,1,325000 2983,9351,5,0,1,230000 44 of 59

4.6　实战：第四章回归 4.6.2 将数据载入WEKA 启动 WEKA，然后选择 Explorer。将会出现 Explorer 屏幕，其中 Preprocess 选项卡被选中。选择 Open File 按钮并选择前面创建的ARFF文件。 45 of 59

4.6　实战：第四章回归 4.6.3 用WEKA创建一个回归模型为了创建这个模型，单击 Classify 选项卡。第一个步骤是选择我们想要创建的这个模型，以便 WEKA 知道该如何处理数据以及如何创建一个适当的模型：单击 Choose 按钮，然后扩展 functions 分支。选择 LinearRegression 页。 46 of 59

4.6　实战：第四章回归 4.6.4 结果分析准备好创建模型后，单击 Start。 47 of 59

4.6 实战： 4.6.4 结果分析得到回归模型的预测输出公式
4.6　实战：第四章回归 4.6.4 结果分析得到回归模型的预测输出公式 sellingPrice = ( * houseSize) + ( * lotSize) + ( * bedrooms) + ( * bathroom) 把我的房屋的相关数据输入，就得到我的房屋的价格 sellingPrice = ( * 3198) + ( * 9669) + ( * 5) + ( * 1) sellingPrice = 219,328 48 of 59

4.6 实战： 4.6.4 结果分析除了房屋价格，还得到如下信息：
4.6　实战：第四章回归 4.6.4 结果分析除了房屋价格，还得到如下信息： 1. 花岗石无关紧要— WEKA 将只使用在统计上对模型的正确性有贡献的那些列（以 R-squared 量度，但这超出了本文的范围）。它将会抛弃并忽视对创建好的模型没有任何帮助的那些列。所以这个回归模型告诉我们厨房里的花岗石并不会影响房子的价值。 2. 卫生间是有关系的— 因卫生间使用了简单的 0 或 1 值，所以我们可以使用来自回归模型的这个系数来决定卫生间的这个值对房屋价值的影响。这个模型告诉我们它使房子的价值增加了 $42,292。 3. 较大的房子价格反而低— WEKA 告诉我们房子越大，销售价格越低？这可以从 houseSize 变量前面负的系数看出来。此模型告诉我们房子每多出一平方英尺都会使房价减少 $26？这根本没有意义。这是无用数据入、无用数据出的一个很好的例子。房子的大小并不是一个自变量，它还与卧室变量相关，因为房子大通常卧室也多。所以我们的模型并不完美。但是我们可以修复这个问题。在 Preprocess 选项卡，可以从数据集中删除列。对于本例，我们删除 houseSize 列并创建另一个模型。那么它会如何影响房子的价格呢？这个新模型又如何更有实际意义？（修改后的我的房子价格是： $217,894）。 49 of 59

习题： 1.调查某市出租车使用年限和该年支出维修费用（万元），得到数据如下：使用年限（1）求线性回归方程；
（2）由（1）中结论预测第10年所支出的维修费用．（） 2.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据：（1）画出数据对应的散点图；（2）求线性回归方程，并在散点图中加上回归直线；（3）据（2）的结果估计当房屋面积为150m2时的销售价格. （4）求第2个点的残差。使用年限 2 3 4 5 6 维修费用 2．2 3．8 5．5 6．5 7．0 房屋面积（㎡） 115 110 80 135 105 销售价格（万元） 24.8 21.6 18.4 29.2 22

AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

云创公众号推荐刘鹏看未来云计算头条中国大数据深度学习世界云创大数据订阅号云创大数据服务号高校大数据与人工智能
微信号：lpoutlook 云计算头条微信号：chinacloudnj 中国大数据微信号：cstorbigdata 深度学习世界微信号：dl-world 云创大数据订阅号微信号：cStor_cn 云创大数据服务号微信号：cstorfw 高校大数据与人工智能微信号：data_AI

手机APP推荐我的PM2.5 随时随地准确查看身边的 PM2.5值同声译支持26种语言互译的实时翻译软件我的南京
云创大数据为路况大数据应用提供技术支持科技头条汇聚前沿资讯的科技情报站

网站推荐万物云智能硬件大数据免费托管平台环境云环境大数据开放共享平台

感谢聆听

数据挖掘 DATA MINING 刘鹏张燕总主编王朝霞主编施建强杨慧娟陈建彪副主编

Similar presentations

Presentation on theme: "数据挖掘 DATA MINING 刘鹏张燕总主编王朝霞主编施建强杨慧娟陈建彪副主编"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

数据挖掘 DATA MINING 刘 鹏 张 燕 总主编 王朝霞 主编 施建强 杨慧娟 陈建彪 副主编

Similar presentations

Presentation on theme: "数据挖掘 DATA MINING 刘 鹏 张 燕 总主编 王朝霞 主编 施建强 杨慧娟 陈建彪 副主编"— Presentation transcript:

Similar presentations

About project

反馈

数据挖掘 DATA MINING 刘鹏张燕总主编王朝霞主编施建强杨慧娟陈建彪副主编

Presentation on theme: "数据挖掘 DATA MINING 刘鹏张燕总主编王朝霞主编施建强杨慧娟陈建彪副主编"— Presentation transcript: