第十二章相关与回归分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析

第十二章相关与回归分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析
第十二章相关与回归分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析第五节回归分析

社会上，许多现象之间也都有相互联系，例如：身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中，它们之间联系的程度和性质也各不相同。
本书第十章提出了两总体的检验及估计的问题，这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是，客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去，不仅要对相关关系的存在给出判断，更要对相关关系的强度给出测量，同时要披露两变量间的因果联系，其内容分为相关分析和回归分析这两个大的方面。

第一节变量之间的相互关系 1. 相关程度完全相关，指变量之间为函数关系；完全不相关指变
第一节变量之间的相互关系 1. 相关程度完全相关，指变量之间为函数关系；完全不相关指变量之间不存在任何依存关系，彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。由于数学手段上的局限性，统计学探讨的最多的是定距—定距变量间能近似地表现为一条直线的线性相关。在统计中，对于线性相关，采用相关系数（记作r）这一指标来量度相关关系程度或强度。就线性相关来说，当r ＝l 时，表示为完全相关；当r =0时，表现为无相关或零相关；当0< r <1时，表现为不完全相关。

所谓正相关关系是指一个变量的值增加时，另一变
2. 相关方向：正相关和负相关所谓正相关关系是指一个变量的值增加时，另一变量的值也增加。例如，受教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增加时，另一变量的值却减少。例如，受教育水平越高，理想子女数目越少。要强调的是，只有定序以上测量层次的变量才分析相关方向，因为只有这些变量的值有高低或多少之分。至于定类变量，由于变量的值并无大小、高低之分，故定类变量与其他变量相关时就没有正负方向了。

3. 因果关系与对称关系因果关系中两个变量有自变量（independent Variable)和因变量(dependent Variable)之分：（1）两个变量有共变关系；（2）因变量的变化是由自变量的变化引起的；（3）两个变量的产生和变化有明确的时间顺序，前者称为自变量，后者称为因变量。表现为对称关系的相关关系，互为根据，不能区分自变量和因变量，或者说自变量和因变量可以根据研究目的任意选定，例如身高和体重之间的关系。

4. 单相关和复相关从变量的多少上看，单相关只涉及两个变量，亦称二元相关；三个或三个以上变量之间的关系称为复相关，亦称多元相关。 5.直线相关和曲线相关从变量变化的形式上看，如果关系近似地表现为一条直线，称为直线相关或线性相关；如果关系近似地表现为一条曲线，则称为曲线相关或称为非线性相关。由于数学手段的局限性，我们以学习线性相关为主。在统计学中，通过分段处理线性相关也可以用于处理曲线相关。

第二节定类变量的相关分析本节内容： 1. 列联表 2. 消减误差比例 3. λ系数 4. τ系数

列联表，是按品质标志把两个变量的频数分布进
1. 列联表列联表，是按品质标志把两个变量的频数分布进行交互分类，由于表内的每一个频数都需同时满足两个变量的要求，所以列联表又称条件频数表。例如，某区调查了357名选民，考察受教育程度与投票行为之间的关系，将所得资料作成下表，便是一种关于频数的列联表。

2×2频数分布列联表的一般形式习惯上把因变量Y放在表侧，把自变量X放在表头。 2×2列联表是最简单的交互分类表。
r×c列联表 r(row)、c(column)

r×c频数分布列联表的一般形式

100 14 54 32 总数 10 4 2 增广见闻 50 7 41 理想工作 40 3 9 28 快乐家庭知心朋友志愿自己志愿

两个边际分布：

条件频数表中各频数因基数不同不便作直接比较，因此有必要将频数化成相对频数，使基数标准化。这样，我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是r×c相对频数分布列联表的一般形式。

r×c相对频数分布列联表的一般形式

出现的相对频数(或者频率)。将频数化成相对频数有两种做法：
在相对频数分布列联表中，各数据为各分类出现的相对频数(或者频率)。将频数化成相对频数有两种做法： ①相对频数联合分布两个边际分布或 ②相对频数条件分布或

r×c相对频数联合分布列联表

控制X，Y相对频数条件分布列联表

控制Y，X相对频数条件分布列联表

化为自变量受到控制的相对频数条件分布列联表，并加以相关分析。投票行为Y 受教育程度X
[例A1]试把下表所示的频数分布列联表，转化为自变量受到控制的相对频数条件分布列联表，并加以相关分析。投票行为Y 受教育程度X 大学以上大学以下投票弃权 160 7 129 61 289 68 合计： 167 190 357

投票行为Y 受教育程度X 大学以上大学以下投票弃权 95.8%(160/167) 4.2%(7/167) 67.9%(129/190) 32.1%(61/190) 81.0%(289/357) 19.0%(68/357) 100.0% (167)) (190) (357) 从上表可知，受过大学以上教育的被调查者绝大多数（占95.8%）是投票的，受教育程度在大学以下的被调查者虽多数也参与投票（占67.9%）,但后者参与投票的百分比远小于前者；前者只有4.2%弃权，而后者则有32.1% 弃权。两相比较可知，受教育程度不同，参与投票的行为不同，因此两个变量是相关的。

化为相对频数条件分布列联表和自变量受到控制的相对频数条件分布列联表，并加以相关分析。投票行为Y 受教育程度X
[例A2]试把下表所示的频数分布列联表，转化为相对频数条件分布列联表和自变量受到控制的相对频数条件分布列联表，并加以相关分析。投票行为Y 受教育程度X 大学以上大学以下投票弃权 100 67 114 76 214 143 合计： 167 190 357

投票行为Y 受教育程度X 大学以上大学以下投票弃权 60.0%(100/167) 40.0%(67/167) 60.0%(114/190) 40.0%(76/190) 60.0%(214/357) 40.0%(143/357) 100.0% (167)) (190) (357) 上表显示，大学以上文化程度和大学以下文化程度同样各有60%的人参与投票，40%的人弃权，并没有因为受教育程度不同，而使参与投票的行为有所不同。因此，此时的两个变量是不相关的，或者说是独立的。我们不难发现，此时反映全体投票情况的相对频数的边际分布( )也各有60% 的人参与投票，40%的人弃权。

上表显示，当两个变量不相关时有。如0.532× 0.40=0.213。投票行为Y 受教育程度X 大学以上大学以下投票弃权
28.0%(100/357) 18.8%(67/357) 31.9%(114/357) 21.3%(76/357) 60.0%(214/357) 40.0%(143/357) 46.8% (167/357) 53.2% (190/357) 100.0% (357) 上表显示，当两个变量不相关时有。如0.532× 0.40=0.213。

[例B]某社区调查了120名市民，考察性别与对吸烟态度之间的关系，试将所得资料作成相对频数的联合分布、边际分布和条件分布列联表，并进行相关分析。性别与对吸烟的态度态度Y 性别X 合计男女容忍 48 8 56 反对 20 44 64 68 52 120

相对频数联合分布列联表态度Y 性别X 男( X1 ) 女( X2 ) 容忍Y1 40.0% 6.7 % 46.7 % 反对Y2 16.7 % 36.6 % 53.3 % 56.7 % 43.3% 100 % (120)

相对频数条件分布列联表态度Y 性别X 男( ) 女( ) 容忍 70.6% 15.4 % 46.7 %(56) 反对 29.4 % 84.6 % 53.3 %(64) 100 % (68) (52) (120)

2675名双亲和他们10071个子女的智力的关系(%)(相对频数条件分布列联表)
父母智力组合子女智力优秀一般低下优＋优 71.6 25.4 3.0 优＋劣 33.6 42.7 23.7 一般＋一般 18.6 66.9 14.5 劣＋劣 5.4 34.4 60.2

实际上是通过相对频数条件分布的比较进行的。如果对不同的X，Y的相对频数条件分布不同，且和Y的相对频数边际分布不同，则两变量之间是
通过列联表研究定类变量之间的关联性，这实际上是通过相对频数条件分布的比较进行的。如果对不同的X，Y的相对频数条件分布不同，且和Y的相对频数边际分布不同，则两变量之间是相关的。而如果变量间是相互独立的话，必然存在着Y的相对频数条件分布相同，且和它的相对频数边际分布相同。后者用数学式表示就是或者

2. 消减误差比例 PRE （Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论，可以就自变量 X和因变量Y的关联性给出一个初步的判断。但是对关联性给出判断，肯定没有用量化指标表达来得好。所以，下面我们将关注于如何用统计方法，使相关关系的强弱可以通过某些简单的系数明确地表达出来。在社会统计中，表达相关关系的强弱，消减误差比例的概念是非常有价值的。消减误差比例的原理是，如果两变量间存在着一定的关联性，那么知道这种关联性，必然有助于我们通过一个变量去预测另一变量。其中关系密切者，在由一变量预测另一变量时，盲目性必然较关系不密切者为小。

PRE：用不知道Y与X有关系时预测Y的全部误差E1，减去知道Y与X有关系时预测Y的联系误差E2，再将其化为比例来度量
0≤PRE≤l 消减误差比例PRE适用于各测量层次的变量，λ系数和τ系数便是在定类测量的层次上以消减误差比例PRE为基础所设计的两种相关系数。

态度Y 性别X 合计男女容忍 48 8 56 反对 20 44 64 68 52 120 PRE=（56-28）/56=0.5

3. λ系数在定类尺度上测量集中趋势只能用众数。 λ系数就是利用此性质来构造相关系数的。（1）不对称的λ系数

[例] 对下表所示资料，用λ系数反映性别与收
入高低的相关关系。收入Y 性别X 合计男女低 60 150 210 高 120 70 190 180 220 400

（2）对称的λ系数

[例] 研究工作类别与工作价值的关系，工作类别可分为三类：工人、技术人员、管理/行政人员；工作价值也可分为三类：以收入/福利为最重要的职业选择标准的称为经济取向型，以工作的创造性、挑战性为最重要的职业选择标准的称为成就取向型，以工作中的人际关系为最重要的职业选择标准的称为人际关系取向型。对下表所示资料，用λ系数反映工作类别与工作价值的相关关系。

职工的工作种类与工作价值工作价值 Y 工作种类 X 合计工人技术人员管理/行政人员经济取向型成就取向型人际关系取向型 100
30 20 70 60 10 50 40 220 110 合计：FX 150 140 400

性质：（1）0≤λ≤1 （2）具有PRE意义。（3）对称与不对称情况下，有不同的公式。（4）以众数作为预测的准则，对条件频数分布列联表中众数频数以外的条件频数不予理会。（5）如果众数频数集中在条件频数分布列联表的同一行时，λ=0，从而无法显示两变量之间的相关性。

τ系数的统计值域是[0，1]，其特点是在计 4.τ系数算时考虑所有的边际频数和条件频数。注意：当众数很突出且众数分布不在同一行，同一
列时，用λ系数较好；但当众数不突出时，用τ系数更好；若众数集中在某一行或某一列，一定用τ系数。

[例] 对下表所示资料，用τ系数反映性别与
收入高低的相关关系，并对系数的PRE意义加以解释。收入Y 性别X 合计男女低 60 150 210 高 120 70 190 180 220 400

练习：调查100名青年人与其知心朋友的志愿，条件次数分布如下：计算知心朋友的志愿与自己志愿之间的相关关系，并提出研究结论。自己志愿
知心朋友志愿总数快乐家庭理想工作增广见闻 28 9 3 40 2 41 7 50 4 10 32 54 14 100

第三节定序变量的相关分析定序变量只能排列高低次序，因而在分析时只能考虑两变量变化的顺序是否一致及其等级之间的差距。以此来
第三节定序变量的相关分析定序变量只能排列高低次序，因而在分析时只能考虑两变量变化的顺序是否一致及其等级之间的差距。以此来计算两变量的相关系数。 1. 同序对、异序对和同分对 2. Gamma等级相关系数 3. 肯德尔等级相关系数 4. 萨默斯系数（d系数） 5. Spearman等级相关系数 6. 肯德尔和谐系数

社会学研究常用的两定序变量的相关测量 1. 同序对、异序对、同分对法，有一类是以同序对、异序对、同分对的概念
为基础的，如Gamma系数、肯德尔系数、d系数等。所以我们在讨论这几种相关系数之前，先来了解这三个概念。

单元 X Y A 1 2 B C 3 D E 在定序相关测量中，首先要搞清楚“次序对（pair）”的概念。例如，假设
研究员工的工作满足感与归属感的关系，将工作满足感从低到高，分为低（1）、中（2）和高（3）三个级别，归属感也从低到高分为低（1）、中（2）和高（3）三个级别。下表列示的是5名被访者A、B、C、D、E的情况。单元 X Y A 1 2 B C 3 D E

同序对参见上表（注意，为了容易识别各种次序对，该表已先将被访者按定序变量X由低到高作了排列），在观察X 序列时如果我们看到Xi＜ Xj ，在Y 序列中看到的是Yi＜ Yj，则称这一配对是同序对。同序对只要求X变化方向和Y 变化方向相同，并不要求X 变化大小和Y 变化大小相等。同序对的总数用符号ns表示。异序对见上表，在观察X序列时如果我们看到Xi＜ Xj ，在Y 序列中看到的是Yi ＞ Yj，则称这一配对是异序对。同样，异序对只要求X变化方向和Y变化方向相同，并不要求X变化大小和Y变化大小相等。同序对的总数用符号nd表示。

同分对如果在X序列中，我们观察到Xi＝ Xj (此时在Y序列中无Yi ＝ Yj)，则这个配对仅是X方向上而非Y 方向上的同分对；X 的这种同分对用符号nx表示。如果在Y 序列中，我们观察到Yi ＝ Yj(此时在X序列中无Xi＝ Xj )，则这个配对仅是Y 方向上而非X方向上的同分对；Y 的这种同分对用符号ny表示。如果我们观察到 Xi＝ Xj时，也观察到Yi ＝ Yj ，则称这两个配对为X与Y 同分对，以符号nxy表示。X 同分对的总数用符号Tx表示， Tx ＝ nx + nxy ；Y 同分对的总数用符号Ty表示, Ty ＝ ny + nxy 。 n个单位两两配对，总对数＝ ns + nd + nx + ny + nxy

计算Gamma系数，肯得尔系数、 d系数等，我们面对的经常是两定序变量已形成列联表的资料，所以对我们来说很重要的是要学会定序变量列联表中这五种“次序对”的计算和识别。同序对：“右下余子式”法异序对：“左下余子式”法

工作满足感与归属感高中低 8 4 3 6 5 1

2. Gamma系数性质：（1）取值范围[-1，1] （2）具有PRE意义（3）属对称相关测量。（4）不考虑同分对。

例：在某市200户中调查，看住户人口密度与婆媳冲突是否有关，交互分类后分布如下，计算G相关系数并提出研究结论。婆媳冲突住户密度总数高中低 23 20 4 49 11 55 28 94 8 27 24 59 42 102 56 200

3. 肯德尔等级相关系数 (1)Tau-a 系数适用于不存在任何同分对的情况。

对各院校校园环境及学生体质进行评价，评价结果如表（表中已先将学校按X作了次序排列）所示，试计算校园环境和学生体质关系的肯德尔相关系数。
某市有12 所大专院校，现组织一个评审委员会对各院校校园环境及学生体质进行评价，评价结果如表（表中已先将学校按X作了次序排列）所示，试计算校园环境和学生体质关系的肯德尔相关系数。学校名 A B C D E F G H I J 环境名次（X）体质名次（Y）

（2）Tau-b系数当出现同分对时，对分母进行修正。与G系数一样， Tau-b系数也具有消减误差比例的意义。 Tau-b系数的特殊性在于，只有在列联表的行数与列数相同（r =c）的情况下，其系数值才可能是-1或+1，否则便不确定。

（3）Tau-c系数当同分对很多时，且r ≠c ，可以用 Tau-c系数来测量。 m取r×c列联表中r和 c值较小者。 Tau-c系数没有消减误差比例的意义。

4. 萨默斯（d系数）萨默尔斯提出的，对G系数进行修正。 d系数具有PRE意义，取值[-1，1]，为不对称测量。

5. Spearman等级相关系数运用上式计算等级相关系数很简便:首先将定序变量X 和Y 的数值形成对应的两个序数数列(其中先将X由小
到大排)。如遇有相等的数值时，则应将原有的等级求其平均数，让它们以这平均等级并列。然后求出等级差，经平方后求和，运用上式即可求得斯皮尔曼等级相关系数。例：为了解活动能力与智商是否有关，作了10名同学的抽样调查，资料如表，问这10名同学的智商与活动能力是否有关。

学生活动能力名次智商智商名次 A 1 110 3 B 2 C 105 6 D 4 95 9 E 5 120 F 94 10 G 7 100 8 H I J

6. 肯德尔和谐系数前面我们谈的都是对双变量求等级相关系数。对于多变量求等级相关系数，如多个专家对同一事物评价的一致性或相关程度的衡量，肯德尔运用数理分析方法，提出了一个计算公式

假设四位专家对10所大专院校环境质量进行排序，
有关评价结果列于下表中，试通过计算肯德尔和谐系数，检验专家意见的一致性和相关程度。专家名大专院校名合计 A B C D E F G H I J A B C D —— 等级和R R2 6066

例：通过对1500多名青年作社会调查，探讨当代青年择业倾向与对社会经济生活的基本态度，得资料如表，求等级相关系数（当代青年择业倾向与他们对职业社会地位的等级认定的关系；择业倾向与他们对职业的富裕程度认定的关系）。

职业等级认为社会地位　富裕程度择业理想行政事业 1 5 2 各类专业 4 企业 3 教师 6 商业工人 8 7 个体户农民

试就以下单元数据，列举其中的同序对、异序对、同分对。单元 X Y A 3 2 B 1 C D E

根据交互分类表计算：ns、nd、 nx 、 ny 、 nxy 、 Tx 、 Ty 、 T（总对数）
高中低 f11 f12 f13 f21 f22 f23 f31 f32 f33 高中低 10 12 5 20 30

练习：1.在某地抽选469名已婚男人，研究他们对父
亲的感情是否会影响他们对婚姻的适应。试计算G系数并提出研究结论。丈夫与父亲的感情对其婚姻适度之影响婚姻适应与父亲感情总数平淡不错良好很好恶劣 32 41 26 28 127 一般 47 22 138 好 15 69 61 59 204 75 157 128 109 469

排序：试用一系数描述两评判员打分相近程度。
2. 以下是两位评判员对10名参赛人员的打分排序：试用一系数描述两评判员打分相近程度。参赛人 A B C D E F G H I J 评判1 1 2 4 3 5 8 7 6 9 10 评判2

第四节定距变量的相关分析前两节，主要借助于列联表，我们解决了一些定类、定序测量层次的相关测量问题。对于定
第四节定距变量的相关分析前两节，主要借助于列联表，我们解决了一些定类、定序测量层次的相关测量问题。对于定距变量，根据其变量值的数学特征，我们自然可以引进更为精确的量化指标来反映它们之间的相关程度。两个定距变量之间的相关测量，最常用的就是所谓积差系数．它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来，所以也称皮尔逊相关系数，用符号r 表示。

1. 相关表和散点图相关表：经整理后反映两变量之间对应关系的数据表。散点图：将相关表中各个有对应关系的数据在直角坐标
系上标出来，就得到散点图。散点图可以直观地观察两变量之间对应关系。工龄 (年)X 1 3 5 7 技术考核分Y 2 4 3.5 4.5 5.5 8 9

散点图表示的相关的类型 ★正相关 ★负相关 ★完全正相关 ★完全负相关 ★称零相关

2．积差系数的导出和计算

r是协方差与X和Y的标准差的乘积之比

试就下表所示资料，计算关于员工的工龄和技术考核分的皮尔逊相关系数。工龄 (年)X 1 3 5 7 技术考核分Y 2 4 3.5 4.5
8 9

N0 工龄X 技术考核分Y X 2 Y 2 XY 1 2 3 4 5 6 7 8 9 10 11 12 3.5 4.5 5.5 25 49 16 12.25 20.25 30.25 64 81 17.5 22.5 27.5 56 63 合计 48 52.5 252 299.75 268.5

解：计算过程见上表 r=

（1） r 是线性相关系数。 3 ．积差系数的性质（2）适用于定距/定比变量。（3）取值[-1，1]，绝对值越大，相关程度越高。r 的
绝对值在0.3以下表示不相关；0.3~0.5表示低度相关； 0.5~0.8表示中等相关；0.8以上表示高度相关。（4）X与Y是对称关系。（5）相关系数的数值不受坐标点变化的影响。（6）r2具有PRE意义。（7）r 公式中的两个变量都是随机的，因而改变两者的位置并不影响r的数值。

注意事项：（1）注意实际意义进行相关回归分析要有实际意义，不可把毫无关系的两个事物或现象用来作相关回归分析。例如，有人
说，孩子长，公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义，用孩子的身高推测小树的高度则更加荒谬。（2）注意虚假相关两个事物间能计算出相关系数，并不一定能证明事物间有内在联系，例如，有人发现，对于在校儿童，鞋的大小与阅读技能有很强的相关关系。然而，学会新词并不能使脚变大，而是涉及到第三个因素‑‑ 年龄。当儿童长大一些，他们的阅读能力会提高而且由于长大也穿不下原来的鞋。

（3）利用散点图对于性质不明确的两组数据，可先做散点图，在图上看它们有无关系、关系的密切程度、是正相关还是负相关，是直线相关还是曲线相关，然后再进行相关分析。（4）注意变量范围相关分析和回归方程仅适用于产生样本的原始数据范围之内，出了这个范围，两变量的相关关系和回归关系不能就此得到说明。

第五节回归分析在分析定距变量间的关联性时，最初关注的仅仅是变量相关的强度和方向，即进行积差相关分析。然而积差系数并不能表明X和Y之间的因果关系，要明确一个变量的变化能否由另一个变量的变化来解释，或要通过已知变量很好地预测未知变量，就要进行回归分析。在回归分析中，如果自变量只有一个，则称为一元回归；如果自变量有两个或两个以上则称为多元回归。而根据回归方程式的特征，又可以分为线性回归和非线性回归。一元线性回归分析是所有回归分析的基础，另外，回归分析与相关分析具有密切的联系。一般说来，只有当两个变量之间存在着较高程度的相关关系时，回归分析才变得有意义和有价值。因此，往往先进行相关分析，然后才选用有明显相关关系的变量作回归分析。

1. 线性回归线性回归分析，一般是先依据相关表做出散点图，直观地估计X和Y关联性。如果两变量的确呈现出一定的线性相关趋势，便可以设所要求的回归直线方程为是因变量Y的预测值或称估计值。回归方程的建立： ① 先做散点图；②利用最小二乘法。

运用最小平方法可以在所有可能的直线中找到使
Y X 运用最小平方法可以在所有可能的直线中找到使 Q达到最小的回归直线。分别对a、b求偏导并令其为零，求得两个标准方程：解联立方程，得到 a 和 b 的计算公式：

在回归方程中，b有十分重要的意义，被称为回归系数。b值的大小，反映了X对Y有多大的影响，即b值就是当X增加一个单位时Y值的增量。

例：为了研究受教育年限和职业声望之间的关系，设解：
以下是8名社会成员抽样调查的结果，求直线回归方程。解：直线回归方程是

调查对象年x 声望y X y x2 1 12 70 840 144 2 16 80 1280 256 3 9 50 450 81 4 19 86 1634 361 5 21 90 1890 441 6 10 65 650 100 7 44 220 25 8 75 900 合计 104 560 7864 1552

2. 决定系数（r2）三种变差平方和总变差 SST Y 回归变差 SSB 剩余变差 SSW X 总变差 = 回归变差 + 剩余变差

是r2而非r 具有PRE意义决定系数也可以表达为回归变差在总变差中所占比例

相关指数R，对于直线相关来说，等同于r，即R＝r。但对于非线性相关来说，就只能用相关指数R来加以测量了。

4.积差系数的PRE意义总变差：不知回归方程时。剩余变差：Y值对于回归直线的偏差。回归变差：回归已知时误差减少的量。
总变差 = 剩余变差 + 回归变差总平方和 = 未解释的平方和 + 已解释的平方和 SST = SSe + SSA r 2=（总变差 - 剩余变差）/总变差 =回归变差/总变差是r2而非r 具有PRE意义，所以r≤0.3时判定无相关。

第六节曲线相关与回归非线性相关和回归的一般课题太复杂，无法在本书中充分地展开。幸运的是，一些非线性关系，
第六节曲线相关与回归非线性相关和回归的一般课题太复杂，无法在本书中充分地展开。幸运的是，一些非线性关系，有可能通过适当的变量变换，将非线性函数转化为线性函数，从而把非线性相关和回归问题转化为线性相关和回归问题来处理。而且，这些比较简单的非线性方程对于社会研究中产生的许多非线性关系来说，通常还是足以胜任的。 1. 可线性化的非线性函数 2. 二次曲线 3. 指数曲线

映围绕回归线的Y值分布的离散程度。又称回归标准差。
估计标准误差为了测定回归线的代表性，引入用来反映围绕回归线的Y值分布的离散程度。又称回归标准差。

估计标准误差的解释（1）Y的实际观测值在对应的每个估计值YP 周围呈正态分布，越靠近YP的地方Y值出现的机会越多。（2）所有的正态分布都具有相同的标准差：同方差性。据此，可以对Y进行估计和推断。

练习：以下是生活期望值与个人成就的抽样调查。求：相关系数和回归直线。生活期望值 10 8 7 6 4 3 2 1 个人成就 9

第十二章相关与回归分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析

Similar presentations

Presentation on theme: "第十二章相关与回归分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析

Similar presentations

Presentation on theme: "第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析"— Presentation transcript:

Similar presentations

About project

反馈

第十二章相关与回归分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析

Presentation on theme: "第十二章相关与回归分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析"— Presentation transcript: