第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析

Slides:



Advertisements
Similar presentations
简单迭代法的概念与结论 简单迭代法又称逐次迭代法,基本思想是构造不动点 方程,以求得近似根。即由方程 f(x)=0 变换为 x=  (x), 然后建立迭代格式, 返回下一页 则称迭代格式 收敛, 否则称为发散 上一页.
Advertisements

版 画 制 作版 画 制 作 版 画 种 类版 画 种 类 版 画 作 品版 画 作 品 刘承川.
《可能性大小》的教学比较 一、介绍两个版本的教材 · 北师大版(七上) 第7.1节 一定摸到地球吗 摸球游戏——体验事件发生的可能是有大小的
窦娥冤 关汉卿 感天动地 元·关汉卿.
专利技术交底书的撰写方法 ——公司知识产权讲座
从永磁体谈起.
这是一个数字的 乐园 这里埋藏着丰富的 宝藏 请跟我一起走进数学的 殿堂.
第五章 主张超尘绝俗的 佛家.
高等数学教学课件 教材版本:同济七版 课件研制:军械工程学院 张士军 高等教育出版社 高等教育电子音像出版社.
全面推进基础教育综合改革 ——在基础教育综合改革推进暨“1751”工程总结会上的讲话
採購規範運用實務(含履約管理) 主講人:新北市政府採購處 勞務採購科 陳佑民.
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
社会统计学 Social Statistics
16.1 曲線配適 曲線配適 藉由數學方程式來描述兩個變數間的關係 線性方程式關係 y=a+bx.
南京师范大学数学科学院 涂荣豹 中 国 数 学 教 学 的 继 承 与 发 展 南京师范大学数学科学院 涂荣豹
知其不可而为之.
一、平面点集 定义: x、y ---自变量,u ---因变量. 点集 E ---定义域, --- 值域.
中国画家协会理事、安徽省美术家协会会员、 工艺美术师、黄山市邮协常务理事余承平主讲
第一节: 食物中的营养物质.
第二课 扬起自信的风帆 我能“行”.
电磁铁.
第二章 语音 第六节 音变 轻 声1.
消防安全知识 昆明市公安消防支队 盘龙区大队.
老年性皮肤瘙痒的防治.
管理学基本知识.
如何打造学习型团队 主讲:詹琼然 选送单位:重庆市长寿区妇幼保健院 0903NX《中国医院内训师高级研修班》学员.
汉字的构造.
诵读欣赏 古代诗词三首.
滁州学院首届微课程教学设计竞赛 课程名称:高等数学 主讲人:胡贝贝 数学与金融学院.
内部审计程序 计划阶段:审计计划 实施阶段:审计证据 报告阶段:审计报告 后续审计:.
致亲爱的同学们 天空的幸福是穿一身蓝 森林的幸福是披一身绿 阳光的幸福是如钻石般耀眼 老师的幸福是因为认识了你们 愿你们努力进取,永不言败.
四种命题 班级:C274 指导教师:钟志勤 任课教师:颜小娟.
1.1.2 四 种 命 题.
增值评价 2014级 初中起点报告 解读培训 辽宁省基础教育质量监测与评价中心.
初三历史复习课 八上第一单元 侵略与反抗 草桥实验中学 朱萍.
目 錄 壹、緣由 貳、問題解析 參、問題歸納 肆、因應對策 伍、評鑑獎勵 陸、追蹤考核 1.
第五章 定积分及其应用.
第四节 统计初步和数据整理 在这一节中我们将介绍统计学的基本知识。统计学是一门古老而又年轻的学科,例如为了征兵和收税的早期的人口统计,甚至在公元前就出现了。但是近代数理统计学,却主要是从20世纪初开始发展的。其主要特征是运用概率论的知识进行统计推断。即从所研究的全部对象中抽取部分个体,并通过对这部分个体的观察和分析,对全部对象的有关问题作出推断。数理统计学已经建立了一套系统的理论,有着广泛的应用。下面先介绍统计学中最基本的概念。
拾貳、 教育行政 一、教育行政的意義 教育行政,可視為國家對教育事務的管理 ,以增進教育效果。 教育行政,乃是一利用有限資源在教育參
课标教材下教研工作的 实践与思考 山东临沂市教育科学研究中心 郭允远.
新北市政府所屬各機關辦理採購規範 主講人:新北市政府採購處 李佳航、黃建中、陳佑民.
課程銜接 九年一貫暫行綱要( )  九年一貫課程綱要( ) 國立台南大學數學教育系 謝 堅.
第八章二元一次方程组 8.3实际问题与二元一次方程组.
第八章二元一次方程组 8.3实际问题与二元一次方程组 (第3课时).
2.4 二元一次方程组的应用(1).
贴近教学 服务师生 方便老师.
六年级 语文 下册 第四单元 指尖的世界.
(浙教版)四年级品德与社会下册 共同生活的世界 第四单元 世界之窗 第二课时.
Analysis of Variance 變異數分析
第十二章 變異數分析 陳順宇 教授 成功大學統計系.
房地产业营改增税制变革 知 识 讲 座 二0一五年四月二十日.
第十六章 無母數統計 陳順宇 教授 成功大學統計系.
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
Chapter 14 Simple Linear Regression
統計學報告 冷飲糖度調查,香煙漲價調查 指導老師:蘇明俊老師 運管二乙 組員:李冠毅 林緯彬
导数的应用 ——函数的单调性与极值.
负数.
对质点动力学问题: 建立质点运动微分方程求解。
课前注意 课前注意 大家好!欢迎加入0118班! 请注意以下几点: 1.服务:卡顿、听不清声音、看不见ppt—管家( ) 2.课堂秩序:公共课堂,勿谈与课堂无关或消极的话题。 3.答疑:上课听讲,课后答疑,微信留言。 4.联系方式:提示老师手机/微信: QQ:
第 四 章 迴歸分析應注意之事項.
两个变量的线性相关 琼海市嘉积中学 梅小青.
Xián 伯 牙 绝 弦 安徽淮南市八公山区第二小学 陈燕朵.
线性回归.
第八章 服務部門成本分攤.
第 1 章 單一預測變數線性迴歸.
知识点4---向量的线性相关性 1. 线性相关与线性无关 线性相关性的性质 2..
Chapter 1 函數 1.1 函數的定義 1.2 基本函數 1.3 函數的運算 1.4 函數的圖形.
Part 3 初等統計與理論.
用加減消去法解一元二次聯立方程式 台北縣立中山國中 第二團隊.
Presentation transcript:

第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析 第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析 第五节 回归分析

社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。 本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的因果联系,其内容分为相关分析和回归分析这两个大的方面。

第一节 变量之间的相互关系 1. 相关程度 完全相关,指变量之间为函数关系;完全不相关指变 第一节 变量之间的相互关系 1. 相关程度 完全相关,指变量之间为函数关系;完全不相关指变 量之间不存在任何依存关系,彼此独立。不完全相关介于 两者之间。不完全相关是本章讨论的重点。 由于数学手段上的局限性,统计学探讨的最多的是定 距—定距变量间能近似地表现为一条直线的线性相关。在 统计中,对于线性相关,采用相关系数(记作r)这一指标 来量度相关关系程度或强度。就线性相关来说,当r =l 时,表示为完全相关;当r =0时,表现为无相关或零相 关;当0< r <1时,表现为不完全相关。

所谓正相关关系是指一个变量的值增加时,另一变 2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变 量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。

3. 因果关系与对称关系 因果关系中两个变量有自变量(independent Variable)和因变量(dependent Variable)之分: (1)两个变量有共变关系; (2)因变量的变化是由自变量的变化引起的; (3)两个变量的产生和变化有明确的时间顺序,前者 称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自 变量和因变量,或者说自变量和因变量可以根据研究目的 任意选定,例如身高和体重之间的关系。

4. 单相关和复相关 从变量的多少上看,单相关只涉及两个变量,亦称二元 相关;三个或三个以上变量之间的关系称为复相关,亦称多 元相关。 5.直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直 线,称为直线相关或线性相关;如果关系近似地表现为一条 曲线,则称为曲线相关或称为非线性相关。 由于数学手段的局限性,我们以学习线性相关为主。在 统计学中,通过分段处理线性相关也可以用于处理曲线相 关。

第二节 定类变量的相关分析 本节内容: 1. 列联表 2. 消减误差比例 3. λ系数 4. τ系数

列联表,是按品质标志把两个变量的频数分布进 1. 列联表 列联表,是按品质标志把两个变量的频数分布进 行交互分类,由于表内的每一个频数都需同时满足两个 变量的要求,所以列联表又称条件频数表。 例如,某区调查了357名选民,考察受教育程度与投 票行为之间的关系,将所得资料作成下表,便是一种关 于频数的列联表。

2×2频数分布列联表的一般形式 习惯上把因变量Y放在表侧,把自变量X放在表头。 2×2列联表是最简单的交互分类表。 r×c列联表 r(row)、c(column)

r×c频数分布列联表的一般形式

100 14 54 32 总数 10 4 2 增广见闻 50 7 41 理想工作 40 3 9 28 快乐家庭 知心朋友志愿 自己志愿

两个边际分布:

条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是r×c相对频数分布列联表的一般形式。

r×c相对频数分布列联表的一般形式

出现的相对频数(或者频率)。将频数 化成相对 频数 有两种做法: 在相对频数分布列联表中,各数据为各分类 出现的相对频数(或者频率)。将频数 化成相对 频数 有两种做法: ①相对频数联合分布 两个边际分布 或 ②相对频数条件分布 或

r×c相对频数联合分布列联表

控制X,Y相对频数条件分布列联表

控制Y,X相对频数条件分布列联表

化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。 投票行为Y 受教育程度X [例A1]试把下表所示的频数分布列联表,转 化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。 投票行为Y 受教育程度X 大学以上 大学以下 投票 弃权 160 7 129 61 289 68 合计: 167 190 357

投票行为Y 受教育程度X 大学以上 大学以下 投票 弃权 95.8%(160/167) 4.2%(7/167) 67.9%(129/190) 32.1%(61/190) 81.0%(289/357) 19.0%(68/357) 100.0% (167)) (190) (357) 从上表可知,受过大学以上教育的被调查者绝大多 数(占95.8%)是投票的,受教育程度在大学以下的被调 查者虽多数也参与投票(占67.9%),但后者参与投票的百 分比远小于前者;前者只有4.2%弃权,而后者则有32.1% 弃权。两相比较可知,受教育程度不同,参与投票的行 为不同,因此两个变量是相关的。

化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。 投票行为Y 受教育程度X [例A2]试把下表所示的频数分布列联表,转 化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。 投票行为Y 受教育程度X 大学以上 大学以下 投票 弃权 100 67 114 76 214 143 合计: 167 190 357

投票行为Y 受教育程度X 大学以上 大学以下 投票 弃权 60.0%(100/167) 40.0%(67/167) 60.0%(114/190) 40.0%(76/190) 60.0%(214/357) 40.0%(143/357) 100.0% (167)) (190) (357) 上表显示,大学以上文化程度和大学以下文化程度同样 各有60%的人参与投票,40%的人弃权,并没有因为受教育 程度不同,而使参与投票的行为有所不同。因此,此时的两 个变量是不相关的,或者说是独立的。我们不难发现,此时 反映全体投票情况的相对频数的边际分布( )也各有60% 的人参与投票,40%的人弃权。

上表显示,当两个变量不相关时有 。 如0.532× 0.40=0.213。 投票行为Y 受教育程度X 大学以上 大学以下 投票 弃权 28.0%(100/357) 18.8%(67/357) 31.9%(114/357) 21.3%(76/357) 60.0%(214/357) 40.0%(143/357) 46.8% (167/357) 53.2% (190/357) 100.0% (357) 上表显示,当两个变量不相关时有 。 如0.532× 0.40=0.213。

[例B]某社区调查了120名市民,考察性别与 对吸烟态度之间的关系,试将所得资料作成相对 频数的联合分布、边际分布和条件分布列联表, 并进行相关分析。 性别与对吸烟的态度 态度Y 性别X 合计 男 女 容忍 48 8 56 反对 20 44 64 68 52 120

相对频数联合分布列联表 态度Y 性别X 男( X1 ) 女( X2 ) 容忍Y1 40.0% 6.7 % 46.7 % 反对Y2 16.7 % 36.6 % 53.3 % 56.7 % 43.3% 100 % (120)

相对频数条件分布列联表 态度Y 性别X 男( ) 女( ) 容忍 70.6% 15.4 % 46.7 %(56) 反对 29.4 % 84.6 % 53.3 %(64) 100 % (68) (52) (120)

2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表) 父母智力 组合 子女智力 优秀 一般 低下 优+优 71.6 25.4 3.0 优+劣 33.6 42.7 23.7 一般+一般 18.6 66.9 14.5 劣+劣 5.4 34.4 60.2

实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是 或者

2. 消减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量 X和因变量Y的关联性给出一个初步的判断。但是对关联 性给出判断,肯定没有用量化指标表达来得好。所以,下 面我们将关注于如何用统计方法,使相关关系的强弱可以 通过某些简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,消减误差比 例的概念是非常有价值的。消减误差比例的原理是,如果 两变量间存在着一定的关联性,那么知道这种关联性,必 然有助于我们通过一个变量去预测另一变量。其中关系密 切者,在由一变量预测另一变量时,盲目性必然较关系不 密切者为小。

PRE:用不知道Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量 0≤PRE≤l 消减误差比例PRE适用于各测量层次的变量,λ系数和τ系数便是在定类测量的层次上以消减误差比例PRE为基础所设计的两种相关系数。

态度Y 性别X 合计 男 女 容忍 48 8 56 反对 20 44 64 68 52 120 PRE=(56-28)/56=0.5

3. λ系数 在定类尺度上测量集中趋势只能用众数。 λ系数就是利用此性质来构造相关系数的。 (1)不对称的λ系数

[例] 对下表所示资料,用λ系数反映性别与收 入高低的相关关系。 收入Y 性别X 合计 男 女 低 60 150 210 高 120 70 190 180 220 400

(2)对称的λ系数

[例] 研究工作类别与工作价值的关系,工 作类别可分为三类:工人、技术人员、管理/行 政人员;工作价值也可分为三类:以收入/福利 为最重要的职业选择标准的称为经济取向型,以 工作的创造性、挑战性为最重要的职业选择标准 的称为成就取向型,以工作中的人际关系为最重 要的职业选择标准的称为人际关系取向型。对下 表所示资料,用λ系数反映工作类别与工作价值 的相关关系 。

职工的工作种类与工作价值 工作价值 Y 工作种类 X 合计 工人 技术人员 管理/行政人员 经济取向型 成就取向型 人际关系取向型 100 30 20 70 60 10 50 40 220 110 合计:FX 150 140 400

性质: (1)0≤λ≤1 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众数作为预测的准则,对条件频数分 布列联表中众数频数以外的条件频数不予理会。 (5)如果众数频数集中在条件频数分布列联 表的同一行时,λ=0,从而无法显示两变量之间 的相关性。

τ系数的统计值域是[0,1],其特点是在计 4.τ系数 算时考虑所有的边际频数和条件频数 。 注意:当众数很突出且众数分布不在同一行,同一 列时,用λ系数较好;但当众数不突出时,用τ系数更 好;若众数集中在某一行或某一列,一定用τ系数。

[例] 对下表所示资料,用τ系数反映性别与 收入高低的相关关系,并对系数的PRE意义加以 解释。 收入Y 性别X 合计 男 女 低 60 150 210 高 120 70 190 180 220 400

练习: 调查100名青年人与其知心朋友的志愿,条 件次数分布如下:计算知心朋友的志愿与自己志 愿之间的相关关系,并提出研究结论。 自己志愿 知心朋友志愿 总数 快乐家庭 理想工作 增广见闻 28 9 3 40 2 41 7 50 4 10 32 54 14 100

第三节 定序变量的相关分析 定序变量只能排列高低次序,因而在分析时只能考虑 两变量变化的顺序是否一致及其等级之间的差距。以此来 第三节 定序变量的相关分析 定序变量只能排列高低次序,因而在分析时只能考虑 两变量变化的顺序是否一致及其等级之间的差距。以此来 计算两变量的相关系数。 1. 同序对、异序对和同分对 2. Gamma等级相关系数 3. 肯德尔等级相关系数 4. 萨默斯系数(d系数) 5. Spearman等级相关系数 6. 肯德尔和谐系数

社会学研究常用的两定序变量的相关测量 1. 同序对、异序对、同分对 法,有一类是以同序对、异序对、同分对的概念 为基础的,如Gamma系数、肯德尔系数、d系数 等。所以我们在讨论这几种相关系数之前,先来 了解这三个概念。

单元 X Y A 1 2 B C 3 D E 在定序相关测量中,首先要搞清楚“次序对(pair)”的概念。例如,假设 研究员工的工作满足感与归属感的关系,将工作满足感从低到高,分为低 (1)、中(2)和高(3)三个级别,归属感也从低到高分为低(1)、中 (2)和高(3)三个级别。下表列示的是5名被访者A、B、C、D、E的情况。 单元 X Y A 1 2 B C 3 D E

同序对 参见上表(注意,为了容易识别各种次序对,该表已 先将被访者按定序变量X由低到高作了排列),在观察X 序列时如果我们看到Xi< Xj ,在Y 序列中看到的是Yi< Yj,则称这一配对是同序对。同序对只要求X变化方向和Y 变化方向相同,并不要求X 变化大小和Y 变化大小相等。 同序对的总数用符号ns表示。 异序对 见上表,在观察X序列时如果我们看到Xi< Xj ,在Y 序列中看到的是Yi > Yj,则称这一配对是异序对。同样, 异序对只要求X变化方向和Y变化方向相同,并不要求X变 化大小和Y变化大小相等。同序对的总数用符号nd表示。

同分对 如果在X序列中,我们观察到Xi= Xj (此时在Y序列中 无Yi = Yj),则这个配对仅是X方向上而非Y 方向上的同分 对;X 的这种同分对用符号nx表示。如果在Y 序列中,我 们观察到Yi = Yj(此时在X序列中无Xi= Xj ),则这个配对 仅是Y 方向上而非X方向上的同分对;Y 的这种同分对用符 号ny表示。如果我们观察到 Xi= Xj时,也观察到Yi = Yj , 则称这两个配对为X与Y 同分对,以符号nxy表示。X 同分对 的总数用符号Tx表示, Tx = nx + nxy ;Y 同分对的总数用 符号Ty表示, Ty = ny + nxy 。 n个单位两两配对,总对数= ns + nd + nx + ny + nxy

计算Gamma系数,肯得尔系数、 d系 数等,我们面对的经常是两定序变量已形 成列联表的资料,所以对我们来说很重要 的是要学会定序变量列联表中这五种“次序 对”的计算和识别。 同序对:“右下余子式”法 异序对:“左下余子式”法

工作满足感与归属感 高 中 低 8 4 3 6 5 1

2. Gamma系数 性质: (1)取值范围[-1,1] (2)具有PRE意义 (3)属对称相关测量。 (4)不考虑同分对。

例:在某市200户中调查,看住户人口密 度与婆媳冲突是否有关,交互分类后分布如 下,计算G相关系数并提出研究结论。 婆媳冲突 住户密度 总数 高 中 低 23 20 4 49 11 55 28 94 8 27 24 59 42 102 56 200

3. 肯德尔等级相关系数 (1)Tau-a 系数 适用于不存在任何同分对的情况。

对各院校校园环境及学生体质进行评价,评价结果 如表(表中已先将学校按X作了次序排列)所示, 试计算校园环境和学生体质关系的肯德尔相关系 数。 某市有12 所大专院校,现组织一个评审委员会 对各院校校园环境及学生体质进行评价,评价结果 如表(表中已先将学校按X作了次序排列)所示, 试计算校园环境和学生体质关系的肯德尔相关系 数。 学校名 A B C D E F G H I J 环境名次(X) 体质名次(Y) 1 2 3 4 5 6 7 8 9 10 2 1 5 3 7 4 6 8 10 9

(2)Tau-b系数 当出现同分对时,对分母进行修正。与G系 数一样, Tau-b系数也具有消减误差比例的意 义。 Tau-b系数的特殊性在于,只有在列联表的 行数与列数相同(r =c)的情况下,其系数值才 可能是-1或+1,否则便不确定。

(3)Tau-c系数 当同分对很多时,且r ≠c ,可以用 Tau-c系数来测量。 m取r×c列联表 中r和 c值较小者。 Tau-c系数没有消减误差比例的意义。

4. 萨默斯 (d系数) 萨默尔斯提出的,对G系数进行修正。 d系数具有PRE意义,取值[-1,1],为不对称测量。

5. Spearman等级相关系数 运用上式计算等级相关系数很简便:首先将定序变 量X 和Y 的数值形成对应的两个序数数列(其中先将X由小 到大排)。如遇有相等的数值时,则应将原有的等级求其 平均数,让它们以这平均等级并列。然后求出等级差, 经平方后求和,运用上式即可求得斯皮尔曼等级相关系 数。 例:为了解活动能力与智商是否有关,作了10名 同学的抽样调查,资料如表,问这10名同学的智商与活 动能力是否有关。

学生 活动能力名次 智商 智商名次 A 1 110 3 B 2 C 105 6 D 4 95 9 E 5 120 F 94 10 G 7 100 8 H I J

6. 肯德尔和谐系数 前面我们谈的都是对双变量求等级相关系 数。对于多变量求等级相关系数,如多个专家 对同一事物评价的一致性或相关程度的衡量, 肯德尔运用数理分析方法,提出了一个计算公 式

假设四位专家对10所大专院校环境质量进行排序, 有关评价结果列于下表中,试通过计算肯德尔和谐系 数,检验专家意见的一致性和相关程度。 专家名 大专院校名 合计 A B C D E F G H I J A B C D 1 2 3 4 5 6 7 8 9 10 3 2 1 4 5 8 6 7 10 9 1 3 2 4 5 7 6 8 9 10 4 2 1 5 3 7 8 6 10 9 —— 等级和R R2 9 9 7 17 18 28 27 29 38 38 81 81 49 289 324 784 729 841 1444 1444 6066

例:通过对1500多名青年作社会调查, 探讨当代青年择业倾向与对社会经济生活 的基本态度,得资料如表,求等级相关系 数(当代青年择业倾向与他们对职业社会 地位的等级认定的关系;择业倾向与他们 对职业的富裕程度认定的关系)。

职业 等级认为 社会地位  富裕程度 择业理想 行政事业 1 5 2 各类专业 4 企业 3 教师 6 商业 工人 8 7 个体户 农民

试就以下单元数据,列举其中的同序 对、异序对、同分对。 单元 X Y A 3 2 B 1 C D E

根据交互分类表计算:ns、nd、 nx 、 ny 、 nxy 、 Tx 、 Ty 、 T(总对数) 高 中 低 f11 f12 f13 f21 f22 f23 f31 f32 f33 高 中 低 10 12 5 20 30

练习:1.在某地抽选469名已婚男人,研究他们对父 亲的感情是否会影响他们对婚姻的适应。试计算G系数并 提出研究结论。 丈夫与父亲的感情对其婚姻适度之影响 婚姻适应 与父亲感情 总数 平淡 不错 良好 很好 恶劣 32 41 26 28 127 一般 47 22 138 好 15 69 61 59 204 75 157 128 109 469

排序:试用一系数描述两评判员打分相近程度。 2. 以下是两位评判员对10名参赛人员的打分 排序:试用一系数描述两评判员打分相近程度。 参赛人 A B C D E F G H I J 评判1 1 2 4 3 5 8 7 6 9 10 评判2

第四节 定距变量的相关分析 前两节,主要借助于列联表,我们解决了一 些定类、定序测量层次的相关测量问题。对于定 第四节 定距变量的相关分析 前两节,主要借助于列联表,我们解决了一 些定类、定序测量层次的相关测量问题。对于定 距变量,根据其变量值的数学特征,我们自然可 以引进更为精确的量化指标来反映它们之间的相 关程度。两个定距变量之间的相关测量,最常用 的就是所谓积差系数.它是由英国统计学家皮尔 逊(Pearson)用积差方法推导出来,所以也称皮 尔逊相关系数,用符号r 表示。

1. 相关表和散点图 相关表:经整理后反映两变量之间对应关系的数据表。 散点图:将相关表中各个有对应关系的数据在直角坐标 系上标出来,就得到散点图。散点图可以直观地观察两变 量之间对应关系。 工龄 (年)X 1 3 5 7 技术考 核分Y 2 4 3.5 4.5 5.5 8 9

散点图表示的相关的类型 ★正相关 ★负相关 ★完全正相关 ★完全负相关 ★称零相关

2.积差系数的导出和计算

r是协方差与X和Y的标准差的乘积之比

试就下表所示资料,计算关于员工的工龄 和技术考核分的皮尔逊相关系数。 工龄 (年)X 1 3 5 7 技术考 核分Y 2 4 3.5 4.5 8 9

N0 工龄X 技术考核分Y X 2 Y 2 XY 1 2 3 4 5 6 7 8 9 10 11 12 3.5 4.5 5.5 25 49 16 12.25 20.25 30.25 64 81 17.5 22.5 27.5 56 63 合计 48 52.5 252 299.75 268.5

解:计算过程见上表 r=

(1) r 是线性相关系数。 3 .积差系数的性质 (2)适用于定距/定比变量。 (3)取值[-1,1],绝对值越大,相关程度越高。r 的 绝对值在0.3以下表示不相关;0.3~0.5表示低度相关; 0.5~0.8表 示中等相关;0.8以上表示高度相关。 (4)X与Y是对称关系。 (5)相关系数的数值不受坐标点变化的影响。 (6)r2具有PRE意义。 (7)r 公式中的两个变量都是随机的,因而改变两者的位置并不影响r的数值。

注意事项: (1)注意实际意义 进行相关回归分析要有实际意义,不可把毫无关系 的两个事物或现象用来作相关回归分析。例如,有人 说,孩子长,公园里的小树也在长。求孩子和小树之间 的相关关系就毫无意义,用孩子的身高推测小树的高度 则更加荒谬。 (2)注意虚假相关 两个事物间能计算出相关系数,并不一定能证明事 物间有内在联系,例如,有人发现,对于在校儿童,鞋 的大小与阅读技能有很强的相关关系。然而,学会新词 并不能使脚变大,而是涉及到第三个因素‑‑ 年龄。当儿 童长大一些,他们的阅读能力会提高而且由于长大也穿 不下原来的鞋。

(3)利用散点图 对于性质不明确的两组数据,可先做散点图,在图 上看它们有无关系、关系的密切程度、是正相关还是负 相关,是直线相关还是曲线相关,然后再进行相关分 析。 (4)注意变量范围 相关分析和回归方程仅适用于产生样本的原始数据 范围之内,出了这个范围,两变量的相关关系和回归关 系不能就此得到说明。

第五节 回归分析 在分析定距变量间的关联性时,最初关注的仅仅是变量相关的强度和方向,即进行积差相关分析。然而积差系数并不能表明X和Y之间的因果关系,要明确一个变量的变化能否由另一个变量的变化来解释,或要通过已知变量很好地预测未知变量,就要进行回归分析。 在回归分析中,如果自变量只有一个,则称为一元回归;如果自变量有两个或两个以上则称为多元回归。而根据回归方程式的特征,又可以分为线性回归和非线性回归。一元线性回归分析是所有回归分析的基础, 另外,回归分析与相关分析具有密切的联系。一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。

1. 线性回归 线性回归分析,一般是先依据相关表做出 散点图,直观地估计X和Y关联性。如果两变量 的确呈现出一定的线性相关趋势,便可以设所 要求的回归直线方程为 是因变量Y的预测值或称估计值。 回归方程的建立: ① 先做散点图;②利 用最小二乘法。

运用最小平方法可以在所有可能的直线中找到使 Y X 运用最小平方法可以在所有可能的直线中找到使 Q达到最小的回归直线。 分别对a、b求偏导并令其为零,求得两个标准方程: 解联立方程,得到 a 和 b 的计算公式:

在回归方程中,b有十分重要的意 义,被称为回归系数。b值的大小, 反映了X对Y有多大的影响,即b值就 是当X增加一个单位时Y值的增量。

例:为了研究受教育年限和职业声望之间的关系,设 解: 以下是8名社会成员抽样调查的结果,求直线回归方程。 解: 直线回归方程是

调查对象 年x 声望y X y x2 1 12 70 840 144 2 16 80 1280 256 3 9 50 450 81 4 19 86 1634 361 5 21 90 1890 441 6 10 65 650 100 7 44 220 25 8 75 900 合计 104 560 7864 1552

2. 决定系数(r2) 三种变差平方和 总变差 SST Y 回归变差 SSB 剩余变差 SSW X 总变差 = 回归变差 + 剩余变差

是r2而非r 具有PRE意义 决定系数也可以表达为回归变差在总变差中所占比例

相关指数R,对于直线相关来说,等同于r, 即R=r。但对于非线性相关来说,就只能用相关 指数R来加以测量了。

4.积差系数的PRE意义 总变差:不知回归方程时。 剩余变差:Y值对于回归直线的偏差。 回归变差:回归已知时误差减少的量。 总变差 = 剩余变差 + 回归变差 总平方和 = 未解释的平方和 + 已解释的平方和 SST = SSe + SSA r 2=(总变差 - 剩余变差)/总变差 =回归变差/总变差 是r2而非r 具有PRE意义,所以r≤0.3时判定无相关。

第六节 曲线相关与回归 非线性相关和回归的一般课题太复杂,无法在 本书中充分地展开。幸运的是,一些非线性关系, 第六节 曲线相关与回归 非线性相关和回归的一般课题太复杂,无法在 本书中充分地展开。幸运的是,一些非线性关系, 有可能通过适当的变量变换,将非线性函数转化为 线性函数,从而把非线性相关和回归问题转化为线 性相关和回归问题来处理。而且,这些比较简单的 非线性方程对于社会研究中产生的许多非线性关系 来说,通常还是足以胜任的。 1. 可线性化的非线性函数 2. 二次曲线 3. 指数曲线

映围绕回归线的Y值分布的离散程度。又称回归 标准差。 估计标准误差 为了测定回归线的代表性,引入 用来反 映围绕回归线的Y值分布的离散程度。又称回归 标准差。

估计标准误差的解释 (1)Y的实际观测值在对应的每个估计值YP 周围呈正态分布,越靠近YP的地方Y值出现的机 会越多。 (2)所有的正态分布都具有相同的标准差: 同方差性。据此,可以对Y进行估计和推断。

练习:以下是生活期望值与个人成就的 抽样调查。 求:相关系数和回归直线。 生活期望值 10 8 7 6 4 3 2 1 个人成就 9