Download presentation
Presentation is loading. Please wait.
1
第四章 测量效度 第一节 效度概述 一、什么是效度 效度(validity)是指一个测验或量表实际能测出其所要测的心理特质的程度。
(1)效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质是通过外显行为间接测得的。 (2)效度是测量的随机误差和系统误差的综合反映。 (3)判断一个测量是否有效要从多方面收集证据
2
操作定义: 效度=SV2/SX2=rXY2 SX2 SV2 SI2 SE2 ST2
3
二、效度与信度的关系 (一)信度高是效度高的必要而非充分的条件 一个测验效度高,其信度也必然高; 但一个测验信度高,其效度不一定高。 (二)测验的效度受它的信度制约 rXY≤rXX 一个测验的信度必然比效度高,至少相等。
4
第二节 效度的估计 一、内容效度 1.含义及应用范围 内容效度(content validity)是指测验题目对有关内容或行为取样的适当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。 因此,一个测验要有内容效度必须具备两个条件: (1)要有定义完好的内容范围 (2)测验题目应是所界定的内容范围的代表性取样。
5
内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验。
但不适用于能力倾向测验和人格测验。 表面效度(surface validity):外行人对某个测验从表面上看好像是测某种心理特质的程度。并不是一种真正的效度。 人格测验要求表面效度不宜过高。
6
例:有人在编制“领导能力测验”时编写了这么四个问题:
A、我愿指挥别人,不愿别人指挥我。 B、我喜欢听古典音乐。 C、人们经常征求我的意见。 D、我身高1米80,体重100公斤。
7
2.内容效度的确定方法 (1)逻辑分析法:专家判断根据自己的知识经验对量表的有效性(逻辑性)作出判断,也称逻辑效度。 为使内容效度的判断过程更客观,一般采用下列步骤: ①确定测验内容的总体范围; ②编制双向细目表; ③编制评定量表,从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面,对测验作出总的评价。
8
(2)统计方法:用两个测验复本来测同一批被试,若相关高,则内容效度可能高,但若相关低,则说明必有一个测验缺乏内容效度。
(3)再测法: 前测→教学→后测 如果后测成绩优于前测成绩,说明该测验具有一定的内容效度。
9
影响内容效度的因素 因为“失败”常常先于“自杀”,所以它是“自杀”的原因(可能有历史和死亡因素的影响)。
男孩子生来就比女孩更有数学天赋(可能有被试态度或地点因素的影响)。 女孩生来就比男孩更有语言天赋(可能有被试态度或地点因素的影响)。
10
少数民族学生的学习能力较来自主流文化的学生差(可能有被试特征、被试态度、地点或研究工具的使用等因素的影响)。
享受福利的人懒惰(可能有被试特征、地点和历史因素的影响)。 学校教育使学生反叛(可能有成熟或历史因素的影响)。 一项暂时开除不“守规矩”的学生的政策提高了某学校的考试成绩(可能有成熟的影响)。
11
二、结构效度 1.含义、特点与应用范围 结构效度(structure validity)是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。 特点: (1)具有不同理论构思的测验,其结构效度是无法进行比较的; (2)结构效度有时很难获得; (3)结构效度没有单一的指标,是由各方面的证据累积起来进行评价的。
12
2.结构效度的确定方法 结构效度确立的一般步骤: (1)提出理论框架; (2)依据理论框架推演出有关测验成绩的假设; (3)用逻辑或实证的方法来证明假设。
13
具体方法: (1)测验内部寻找证据法 l分析测验的内容效度:若内容效度高,说明其结构效度也高; l分析被试对题目反应的特点: 有无社会称许性的题目,如“当事情不顺我意时,我时常动怒。”对该题的回答,也许反映不了要测的性格。 l计算测验的同质性信度:分半信度、α系数、KR20、KR21
14
(2)测验之间寻找证据法 l 相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相关高,则说明新测验可能有较高的效度。 l 区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。 l 因素分析法:得出的因素符合理论的构思,说明效度高。
15
(3)考察测验的实证效度法 l 根据效标把被试分组,考察其得分差异。 l 根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。 (4)多种特质-多种方法矩阵法 方法:1、2、3 特质:A、B、C
16
A1 B1 C1 A2 B2 C2 A3 B3 C3 0.90 0.50 0.89 0.35 0.41 0.81 0.58 0.25 0.10 0.95 0.21 0.59 0.09 0.63 0.91 0.14 0.13 0.57 0.53 0.85 0.55 0.20 0.69 0.32 0.30 0.93 0.11 0.60 0.19 0.68 0.29 0.96 0.15 0.70 0.67 0.51 0.92
17
三、实证效度 1.含义、种类及作用 实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。 被估计的行为是检验测验效度的标准,简称效标。 所以,实证效度又称效标关联效度(criterion-related validity)。 同时效度(concurrent validity):测验分数与效标资料是同时收集的。 预测效度(predictive validity):先获得测验分数,隔一段时间后,再收集效标资料。
18
2.效标 (1)效标与效标测量 效标(criterion)就是衡量一个测验是否有效的外在标准。 常用的效标: 学业成就 临床诊断 实际工作表现 特殊训练成绩 不同团体的总体表现 先前有效的测验 等级评定。 观念效标:理论定义,如“大学的成功” 效标测量:操作定义,如大学成绩
19
(2)效标的特性 a.多样性: 一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量。 b.复杂性: 几乎每一种效标行为都由多种特质构成,包含复杂的成分。 c.特殊性: 即使一个普通的效标,在应用时也有特殊性。 d.时间性: 近期效标与最后效标
20
(3)效标测量的条件 a.有效性:效标测量能真正反映观念效标。 b.可靠性:有较高的信度 c.客观性: 效标测量必须能真正反映观念效标,防止效标污染。 效标污染(criterion contamination)是指评定者知道被试的测验分数,因而影响到对效标的客观评定。 d.实用性: 经济实用
21
3.实证效度的确定方法 (1)相关法 测验分数与效标测量之间的相关系数。 (2)区分法 测验→工作→效标测量(工作成绩) 按工作成绩分高低两组,如工作成绩高,测验得分也高;工作成绩低,测验得分也低,说明该测验是有一定效度的。
22
(3)命中率 工 作 表 现 测验成绩 合格 不合格 A C B D 总命中率=(A+D)/(A+B+C+D) 正命中率= A/(A+C)
23
(4)功利率 对使用测验所需的费用和所得到的收益进行比较,看是否利大于弊。 一个测验如果简单易行,省时省钱,不经过特殊训练的人也能掌握,又适合于团体施测,那么,即使效度低一些,也会有人使用。反之,只有效度极高,能给人带来很大好处时,才会使用。
24
第三节 提高测量效度的方法 一、影响测量效度的因素 1.测验的构成 测验长度与效度的关系: r(Kx)y = K rxy /√K(1- rxx +Krxx) 2.测验的实施过程
25
3.接受测验的被试 常模团体的同质性影响到对被试测验得分的解释,进而影响到测验的效度。 测验偏倚(test bias)是指用不适用于被试的标准来解释被试的测验得分,因而造成解释的偏差。 4.所选效标的性质 测量行为与所选效标的相似性越高,效度越高。 测验分数与效标行为之间是否是线性关系,如果不是线性关系,求皮尔逊相关就会低估效度。 效标本身的测量越可靠,效度就可能越高。 5.测量的信度
26
二、提高测量效度的方法 (1)精心编制测验量表,避免出现较大的系统误差 (2)妥善组织测验,控制随机误差 (3)创设标准的应试情境,让每个被试都能发挥正常的水平 (4)选好正确的效标,定好恰当的效标测量,正确地使用有关公式
27
第四节 效度资料的概化 所谓概化,是指在一定条件下得出的结论能否适用于其他情况。测验的效度和信度一样,都与特定情境有关,只有在具体情境下的效度,而没有笼统谈论某一测验的效度。 一、效度概化的几个方面 1 预测源的概化 使用同一测验的不同复本是否同样有效? 同一测验对不同分数水平的人的预测是否同样有效? 2 效标的概化 采用不同种类或不同时距的效标,测验是否同样有效? 对于效标的不同分数水平是否预测得一样好?
28
3 施测情境的概化 不同的施测者、不同的施测条件以及在不同的指导语或心向下做测验是否同样有效? 4 被试团体的概化 测验对于取自同一总体的另一样本是否同样有效? 测验对于不同性别、不同年龄、不同教育水平、不同社会经济地位、不同地区、不同民族、不同学校、不同职业的被试是否同样有效? 5 建立效度方法的概化 用不同方法得到的效度指标是否一致? 不同的效度之间是否有矛盾?
29
二、交叉效度分析 交叉效度分析是考察效度概化能力的一种方法,只涉及被试样本的概化。这种方法是对两个独立取自同一总体的样本分别建立预测源-效标关系,看从一个样本中得到的效度资料是否适用于另一样本。 计算测验效度所依据的样本必须与选择项目所依据的被试样本不同。如果使用同一样本,则会使效度系数假性的高。实质是循环论证。
Similar presentations