Download presentation
Presentation is loading. Please wait.
1
第六章 测量的效度 第一节 效度概述 第二节 内容效度 第三节 构想效度 第四节 效标关联效度 第五节 影响测验效度的因素
2
一、效度的意义 二、信度与效度的关系 三、效度的类型 back
3
效度是指测量的有效性,即一个测验对它所要测量的特质正确测量的程度。一个测验能否测量出它要测量的东西。
效度所要回答的问题是: (1)一个测验测量了什么特性?或者说,测验测到了它所要测量的东西吗?(2)它对所要测量的特性测得有多准?
4
效度是指测量的有效性,一个测验是否达到了测验目的,正确地测量了所要测量的心理特质的程度。在测量理论中,效度被定义为:
在一列测量中,与测量目的有关的真实变异数与总变异数的比率,即 (公式6-1) 式中 代表效度系数, 代表有效变异数, 代表总变异数。 和信度一样,这个效度的概念也是理论上构想的概念。不可能通过这个公式计算得到,我们只能靠已有资料对效度进行推论。 back
5
二、信度与效度的关系 1.信度是效度的必要而非充分条件 根据公式,可以用图6-1来表示信度和效度的关系。 Sx2 Sv SI SE2 ST2 图6-1 信度和效度的关系 从图6-1可以看出,当随机误差的变异数减小时,真实分数的变异数增加,测验信度随之提高。信度的提高只给有效变异数的增加提供了可能。至于是否能提高效度,还要看系统误差的变异数的大小。可见,信度高不一定效度高。但一个测验要想效度高,真分数的变异数必须占较大的比重,即测验的信度必须高。因此,信度高是效度高的必要但非充分条件。 SV2 SI2 SE2
6
2.效度受信度的制约,信度系数规定了效度系数的上限。
根据信度和效度的定义( )可以得到,
7
这就是说,一个测验的效度总是受它的信度的制约,信度系数规定了效度系数的上限。
back
8
三、效度的类型 考验效度的方法很多,每种方法侧重的问题不同,名称也随之而异。美国心理学会在1974年所发行的《教育和心理测验之标准》一书将测验的效度分为三大类,即内容效度、构想效度、效标效度。 内容效度(content validity)是指测验题目对所要测量的内容范围的代表性程度。 构想效度(construct validity)是指一个测验对某种心理学理论所涉及的抽象概念或心理特质测得如何。 效标效度,即效标关联效度(criterion-related validity),指的是测验对我们所感兴趣的外在行为能够作出多好的预测。 back
9
一、什么是内容效度? 二、确定内容效度的方法 三、内容效度与表面效度 四、内容效度的应用和评价 back
10
一、什么是内容效度? 内容效度是指项目对欲测的内容或行为范围取样的适当程度。 一个测验要有内容效度必须具备两个条件: 要有定义得完好的内容范围 20以内的加减法 中小学生的心理健康的特点和表现。 2.测验项目应是已界定的内容范围的代表性样本 如果把所有的内容视为一个总体,那么测验项目可以视为一个样本,这个样本要具有代表性,这个样本能够代表总体的程度就是内容效度。 back
11
二、确定内容效度的方法 (一)专家判断法 (二)统计分析的方法 1.复本法 2.再测法 3.内容效度比 back
12
这是一种定性分析的方法,由专家对测验项目与所涉及的内容范围进行符合性判断。
我们以教育测验为例来说明应遵循的程序。 1.确定所要测量的全部内容范围。比如要考察某一学科测验是否有效度,就要根据教材和教学大纲列出这门课程的全部知识点。 2.根据教育目标的要求,将测验目的具体化为不同层次的测验目标。教育测验目标一般采用布鲁姆教育目标分类学中的分类标准,将测验目标分成识记、理解、应用、分析、综合、评价六个层次。按不同层次的测验目标对知识点进行分类。
13
3.确定每一层次目标在整个测验项目中所占的比重。
4.编制测验双向细目表。(参见教材P16) 5.请专家对双向细目表以及测题是否符合双向细目表的内容要求、测题的形式是否合适等进行评定。 6.对测题进行必要的修改,直至多数专家对测验的内容效度感到满意为止。最后,报告专家评定的情况,这个评定结果可以作为内容效度。 back
14
1.复本法 克伦巴赫认为,内容效度可由一组被试在取自同样内容范围的两个测验复本上得分的相关来作数量上的估计。当相关高时,可以推论测验具有较高的内容效度。 缺点:如果相关低,至少一个测验缺乏内容效度,但不能确定哪个测验缺乏内容效度。 如果相关高,也可能两个测验存在相同的偏差,两者效度都不高。 back
15
2.再测法 在教学或训练之前施测某一测验,经过一段时间的学习或训练后再次施测,如果后测的成绩显著高于前测,则可以认为测验能很好地反应学习或训练的效果,测验具有较高的内容效度。 back
16
3.内容效度比 让本专业的专家对取样的代表性进行分析,评价某一测验项目是否具有代表性,统计出专家中认为某一项目能代表所要测量的内容范围的人数,再用公式计算出内容效度之比 (公式6-1) 式中CVR表示内容效度比,ni表示专家中认为某项目具有代表性的人数,N表示参加评定的专家的总人数。 根据内容效度比,删除内容效度比低的项目。计算全部项目的内容效度比的平均数,作为内容效度的指标。 back
17
表面效度(Face Validity):指外行人从表面上看测验是否有效,测验题目与测验目的是否一致。
内容效度和表面效度的区别: 表面效度是外行对测验作表面上的检查确定的,而内容效度是专家对测验进行详尽的、系统的评价建立的。 虽然两者都是对测验内容作出的主观判断,但判断的标准不同。前者只考虑测验项目与测验目的之间的明显的、直接的关系,后者则同时考虑到测验项目与测验目的和总体内容之间的逻辑的本质的联系。 表面效度高的题目内容效度不一定高,表面效度低的项目内容效度也不一定低。 如,明尼苏达个性调查表中有这样的题目:“我的喉咙里总好像有一块东西堵着似的。”
18
测验对表面效度的考虑: 表面效度不是效度的客观指标,不能保证测验的正确性,但能对受测者的动机产生影响,因而也会影响到测验的效度。 如:“我偷过东西。” 编制测验时应根据编制测验的要求提高或降低表面效度,如人格测验,表面效度应该低,使被试看不出来,从而让被试作出真实的反应,能力测验应该提高表面效度,以激发被试的答题动机。 back
19
四、内容效度的应用和评价 内容效度适合于测验所要测量的内容总体能够明确界定的情况。因此尤其适合对教育测验的效度的考察。内容效度对各种用于人员选拔和安置的职业测验也是适用的。职业测验关心的是被试是否具有从事某项职业的知识、技能等,那么要明确某项职业所需的全部知识和技能,再对这些知识和技能进行取样,取出一个有代表性的样本。 内容效度对能力倾向测验和人格测验不是很合适,因为它们要测量的往往是较抽象的特质,其范围难以明确界定,没有明确的内容范围,就无法考证测验项目是否具有代表性。 缺点:缺乏理想的数量指标,因而妨碍了信息交流和各测验的相互比较。 back
20
一、什么是构想效度? 二、收集构想效度资料的方法 三、对构想效度的评价 back
21
构想效度(construct validity),又称构念效度、结构效度。构想:心理学理论中所涉及的假设性的概念或特质,如智力、焦虑等,它们往往用某种操作定义来定义、可以用测验来测量。
构想效度是指测验分数能够说明某一理论概念或特质的程度。也就是测验是否实际测量了所欲测量的理论概念或特质。考察构想效度的宗旨是要回答下面一些问题:一个测验测量的是什么心理构想?对这个构想测得有多好?测验分数中有多少变异数是来自测验所欲测量的构想。
22
欲建立具有构想效度的测验,必须先从某一构想的理论出发,导出各项关于心理特质或行为的基本假设,根据这些基本假设设计和编制测验,然后审查测验结果是否符合提出的基本假设。
如,从一般的智力理论,可提出四项主要的假设:(1)智力随年龄的增长而增长;(2)智商是相对稳定的;(3)智力与学业成就有密切关系;(4)智力受遗传和环境的影响。 构想效度的证据是一个在研究中不断累积的过程 back
23
(一)测验内方法 1.测验的内容效度 2.分析被试解答测题时的反应过程 3.考察测验的同质性 (二)测验间方法 1.相容效度(congruent validity) 2.区分效度(discriminant validity) 3.因素效度(factorial validity) (三)效标关联法 (四)实验操作法 back
24
1.测验的内容效度 内容效度可以作为检验结构效度的一个方面。 back
25
在施行个别测验时,要求被试边想边说,从而可以分析被试解题时的心理过程,以核实测验是否真正测到了所要测量的心理构想。
2.分析被试解答测题时的反应过程 在施行个别测验时,要求被试边想边说,从而可以分析被试解题时的心理过程,以核实测验是否真正测到了所要测量的心理构想。 如,人格测验中有这样一个题目:“我喜欢在别人面前说另一个人的缺点。”一个被试回答“否”,问他是怎么考虑的,他说:“一个人如果喜欢在别人面前说另一个人的缺点,那他就是个小人。” back
26
3.考察测验的同质性 这种方法是以测验的内在一致性系数(如K-R20,K-R21,以及系数等)为指标,判断测验测的是单一特质还是多种特质,从而确定测验构想效度的高低。 back
27
1.相容效度(congruent validity) 计算受测者在新测验上的分数与原有的已知效度较高的同类测验上的分数之间的相关。
如,斯坦福-比奈量表和韦氏量表是公认的效度较高的智力量表,后人编制的智力测验常计算与这些量表的测验分数的相关,以提供相容效度的证据。 back
28
2.区分效度(discriminant validity)
一个有效的测验不仅应与其他测同一构想的测验有关,而且还必须与测量不同构想的测验无关。用此种方法确定的效度称区分效度。 低相关:可以证明新测验相对独立于某些无关因素,但并不保证它一定有效。 高相关:这个测验的效度是可疑的。 back
29
3.因素效度(factorial validity):通过对一组测验进行因素分析,找到影响测验分数的共同因素,每个测验在共同因素上的负荷量,即每个测验与共同因素的相关,称作测验的因素效度。
back
30
(三)效标关联法 测验分数与效标行为的一致性有助于证明测验确实测量了某种构想。 根据效标选取不同的被试,组成对照组,然后比较两组被试的测验成绩,看测验分数能否将它们区分开来。 如,两组被试,神经症被试和正常人 情绪顺应测验 测验对效标的预测能力,也可以提供构想效度的证据。 如,手指灵巧度测验 需要精细动作的职业的成功 back
31
通过控制某些实验条件,观察其对测验分数的影响,也可以获得构想效度的证据。
(四)实验操作法 通过控制某些实验条件,观察其对测验分数的影响,也可以获得构想效度的证据。 如,举行两场考试,使被试相信一场考试关系重大,另一场考试无关紧要,在考试前进行焦虑测验,看被试的焦虑测验分数是否存在显著的差异,分析原因。 back
32
三、对构想效度的评价 构想效度的主要缺点是: 1.有些构想概念模糊,缺乏一致的定义。 2.确定效度时没有明确的操作步骤和程序。
3.构想效度是通过对测验测量了什么、没有测量什么的证据加以累积的,没有单一的数量指标来描述有效的程度。 比如,效度等于多少,证明效度高,等于多少,证明效度低。 back
33
一、什么是效标关联效度? 二、效标 三、效标关联效度的估计方法 (一)相关法 1.积差相关 2.点二列相关 3.二列相关 (二)分组法
back
34
(一)效标关联效度的定义 所谓效标关联效度,是指测验分数与某一外部效标间的一致性程度,即测验结果能够代表或预测效标行为的有效性和准确性程度。 实证效度
35
根据搜集效标的时间,可以将效标效度分为预测效度和同时效度。 同时效度:指测验与同时获得的效标行为的一致性程度。
(二)效标关联效度的种类 根据搜集效标的时间,可以将效标效度分为预测效度和同时效度。 同时效度:指测验与同时获得的效标行为的一致性程度。 同时效度的效标资料和测验分数同时搜集。 如,人格测验的结果可以用家长、同学的评定作为效标。大学入学考试可以用中学成绩作为效标。 预测效度:指测验结果对效标行为的预测程度。 用大学入学考试的成绩预测大学的学习是否成功,用人格测验预测是否会得心理疾病。 back
36
(一)效标的概念 效标即效度标准(Validity Criterion),是指衡量测验有效性的外在标准,通常是指我们所要预测的行为。
效标有两个特点: 效标独立于测验的结果,即效标和测验分数两者是独立评定的。 效标反应测验的目的。 如,我们可以用飞行员的工作表现作为验证飞行员选拔测验的效标 用于心理病理测量的人格量表可以用医生的临床诊断结果作为效标 效标污染(Criterion Contamination)
37
(二)观念效标和效标测量 阿斯汀(A. W. Astin)将效标分为观念效标和效标测量。 观念效标:指从概念上确定所要选择的测验效标是什么。
38
用具体的测量指标表示效标行为水平的高低,这就是效标测量。 好的效标测量应符合以下几个条件: (1)有效性 (2)可靠性 (3)客观性
效标测量与观念效标必须是高度一致的。 (2)可靠性 效标测量必须正确可靠。也就是说要具有较高的信度。 (3)客观性 效标测量必须客观,避免偏见。如,当效标测量是主观评定时,一定要尽量避免主观偏见。 (4)经济实用性 在保证有效性的前提下,效标测量必须尽可能简单、省时、花费少。 back
39
效标关联效度一般可以通过统计分析得到一个数量指标,因此有人将它称为统计效度。常用的估计方法有相关法、分组法、预期表法、命中率法、功利率法等。
back
40
相关法是一种最常用的计算效标关联效度的方法,测验分数与效标间的相关系数称为效标系数。测验分数与效标分数的数据性质不同,计算相关系数的方法不同。
back
41
当测验分数和效标分数都是正态连续变量,且两者存在线性相关时,可采用积差相关的计算方法。
back
42
测验分数是正态变量,且是连续变量,效标测量是二分名义变量(以是否达到某一标准表示),这是可采用点二列相关的计算方法。
如,对某个群体进行心理病理方面的人格测验,以是否患精神疾病为效标。 back
43
二列相关适用的情况是,测验分数和效标的总体分布均为正态,测验分数为连续变量,效标测量被人为地分成两类。
如,对初中生进行学习能力测验,以是否考上重点中学为效标 back
44
根据受测团体在效标上的行为表现,将他们分成不同的组别,看不同组别的测验分数是否存在显著差异。
存在问题: 组间平均数差异在统计上的显著性取决于团体的大小。当团体较大时,平均数的小差异在统计上也会变得有意义,但测验区分这些团体的实际价值很小。
45
重叠量的计算: 重叠量有两种计算方法。一种方法是:计算出成功组中低于失败组平均数的人数,再计算出失败组超过成功组平均数的人数,两数相加除以两组总人数即为重叠量。 另一种方法是计算出处于两组分数分布的共同区域内的人数百分比(即两组分数分布的交叉区域的面积。)重叠量小说明测验是有效的。 因此,研究者在提供效度资料时,应该把平均数、标准差、统计上的显著性、重叠量等一起报告,以防止实际上并无差异,只是由于样组规模大从而造成统计上差异的显著性。
46
下面我们介绍运用SPSS计算重叠量的方法。数据见表6-1
back 测验分数 78 45 56 89 67 51 88 74 16 73 效标 1
47
一、影响测验效度的因素 (一)测验的长度 测验的长度会影响测验的信度,同时也会影响测验的效度。测验长度与效度的关系可以用下式表示: (公式6-3) 式中是 测验增长为原来的n倍的效度值,n为测验的增长倍数, 为原测验效度, 为原测验信度。
48
例2:一测验的信度系数为0.50,效度系数为0.40,现想其效度增长为0.50,问测验的长度应增长为原来的几倍?
49
(二)效标因素 1.效标测量的可靠性 效标分数往往存在稳定性的问题,即在不同时间和 情境中测量,同一个人的效标分数会有相当大的波动。 2.效标和测验分数的关系类型
50
二、对各种效度系数的要求 提高测验效度对各种心理测验都非常重要,但效度系数要达到多大才符合要求呢?这要根据各种测验的具体情况来确定。 智力测验分数与教师对学生的等级评定之间的效度系数一般在0.30-0.50的范围内。
51
相同科目的标准测验成绩与教师对学生名次的排列之间的相关系数一般应达到0. 60-0
相同科目的标准测验成绩与教师对学生名次的排列之间的相关系数一般应达到0.60-0.70之间,这是因为在测验的内容方面,标准测验常与教师评价基本一致,所以相关较高。 两种不同的智力测验或标准测验之间的相关系数应达到0.60-0.80,才能认为符合要求。 对效度系数大小的要求,也受原测验与获得效标的测验之间的相似性的制约。若两者不相似,则效度系数偏低;若相似,则效度系数会高些。所以,有的测验效度系数达到0.35即已符合要求,有的却要大到0.65-0.77才能认为是有效的测验。 效度系数可以解释为效标分数中的变异有百分之几来自测验分数。例如,效度系数为0.60,则意味着效标分数中有36%的变异来自原测验分数的变异;若效度系数为0.71,则效标分数中的变异有50%来自原测验分数的变异。 back
Similar presentations