第三章 测量信度 第一节 信度概述 一、什么是信度? 信度(reliability)是指测量结果的稳定性程度,也叫测量的可靠性。 操作定义: rxx=ST2 / SE2 rXX=ρTX2 rXX=ρXX’ 注意:(1)信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性; (2)真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。
二、信度系数与信度指数 信度指数:相关系数 信度系数:相关系数的平方 注意: (1)信度系数有多种。 (2)同一种信度系数也会因样本、测查时间不同而有多个。 (3)信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。 (4)获得较高的信度只是测验有效的必要条件。
三、信度的作用 1.信度是测量过程中所存在的随机误差大小的反映 2.信度可以用来解释个人测验分数的意义 SE=SX√1 - rXX 真分数的置信区间(95%)=X±1.96SE 3.信度可以帮助进行不同测验分数的比较
第二节 信度的估计方法 一、重测信度 1.含义和计算 重测信度(test-retest reliability)是指用同一量表对同一组被试施测两次所得结果的一致性程度。 重测法的模式是:测验A1--适当的时距--测验A2 皮尔逊积差相关系数rA1A2= 2.使用的前提条件 l 所测量的心理特质必须是稳定的; 练习和遗忘的效果基本上相互抵消; 在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。
例:用某量表测验10个学生,得分记为X;为了考察测量结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y(X和Y见下表)。问测量结果是否可靠?
学生 A1 A2 X2 Y2 XY X Y 1 2 3 4 5 6 7 8 9 10 64 100 81 36 49 25 16 72 90 56 20 ΣX=75 ΣY=78 ΣX2=601 ΣY2=658 ΣXY=627
使用重测法计算稳定性系数,要注意下列问题。 1、两个测验之间的时间间隔要适宜。 2、重测法适用于速度测验而不适用于难度测验。 3、应注意提高被试者的积极性、兴趣。
二、复本信度 1.含义和计算 复本信度(Alternate-form reliability)是指两个平行的测验测量同一批被试所得结果的一致性程度。 皮尔逊积差相关系数 等值性系数:两个复本测验是同时连续施测的 稳定等值系数(重测复本信度):两个复本测验是相距一段时间分两次施测的。 复本信度模式是:测验A1-最短的时距-测验B1(备份) 2.使用的前提条件 l 两测验真正平行; l 被试要有条件接受两个测验。
例:已对应试者10人施行过测验A1,接着对这10名应试者施行测验B1,求该测验的信度(分数见表)。
被试 A1 B1 X2 Y2 XY X Y 1 2 3 4 5 6 7 8 9 10 64 100 81 36 49 25 16 32 90 63 54 40 21 18 ΣX=75 ΣY=50 ΣX2=601 ΣY2=306 ΣXY=380
使用复份法计算等值性系数要注意下列几点: 1、复份法的关键在于两个量表必须等值。难度区分度,题型长度。 2、两次测验的时距宜尽可能短促,以避免知识积累,练习效应等因素的影响。 3、由于量表的两个复份在许多方面近似,所以信度系数有稍微偏高的倾向。 4、标准测验一般均有复份,使用复本持慎重的态度。
三、分半信度 1.含义和计算 分半信度(split-half reliability)是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。 校正后的皮尔逊积差相关系数 校正公式:斯皮尔曼-布郎公式 rxx= 2 rhh /(1+ rhh)
例:有一个由100题构成的量表施行于10个高三学生,测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?
得 分 被 试 奇数题 总分X1 偶数题 总分X2 X12 X22 X1X2 1 2 3 4 5 6 7 8 9 10 38 37 41 40 36 39 35 34 1444 1369 1681 1600 1296 1521 1225 1269 1156 1406 1368 1599 1560 1224 1260 ΣX1=382 ΣX2=374 ΣX12 =14624 ΣX22 =14014 ΣX1X2=14311
常见的分半方法是按测题序号奇偶分半: l 测验题目按某种顺序(如难度)排列; l 如果是随机排列的题目,则必须是所有题目是平等的(要么难度相等,要么性质一致,是测同一个心理特质的); l 如果测验有多个分量表,应在分量表内部排好顺序,再把各分量表的两半组合起来求相关。 使用奇偶分半法一定要注意两个问题: 1、如遇到有牵连的项目或一组解决同一问题时,这些项目应放在同一半,否则将会高估信度的值。 2、当试卷中存在任选题或试卷为速度测验时,不宜采用分半法。
弗朗那根公式: rxx = 2 [ 1 -(Sa2 + Sb2)/ Sx2] 卢仑公式: rxx = 1 - Sd2 / Sx2 2.使用的前提条件 一个测验可以分为对等的两半时; 假定两半等值,也即两半测验分数具有相同的平均数和标准差。
四、同质性信度 1.含义 同质性信度(homogeneity reliability),也叫内部一致性系数,是指测验内部所有题目间的一致性程度。 2.计算及适用范围 rxx = K / rij [ 1 +(K - 1)rij ]
KR20公式: rxx = [ K /(K - 1)] [ 1-(Σpiqi)/ Sx2 ] pi为答对第i题的人数的比例;qi为答错第i题的人数的比例。 K为题目数, Sx2为测验总分的变异。 KR21公式: rxx = [ K /(K - 1)] [1 -(K p q )/ Sx2 ]
例:有一种包含6个问题的测验,10个应试者得分如下表(答对得1分,答错得0分),试估计应试者反应的一致性程度。
得分 题目 被试 1 2 3 4 5 6 ΣZ 1 2 3 4 5 6 7 8 9 10 1 0 0 0 0 0 1 1 0 0 1 0 0 2 0 0 0 0 1 1 2 1 1 1 0 0 0 3 0 1 0 0 1 1 3 1 1 1 1 0 0 4 1 1 0 1 1 1 5 1 1 1 1 1 1 6 ΣX= p q pq 8 7 5 5 4 4 0.8 0.7 0.5 0.5 0.4 0.4 0.2 0.3 0.5 0.5 0.6 0.6 0.16 0.21 0.25 0.25 0.24 0.24 Σpq=1.35
克龙巴赫α系数: α = [ K /(K - 1)] [1 -(ΣSi2)/ Sx2 ] 菏伊特信度: rxx = 1 - MS人×题/ MS人 一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此,同质性不但与信度有关,还与效度有关。
例:有一种包含6个论文式题目的测验,对5个应试者施行,得分列入下表,试求该测验的信度.
被试 题号 A B C D E Σ Si2 1 2 3 4 5 6 11 8 11 11 48 3.04 6 9 7 8 9 39 1.36 6 10 6 8 9 39 2.56 8 11 6 8 3 36 6.96 7 11 8 11 11 48 3.04 Σ 40 62 41 54 52
五、评分者信度 1.含义和计算 评分者信度(scorer reliability)是指多个评分者给同一批人的答卷进行评分的一致性程度。 2人时:相关系数 多人时:肯德尔和谐系数 W=12 [ΣR i2 -(ΣR i)2 / N] / [K2(N3 -N)] (K=3 ~ 20;N=3 ~ 7时,查W表检验) R I为第i个被试被评的水平等级之和
例:甲乙两位教师评阅10份试卷,他们对每一试卷各自所评的分数和等级列入下表,问这两位教师评分的一致性如何?
试卷 得分 名次 等级之差D D2 A B C D E F G H I J 94 90 86 72 70 68 66 64 61 93 92 甲评分 乙评分 甲名次 乙名次 A B C D E F G H I J 94 90 86 72 70 68 66 64 61 93 92 82 76 65 60 1 2 3.5 5 6 7 8 9 10 2.5 4 5.5 -0.5 -3.5 0.5 -2 0.25 12.25 6.25
例:六位教师各自评阅相同的五篇作文,每位教师给每一篇作文都评了等级(共5等)并列入下表。问六位教师所评的等级的一致性是大还是小?
评分者K26 试卷编号(N=5) 1 2 3 4 5 赵 钱 孙 李 周 武 Ri 3 5 2 4 1 3 4 1 5 2 3 5 1 4 2 18 29 10 25 8
若N>7,用χ2检验。 χ2 = K(N - 1)W,df = N - 1 若评分中有相同等级时,需校正: W=12[ΣR i2 -(ΣR i)2 / N] / [K2(N2 -N)- KΣΣ(n3 - n)/12]
各种信度系数相应误差变异的来源 信度 误差变异来源 重测信度 时间取样 复本信度(连续施测) 内容取样 复本信度(间隔施测) 时间与内容取样 分半信度 同质性信度 内容取样和内容的异质性 评分者信度 评分者间的差异
第三节 提高测量信度的方法 一、影响测量信度的主要因素 (一)被试方面 被试团体同质性越高(个体差异越小),所得相关系数(信度)就越低。 被试团体异质性越高(个体差异越大),所得相关系数(信度)就越高。 (二)主试方面 指导语、态度、期望等 (三)施测情境
(四)测量工具 测验长度:测验越长,信度越高。 测验难度:过难或过易都会使个体间得分差异减小,降低信度。 测验内容:试题取样不当,内部一致性低,题意模糊,信度则低。 (五)两次施测的间隔时间 间隔时间越短,信度越高; 间隔时间越长,信度越低。
二、提高测量信度的常用方法 (一)适当增加测验的长度rtt= 2rx1x2∕(1+rx1x2) rtt =Krxx ∕[1 +(k-1)rxx] (二)使测验中所有试题的难度接近正态分布,并控制在中等水平 (三)努力提高测验试题的区分度 (四)选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度 (五)主试者严格执行施测规程,评分者严格按照标准给分,施测场地按测验手册的要求进行布置,减少无关因素的干扰
例1:如有一种饱含10题的测验,其信度系数为0.30若把测验增加原长度的3倍时,信度为多少。 例2:原测验共10题,其信度系数为rⅹⅹ=0.30如果把信度系数提高到0.954,需要把测验延长几倍?增加多少题?
三、信度的特殊问题 1.速度测验的信度问题 因为速度测验的题目难度都很低,所以不能用奇偶分半求分半信度;可以将测验分两半来施测。 因为几乎不可能把题目做完,所以同质性信度不适用。 可以用重测信度和复本信度。 2.标准参照测验的信度问题 总体越同质,相关系数越低。 用复本,通过人数的百分比差别越小,信度越高。
四、信度好坏的判断标准 标准化能力或学绩测验:>0.90 人格测验:>0.80 教师自编学绩测验:>0.60 五、测验使用时的信度标准 一般来说,当信度<0.70,测验不能用于对个人作出评价与预测,而且不能作团体间比较; 当0.70≤信度<0.85时,可用于团体比较; 当信度≥0.85时,才能用来鉴别或预测个人成绩。