第八章 信度与效度分析 2017/3/16
信度 測量到的結果不管任何時間都一致, 不會有誤差。 測量誤差可用E=X-T表示,X是觀察到的特質,T是真實特質。 信度高的測量, 才有信心用來預測未來。 2017/3/16
信度的涵义 什么是信度(Reliability) 即是指测量工具本身的可靠程度。信度分析亦称为可靠性分析。 两个方面:测量结果的稳定性和一致性 稳定性高的测量工具则是指一群人在不同时空下接受同样的衡量工具时,结果的差异很小。 反例:一把尺子在上午和下午测量同一个人的身高,相差5厘米。 一致性高的测量工具是指同一群人接受性质相同,题型相同,目的相同的不同问卷测量后,在各衡量结果间显示出强烈的正相关。 反例:测量血压的不同工具得出的结果相差很大 2017/3/16
信度的例子 儀器的信度:視力、 聽力、 體重、心跳速度等。 測驗的信度:考試、 智力測驗。 問卷的信度:受訪者的回答, 包括態度、 行為、 事實等等。 2017/3/16
信度的类型 不同的测量方式导致不同类型的信度 再测信度(test-retest reliability) 复本信度(alternative-form reliability) 内部一致性信度(internal consistency reliability) 2017/3/16
再测信度 再测信度 同一个测量工具在不同的时间对同一受试者重复测量两次,两次测量结果的相关系数即为再测信度。这一指标反映测量工具的稳定性,亦称为稳定系数(coefficient of stability) 缺点: 受试者具有学习功能,测试结果易受记忆及经验的影响,从而导致假性高相关 两次测试难时有相同的测试情境 两次测试的间隔时间并没有统一标准,较难把握 2017/3/16
复本信度 复本信度 是以两个测验复本(在内容、型式、题数、难度、指导说明、时间限制与例题等方面,必须类似或相等 )来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测量复本在内容上的等值性程度,亦称等值性系数(coefficient of equivalence) 。 实施方法: 同时实施:测量一致性,获得等值性系数 间隔实施:测量稳定性和一致性,获得稳定与等值系数 (coefficient of stability and equivalence) 2017/3/16
复本信度 缺点: 复本测验的编制不易,不但费时,且成本较高 易受练习影响的测量行为,即使采用复本方法,影响只能减少,但无法完全避免 计算再测信度与复本信度的共同问题是: 需要进行两次测量。受试者的合作、动机、疲劳和厌烦等都可能影响测验的实施。因此,寻求只根据一次测验结果就可以估计信度的方法 2017/3/16
折半信度(split-half reliability) 指使用测量工具先对一组受试者施测,然后把题目分成两半计分,依两半所得的分数算出相关系数 。在无副本且不准备重测的情况下,我们就用折半信度来计算信度系数,类似于复本信度。 计算折半信度的模型有:Spearman-Brown公式, Guttman公式, Rulon公式。 2017/3/16
内部一致性信度 涵义: 折半信度高表明内部项目的相关性高,这实际上反映的是测量工具内部各项目之间的一致性问题,因此衍生出内部一致性信度。 内部一致性信度是指量表内容与题目之间的关系,考察的是量表的各个题目是否测量了相同的内容或特质。例如:市场导向的测量量表 计算内部一致性信度的常用方法: Cronbach‘s 系数 2017/3/16
Cronbach‘s 系数 LeeJ.Cronbach,伊利诺伊大学教授,心理测量学家。1951年将库德-理查德20(适合与0,1记分的信度计算公式)进一步推广,提出著名的多重记分项目的信度计算公式,即著名的一致性系数 2017/3/16
Cronbach‘s 系数 2017/3/16
信度的检验标准 信度 .30 不可信 .30 信度 .40 初步的研究,勉强可信 .40 信度 .50 稍微可信 信度 .30 不可信 .30 信度 .40 初步的研究,勉强可信 .40 信度 .50 稍微可信 .50 信度 .70 可信(最常见的信度范围) .70 信度 .90 很可信(次常见的信度范围) .90 信度 十分可信 2017/3/16
SPSS分析信度案例 2017/3/16
效度分析 (validity analysis) 2017/3/16
效度 測量能夠測到真正的特質, 即效度。 X=T+E。 E若一直為0就是有效度。 E若是不為0但是為一固定常數, 就是有信度。所以信度可以說是效度的必要條件。 有信度不一定有效度, 有效度則一定有信度。 2017/3/16
效度的例子 溫度計---可以用來測溫度,但是不會有人拿來測溼度。 倍數高的望遠鏡可以幫我們測量行星之間的距離。 用X光或超音波測量骨密度。 用巴式量表測量身體功能 用GRE測量留學生的智力 2017/3/16
效度的涵义 效度的涵义: 简言之,就是测量结果的有效性。 或某项测量活动能够测量到测量者所希望了解的特性的程度。 效度与测量目的相关,同一种测量工具在某些测量中具有高效度,但在另一些测量中却效度不高。 例如:一把信度很高的尺子在测量身高时具有很好的效度,但在测量血压时效度显然不佳。 因此有人将效度定义为: 测验能够达到某种目的的程度(Mehens & Lehmann, 1978, p.109) 2017/3/16
效度的类型 内容效度(content validity) 效标关联效度(criterion-related validity) 由于效度是相对于研究目的和研究侧面而言的,具有多层面的特征,因此效度具有多种类型。主要有: 内容效度(content validity) 效标关联效度(criterion-related validity) 构念效度(construct validity) 2017/3/16
内容效度 测量方法: 涵义: 内容效度是指测量工具的内容是否能够代表所欲测量的行为领域,即量表内容是否具有代表性。 内容效度是指测量工具的内容是否能够代表所欲测量的行为领域,即量表内容是否具有代表性。 例如:一位教师给学生做一个数学测验,该测验的题目如果涵盖了教学所欲达成的目标,及教材的重要内容,我们说该测验有内容效度。 测量方法: 尚没有一种数量的测量方法,它的确定主要是采用逻辑的分析方法,仔细判断每一项目是否符合及涵盖所要测量的研究领域. 2017/3/16
效标关联效度 效标关联效度是以经验性的方法,研究测验分数与一些外在效标间的关系,故又可称为经验效度或统计效度(empirical or statistical validity),(Thorndike & Hagen, 1977, p.60)。 根据选择效标的时间不同,可分为:同时效度和预测效度 同时效度(concurrent validity) :是指测验分数与实施测验同一个时间所取得的效标之间的相关,旨在使用测验分数估计个人在效标方面的目前实际表现。 例如测量学生智力时,将学生当时的成绩作为效标。 预测效度: (predictive validity)是指测验分数与实施测验后一段时间所取得的效标之间的相关,旨在使用测验分数预测个人在效标方面的未来表现。 例如测量学生智力时,将测量之后一段时间的学生成绩作为效标。 2017/3/16
构念效度 构念效度,就是指测验能够测量到理论上的构念或特质的程度(Anastasi, 1982, p.144)。 分为聚合效度(convergent validity)和辨别效度(discriminant validity)两类。 聚合效度:如果某一测量工具的测量分值与测量相同构念或特质的其它测量工具的分值有高的相关度时,则可以说明聚合效度高; 辨别效度:如果某一测量工具的测量分值与测量不同构念的其它其它测量工具的分值有低的相关程度时,即辨别效度高。 2017/3/16
构念效度的测量方法-MTMM 确定构念效度,首先一个测验的分数不仅要和测量相同构念或特质的其它测验分数有高的相关,即辐合效度高;而且要和测量不同构念的其它测验的分数有低的相关,即辨别效度高 方法:多元特质-多重方法矩阵(multitrait-multimethod matrix) 使用条件: 两个以上的构念以及能够测量这些构念的两种以上的量表 例如,使用人格量表(方法1)和教师评定(方法2)两种测量方法,测量学生的三种特质:成就性(A)、社会性(B)、独立性(C) 2017/3/16
1.相同方法测量相同特质(信度系数):{.77, .81, .92,.71, .78, .83} 2.相同方法测量不同特质(辨别效度):{.40, .31, .29, .37, .18, .25} 3.不同方法测量相同特质(聚合效度):{.59, .63, .68} 4.不同方法测量不同特质(辨别效度):{.29, .18, .27, .09, .11, .12} 此例就是最理想的构念效度,就是1, 3所得相关比2, 4所得相关为高 。 2017/3/16
CFA法 聚合效度:AVE超过0.5(Fornell & Larcker 1981), 所有因子载荷均大于0.5(Bagozzi & Yi 1988)。 辨别效度:AVE大于所有因子相关系数的平方0.5(Fornell & Larcker 1981)。双变量的CFA模型中,固定协方差模型的卡方值显著地大于自由估计协方差模型的卡方值,以两倍标准误构筑的协方差的置信区间不包含1(Anderson 1987) 2017/3/16
2017/3/16
信度与效度的关系 信度是效度的必要条件,但不是充分条件。 概括两者的关系: 信度低,效度不可能高。因为如果测量的数据不准确,也并不能有效地说明所研究的对象 信度高,效度未必高。例如用尺子量血压 效度低,信度很可能高。 效度高,信度也必然高。 2017/3/16