第七章 研究工具性能的测定 泰山医学院护理学院 李 蕾 2017/3/16
教 学 目 标 掌握信度的概念和分类 掌握效度的概念和分类 掌握信度与效度的关系 熟悉信度测量方法 熟悉效度的建立和测量的方法 了解国外量表翻译的基本步骤 护理研究 第七章 研究工具性能的测定
你如何解释下述现象? 一个很聪明的孩子,测得智商是80分 一个学习很好的学生,考试成绩为60分 一个人缘很好的人,人际关系测量低于常模值 2017/3/16 你如何解释下述现象? 一个很聪明的孩子,测得智商是80分 一个学习很好的学生,考试成绩为60分 一个人缘很好的人,人际关系测量低于常模值 护理研究 第七章 研究工具性能的测定
测量误差 误差的含义 在测量中与目的无关的因素所引起的不准确或不一致效应。 不准确、不一致 不准确、一致 准确、一致 2017/3/16 测量误差 误差的含义 在测量中与目的无关的因素所引起的不准确或不一致效应。 不准确、不一致 不准确、一致 准确、一致 护理研究 第七章 研究工具性能的测定
2017/3/16 研究工具的性能指标 信度:可靠性(一致性) 效度:有效性 无效度、无信度 有效度、有信度 无效度、有信度
2017/3/16 重测信度 内部一致性信度 信度 评定者间信度 复本信度 表面效度 内容效度 效度 效标效度 结构效度
2017/3/16 第一节 信 度 reliability 护理研究 第七章 研究工具性能的测定
一、信度的基本概念 信度指研究工具所获得结果的一致程度。 一个好的测量工具必须稳定可靠,即多次测量的结果要保持一致。 2017/3/16 一、信度的基本概念 信度指研究工具所获得结果的一致程度。 一个好的测量工具必须稳定可靠,即多次测量的结果要保持一致。 护理研究 第七章 研究工具性能的测定
稳定性(stability) 内在一致性(consistence) 等同性(equivalence) 信度的主要特征 2017/3/16 信度的主要特征 稳定性(stability) 内在一致性(consistence) 等同性(equivalence) 护理研究 第七章 研究工具性能的测定
稳定性 用同一工具两次或多次测定同一研究对象,所得结果的一致程度。一致程度越高,工具的稳定性越好。 护理研究 第七章 研究工具性能的测定
组成研究工具的各项目之间的同质性 和内在相关性。内在相关性越大或同质性越 好,工具的内在一致性越好,信度越高。 内在一致性 护理研究 第七章 研究工具性能的测定
等同性 不同评定者使用相同工具同时测量相同 对象时,评定者间的一致程度;或大致相同 两个研究工具同时被用于研究对象,工具的 一致程度。 护理研究 第七章 研究工具性能的测定
二、信度的计算方法 稳定性 内在一致性 等同性 折半信度Cronbach’α系数 KR-20值 评定者间信度 复本信度 重测信度 稳定性 内在一致性 等同性 折半信度Cronbach’α系数 KR-20值 评定者间信度 复本信度 重测信度 护理研究 第七章 研究工具性能的测定
(一)重测信度(test-retest reliability) 1.定义: 用同一工具两次或多次测定同一研究对象所得结果的一致程度。 常表示研究工具的稳定性。一致程度越高,重测信度越高,研究工具的稳定性越好。 护理研究 第七章 研究工具性能的测定
2.计算方法 使用研究工具对研究对象施行第一次测试,间隔一段时间后使用同一工具对同一研究对象进行重测,然后计算两次资料的相关系数,该系数反映研究工具重测信度的高低。 相关系数在0~1之间,越接近1,说明重测信度越高。 护理研究 第七章 研究工具性能的测定
人格问卷重测数值表 研究对象 第一次测试(X) 第二次测试(Y) 1 23 27 2 44 38 3 35 37 4 53 49 5 46 26 28 7 32 34 8 25 9 10 39 36
第一次测试和第二次测试数据间的相关系数即为人格问卷的重测信度。 护理研究 第七章 研究工具性能的测定
3.使用重测信度需考虑的问题 使第一次测量对第二次测量的结果不会造成影响; 在客观情况未发生改变时进行; (1)两次测量之间的间隔时间: 护理研究 第七章 研究工具性能的测定
时间间隔的把握 间隔时间越长,稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。 2017/3/16 时间间隔的把握 间隔时间越长,稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。 年幼儿童,间隔要小;年长群体,间隔可大。 一般间隔时间不超过六个月。(即不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识产生遗忘) 护理研究 第七章 研究工具性能的测定
尽量保证测量环境的一致,如相同的测试者、相同的测量程序、相同的测量时间、相同的测量环境等 2017/3/16 (2)测量环境的一致 尽量保证测量环境的一致,如相同的测试者、相同的测量程序、相同的测量时间、相同的测量环境等 护理研究 第七章 研究工具性能的测定
(3)工具所测量的变量的性质: 对性质相对稳定的问题,如性格、价值观、生活质量等进行测量,适宜用重测信度来表示研究工具的信度如何; 对性质不稳定的问题,如情感、态度、知识等进行测量,则不宜使用重测信度来表示研究工具的信度如何。 护理研究 第七章 研究工具性能的测定
(二)内在一致性信度 2017/3/16 内在一致性(internal consistence)是指组成研究工具的各项目之间的同质性或内在相关性。内在相关性越好,说明组成研究工具的各项目都在一致地测量同一个问题或指标,也就是说明工具的内在一致性越好,信度越高。 护理研究 第七章 研究工具性能的测定
2017/3/16 折半信度 Cronbach’α系数 KR-20 护理研究 第七章 研究工具性能的测定
1.折半信度(split-half reliability) 将一种工具对一群人使用一次,将每个人的结果分数按工具中各项目分成两组,计算两组分数的相关系数。 内在一致性 护理研究 第七章 研究工具性能的测定
方法: 前后折半法 缺点: 不同的折半方法会导致不同的结果 奇偶折半法 一个10个条目的问卷可以有126种不同的折半方法! 护理研究 第七章 研究工具性能的测定
2.Cronbach’α系数 计算研究工具中所有项目间的平均相关程度,反映研究工具的内在一致。 Si2 :某一题目分数的变异数; 2017/3/16 2.Cronbach’α系数 计算研究工具中所有项目间的平均相关程度,反映研究工具的内在一致。 K:测验的题目数; Si2 :某一题目分数的变异数; Sx2 :测验总分的变异数。 护理研究 第七章 研究工具性能的测定
3.KR-20值 是Cronbach’α的一种特殊形式,用来反映研究工具的内在一致性。适用于二分制的研究工具,如回答“是”或“否”、“正确”或“错误”。 护理研究 第七章 研究工具性能的测定
表1 PACIE各条目间相关矩阵 内部一致性信度 量表总分的Cronbach ’s α系数为0.85。 护理研究 第七章 研究工具性能的测定 项目 面部 表情 声音/语言 身体 姿势 活动 情绪 人际互动/交流 生命 体征 睡眠 总分 面部表情 - 0.69** 身体姿势 0.48** 0.56* 0.55* 0.62** 0.35** 0.24** 0.57** 0.21 0.19 0.49** 0.45* 0.38* 0.36* 生命体征 0.40** 0.41** 0.44** 0.46** 0.67** 0.54** 0.28* 0.75** 0.81** 0.58** 0.66** 0.44* 0.56** 0.68** 注:*相关系数假设检验P<0.05,**P<0.01 量表总分的Cronbach ’s α系数为0.85。 护理研究 第七章 研究工具性能的测定
(三)评定者间信度 表示研究工具的等同性(equivalence) 评定者间信度(inter-rater reliability) 2017/3/16 (三)评定者间信度 表示研究工具的等同性(equivalence) 评定者间信度(inter-rater reliability) 不同的评定者使用相同工具,同时测量相同对象时,计算一致性的程度。 最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。 护理研究 第七章 研究工具性能的测定
(四)复本信度 任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验,叫做复本。 2017/3/16 (四)复本信度 任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验,叫做复本。 两个大致相同的研究工具同时被用于研究对象,计算两种复本测量分数的相关系数,称为复本信度(Alternate-form reliability)。相关系数越大说明两个复本构成带来的变异越小。 护理研究 第七章 研究工具性能的测定
A卷:你是一个喜欢热闹的人吗? 1=绝对是 2=是 3=不一定 4=不是 5=绝对不是 护理研究 第七章 研究工具性能的测定 2017/3/16 A卷:你是一个喜欢热闹的人吗? 1=绝对是 2=是 3=不一定 4=不是 5=绝对不是 护理研究 第七章 研究工具性能的测定
B卷:你是一个喜欢安静的人吗? 1=绝对是 2=是 3=不一定 4=不是 5=绝对不是 护理研究 第七章 研究工具性能的测定 2017/3/16 B卷:你是一个喜欢安静的人吗? 1=绝对是 2=是 3=不一定 4=不是 5=绝对不是 护理研究 第七章 研究工具性能的测定
复本等值要符合下列条件: 各份测验测量的是同一变量。 各份测验具有相同的形式。 各份测验的题目不应重复。 2017/3/16 复本等值要符合下列条件: 各份测验测量的是同一变量。 各份测验具有相同的形式。 各份测验的题目不应重复。 各份测验题目数量相等,难度和区分度大体相同。 各份测验的分数分布(平均数和标准差)大致相等。 护理研究 第七章 研究工具性能的测定
研究工具信度的基本要求 1、通常通过预试验测试研究工具的信度 2、报告研究工具的信度时,不仅要报告信度系数,还应报告是何种信度,信度系数是如何计算的。 3、一般认为,研究工具重测信度和内部一致性信度系数应不小于0.7。而评定者信度和复本信度一般应达到0.9以上。 护理研究 第七章 研究工具性能的测定
2017/3/16 第二节 效 度 (validity) 护理研究 第七章 研究工具性能的测定
一、效度的概念 效度是测量的有效性,真正能反映他所期望研究的概念的程度,即一个工具对它所要测量特质的准确程度。 效度回答两个问题: 2017/3/16 一、效度的概念 效度是测量的有效性,真正能反映他所期望研究的概念的程度,即一个工具对它所要测量特质的准确程度。 效度回答两个问题: 1.一个工具测评什么? 2.一个工具对于所测量的变量,准到什么程度? 护理研究 第七章 研究工具性能的测定
2017/3/16 二、效度的测量 表面效度 内容效度 效标效度 结构效度 护理研究 第七章 研究工具性能的测定
1、表面效度(face validity) 表面效度指测验给人的第一个印象好像测量甚么东西,而不是指测验事实上能测量到什么东西。 2017/3/16 1、表面效度(face validity) 表面效度指测验给人的第一个印象好像测量甚么东西,而不是指测验事实上能测量到什么东西。 护理研究 第七章 研究工具性能的测定
抑郁自评量表(SDS) A B C D E 1、我感到情绪沮丧,郁闷 □ □ □ □ □ 2、我感到早晨心情最好 □ □ □ □ □ 1、我感到情绪沮丧,郁闷 □ □ □ □ □ 2、我感到早晨心情最好 □ □ □ □ □ 3、我要哭或想哭 □ □ □ □ □ 4、我夜间睡眠不好 □ □ □ □ □ 5、我吃饭像平常一样多 □ □ □ □ □ 6、我的性功能很正常 □ □ □ □ □ 7、我感到体重减轻 □ □ □ □ □ 8、我为便秘而烦恼 □ □ □ □ □ 9、我的心跳比平时快 □ □ □ □ □ 10、我无故感到疲劳 □ □ □ □ □ 11、我的头脑像往常一样清楚 □ □ □ □ □ 12、我做事情像平时一样不感到困难 □ □ □ □ □ 13、我坐卧不安,难以保持平静 □ □ □ □ □ 14、我对未来感到有希望 □ □ □ □ □ 15、我比平时更容易激怒 □ □ □ □ □ 16、我觉得作出决定是很容易的 □ □ □ □ □ 17、我感到自己是有用的和不可缺少的人 □ □ □ □ □ 18、我的生活很有意义 □ □ □ □ □ 19、假若我死了别人会过得更好 □ □ □ □ □ 20、我仍旧喜爱自己平时喜爱的东西 □ □ □ □ □ 2017/3/16
表面效度一般不能作为工具质量的有力证据。 2017/3/16 表面效度是由评估人根据自己对所要测量概念的理解,尽其判断能力之所及来断定工具是否适当而做出的一种直觉判断。对工具的效度用“有或无”反映,未体现程度。 表面效度一般不能作为工具质量的有力证据。 护理研究 第七章 研究工具性能的测定
2、内容效度(content validity) 2017/3/16 2、内容效度(content validity) 内容效度是根据理论基础及实际经验对工具是否反映了所要测量的变量、是否包括足够的项目而且有恰当的内容分配比例所作出的判断。指项目对欲测的内容或行为范围取样的适当程度。 系统检查测验的内容,从而确定测验是否是所预测量的行为领域的代表性取样。主要是用于成就测验。 回答两个问题 该测验是否包括某种技能知识的代表性样本? 测验的成绩是否受无关因素的影响? 护理研究 第七章 研究工具性能的测定
2、内容效度 一个测验要具备较好的内容效度必须满足两个条件。 ①要确定好内容范围,并使测验的全部项目均在此范围内。 2017/3/16 2、内容效度 一个测验要具备较好的内容效度必须满足两个条件。 ①要确定好内容范围,并使测验的全部项目均在此范围内。 ②测验项目应是已界定的内容范围的代表性样本。换句话说,就是选出的项目能包含所测的内容范围的主要方面,并且使各部分项目所占比例适当。具体做法是对内容范围进行系统分析,将该范围划分为具体纲目,并对每个纲目作适当加权,然后根据权重,从每个纲目中随机取样。 护理研究 第七章 研究工具性能的测定
2、内容效度 内容效度建立在大量文献查阅、工作经验以及综合分析、判断的基础上,多由有关专家委员会进行评议(专家效度)。 2017/3/16 内容效度建立在大量文献查阅、工作经验以及综合分析、判断的基础上,多由有关专家委员会进行评议(专家效度)。 护理研究 第七章 研究工具性能的测定
实施要求: 1、专家人数3-10人,以5人较合适 2、专家的选择应与研究工具所涉及的领域有关 3、两次评议时间最好间隔10-14天 护理研究 第七章 研究工具性能的测定
疼痛评分指南 护理研究 第七章 研究工具性能的测定 项目 活动时 休息时 不相关 修改后相关 相关需要小改动 非常相关 2017/3/16 项目 活动时 休息时 不相关 修改后相关 相关需要小改动 非常相关 1.声音(非语言性):以非词语形式表达疼痛—呻吟、叹气、哼哼、哭泣、呼吸粗重 修改意见 2.表情痛苦/退缩:皱眉、闭眼抿唇、咬牙、表情扭曲 护理研究 第七章 研究工具性能的测定
2、内容效度 内容效度的应用 适合于测验所要测量的内容总体能够明确界定的情况 主要缺点 缺乏可靠的数量指标 妨碍各测验间的相互比较 2017/3/16 2、内容效度 内容效度的应用 适合于测验所要测量的内容总体能够明确界定的情况 主要缺点 缺乏可靠的数量指标 妨碍各测验间的相互比较 护理研究 第七章 研究工具性能的测定
3、效标关联效度(criterion-related validity) 2017/3/16 3、效标关联效度(criterion-related validity) 侧重反映研究工具与其他测量标准之间的关系,考察测验分数与效标的关系,属于实证效度,或统计效度。 根据测验的时间可分为: 同时效度(concurrent validity) 预测效度(predictive validity) 护理研究 第七章 研究工具性能的测定
2017/3/16 预测效度与同时效度 (1)同时效度:是指研究工具与现有标准之间的关系。如对一个人格测验的结果,可以用同学、家长对他人的评定作为效标。 (2)预测效度:测量工具作为未来情况预测指标的有效程度。效标是过一段时间后搜集得到。用智力测验的结果预测一个人会不会成功,用人格测验预测人会不会患心理疾病。 护理研究 第七章 研究工具性能的测定
同时效度的目的是检查测验测量现有的某种能力或特质的有效性,即描述当前状态时的有效性,而预测效度则表明测验对某种行为的预测的有效性。 2017/3/16 同时效度的目的是检查测验测量现有的某种能力或特质的有效性,即描述当前状态时的有效性,而预测效度则表明测验对某种行为的预测的有效性。 护理研究 第七章 研究工具性能的测定
4、结构效度(construct validity) 2017/3/16 4、结构效度(construct validity) 反映工具与其所依据的理论或概念框架的相结合程度,是工具的内在属性。 是指实验与理论之间的一致性,即实验是否真正测量到假设(构造)的理论。 护理研究 第七章 研究工具性能的测定
2017/3/16 重点是了解工具的内在属性,而不是使用工具测得的分数。它主要回答“该工具到底在测量什么?”,“使用该工具能否测量出被研究的抽象概念?”这类问题。 护理研究 第七章 研究工具性能的测定
结构效度是目前最为严谨的一种建立和测量研究工具效度的方法,也是最为复杂的效度研究方法。 护理研究 第七章 研究工具性能的测定
例如:智力测验的结构效度检验 对智力的构念,目前较为流行的观点认为智力代表了一个人获得、保持知识的能力,推理能力及适应环境的能力 。 2017/3/16 例如:智力测验的结构效度检验 对智力的构念,目前较为流行的观点认为智力代表了一个人获得、保持知识的能力,推理能力及适应环境的能力 。 根据智力的定义,可以推演出以下几点假设,1)智力不同于后天获得的知识,因此与遗传因素有关,且更为稳定,2)智力会随着人的生理变化而发展变化,3)智力会影响人的学习成绩和事业成功。 为验证以上假设,可以从三方面着手:1)计算同卵双生子、异卵双生子、其他同胞、非同胞间智商的相关,看相关系数是否依次降低;2)看智商与学业成绩间是否有高相关;3)智商是否随着年龄的增长而逐渐提高,在某一个阶段又是相对稳定的。 如果以上假设都得到了证实,则说明所编的智力测验是有效的,如果假设得不到证实,则说明测验的效度不高。 护理研究 第七章 研究工具性能的测定
2017/3/16 癫痫生活质量量表
促使研究者把着眼点放在提出假设、检验假设上,使得测验成为理论研究的重要工具; 2017/3/16 优势: 促使研究者把着眼点放在提出假设、检验假设上,使得测验成为理论研究的重要工具; 主要缺点: 有些构想概念模糊,没有一致的定义; 确定效度时没有明确的操作步骤; 没有单一的数量指标来描述有效程度。 护理研究 第七章 研究工具性能的测定
2017/3/16 主要通过因子分析,来判断结构效度。 属于实证效度或统计效度。 护理研究 第七章 研究工具性能的测定
信度高,并不保证效度就一定高;但效度高的话,信度必然要高。信度是效度的必要条件。 2017/3/16 护理研究 第七章 研究工具性能的测定
信度和效度关系 1、信度是效度的必要前提 高信度不能代表高效度 低信度则可以肯定低效度 2、效度是信度的必然保证 有效度的工具一定有信度 有信度的工具未必有效度 护理研究 第七章 研究工具性能的测定
第三节 国外量表的翻译和应用过程的性能测定 第三节 国外量表的翻译和应用过程的性能测定 护理研究 第七章 研究工具性能的测定
翻译和应用国外量表的原则: 1、不偏离原文的原意 2、适合中国的文化特点 3、译后的量表具有较好的信度和效度 2017/3/16 翻译和应用国外量表的原则: 1、不偏离原文的原意 2、适合中国的文化特点 3、译后的量表具有较好的信度和效度 护理研究 第七章 研究工具性能的测定
翻译国外量表的步骤 翻译 回译 检译 护理研究 第七章 研究工具性能的测定
1、翻译 两个或多个既熟悉原量表语言又有较好汉语功底的翻译者将国外量表翻译成中文; 注意直译与意译结合,使更适合中国文化特点; 多个翻译版本进行集体讨论后形成中文版本的量表。 护理研究 第七章 研究工具性能的测定
2、回译 请语言功底好、对源量表不知情的一位或多位翻译者将翻译成中文的量表再翻译回去; 将原量表与回译后的量表进行细致比较和分析,找出不同的部分,并对中文版的相应内容进行修改; 修改后的中文版进行表面效度检验。 护理研究 第七章 研究工具性能的测定
3、检译 寻找一定数量的既懂中文又懂源语言的样本对两种语言版本的量表进行作答,计算不同语言版本的量表得分的相关性。相关程度越高,表示两种版本的等同性越好。 使用中文版本进行预试验,检测中文版量表的内在一致性,并了解量表文字是否易于理解和符合中国人的表达习惯。 护理研究 第七章 研究工具性能的测定
① 两 位 医学专家独立将量表从英文译成中文,分别为译稿A1与A2 ② 两 位 专家对译稿A1,A 2进行讨论并总结修改形成初稿B 2017/3/16 脑卒中病人生活质量量表的编译 ① 两 位 医学专家独立将量表从英文译成中文,分别为译稿A1与A2 ② 两 位 专家对译稿A1,A 2进行讨论并总结修改形成初稿B 护理研究 第七章 研究工具性能的测定
④ 另一位英文熟练的医学专家将C稿逆向翻译为英文。 ⑤ 核心工作组比较原文与回译稿,并对C稿进行修改,形成D稿。 2017/3/16 ③ 通 过 两个核心工作组对初稿B进行文化调适,考察其概念等价性和语义等价性。一个核心工作组由康复科医生组成,另一个核心工作组由脑卒中患者组成。经过讨论,对初稿进一步修改,形成C稿。 ④ 另一位英文熟练的医学专家将C稿逆向翻译为英文。 ⑤ 核心工作组比较原文与回译稿,并对C稿进行修改,形成D稿。 护理研究 第七章 研究工具性能的测定
⑥ 使用D稿对患者/健康人群进行访问测试,检验其对内容的理解程度并进行修 改形成E稿。 2017/3/16 ⑥ 使用D稿对患者/健康人群进行访问测试,检验其对内容的理解程度并进行修 改形成E稿。 ⑦ E稿寄往MAPI总部与其他版本交流比较,最后定稿。 ⑧ 对量表进行心理测量学评价,即对其信度、效度及反应度等性质进行考评。 护理研究 第七章 研究工具性能的测定
2017/3/16 举例 认知障碍老年人疼痛评估工具的研究 护理研究 第七章 研究工具性能的测定
教学目标回顾 掌握效度的概念和分类 掌握信度的概念和分类 熟悉计算信度的方法 熟悉建立和测量效度的方法 了解国外量表的翻译步骤 护理研究 第七章 研究工具性能的测定
谢谢 2017/3/16