复习上节课的内容: 信度和效度的关系: 信度高是效度高的必要而非充分条件 测验的效度受它的信度制约
第二节 效度的估计 一、内容效度 (一)内容效度的含义及应用范围 内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。 第二节 效度的估计 一、内容效度 (一)内容效度的含义及应用范围 内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。 (1) 欲测的知识范围 (2) 知识所要求掌握的程度
内容效度主要应用于成就测验。 也适合于某些选拔和分类的职业测验。 不要与表面效度相混淆 。 但不适合于能力倾向测验和人格测验。
例:有人在编制“领导能力测验”时编写了这么四个问题: A、我愿指挥别人,不愿别人指挥我。 B、我喜欢听古典音乐。 C、人们经常征求我的意见。 D、我身高1米80,体重100公斤。
(二)、内容效度确定的方法 1、逻辑分析法:请有关专家对测验题目与原定内容范围的吻合程度作出判断。 (1)、明确欲测内容的范围,包含知识范围和能力要求两个方面。 (2)、确定每个题目所测的内容 (3)、制定评定量表,内容覆盖率,难度与能力之间的差异,题量和分数的比例及题目的形式
2、克龙巴赫统计分析法 从同一个教学内容总体中抽取两套独立的平行测验,用这个测验来测同一批被试,求其相关若相关高,可能有较高的内容效度。 若相关低,可能有较低的内容效度。
3、再测法:在被试学习某种知识之前作一次测验,在学过之后再作同样的测验,若后测成绩明显若地优于前测成绩,则说明所测内容正是被试新近所学的内容,进而证明该测验对部分内容而言具有较高的内容效度。
(三)、影响内容效度的因素 请思考下面这些流行的信条: 因为“失败”常常先于“自杀”,所以它是“自杀”的原因(可能有历史和死亡因素的影响)。 男孩子生来就比女孩更有数学天赋(可能有被试态度或地点因素的影响)。 女孩生来就比男孩更有语言天赋(可能有被试态度或地点因素的影响)。
少数民族学生的学习能力较来自主流文化的学生差(可能有被试特征、被试态度、地点或研究工具的使用等因素的影响)。 享受福利的人懒惰(可能有被试特征、地点和历史因素的影响)。 学校教育使学生反叛(可能有成熟或历史因素的影响)。 一项暂时开除不“守规矩”的学生的政策提高了某学校的考试成绩(可能有成熟的影响)。
1、被试特征 某一研究的被试选择,可能会在无意之中导致被试个体(或组)的差异,而这种差异恰好与所要研究的变量有关。我们称之为“选择偏向”,或被试特征的影响。
年龄 词汇量 力量 态度 成熟度 阅读能力 性别 流利度 种族 手指的灵活性 协调性 社会经济地位 速度 宗教信仰 智力 政治信仰
2、被试的缺失 无论我们在挑选被试时多么细心,在研究过程中“缺失”一些被试也还是很常见的。我们称之为被试缺失因素的影响 在收集数据时,被试可能会缺席,或没有做完整个测验、调查问卷和其他工具。在问卷研究中,不能完成问卷尤其是一个问题。缺失可能是所有影响内容效度的因素中最难控制的一个。
案例1:某校开展任课教师质量评估工作,李老师班有50人,都参加了投票,满意率为75%;王老师班有50人,45人参加了投票,满意率为74%;所以李老师的授课质量比王老师的授课质量要高。
收集数据或进行干预的特定地位,都可能会引起对结果的其他解释,我们称之为地点因素的影响。 3、研究场所 收集数据或进行干预的特定地位,都可能会引起对结果的其他解释,我们称之为地点因素的影响。
案例2:某研究者决定对数学和心理学两种专业的学生进行访谈, 以比较他们对各自的本科教学计划的态度。在三周的时间里,他要设法访谈在两个专业中注册的所有学生。尽管他可以在大学的同一间教室里访谈绝大多数的学生,然而时间安排上的冲突使他无法在同一教室里访谈剩余的学生。结果,他在学校旁边的一个咖啡店里访谈了20名心理学专业的学生。
4、研究工具的使用 工具的耗损如果工具的特性在某些方面(包括记分程序)发生了变化,那么研究工具的使用过程也能够产生问题。
案例3:一个大学的管理者改变了以往报告缺勤的方法。只有那些被认为是无故旷课(毫无理由的缺勤)的学生才报告为缺勤;那些有书面假条(来自家长或者学校工作人员)的学生,则不报告为缺勤。该区划报告说,自从建立这个新的缺勤报告系统后,其缺勤率降低了55%。
数据收集者特征数据收集者特征——它是大多数研究工具的使用过程中不可缺少的一部分——也可以影响研究结果。在某研究中,数据收集者的性别、年龄、种族、语言模式或其他个人特征,都会影响到其所收集的数据的性质。
数据收集者偏见数据收集者和评分者也可能会无意识地以某种方式歪曲数据,以致得出某些特点的结果。 在访谈过程中,某访谈者对于某些问题的某些回答无意识地微笑。 喜欢探究式教学的观察者,在探究式教学班中观察到比非探究式教学班更多的“集中注意行为”。 在干预研究中,某研究者在对研究的后测结果评分时,知道哪些学生在哪个处理组
5、测验 前测和后测:学生的努力水平和“练习”效应 某研究者把测量“自尊”和“成就动机”的题目放在同一个问题卷里。那么,作答者很可能会猜出研究者的意图,并在作答时做出相应的反应。 研究者用前测和后测来比较受放松训练的学生与控制组学生的“焦虑水平”。“放松训练”组的后测分数更低是由于训练的结果,但这也可能是因训练的敏感性(由前测所引起)造成的。
6、个人经历 有时,在研究的过程中可能会发生一个或多个未曾预料的和计划之外的事件,这些事件可能会影响到被试的反应。在教育研究中,这样的事件被称为历史因素的影响。
案例4:某研究者设计了一个调查模拟游戏对民族优越感的影响的研究。她计划挑选两所高中参加实验。两所学校的学生都将接受一个前测,以了解他们对少数民族群体的态度。然后,在三天时间里,让A校学生在社会课上做模拟游戏,而让B学生看旅游影片。三天之后,两所学校的学生都将接受同一个测验,以了解他们对少数民族群体的态度是否发生改变。研究者按照计划进行研究,但是,在前测与后测之间,A校展示了一份关于种族歧视的特殊文件。
在干预研究中,被试的改变常常是由时间的流逝引起的,而不是干预本身的结果。这种现象被称为成熟因素的影响。 7、成熟 在干预研究中,被试的改变常常是由时间的流逝引起的,而不是干预本身的结果。这种现象被称为成熟因素的影响。
案例5:某研究者报告文学院的学生在从新生到毕业生的几年中变得越来越不认同权威,他把这归因于学生们在大学里所经历的许多“自由主义”经验。这可能是其中的原因,但是,这也可能是由于学生们变得越来越成熟这个事实所引起的。
被试看待研究以及他们参与研究的方式都可能造成对内容效度的影响。后来,这种由被试受到的关注和重视程度的增加所导致的积极效应就称为霍桑效应。 8、被试的态度 被试看待研究以及他们参与研究的方式都可能造成对内容效度的影响。后来,这种由被试受到的关注和重视程度的增加所导致的积极效应就称为霍桑效应。
案例6:某研究者假设批判性思维技能与对细节的关注有关。她挑选了一组初三年级的学生作为样本,对他们进行了一个比较新颖的测验,该测验能够为每个变量(“批判性思维技能”与“对细节的关注”)提供独立的分数。测验的新异性可能会使一些学生变得慌乱,而其他学生则可能认为它很可笑。无论是哪种情况,这些学生在两个变量上的得分都可能会因为这种测验的形式而非任何能力上的不足而降低。所以,从表面上看,研究者的假设似乎得到了支持。然而,这两种分数都不是这些学生的能力的有效指标,而且,这种特定的态度反应也造成了对内容效度的影响。
9、回归 只要我们研究一组在干预前成绩特别低或特别高的被试的变化,就可能会出现回归效应 某奥林匹克径赛教练从那些在各种竞赛的最后预赛上跑得最快的人中挑选她的队员。然而,她发现,在下一次赛跑中,他们的平均成绩下降了,她认为这是由于跑道条件的差异所造成。
10、操作 在任何实验研究中,研究的处理或方法都必须由某个人来操作——如研究者,参与研究的教师、咨询者或其他人。这一事实增加这样的可能性,那就是:实验组可能没有按照预定的方式被处理,或者所用的处理方式不是该方法的必不可少的一部分,然而,这样的处理却能在某些方面有利于被式。这就是所谓的研究操作的影响。
对一组口吃病人施以一种名为“一般化培训”的相对较新的治疗方法。作为治疗的一部分,病人和治疗者都与“真实的世界”中的人相互交流。在治疗六个月后,将这些病人的言语流利度与另一组接受传统“室内”治疗的病人进行比较。但是,采用新疗法的言语治疗者可能在总体上比那些比较组的医生更有能力。如果情况是如此的话,那么,“一般化”组的明显提高可能并不是新治疗方法的结果,相反却是由治疗者技能更高造成的。
思考题 在以下每一种情况中,存在哪种(或哪些)影响内容效度的因素? A、某研究者决定在附近的小学里,尝试采用新的数学课程,并将该校学生的数学成绩与另一所采用常规数学课程的小学学生的数学成绩进行比较。然而,研究者没有意识到,采用新数学课程的学校,在教室里都配有电脑。 B、某研究者希望比较在一个学期的时间里使用不同化学课本的两个班级的差异。但是,她发现,在进行单元测验时,其中的一组学生中有20%的人缺勤,而另一组学生中有10%的人缺勤。
C、在一项调查婚姻状况和近五年来所感受到的社会变化的可能关系的研究中中,对同一个问题,女性和男性访谈者从女性被访者那里得到的反应不同。 D、教实验英语课程的老师和教常规英语课程的老师都对各自的学生进行了前测和后测。 E、志愿辅导3年级学生阅读的6年级学生与那些没有参与辅导活动的比较组学生相比,在他们自己的阅读分数上表现出了更大的提高。
E、志愿辅导3年级学生阅读的6年级学生与那些没有参与辅导活动的比较组学生相比,在他们自己的阅读分数上表现出了更大的提高。 F、某研究者想比较每周个别咨询和小组咨询在改善学生学习习惯上的效果。在每周里,参加小组咨询的学生在会谈结束时填答有关其进步情况的问卷。然而,接受个别咨询的学生却在家里填答问卷。
G、某经济落后地区一所学校的学习成绩最差的10%的学生,被选来参加一个内容丰富的特殊学习计划。该计划包括特殊的游戏、额外的资料、特别的“快餐”、特别彩印的资料和新课本等。在开始该计划后六个月,学生们在成就测验上的分数明显提高。
二、结构效度 (一)、含义、特点与应用范围 结构效度是指一个测验实际测到所要测量的的理论结构和特质的程度。构想结构是指心理学理论所涉及到的抽象而属假设性的根原或特质:如智力、焦虑、外向、动机等。用某种操作来定义,并用测验来测量。
特点: 1、结构效度的大小首先取决于事先假定的心理特质理论。 2、结构效度的获取很困难 3、不可能用单一的数量指标来描述结构效度
(二)、结构效度的确定的方法 确定一般包括三步 1、提出理论假设 细小纲目 2、依据理论框架,推演出有关测验成绩的假设 1、提出理论假设 细小纲目 2、依据理论框架,推演出有关测验成绩的假设 3、用逻辑的和实征的方法来验证假设
三、实证效度 1、含义: 实证效度是指一个测验处于特定情境中的个体的行为进行估计的有效性。也就是说,一个测验是否有效,应该以实践的效果来作为检证的标准 被估计的行为是检验测验效度的标准,简称为效标、是重行为、不重内容、结构
(1)效标关联效度 (2)预测效度 (3)统计效度
2、效标 就是衡量一个测验是否有效的外在标准。 它是独立于测验并可以从实践中直接获得的我们所感兴趣的行为。 (1)效标的质量 1°可得性2°可量化性3°公平性4°可靠性(要有信度)5°准确性
(2)常用的效标 1°学生的相关学业相关成绩的平均数 2°临床珍断的结果 3°用权威测量的结果 4°有时用被试自我评定作效标 5°等级评定 6°专门训练成绩 7°实际的工作表现 8°对团体的区分能力
(3)估计方法 1°相关法 2°区分法 3°命中率
第三节、提高测验效度的方法 一、效度的标准 学习测验在0.6以上 , 智力测验0.3以上, 预测测验在0.4以上如高考。 人格测验在0.5以上。
二、影响测验的因素 1、测验的构成 2、测验的过程 3、被试 4、效标的性质 5、测验的信度
三、提高测量效度的方法 1、精心编制测验量表尽量避免系统误差 2、努力提高测验的信度 3、选择优良的效标 4、加长测验的长度 5、创设标准的应试情境