Download presentation
Presentation is loading. Please wait.
1
第十一章 学习结果的测量与评定 第一节 概述 一、概念 (一)什么是测量和测验
第十一章 学习结果的测量与评定 第一节 概述 一、概念 (一)什么是测量和测验 1、教学过程中的测量,是用数学的方式对学生学习行为的描述,主要是借助于测验来进行的。 2、测验是通过一系列的科学程序(如编制题目、施测和评分等)对学生某一方面的学习行为进行的测量。
2
第一节 概述 (二)什么是评定 1、教学过程中的评定,是根据一定的标准对学生的学习行为进行估价的过程。 2、评定与测量有密切的关系,但也有区别:评定是在测量的基础上作出的,测量是一种客观的描述;评定是一种主观的判断,但主观判断要以客观描述为依据,否则就是武断的判断。
3
第一节 概述 二、学习测量和评定的主要功能 (一)诊断功能
第一节 概述 二、学习测量和评定的主要功能 (一)诊断功能 了解学生的学习状况,分辨优劣,诊断学生在知识掌握和能力发展上的不足及问题所在,以便因材施教和个别指导。 (二)反馈与鞭策功能 1、为教师的教学提供反馈信息 贯穿教学前、教学中、教学后各阶段。 2、激发学生的学习动机
4
第一节 概述 (三)管理功能 1、编班分组和升留级的依据 2、职业指导作用 3、教育科学研究的工具 (四)教育心理功能 1、激发动机,影响自我意识、情绪和意志 2、影响师生的人格形成
5
第一节 概述 三、教育工作者应具备的测量与评定的知识和能力
第一节 概述 三、教育工作者应具备的测量与评定的知识和能力 1、理解与清楚地表述教学和管理目标,懂得怎样通过教学和管理活动达到目标,全面了解测量与评定的涵义及评定对教学及管理的意义。 2、理解有效测量和评定条件,明确自己在编制、选择和使用测量工具时所扮演的角色。 3、能编制、选择与使用非测验式的测验工具。
6
第一节 概述 4、能自行编制日常教学使用的测验,能适当地主持测验并有效地使用测验的结果,以为改进教学和管理之用;能选择适当的标准化测验。 5、能综合解释测验的分数和非测验式测量的结果,作出评定。明确各种测验的用途及限制。 6、能根据评定的结果,改进自己的教学和管理工作。
7
第一节 概述 四、学习评定的分类(布卢姆:Bloom) (一)配置性评定
第一节 概述 四、学习评定的分类(布卢姆:Bloom) (一)配置性评定 一般是在各学年、各学期开始时或开始前实施,目的在于了解学生是否具有达到教学目标所必需的基础知识和技能——学生的准备状态。 (二)形成性评定(诊断——进步评定) 一般是在教学过程中进行的,目的在于了解教学结果,探究教学中所存在的问题的缺陷,以便对教学工作进行调整。
8
第一节 概述 五、有效测验的必要条件 (三)总结性评定
第一节 概述 (三)总结性评定 一般是在学期末进行,目的在于了解学生通过一学期的学习,是否达到教学目的的要求,以此做出较全面的评定,具有对以后学习的预测作用。普遍采用成绩报告单形式。 五、有效测验的必要条件 (一)效度
9
第一节 概述 1、测验效度是指测量的真实性、正确性,即该测验与所要测量的目标特征相符合的程度。如果一致性高,说明这个测验的效度高,反之则低。这是测量有效的首要条件。 2、效度通常是利用该测验的结果与一个反映测量目标的参照标准(效标)之间的相关来表示,所求得的相关系数即为效度系数。相关系数越大,说明效度越高。—般要求这类测验的效度值应当在0.35至0.60之间。
10
第一节 概述 (二)信度 1、信度是反映测验分数的稳定性和可靠性的指标,是指测量的前后一致性程度,只有信度高的测验才能够作为一个稳定可靠的测量工具加以应用。国外一般要求学科成绩测验的信度值要在0.90以上。 信度值是用相关系数来表示的,又称为信度系数。 2、计算信度系数的方法主要有:
11
第一节 概述 (1)再测法:我们用某一个测验对相同的学生前后施测两次,计算出这两次测验成绩的相关就可得到再测信度; (2)复本法:这种方法需要编制出两套以上内容、形式、数量、难度等方面都等值的测验,然后根据同一组学生接受两次复本测验的得分计算出相关系数,就可得到复本信度;
12
第一节 概述 (3)分半法:当一种测验没有复本而且只能施测一次的情况下,通常采用分半法来估计信度。这种方法是将一套测验分成对等的两半,根据每个人在这两半试题中的得分所求得的相关系数即为半分信度。 在学科测验中,较多的是应用分半法和复本法来计算测验题的信度。
13
第一节 概述 1、难度是指—套测验中试题的难易程度,这是用来进行题目分析和评价试题的主要指标之一。 (三)难度
第一节 概述 (三)难度 1、难度是指—套测验中试题的难易程度,这是用来进行题目分析和评价试题的主要指标之一。 2、难度的计算可依据试题形式的不同采用以下两种方法,其公式为:
14
第一节 概述 (四)区分度 1、区分度是测验题目对考生水平鉴别能力的指标,是测验题目能够鉴别受测者水平的程度。 2、区分度的计算多采用相关法,即以考生在某个题目上的得分与总分的相关作为该题的区分度值,相关越高,区分度越好。国外应用在教育上的标准化测验要求优秀题目的区分度在0.30以上,否则就需加以改进或淘汰。 3、区分度和难度之间有密切的关系。
15
第一节 概述 (五)可用性 即测验在解释学生的能力、知识等方面有多大用处;测验的形式与内容是否适合学生的年龄特征;测验所花的时间和人力是否合适;以及评分是否客观,主持测验是否要经过特殊训练等。如果在这些方面使人不能接受,测验的可用性就低。
16
第二节 常用的测验方法 一、论文式测验 (一)论文式测验的涵义及其试卷的编制和评分
第二节 常用的测验方法 一、论文式测验 (一)论文式测验的涵义及其试卷的编制和评分 1、所谓论文式测验,是由教师根据教学内容的要点,择其较重要者出几个试题,让学生用论文的方式,自由地以书面解答问题。 2、至于试题的深浅,则视教学水平和学生的学习程度而定。回答可以是一个短句,也可以论述一个问题,还可以是在规定的时间内写一篇文章。
17
第二节 常用的测验方法 (一)论文式测验的利弊 1、优点 ①命题省时容易 ②有利于测定学生的思维能力和写作能力 ③了解学生的学习程度 ④减少学生情境压力 2、缺点 ①评分的主观性 ②试题缺少代表性
18
第二节 常用的测验方法 ③问题涵义太广泛 ④易受其他因素干扰 (三)论文式测验的改进 ①问题要明确。
第二节 常用的测验方法 ③问题涵义太广泛 ④易受其他因素干扰 (三)论文式测验的改进 ①问题要明确。 ②采用一些可用较短篇幅回答的问题,以求取样适当。 ③事先拟好指导评分的规则和标准,其中包括可以接受的答案,并规定出这些答案的比重。
19
第二节 常用的测验方法 ④不要因错别字或语法有错误而扣分,除非考试是为测试这些方面而特别进行的。
第二节 常用的测验方法 ④不要因错别字或语法有错误而扣分,除非考试是为测试这些方面而特别进行的。 ⑤先要阅看几份考卷,以便对考查的性质得到一个一般的观念,并用来检查与修改评分的规则和标准。 ⑥在评定一份考卷时不要知道答卷者的姓名,同时尽可能在几乎相等的条件下评卷定分,或采取两三个教师合评的方式。
20
第二节 常用的测验方法 二、客观测验 (一)客观测验的涵义及其与论文式测验的区别
第二节 常用的测验方法 二、客观测验 (一)客观测验的涵义及其与论文式测验的区别 1、客观测验是用一些非常简单或机械式反应来回答的测验。其中最为人们听熟悉的是填充、正误、多重选择和配对等形式。 2、论文式测验与客观测验在学生学业的评定方面的比较:
21
第二节 常用的测验方法
22
第二节 常用的测验方法
23
第二节 常用的测验方法 (二)客观测验项目的形式及其编制 1、编制客观测验的一般原则: ①测验要测试学科中的重要内容。 ②要降低测验项目的阅读难度,除非测验的目的在于测最阅读能力。 ③一个项目不要为另一个项目的答案提供线索,回答某一特定项目的能力也不依靠前一项目的回答的能力。
24
第二节 常用的测验方法 ④必须避免引人上当的问题,诡诈性和欺骗性问题既可能损害测验的真正目的,又可能影响学生的学习风气。 ⑤测验项目的措词应适当,以便使学生回答问题的内容而不回答问题的形式。 2、客观测验项目的形式及其编制 ①填充 ②正误 ③选择 ④配对
25
第二节 常用的测验方法 (三)客观测验的利弊 1.客观测验的优点 ①试题涉及教学内容的全部范围。 ②试题简明扼要,易于回答。 ③评分客观迅速。 2.客观测验的缺点 ①命题费时且困难。 ②偏于零星知识的记忆。 ③不能确知学生的学习程度。
26
第二节 常用的测验方法 三、标准测验 1、标准测验也称标准化测验或标准化考试,是目前国际上广为流行的一种测验方法。它是一种大规模的、具有统一标准的、按照系统的科学程序组织的、并对误差作了严格控制的测验。 2、标准测验一般由专门的考试机构编制并组织实施,国外教师普遍运用标准测验作为评定教学的工具。
27
第二节 常用的测验方法 四、心理测验 1、斯坦福一比奈智力测验 2、韦克斯勒智力测验 (一)智力测验
第二节 常用的测验方法 四、心理测验 (一)智力测验 1、斯坦福一比奈智力测验 智力商数(IQ):智商=智力年龄/实际年龄*100 2、韦克斯勒智力测验 包括韦氏成人智力量表(WAIS)、韦氏儿童智力测验表(WAIS)和韦氏学前儿童智力量表(WPPSI)3种。
28
第二节 常用的测验方法 3、综合学业性向测验 综合学业性向测验的目的在于测量学生学习各门学科能力的真实程度。这种测验不仅可以鉴别学生能力的高低,而且也可分析比较学生能力的偏向或在各方面的能力的高低。综合学业性向测验包括分类性向测验(DAT)、美国大学入学测验(ACT)、学业性向测验(SAT)、米勒类推测验(MAT)以及研究生性向测验(GRE)等。
29
第二节 常用的测验方法 (二)人格测验 1、自陈人格测验 2、兴趣测验 3、态度测验 ①态度的倾向,如喜欢与否,肯定与否。②态度的深度与强度,如喜欢、很喜欢、不喜欢、厌恶。③态度的中心,指人格心理体系中重要的因素,包括情感、认知和行为因素。④态度的外显性,态度不能直接测量,但可以通过对人们的言语、行为以及其他方面的表现的测量去推断其态度。
30
第二节 常用的测验方法 4、价值测验 5、行为观察 6、投射人格测验
31
第三节 常见的几种学习评定量表 一、图示量表
32
第三节 常见的几种学习评定量表 二、形容词量表
这种量表在提出的问题之后,用一组序列化的形容词或修饰短语的方式提供各种不同程度的答案,回答者在每个形容词及短语上画圈或做上记号,以表示自己的评定。例如: 极好;很好;,好;尚好;不好。 极重要;重要;较重要;不重要;不知道。 非常赞成;相当赞成;稍许赞成;难说;稍许反对;相当反对;非常反对。
33
第三节 常见的几种学习评定量表 三、数值量表
数值量表是为了克服形容词量表不能数量化的缺点而出现的一种量表形式,这种量表只是简单地把数字加在形容词量表上,对每—个等级的答案都标上分数。例如: 极好(5);很好(4);好(3);尚好(2);不好(1)。 极重要(5);重要(4);较重要(3);不重要(2);不知道(1)。 经常(3);偶尔(2);完全不(1)。
34
第三节 常见的几种学习评定量表 四、行为量表 设计行为量表可按下面的程序进行:
首先要求评定者熟悉被评定的教学现象,而且要求他们描述其中的有效行为或无效行为。 接着,研究者把这些描述分成相对来说内容较少的种类并给它们命名。作为对分类的检查,也可组织有丰富教学经验的教师或教学专家及教学评价专家再次把上述描述分配到已命名的种类中。 然后,评定者把可以有效地分类和评定的那些描述归人一个为各类描述而设置的量表,使用这些对教学行为的描述作为量表的标度。
35
第三节 常见的几种学习评定量表 例如: 通过教师与学生的接触来评定教师对教学的态度: ——在教师家里召开研讨会。
一—愿意在正常的上班时间之外和学生一起活动。 一一在办公室和学校的其他地方会见学生。 ——乐意占用办公时间与学生交谈。 ——勉强安排最少可能的办公时间与学生接触。 ——拒绝在课堂之外会见学生。 行为量表通常分为3—7个单位或等级,每个等级代表某一教学行为的一个增量。评定者根据任课教师在教学的某一方面的行为的程度不同而在量表的相应等级上做上记号。
36
第三节 常见的几种学习评定量表 课堂教学评定量表(一个例子)
37
第三节 常见的几种学习评定量表 1
38
第三节 常见的几种学习评定量表 五、常见的几种量表形式的变体 (一)加涅1974年设计的“现实一满意等级量表” 例如:
(一)加涅1974年设计的“现实一满意等级量表” 例如: 1.你如何评定任课教师的语言清晰度? (1) (2) (3) (4) (5) 从不 几乎不 偶尔 时常 经常 (问题) (问题) (问题) (问题) (问题)
39
第三节 常见的几种学习评定量表 2.在这个项目中你认为哪个评定是您满意的? (1) (2) (3) (4) (5)
(1) (2) (3) (4) (5) 从不 几乎不 偶尔 时常 经常 (问题) (问题) (问题) (问题) (问题) 第二问旨在使评定达到某个标准或水平,并对照该标准或水平解释评定者对第一问的回答。 (二)多伊尔在1975年提出了双重的“评价一重要性量表” 1.你怎样评定任课教师对别人观点的接受? (1) (2) (3) (4) (5) 不好 尚好 好 很好 很好
40
第三节 常见的几种学习评定量表 2.该教师的品质对你有怎样的重要性? (1) (2) (3) 不太重要 还算重要 非常重要
(1) (2) (3) 不太重要 还算重要 非常重要 第二问旨在提供一种方法以区分问卷上各种提问的重要性。这种被项目重要性所强调的具体特征评定比起不被强调的评定来说,是全面评价更好的预言者,而且也可以提供—个对正在进行的教学评定项目的有效性的方便估计。
41
第三节 常见的几种学习评定量表 2.该教师的品质对你有怎样的重要性? (1) (2) (3) 不太重要 还算重要 非常重要
(1) (2) (3) 不太重要 还算重要 非常重要 第二问旨在提供一种方法以区分问卷上各种提问的重要性。这种被项目重要性所强调的具体特征评定比起不被强调的评定来说,是全面评价更好的预言者,而且也可以提供—个对正在进行的教学评定项目的有效性的方便估计。
42
第三节 常见的几种学习评定量表 (三)第三种变体与效果评定有关 与本课程第一天的收获相比,你现在怎样评定你对该课程教学内容的掌握了
学生可以通过在一门课程开始时完成的一个评定和在该课程结束时的一个类似评定;也可以通过只是在该课程结束时作出的一个双重前一后评定;还可以通过一个下列类型的单一评定,就能够评定他们的学习收获: 与本课程第一天的收获相比,你现在怎样评定你对该课程教学内容的掌握了 很多 多 少 少 多 很多 现在更差 现在更差 现在更差 现在更好 现在更好 现在更好
43
第三节 常见的几种学习评定量表 六、强迫选择量表
流行的强迫选择评定形式由四个要素构成,所有要素对评定者具有同等的吸引力,但是仅有两个要素实际上与某些测量标准有关并被评分。剩下的两个要素因为在区分有效表现与无效表现时没有实验依据,而不被人们重视: —— 友好的 —— 激励人的 —— 博学的 —— 善于表达的
44
第三节 常见的几种学习评定量表 强迫选择量表的评分是根据评定者的识别要素的总数来决定的。这种量表蕴含着这样一种思想,即因为所有的选择要素对评定者来说都是同等地合乎需要的,都是未知的,都是有效的和可评分的,所以评定者将不能伪造有利的或不利的平定。因此,这种量表比前面所介绍的那些常见的评定量表更能消除评定者误差;而且强迫选择评定与对学生的学习测量之间有明显的相关。
45
第三节 常见的几种学习评定量表 七、综合评定量表 为了利用论文的传送可靠性和评定的定量特征,一种常用的综合方式是在同一量表或问卷中把各种评定式提问和论文式提问结合在一起。这种方法可以由末尾有1—2个论文式提问的许多评定项目构成;也可以是在开端末尾有1—2个概括评定的基本上是论文式的问卷;还可以是在整个量表或问卷中把论文式提问和评定式提问混合在一起:以使每个评定项目都有一个为进行评论、详尽阐述、提出建议而留出的空白。
46
第四节 影响学习测量与评定的心理因素 一、学生心理因素的影响
1、学生参加考试,感到情绪激动、紧张甚至恐惧,这是常见的现象。考生由于心理紧张,情绪不安,对那些平时能解答的考题也会束手无策,以致影响考试的结果和成绩的评定。 所谓怯场是指上述这种状态。心理学上通常把怯场看作是一种情绪过于兴奋而无法集中注意力,无法控制和无法支配自己的状态;这也是一种兴奋过度,没有充分发挥力量使成绩不理想的状态。 2017年3月17日8时28分 第十六章 学习结果的测量与评定
47
第四节 影响学习测量与评定的心理因素 基本原则有二:一是端正学习动机(包括应试动机);二是控制能增强兴奋度的各种刺激。具体做法如下:
2、如何防止怯场? 基本原则有二:一是端正学习动机(包括应试动机);二是控制能增强兴奋度的各种刺激。具体做法如下: 第—,做好学习评定过程中的思想教育工作。 第二,做好经常性的学习评定工作。 第三、锻炼学生自我控制的能力。
48
第四节 影响学习测量与评定的心理因素 二、教师心理因素的影响 (一)宽大误差
即由于教师的心理作用,而导致对学生学习夸大的评定。它使测验的辨别力降低,不利于发挥评定的正常功能。 (二)光环效应 即教师对学生学习的评定不适当地受到对这个学生总的印象的影响。如一些教师对一贯表现突出的学生干部给分较高,就可能是受到光环效应的影响。
49
第四节 影响学习测量与评定的心理因素 (三)集中趋势 即教师自觉地避免对学生学习进行极端的评定,从而使评分接近中点的倾向。这种倾向也降低了评定的分辨作用,不能真正反映学生之间存在的差异。 (四)逻辑误差 即教师对学生学习评定由于受学生某些特征之间的相似而给予同样评分倾向。
50
第四节 影响学习测量与评定的心理因素 (五)对比误差 即教师有对自己的倾向相反的学生学习给予较低评价的一种误差。 (六)邻近误差 即相对邻近的几张试卷给予较一致评分的倾向。
Similar presentations