教育测量的基本原理与方法 童辉杰 博士 教授
一、从两份载入史册的评语说起 1. 黑格尔的老师对他的评价 黑格尔是德国的著名哲学家, 18 岁进入图宾根大 学(符腾堡州的一所新教神学院)学习。毕业时, 他的老师为黑格尔写下一段评语: “ 健康状况不佳, 中等身材,不善辞令,沉默寡言,天赋高,判断 力健全,记忆力强,文字通顺,作风正派,有时 不太用功,神学有成绩,虽然尝试讲道不无热情, 但看来不是一名优秀的传教士。语言知识丰富, 哲学上十分努力。 ”
2. 卡尔 · 马克思《中学毕业证书》上的评语 一、操行:对待师长和同学态度良好。 二、才能和勤勉:该生才能优异,在古代语、德 语和历史课方面表现了十分令人满意的勤勉,在 数学课方面是令人满意的勤勉;只是在法语方面 稍为勤勉。
三、知识和成绩 1. 语言 ( 1 )德语:语法知识和作文都很好。 ( 2 )拉丁文:无需准备就能熟练、细致地翻译和 解释中学选读的古典作品中比较容易的段落,经 过适当准备或稍作辅导后,常常能熟练、细致地 翻译与解释较难的读物,尤其是语言本身并不太 难和所涉及的事物和思想内容都较难懂的读物。 他的作文就内容而言,既富于思想,又对事物有 深刻的了解,但时常过于冗长,在掌握拉丁文方 面达到了令人相当满意的熟练的程度。
( 3 )希腊文:对中学选读的古典作品的理解,其知识和 熟练程度同拉丁文不相上下。 ( 4 )法语:语法知识相当好,略加辅导就能读较难的作 品。口语表述方面达到了一定的熟练程度。 2. 学科 ( 1 )宗教知识:对基督教的教义和自诫相当清楚,能很 好地论证;对基督教的历史也有一定的了解。 ( 2 )数学:有丰富的知识。 ( 3 )历史和地理:总的来说,具有相当令人满意的知识。 ( 4 )物理:知识中等。
因此,本委员会衷心希望将由于得天独厚而获得 应有的美好前程。 学校考试委员会 思维丰富,文学结构严谨,然而有追求与众不同 的形象用语的倾向。 —— 校长维登巴赫
反思 1. 我们能为学生写出同样的全面中肯的评语吗? 2. 评语是怎样做出的? 3. 什么是教育测量与评价?
1. 我们能为学生写出同样的全面中肯的评语吗? 任何一个普通的老师,都完全能够看到每一个学 生全面的发展和特点。如果让一个老师自主地、 自由地对任何一个学生作出评价,我相信他们都 完全可以作出全面的恰当的评价而不失分寸。那 么,是什么东西屏蔽了全体教师的眼光呢?是什 么东西不让这些教师看到学生的全面发展呢?无 疑就是我们的教育部门的官僚主义和行政取向。 领导们那么忙,怎么能够看到学生全面的发展和 特点呢?他们也不需要看到、不愿意看到。他们 只需要分数!分数,多么简单而好使!
我们的教育体制表现出两个特点。一是应试主义, 只看到考试成绩,看不到学生其它方面的发展; 二是官僚主义和行政取向。正因为教育部门广泛 而深入的官僚主义和行政取向,才造成了一切向 分数看的体制。
所以说,我们厌倦了应试教育这么多年,批评应试教育这 么多年,一点进展也没有,原因就在于我们竟然没有看到 应试教育是怎样来的。怎么这么多年来没有人发现应试教 育完全是来源于教育部门广泛而深入的官僚主义与行政取 向!教育部门的官僚主义和行政取向导致了应试教育,这 种 “ 异化 ” 的组合一道忽略和抹杀了我们的学生的生动活泼 的天性、丰富多彩的创造性、无限的发展潜能 …… 却只需 要易于管理的升学率、需要服从、听话、刻板、机械的品 质。在简单管理的官僚主义和行政取向的 “ 升学率 ” 的指挥 棒下,全体师生只能服从、听命,于是高强度的 “ 题海战 术 ” ,铺天盖地的大考小考,永远的死记硬背,从小学的 6 年,再到中学的 6 年 …… 所以才出现今天高校的 “ 阴盛阳衰 ” 现象。
2. 评语是怎样做出的? 评语是一种非常重要的教育评价。 教育评价是依据教育测量、行为观测、综合考察 的结果做出的。
3. 什么是教育测量与评价? 对受教育者并且同时也对教育者的行为进行标准 化的量化分析,从而作出客观的科学的评价。 标准化:( 1 )测量过程的标准化;( 2 )领域参 照和常模参照标准。 量化分析:( 1 )掌握水平:学业成绩;( 2 )标 准分( Z,T,IQ, 等等) 对受教育者:因材施教。 对教育者:促进教育发展。
国外对学校教育质量的评价 Horwitz ( 1979 ):学业成绩、自我概念、对 学校的态度、创造力、独立性与顺从性、好奇感、 忧虑与调节、控制点、互助性。 Hedges 等人( 1981 ):成就动机、调节、忧 虑、对学校的态度、对老师的态度、互助性、创 造力、好奇感、一般思维能力、独立性与自立性、 控制点、自我概念、语言能力、数学成绩等学业 成绩。
二、从最早的教育测量到今天的教育测量: 回顾与反思 正是中国孕育了世界上最早的教育测量。在测量 史上,世界公认人类最早出现的教育测验,是在 中国发现的。公元前 2200 年,大禹对官员每三年 一次进行能力测验,作为晋升或罢免的依据。这 可以说是人类最早出现的教育测验。并且,有史 料可循的中国汉朝出现的文官选拔考试,也是比 西方早了一千多年。汉武帝(公元前 156 年 - 公元 前 87 年)时,兴办太学,并开科取士,及至隋唐 成为制度。而在欧洲,大学里出现正式考试是公 元 1219 年的事,文官考试则更是要到 1833 年后。
1. 中国人这项最早的创新意义何在? 大家不要低估了开科取士的伟大意义,这种创举: 一是使用了测量的方法和心理选拔的策略,从而能够真正 公平地选拔到合适的人才,使人力资源的配置达到优化; 二是广开了才路,使有能力的寒门子弟也能够晋升,为国 家效劳,从而开发了国力。历史已经检验了这种创举的 “ 实证效度 ” ,汉武帝时中国的强盛就能说明问题,汉武帝 于是也成了 “ 雄才大略 ” 的一代雄君。 所以,其意义比美军使用 “ 陆军 A 、 B 种智力测验 ” 还值得称 道。
2. 为何到后来反而成了僵化的体制? 从晚清腐败的科学考试 今天的应试教育。
3. 教育与国家发展究竟有多大关系?
三、信度的原理与方法 1. 信度的意义 假设有人前几天给你量过身高,你的身高是 175 厘米。今天再次给你量了身高,你的身高是 165 厘米。你作何感想? 根据这样的测量,请问,你究竟是多高?你能够 下结论吗?显然,测量误差很大的测量结果,是 不能够给出结论的。
5 位教师对一位学生的作文评分的结果是: 90 、 20 、 70 、 10 、 30 ;请问,这样的评分能够相信吗? 评分从 10 分到 90 分,彼此相差太大,评分者信度是很低的。 在这样的情况下,能够对学生作出可靠的结论吗? 评分者信度低,说明教师们或者对评分标准有不同的理解, 或者对学生存有偏见。也就是说, 5 位教师的评价存在很 大的误差,这样是不能够对学生做出客观可靠的结论的。 否则就是草菅人命。
2. 信度的计算 信度常以相关系数表示: 例如, 50 个被试第一次测验与相隔一周后的第二次同样的 测验,两次测验成绩的相关系数 r 为 0.85 。这个相关系数 表示的是重测信度。 有 5 种信度(重测信度、复本信度、分半信度、内部一致 性信度和评分者信度)算法。
各种信度的含义 信度要说明的问题取样特点 重测信度第一次测验与第 二次测验是否一 致? 在不同时间取样稳定性系数 复本信度不同的复本在同 时或不同时测验 时是否一致? 对内容与时间取 样 等值性及稳定性 系数 分半信度测验分为两半时 是否一致? 对内容取样同质性系数 内部一致性系数测验的内部各个 项目之间是否一 致? 对内容取样同质性系数 评分者信度不同的评分者之 间的评分一致性 如何吗? 对评分者取样评分者一致性系 数
四、内容效度问题 通俗地说,或者从字词的意义上说,内容效度就是从测验 的内容方面去检验测验的效度。内容效度主要去考察被试 过去学得怎么样和做得怎么样。 内容效度检验一个测验是否包括足够的行为样本并且有适 当的比例分配。一是要有足够的覆盖面,二是分配的比例 必须适当。
假如关于高一期末考试的试卷出现争议?
高一数学学过的内容 必修 1 内容:函数,基本初等函数 1 ,函数模型及其应用 必修 2 内容:立体几何初步,空间中的线面关系,直线与 方程,圆与方程 必修 3 内容:算法初步,统计,概率, 必修 4 内容:三角函数,平面向量,三角恒等变换
五、标准化问题 1. 参照的意义 原始分数毫无意义。 ( 1 )常模参照。 ( 2 )领域参照。
2. 领域参照测验的主要特征是: ( 1 )界定明确的领域与内容的范围。首先一定要界定清 楚测验的领域与内容的范围,例如,过去学了哪些东西, 做了哪些事。 ( 2 )根据明确的领域与内容的范围,确定掌握水平。明 确界定了测验的领域与内容范围之后,就可以确定一个掌 握水平。例如,明确了高一某学期学过集合、代数、函数、 几何这些内容,就可以每个部分编制若干道题,总共 100 分,并确定 60 分为及格。这分数就对知识与技能的掌握水 平。
3. 领域参照测验与常模参照测验的关系 ( 1 )领域参照测验可以与常模参照测验结合。当测验的 领域清晰时,我们可以编制领域参照测验,也能编制成常 模参照测验。例如,学业测验本来是领域参照测验,但是, 我们可以进一步将它发展成常模参照测验。那些学业标准 化测验就是如此。著名的测验 GRE 、托福、美国学业评定 测验方案( SAT )、美国大学测验方案( SCT )等就是常 模参照测验。 ( 2 )常模参照测验不可编制成领域参照测验。当测验的 领域不清晰时,只能编制常模参照测验,不能编制领域参 照测验。智力、人格、创造力、心理健康这些领域都是不 清晰的,难以明确辨别的,所以,只能编制常模参照测验, 不能编制领域参照测验。领域都不清晰,谈何领域参照?
3. 常模参照的标准化测验的应用 从标准化的学业测验到学习风格(反省监控)、 人格(成就动机和抱负水平)、认知能力(智 力)、心理健康( 病态人格、强迫、焦虑、抑 郁) ……
六、几个展望 1. 项目反应理论与计算机自适应测验 2. 大数据与教育测量