林世华 台湾师范大学 http://www.linsh.org 基于课程改革思维的 教学测量与评价 林世华 台湾师范大学 http://www.linsh.org
学校评价(考试)发展架构 命题的逻辑取向:偏试前 命题的实征取向:偏试后 试题编写内容 :适当性与一致性 试题编写格式 试题分析:难度 、鉴别度 、选项分析 测验分析:信度、效度 测验解释:常模、标准 Roid, G. H. & Haladyna, T. M. (1982). A technology for test-item writing
问题厘清 专家教改东绕西绕,一线老师摸不着道, 课堂改革成了口号,大班教学让人苦恼, 差生辅导一点没少,劳心劳力改变微小, 琐碎工作实在煎熬,应付检查各想各招, 期末复习试卷几套,题海战术暗自叫好, 师生疲劳效果很糟,一到考试心惊肉跳, 拿到分数没着没落,相互比较心里更闹, 年复一年如此操劳,职业倦怠越来越早。 …… …… 教改像月亮… 深圳市福田区园岭小学 白皛
问题厘清 课標的基础问题 任务的实际问题
教育到底要什么 多元智能的观点 熊的故事 Sternberg, R. Triarchic theory of intelligence
教育到底要什么 把孩子从不知道变成知道 把孩子从不会做变成会做 把孩子从不愿意学变成愿意学 把孩子从不喜欢学变成喜欢学
教育到底要什么 成吉思汗的继承人窝阔台,公元哪一年死?最远打到哪里? 来源:因特网
教育到底要什么 成吉思汗的继承人窝阔台,当初如果没有死,欧洲会发生什么变化?试从经济、政治、 社会三方面分析。
课改框架下的学校评价1 目标A 目标B 教 学 评 价 素质教育 应试教育
课改框架下的学校评价2 目标 目标 评价 教学 评价 教学
课改框架下的学校评价3 目标 教学 评价
台湾课标的样式1 壹 教育目标型-动词加名词 贰 表现水平型-动词加名词,另有形容词与副词的加入 能理解因子、倍数、公因子与公倍数。 比较不同生活环境的交通运输类型。 贰 表现水平型-动词加名词,另有形容词与副词的加入 能用正确、美观的硬笔字书写各科作业。 能认识常用中国文字1,000-1,200字。
台湾课标的样式2 参 教学活动型-前二者外加一个教师教学活动或学生学习活动的语句 肆 发展目标型-前二者外加一个一般的发展目标语句 藉由接近自然,进而关怀自然与生命。 透过观赏与讨论,认识本国艺术,尊重先人所缔造的各种艺术成果。 肆 发展目标型-前二者外加一个一般的发展目标语句 从生活中推动学习型组织(如家庭、班级、小区等),建立终生学习理念。 了解个体成长与动作发展的关系,藉以发展运动潜能。
命题所需的二维取向分类 内容分类 历程分类
修订Bloom教育目标分类 知识向度(学) 认知历程向度(思) 记忆 了解 应用 分析 评鉴 创造 事实知识 概念知识 程序知识 元认知知识 Anderson, L W, Krathwohl, D R, Bloom, B S (2001). Taxonomy for Learning, Teaching, and Assessing : A Revision of Bloom's Taxonomy of Educational Objectives
教学(评量)信息 Instructional Information 孩子学习的认知历程 cognitive process 知识 学 生 教 师 知识 资料 教学(评量)信息 Instructional Information 目标
命题的基本构造 知识内容与特征 形、音、义 字、词、句、段、篇章 基本核心知识、高层专业知识 事实知识、概念知识、程序知识、元认知知识 定义、性质、范例 认知任务 听、说、读、写 记忆(再认)、理解(诠释、举例、分类、摘要、推理、比较、解释)、应用(执行、实践)、分析、评鉴、创造 Anderson, L W, Krathwohl, D R, Bloom, B S (2001). Taxonomy for Learning, Teaching, and Assessing : A Revision of Bloom's Taxonomy of Educational Objectives
1 记忆 1记忆:是从长期记忆中提取相关知识。有:再认与回忆两种历程。 1.1再认:搜寻长期记忆,找出与呈现信息一致或近似的知识。 1.2回忆:当提示(问题)出现,从长期记忆中提取相关知识。
心像记忆法-八国联军 俄德法美日奥义英 饿的话每日熬一鹰
乡音重的语文老师,朗读一首陆游的古诗:「卧春」 ,要大家注意听并写在笔记本上 《卧春》 暗梅幽闻花,卧枝伤恨底,遥闻卧似水,易透达春绿。 岸似绿,岸似透绿,岸似透黛绿。 没想到,有一位同学的笔记本里竟是这样写的: 《我蠢》 俺没有文化,我智商很低,要问我是谁,一头大蠢驴。 俺是驴,俺是头驴,俺是头呆驴。
2了解 了解:从教学讯息(在课堂中、在书本中或计算机屏幕上的口语、书面与图形讯息)中创造意义(make sense);建立所学新知识与旧经验的链接。 了解的认知历程包括:诠释、举例、分类、摘要、推论、比较、解释。
2了解-2.1诠释 诠释:在不同知识表征间从事表征转换。从文字表征转换到另外其它的文字表征(可称为转述);从图画表征转换到文字表征(可称为读图的能力);从文字表征转换到图画表征;从数字表征转换到文字表征;从文字表征转换到数字表征;从音符表征转换到音调表征等。
「近代人类立志的思想,是注重发达人群,为大家谋幸福。」这句话的精神与下列何者相近? (A)我们能够处处尽责任,便能够处处得到快乐 (B)越是真正做过一点事,越是感觉到自己贡献的渺小 (C)上天生下我们,是要把我们当作火炬,不是照亮自己,而是照亮别人 (D)人的一生就是上天与社会的赐与,所以一个人做人做事应当饮水思源
下图为林秀才从外城回家的路线图,他途中所经之地的正确顺序是什么? (A)市→坊→寓(B)坊→市→寓 (C)坊→寓→市(D)寓→坊→市
小元利用周末时到台湾西部沿岸去旅游写生。请问:下列哪一张图画最可能是他的作品? (A) (B) (C) (D)
了解-2.2举例 举例:对一般概念或原则知识,给一个特定的例子。 举例涉及:指认出一般概念或原则的定义性特征;使用这些特征来选择或建构一个特定的例子。
拟人法是将物比拟为人的修辞法。下列文句,何者不属于拟人法? (A)假使海做出种种野蛮恶毒的事,那是因它无法控制自己 (B)大自然痛下毒手,发动土石流,对破坏生态的人类抗议 (C)走入溪头,只见林木葱茏,泉水淙淙,彷佛是人间仙境* (D)桃花听得入神,禁不住落了几点粉泪,一片片凝在地上
用具体的描述来表达抽象的意念,可使文章更为生动。下列何者不属于此类? (A)爸妈的关怀与呵护,为我们筑成了一座坚不可摧的堡垒 (B)漫步在夕阳余晖里,晚景的温存就这样被我偷尝了不少 (C)黄槐那艳丽耀眼的黄色花朵,在阳光下是一种庞大集团的色彩 (D)看着鸟儿高踞枝头,临风顾盼──好锐利的喜悦刺上我的心头
了解-2.3分类 分类:指认出某物(特定的例子)隶属于某一特定类目(概念或原则)。 分类涉及:侦测出相关特征或组型,使其匹配于示例与概念或原理之间。
小美参加舅舅的结婚典礼时,吃到了许多美味的菜肴,如熏烤鳗鱼、胡椒草虾、蒜泥九孔、生鲜虱目鱼汤。请问:这些美食材料主要是来自于哪一种渔业类型? (A)近海渔业 (B)远洋渔业 (C)沿岸渔业 (D)养殖渔业 91-1社会科正式题本
2了解-2.4摘要 摘要:对所呈现的信息,提出单一陈述来表征,或提取出一个主题。摘要:建构一个信息的表征。如一个戏剧场景的意义或其中的要义。如主题或要点。
现在的年轻人,所受的教育都具有中上的水平,但一提到家务事,往往退避三舍。每当客人来时,我的年轻徒弟总替我端茶待客,不仅茶碗的盖子没有盖紧,走路也不懂得快慢适中,远远地就听到茶盘和茶杯、茶杯和茶盖相碰的声音。通常我都会轻轻的对他说:「你端茶的音乐很好听。」 事实上,欠缺调和柔顺的声音,就是一种「不当音乐」,就如美妙的语言,如果说得不适当,也是不当的音乐。没有契合天时、地利、人和,依着机缘行事,就像端茶的音乐,使别人不愿意接受我们、肯定我们。其他如钱财来得不清不白,爱情爱得不合法、不适切等等,都像一曲难听的演奏,得不到群众的掌声。 安定自在的心境,人人艳羡,何不从柴米油盐酱醋茶里,安住我们纷杂的乱心? ──改写自星云法师〈端茶的音乐〉 下列何者是本文的主旨? (A)从生活琐事中调和身心,能促成社会祥和* (B)对日常琐事应该事必躬亲,才能使人心服 (C)平日顶撞尊长的言行,是造成内心杂音的来源 (D)若用心谛听,茶杯、茶盖相碰撞也是美妙的乐章
2了解-2.5推论 推论:是从一系列的示例找出一个组型。当受测者能从一系列示例中,藉由登录相关联的属性与注意到示例间的关系,进而抽取出一个概念或程序知识。推论的历程包含:比较示例,指认出组型规则,使用组型规则产出新符合组型规则的新示例。适用题型:系列完成题(1,2,3,5,8,13,21,?);模拟推理题(A:B=C:D);同中求异题。
下列词语,何者使用场合与其他三者不同? (A)斗山安仰 (B)龟鹤延龄 (C)松柏同春 (D)日月长明
表(一)是小蕙在复习历史课文后,作出的朝代与人物整理表。她整理的这张表格,应该与下列哪一项主题有关? 朝 代 人 物 东汉 张衡 宋 毕升 明 宋应星 清 汤若望 (A)通俗文学 (B)革新变法 (C)开疆拓土 (D)科技发展 92-2社会科正式题本
2了解-2.6比较 比较:指认两个或多个实体(对象、事件、想法、问题或情境)间的异同,乃致于能找出一个新学事物与已知事物之间的一对一关系。常与推论与实行并用。 电路与流水系统
比较「年年岁岁花相似,岁岁年年人不同」、「今人不见古时月,今月曾经照古人」这两段诗句,下列何者不是它们之间的共同点? (A)都运用映衬的笔法 (B)都运用了对偶的技巧* (C)均描写韶光易逝、岁月无情之感 (D)描写对象可分为「变」与「不变」两种
2了解-2.7解释 解释:能建构及使用现象系统中因果模式。历程包括建构因果模式;使用模式来取决系统中某部分改变或一连串事件中某特定事件的改变是如何牵动其他部分或事件的改变。 常用评量题型:推理题、故障排除题、再设计题与预测题。
3 应用 应用:牵涉使用程序(步骤)来执行作业或解决问题。与程序知识紧密链接。一项作业是指学生已经知道采用哪些程序的任务,所以是一种偏例行作业取向的任务。一项问题是事先不知道采用哪些程序的任务,所以是一种偏解决问题取向的任务。 应用的认知历程包括:执行(任务是作业)、实行(任务是问题)。
3 应用-3.1执行 执行:当碰到一个熟悉的任务,学生例行地执行一组程序。 由于情境的熟悉,所以会有足够的线索引导学生采用适当的程序。这类程序常常可称为技能或算则;他们的性质是:固定步骤、解答明确。
3 应用-3.2实行 实行:当碰到一个不熟悉的任务,学生需要了解问题,需要从所学过的程序中选择一组来直接采用或修改后采用。与了解、创造紧密联结。 由于情境的不熟悉,学生无法立即采用任何程序。这类程序常常称为技巧或方法;他们的性质是:流程图式、解答不固定。
小明在学校资源回收箱中发现一个破掉的盘子。小明想应用数学课所学到的知识来算出这个破盘子原来的大小面积。请问小明有什么方法可以算出盘子原来的大小?
4 分析 分析:牵涉分解材料成局部,指出局部之间与对整体结构的关联。与评鉴、创造紧密连结。 应用的认知历程包括:区辨、组织、归因。
4 分析-4.1区辨 区辨:牵涉从一个完整结构中,根据关联性与重要性,区辨出局部或部分来。能区辨出有关的与无关的或是重要的与不重要的部分;能注意有关的或是重要的信息。写出或指出在所提供材料中最重要或最有关联的部分。
解答上述问题需要使用到题目中的一些数据。请你用笔将一定会用到的数据圈起来。 妈妈给小明2枚50元硬币,共100元。请小明到商店买酱油。妈妈忘了告诉小明买哪种牌子的酱油。商店酱油价钱,A牌子酱油,每瓶45元;B牌子酱油,每瓶55元。小明买2瓶酱油要用多少元? 解答上述问题需要使用到题目中的一些数据。请你用笔将一定会用到的数据圈起来。 林世华
解答上述问题需要使用到题目中的一些数据。下列哪一个选项中的数据是一定用不到的? (A) 2 (B) 45 (C) 50 (D) 55 林世华
4 分析-4.2组织 组织:指认出沟通情境中的各元素,能认出这些元素是如何统整在一起。能对所呈现的信息片段,建立系统与和谐的关联。 涉及将呈现材料强制一个结构在上面,如:纲要,表格,矩阵,阶层图。所以,评量常以反应题型,写出一个段落的纲要;或选择题型,从四个阶层图选项中,选出一个最符合段落组织的选项。
4 分析-4.3归因 归因:指明确指出沟通情境中的观点、偏见、价值、意图。归因涉及解构过程-能指出所呈现信息的意图。诠释强调对事物的了解,归因超越基本了解,去推论在事物背后的意图与观点。 涉及对语文或口语信息写出或说出作者的观点、意图之类的东西。反应题型:某篇文章作者的目的为何?选择题型:
有一师父和弟子,在深山中看到一只狐狸正追着一只兔子。 小和尚对师父说:「我猜,兔子一定会被追上。」 「不会,狐狸追不上兔子。」师父肯定地说。 「为什么?」小和尚问师父:「狐狸跑得比兔子快啊!」 师父回答说:「你不晓得啊!那狐狸追的,只不过是一顿饭,可是那兔子逃的,却是一条命啊!」 下列何者最能切中师父话中的意涵? (A)生于忧患 (B)死于安乐 (C)死生有命 (D)劫后余生
有一个实验是这样的:在盛满水的锅子放入一条鱼,然后把水的温度以非常缓慢的速度逐渐升高。刚开始鱼儿在水中悠然自得,一点都没有异样,但是在两个小时之后,鱼儿竟一点也没有挣扎地死了。」此则故事的寓意是在说明何种道理? (A)人恒过,然后能改 (B)习之中人,甚矣哉 (C)劳则思,逸则淫,物之情也 (D)饱食终日,无所用心,难矣哉
「方仲永为一农家子弟,五岁时无师自通写了一首诗,不但极富意义,文词运用亦巧妙,众人皆赞为奇才。其父遂带领仲永四处展现才艺,却未曾安排他接受教育。久之,仲永奇才就不复存在了。」下列何者最贴近以上这则故事的寓意? (A)学而时习之,不亦说乎 (B)聪与敏,可恃而不可恃也* (C)谓学不暇给者,虽暇亦不能学 (D)一日暴之,十日寒之,未有能生者也
5 评鉴 评鉴:根据规准(criteria)与标准(standards)作判断(judgement)。规准:质量、效果、效率或一致性等。标准:量-够多吗?质-够好吗?判断未必就是评鉴。有明显的规准与标准才是。常问问题:这机器生产是否达应有的标准?这是达成目标最好的方法?此一取向成本效益比另依取向高吗? 使用内在规准与标准如:一致性。其认知历程:检查。外在规准与标准:批判。
5 评鉴-5.1检查 检查:考验一组运作或是产品的内部矛盾与逻辑谬误。如:考验结论是否与前提一致;资料是否支持假设;部分材料之间是否相互矛盾。常与计划与实行并列,可以检查计可能的成效。其它动词:考验、侦测、监控等。使用内在规准与标准作判断,主要是在检查内部一致性。 检查的评量:涉及给学生或是由学生自己产生一组运作或产品。检查也发生在应用上(解决问题或执行例行任务),在此,所关切的是执行的一致性。
二月十二日台湾发生地震,次日某报有一则关于地震的新闻,内容如下: 昨日中部又传出芮氏规模5.0地震,中部山区主要道路因受创而封闭,行政院已指示中各县市政府尽速处理灾情。气象局指出,地震是因欧亚板块挤压所造成,属于正常现象。 中部山区每逢地震便传出严重灾情,可见山区开发有明显的人为疏失。 请问:这则 新闻报导是否适当?如果适当,请说明其适当的理由;如果不适当,也请你说明不适当的理由。 改自92-2社会科正式题本
二月十二日台湾发生地震,次日某报有一则关于地震的新闻,内容如下: 昨日中部又传出芮氏规模5.0地震,中部山区主要道路因受创而封闭,行政院已指示中各县市政府尽速处理灾情。气象局指出,地震是因欧亚板块挤压所造成,属于正常现象。 中部山区每逢地震便传出严重灾情,可见山区开发有明显的人为疏失。 请问下列关于这则 新闻报导适当与否的叙述,何者正确? (A)适当;其中「昨日中部又传出芮氏规模5.0地震,中部山区主要道路因受创而封闭」是个人意见。 (B)不适当;其中「行政院已指示中各县市政府尽速处理灾情」是客观事实。 (C)适当;其中「气象局指出,地震是因欧亚板块挤压所造成,属于正常现象」是个人意见。 (D)不适当;其中「中部山区每逢地震便传出严重灾情,可见山区开发有明显的人为疏失」是个人意见。 改自92-2社会科正式题本
5 评鉴-5.2批判 批判:根据外在规准与标准作判断。如:能指出产品正面与负面特性,并据此(至少部分)作出判断。与批判思考有密切关系。例:评析某个解决酸雨问题方法可能的成效与成本。 学生可以被要求去批判他自己或是他人的假设或创作。批判可能根据正反两面的规准,作出好坏不同的判断。如:请学生批判「如果学校取消寒暑假?」
6 创作 创作:涉及将各个元素组装在一起,形成一个完整且具功能的整体。创作的目标是要学生能透过在心智上重组元素或重组局部,使成一个过去鲜少出现的组型或结构。创作历程涉及:协调个人过去的学习经验。虽然创作需要学生具创造思考能力,但创作并非没有限制的自由创造。创作亦可是综合个人学习的信息与材料,如写作、绘画、雕塑与建造。创作也强调独特性(原创性)。作文常涉及创作的认知历程,但未必需要创作。创作三阶段:表征问题(理解任务、生产可能的解答)、解答规划(检视可行计划的可能与装置)与执行(执行计划)。创作历程可以视为:扩散面(生产);聚敛面(计划);建构解答(制作)。
6 创作-6.1产生 产生:涉及表征问题,形成满足特定规准的多种可能性或假设。形成假设。常问问题:提出确保全民健保的方法,越多越好。为了评分需要,老师需要建构全体学生共享的规准,可能是方法数、方法合理性、可行性等。 评量典型是建构式反应题,请学生产生可能解决之道或假设。结果任务:要学生列出特定事件下,所有可能的结果。用途任务:要学生列出特定对象,所有可能的用途。几乎不可能使用选择题。
6 创作-6.2计划 计划:涉及规划能满足问题规准的解决方法,也就是发展解决问题的计划。计划是指可执行方法步骤的规划。替代动词:设计。可以请学生发展可行解决方法、描述解决问题的计划或选择解决问题的计划。
6 创作-6.3制作 制作:涉及执行明确的解决问题规划方案。替代动词:建造。制作目标可以是给学生目标功能的条件描述,要求制作能满足条件的产品。如:写小说、作有用的产品。条件描述的界说,将转变成评估学生表现的规准。这些界说也应放入评分标准中。 评量常用设计任务。学生被要求去创作符合特定界说的产品。如:请学生完成一份帮助高中生存放个人物品的新作法,与其完成时间表。
命题格式分类-纸笔测验与实作评价
纸笔测验(paper-and-pencil test) 纸笔测验是一类请受测者阅读书面试题并以书写方式做反应的评量工具。 特别适用于评量认知成就与能力;但也可用于评量人格与兴趣之量表。 由于可用于多人同时实施的条件,常被视为一种有效率的评量方法。
纸笔测验的发展程序 列举主题与任务(评量架构、双向细目、范围)。 决定反应格式(题型)、题数、时间与难度水平。 编制所需试题(命题)与发展评分指引。 审查试题与评分指引(同侪审)。
纸笔测验的题型 选择题(multiple choice) 简答题(short answer) 申论题(essay)
实作评价(performance assessment) 实作评价是一类让学生去执行真实生活的任务,藉以展示学生对知识与技能有意义应用的评价方式。 实作评价通常包含一个可让学生执行的实作任务与用来评价实作表现的评分标准(rubric)。 真实评价(authenticassessment)、另类评价(alternative assessment)、直接评价(direct assessment)。 Mueller, J.
纸笔测验vs实作评价 选择反应 - 执行任务 人为建造的 真实生活的 回忆/再认 建构/应用 间接证据 直接证据
测验反应(题型)分类 单一选择 学生从一小群反应选项中挑选一项 选择/确认 学生从一系列的材料中选出一项或多项 重排/重组 学生从一系列的材料中,将所选项目排出可能的正确顺序。 置换/修正 学生是将所呈现的材料置换或修正成另一个正确反应。 完成 学生将不完整(未完成)的材料,正确的使其完整。 建构 学生完成一个完整单位的反应。 展演 学生是在真实或拟真的情境下,作肢体展演或实作反应。评量的标的包含实作过程与结果。 Bennett, R. E. (1993).
解答上述问题需要使用到题目中的一些数据。请你用笔将一定会用到的数据圈起来。 妈妈给小明2枚50元硬币,共100元。请小明到商店买酱油。妈妈忘了告诉小明买哪种牌子的酱油。商店酱油价钱,A牌子酱油,每瓶45元;B牌子酱油,每瓶55元。小明买2瓶酱油要用多少元? 解答上述问题需要使用到题目中的一些数据。请你用笔将一定会用到的数据圈起来。 林世华
认为/和深入/比较/哥哥的/爸爸/意见/实际 请排列下列字词,使其构成一个完整有意义的句子。不需要加入任何标点符号。 认为/和深入/比较/哥哥的/爸爸/意见/实际
请依照题意作答。测验时间为50分钟,请注意作答时间的控制。 题目:「一张旧照片」 說明:很多人会利用照片记錄成长的经验、与他人接触的情景、环境的变迁以及美麗的景象⋯⋯等等,请选择一张令你印象深刻的照片,說明令你印象深刻的原因,并详述照片中的影像及背后的故事。 ※不可在文中泄露私人身分 ※请勿使用诗歌体
口语交际 口语交际的评价,应按照不同学段的要求,综合考察学生的参与意识、情意态度和表达能力。 第一学段主要评价学生口语交际的态度与习惯,重在鼓励学生自信地表达; 第二、第三学段主要评价学生日常口语交际的基本能力,学会倾听、表达与交流; 评价宜在具体的交际情境中进行,让学生承担有实际意义的交际任务,并结合学生在日常生活和学习活动中的表现,综合考察学生真实的口语交际水平。 深圳市福田区园岭小学 白皛
三、交际内容有时代气息、生活气息,关 注社会热点。 一、在具体的情境中考查交际能力; 二、考查学生的礼貌用语; 三、交际内容有时代气息、生活气息,关 注社会热点。 深圳市福田区园岭小学 白皛
深圳市福田区园岭小学 白皛
楼下卖菜的师傅为了不让蔬菜腐烂,在蔬菜里添加了对人身体健康有害的添加剂,读五年级的小明知道后很气愤,找到卖菜的师傅对他说:“卖菜的,你怎么这么没有良心啊,要是把人吃出毛病,你赔得起吗?” 师傅听了他的话很生气。请你想想小明该怎么说才能让卖菜的师傅既不生气,又能意识到自己的行为不对,把你想到的话写下来。 深圳市福田区园岭小学 白皛
最近网络上出现一个叫杨心龙的九岁男孩,擅长演讲,口才极佳,网上称他为“演讲帝”,他的才能突出,成了网络红人,但很多同学认为他太爱表现自己,都不愿和他做朋友,所以他身边的朋友却越来越少,杨心龙也很苦恼,为此,他走进了中央电视台的《心理访谈》栏目,假如你也在现场,你将对他和他的同学提出怎样的建议呢? 你打算对杨心龙说:“ 。” 你打算对杨心龙的同学说:“ ” 深圳市福田区园岭小学 白皛
你想让妈妈在暑假期间带你到上海看世博会,你会对妈妈说:“ 。” 你想让妈妈在暑假期间带你到上海看世博会,你会对妈妈说:“ 。” 妈妈同意后,让你给在上海的伯伯打电话订两张8月10号的世博会门票,你打电话时会对上海的伯伯说:“ 。” 深圳市福田区园岭小学 白皛
快放暑假了,同学小张约你到郊区的深水河里去游泳,你知道这很危险,拒绝了他的邀请,可小张说:“怕什么,没事的,我都去游过好几次呢,你可真是胆小鬼,胆小鬼!” 听了小张的话,你打算对他说: “ 。” 深圳市福田区园岭小学 白皛
实作评价的发展程序1 确认标准(standards):学生应该学会与能做些什么?列举出学生应学会的知识与技能,形成标准。 选择实作真实任务(authentic tasks):为显示学生是否已经达到前述的标准?设计或选用有关可实作的真实任务。 确认真实任务的规准(criteria):好的实作表现会是什么模样?确认与寻找好实作表现的规准。
实作评价的发展程序2 制作评分标准(rubric):学生实作表现得如何?为了区分学生实作表现,需要根据前述规准,制作评分标准。 切截分数或基准点(cut score or benchmark):大多数学生的实作表现如何?期望大多数学生实作表现的最低水平即为切截分数或基准点。 调整教学(adjust instruction):学生需要改善些什么?评分标准的讯息,可回馈学生学习与调整教师教学。
实作评价的示例1 确认标准:为增进学生写作与语文表达能力,于国民中学学生基本学力测验试办加考写作测验。 选择真实任务:采引导式写作方式。 一张旧照片 当一天的老师
实作评价的示例2 确认真实任务的规准: 制作评分标准: 立意取材:能切合题旨,选择合适素材,表现主题意念。 结构组织:能首尾連贯,组织完整篇章。 遣词造句:能精确流畅使用本国语文。 错别字、格式及标点符号:能正确运用文字、格式及标点符号。 制作评分标准: 6分示例 2分示例
背后的基本问题 两个考生或是一群考生有什么差异? 整体上有什么差异? 在哪一方面有差异?✓
Rubrics(评分指引)在这里 Rubrics(评分指引) 是用来评量考生实作反应的品质。评分指引具有三项本质特征(1)评量规准(evaluative criteria);(2)品质定义(quality definitions);(3)评分策略(scoring strategy)。 (1)评量规准是用来区隔实作反应是否可接受。如:the following slides (2)品质定义是用来对考生实作反应评量时所做的质量差异的描述。如: the following slides (3)评分策略是整体性评分或是分析性评分。 Popham, W. J.(1997)
Rubrics(评分指引)-规准 规准所指的常常就是基本问题中:在哪一方面有差异当中的表现程度或特性(很容易跟表现特质搞混) 规准通常会以实作评量反应的表现程度或特性来呈现,通常会有什么度、什么性的中性字眼。练习一下,广度、深度、熟练度、完整性等 vs 创意性
Rubrics(评分指引)-等级 等级:品质定义涉及评分者能够区隔几级?以完整性为例 二级:完整、不完整 三级:完整、部分完整、不完整 五级:完整、接近完整、部分完整、比不完整略佳、不完整 六级或更多
Rubrics(评分指引)-配分 使用加权配合等级形成配分 加权通常反映一个表现程度或特性的重要性,须以政策、专业与需求来决定。
评分指引 口试评分指引:(参考全民英检评分标准) 级分 分数 说明 5 40 发音清晰、正确,语调正确、自然;对应内容切题,表达流畅;语法、字汇使用自如,虽仍偶有错误,但无碍沟通。 4 32 发音大致清晰、正确,语调大致正确、自然;对应内容切题,语法、字汇之使用虽有错误,但无碍沟通。 3 24 发音、语调时有错误,因而影响听者对其语意的了解。已能掌握基本句型结构,语法仍有错误;且因字汇、词组有限,阻碍表达。 2 16 发音、语调错误均多,朗读时常因缺乏辨识能力而略过不读;因语法、字汇常有错误,而无法进行有效的沟通。 1 8 发音、语调错误多且严重,又因语法错误甚多,认识之单字词组有限,无法清楚表达,几乎无沟通能力。 0 0 未答/等同未答。
评分指引的评量规准示例 基测写作测验的评量规准: (1)立意取材:写作反应是否切合题旨,是否选择合适素材,是否表现主题意念。 (2)结构组织:写作反应是否首尾連贯,是否组织完整篇章。 (3)遣词造句:写作反应是否精确流畅使用本国语文。 (4)错别字、格式及标点符号:写作反应是否正确运用文字、格式及标点符号。 http://www.bctest.ntnu.edu.tw/writing/writing_plan.pdf
评分指引的质量定义示例 基测写作测验的品质定义: 四级分: 三级分: (1)能依据题目及主旨选取材料,尚能阐述说明主旨。 (2)文章结构稍嫌松散,或偶有不连贯、转折不清之处。 (3)能正确使用语词,文意表达尚称清楚,但有时会出现冗词赘句;句型较无变化。 (4)有一些错别字,及格式、标点符号运用上的错误,但不至于造成理解上太大的困难。 三级分: (1)尝试依据题目及主旨选取材料,但选取的材料不甚适切或发展不够充分。 (2)文章结构松散,且前后不连贯。 (3)用字遣词不够精确,或出现错误;或冗词赘句过多。 (4)有一些错别字,及格式、标点符号运用上的错误,以致于造成理解上的困难。 http://www.bctest.ntnu.edu.tw/ > 写作测验专栏
评分指引的质量定义示例 基测写作测验的品质定义: 二级分: 一级分: (1)虽尝试依据题目及主旨选取材料,但所选取的材料不足或未能加以发展。 (2)结构本身不连贯;或仅有单一段落,但可区分出结构。 (3)用字、遣词、构句常有错误。 (4)不太能掌握格式,不太会使用标点符号,且错别字颇多。 一级分: (1)仅解释提示;或虽提及文章主题,但无法选取相关材料加以发展。 (2)没有明显的文章结构;或仅有单一段落,且不能辨认出结构。 (3)用字遣词有很多错误或甚至完全不恰当,且文句支离破碎。 (4)完全不能掌握格式,不会运用标点符号,且错别字极多。 http://www.bctest.ntnu.edu.tw/ > 写作测验专栏
评分指引的评分策略示例 基测写作测验的评分策略是整体性评分 六级分的文章是优秀的,这种文章明显具有上述六级分在质量定义上的特点。 五级分的文章在一般水平之上,这种文章明显具有上述五级分在质量定义上的特点。 四级分的文章已达一般水平,这种文章明显具有上述四级分在质量定义上的特点。 三级分的文章是不充分的,这种文章明显具有上述三级分在质量定义上的缺点。 二级分的文章在各方面的表现都不够好,在表达上呈现严重的问题,除了有三级分文章的缺点,并有上述二级分在品质定义上的缺点。 一级分的文章显现出严重的缺点,虽提及文章的主题,但无法选择相关题材、组织内容,并且不能在文法、字词、及标点符号的使用上有基本的表现。这种文章具有上述一级分在质量定义上的缺点。 http://www.bctest.ntnu.edu.tw/ > 写作测验专栏
试题的难度来源分析 Stenner 如果无法评析一道试题比另一道试题难或易的原因,而仅能描述其难易。则,很有可能我们根本不知这几道题目在评什么。 Stenner 主张能够知道一道试题比另一道试题难或易的原因,基本上是了解一项考试在考什么的本质。 这一类的证据论述通常会比学生在答题反应显示出的试题难易证据来得可靠与稳定。 1. Pollitt, A. & Ahmed, A.(2000). Comprehension Failures in Educational Assessment. 2. Pollitt, A. & Ahmed, A.(1999). A New Model of the Question Answering Process.
试题的难度来源分析向度 Cheng(2006) 兼采Ahmed and Pollitt’s question-answering process(1999) 与 Osterlind’s test item(1990) 提出试题难度来源架构(item difficulty framework)乃由四路来源组成: 内容难度(content difficulty) 任务难度(task difficulty) 刺激难度(stimulus difficulty) 预期反应难度(expected response difficulty) Cheng, L. (2006). On varying the difficulty of test items.
试题的内容难度 内容难度是指来自于所评量学科知识内容的难度。也可以说是来自于知识内容的各种相关元素,如:知识经验;知识层次;事实、概念、原则与程序等; 知识特征等。 受教经验-教过的知识内容、教过知识内容的延伸、完全没有教过的知识内容(Lin, 2014) 知识的层级:基本知识、中阶知识、高阶知识 知识元素个数:多个知识元素组成的试题 多个知识元素的组合:多个知识元素罕见组合的试题
试题的任务难度 任务难度是指当考生面对试题后,在理解题意后准备产生反应或是形成解答的过程中所遭受的试题难度。 形成试题解答所涉及之思考或认知历程的层次。认知历程分类(尤指Bloom的分类)即暗示认知历程存在阶层累积性。高阶认知历程试题 vs 低阶认知历程试题 。 需要较多步骤才能形成解答的试题 vs 只需少数步骤即能形成解答的试题 有指导的步骤帮忙所形成解答的试题 学生需要自行设计步骤所形成解答的试题 高阶技能评量如:应用与即兴评量 vs 低阶技能评量如:仿作与模仿
试题的刺激难度 刺激难度是指当考生面对试题,理解试题中的用字、用语与图表所提供的讯息时所面对的难度。 试题用字用语仅需单纯直接即可理解 vs 需谨慎多技术用语方可理解 试题讯息的包装。当试题所含讯息已被裁减到 答题反应所需(没有无关信息) vs 答题反应会需先选取有关信息或打开大量信息。 选择题的选项讯息与题干讯息的刺激难度。
Krathwohl’s情意目标分类 1.00 接受(或注意) 2.00 反应 3.00 价值的评定 4.00 价值的组织 2017/3/12 Krathwohl’s情意目标分类 1.00 接受(或注意) 2.00 反应 3.00 价值的评定 4.00 价值的组织 5.00 依据价值形成品格 Krathwohl, D. R., Bloom, B. S., & Masia, B. B. (1964).
试题的预期反应难度 预期反应难度是指在建构式试题来自评分指引与规准的难度来源。 试题期待反应细节量小 vs试题期待反应细节量大 试题期待反应呈现结构复杂程度: 试题期待反应呈现观念上单纯的连结 vs 试题期待反应能讨论个别与整体之间的重要关系; 试题期待反应呈现单一结构 vs 试题期待反应呈现关系式回应。 评分指引与规准的清晰程度: 评分指引与规准直接了当有逻辑 vs 模糊或毫无线索(见仁见智)。
谢谢聆听