选项可猜测性评判与控制 实证研究 上海外国语大学 2008 级博士生 湖南师范大学外国语学院副教授 —— 邓杰
摘 要 命题期间对选项的可猜性进行评判和控制 – 可猜性专家评判指标 – 猜测概率计算方法 – 可猜性控制措施 目的:了降低选项的可猜程度,提高多选题的命 题质量。 我国高考英语命题对选项可猜性的控制情 况 – 整体可猜程度( 2008 年国家卷 I 与某省卷) – 可猜项分布情况(试卷部分和试题类型)
一、问题的提出 多项选择题使用广泛,但又饱受争议, 其主要原因之一即是猜测概率高 如何控制选项的可猜测性 – 如何对选项的可猜测性进行评判? – 从哪些方面对可猜测性进行控制? – 高考英语试题的可猜测情况如何?
二、相关研究 命题原则研究 (Downing & Haladyna) 从正面通过强调遵守原则来控制猜测因素,目的是研究 如何使选项不可猜以提高测试效度 应试策略研究 (Allan, Nevo) 从反面通过分析项目缺陷来揭示猜测因素,目的是研究 可猜项对测试效度的负面影响 可猜项的存在, – 有损测试效度 – 致使测试不公 对于本研究的意义在于 – 为评判指标提供效度证据 – 为实证研究提供可借鉴的方法
三、实证研究
1. 研究假设 1 )选项可猜性在命题期间可以得到准确评 判和有效控制; 2 )我国高考卷对选项可猜性的控制情况不 理想,但全国卷要比省卷控制得好。
2. 具体研究问题 1 )能否建构一套效度较高且可操作性强的专 家评判指标? 2 )专家评判是否具有较好的一致性? 3 )高考卷可猜项的比例及分布情况如何? 4 )导致选项可猜的主要因素有哪些? 5 )如何对选项可猜性进行控制?
3. 研究对象 实验试卷选项 共有 3 套,分别为全国卷 I 、全国卷 II 和某省高考卷。 其中,全国卷 II 全部 20 道阅读题 80 个选项用于试 验实验;全国卷 I 和某省卷的全部听力和阅读共 74 道题 259 个选项用于正式实验。 培训材料选项(见附录 B ) 均选自我国全国性高风险测试真题,除部 分项目是非高考题以外,其他所有项目均 为我国 2008 年的高考真题 。
4. 评判专家 语言测试方向博士研究生 4 人,其中高考英 语命题人员 2 人、大学英语四六级考试题库 建设的兼职命题人员 2 人; 1 人负责指标建 构、专家培训和数据分析,另 3 人负责实验 卷的评判工作。 英语语言学和外语教学方向硕士研究生 3 人, 主要负责试验实验阶段的评判工作。
5. 研究工具 初始指标:分语言形式、语境意义、相互关系 3 类 共 28 项 修正指标 1 :个人试评判后,修正为独立题项特征、 前后题关联、选项 - 题干关联、选项相互关系 4 类 共 16 项 试点实验 I –21 名研究生培训 (TOTWESL) – 高考例题试评 (2008 各省 ) – 高考试题评判 (2008 年全国 I 卷和湖南卷, 17 份 ) 修正指标 2 :选项自身特征和题项相互关系 2 类共 9 项 ( 见选项可猜测性评判变量)选项可猜测性评判变量
指标示例 1- 限定 (Det) From the writer’s experience, we can conclude that _________. A. not everyone enjoys jogging B. he is the only person who hates jogging C. nothing other than jogging can help people keep fit D. jogging makes people feel greater than any other sport
指标示例 2- 暗示 (Clu) 6. Why did the woman go to New York? A. To spend some time with the baby. B. To look after her sister. C. To find a new job. 7. How old was the baby when the woman left for New York? 8. What did the woman like doing most with the baby?
指标示例 3- 题干关系 (Stm) A proper way to release a fish is to ________. A. move it in water till it can swim B. take the hook out of its stomach C. keep it in a bucket for some time D. let it struggle a little in your hand
指标示例 4- 包含关系 (Inc) The underlined sentence in Paragraph 4 indicates that any wrong step will possibly ______. A. decrease the popularity of a celebrity and the sales of his products B. damage the image of a celebrity in the eyes of the general public C. cut short the artistic career of a celebrity in show business D. influence the price of a celebrity’s products
6. 猜测概率计算方法 定义 1 :选项正误猜测的确定性程度等级量表 为集合 K ,记为: 其中, k 为确定性程度等级, k=0 表示完全不确定(无法 猜), k=n 表示完全确定(肯定错或肯定对)。 例如: 0- 完全不确定; 1- 不太确定; 2- 比较确定; 3- 完 全确定
6. 猜测概率计算方法 定义 2 :选项正误猜测的方向为集合 R , R 的元素为 r , 记为: 且 其中, r 为猜测方向, r=-1 干扰项; r=1 答案项。 定义 3 :猜测评判等级量表为集合 Q ,则会有: 其中, q 为猜测评判等级, q=-k 肯定错, q=k 肯定对。 例如: -3 肯定错; -2 很可能错; -1 有可能错; 0 无法猜; 1 有可能对; 2 很 可能对; 3 肯定对
6. 猜测概率计算方法 定义 4 :若评判等级为 q ,选项的猜测概率为 g , 猜则有:
6. 猜测概率计算方法 设评判准确性集合为 Z ,且 Z={-1,0,1} ;选 项类别集合为 O ,且 O={0,1} 。则有:
四、结果与讨论 -I 评判指标的效度分析
1. 指标预测功能分析 表格 1 逐步回归模型摘要 - 选项关系, 限定词, 对立关系, 形式突显, 包含 / 交叉。 j 因变量 : 猜测概率
1 ) 9 个预测变量能建立 9 个有效的回归模型 ( 方差分 析表中每个模型的显著性 p 值都是 0 ,完全拒绝回 归系数为 0 的原假设,限于篇幅略去方差分析表 ) , 说明每一项评判指标都可以对猜测概率进行有效 预测; 2 )模型 5 已能解释总离差方差和的 87.6% ,且前 5 个 模型的 R 方更改量都在 10% 以上,说明前 5 项指标 是预测猜测概率的主要因子; 3 )模型 9 能够解释总离差方差和的 97.2% ,说明使 用 9 项指标足以对选项可猜性进行有效评判; 4 )回归诊断显示 ( 略去残差统计量表 ) 残差均值为 0 , 标准差为 ,说明预测值与观测值几乎没有差 异。 上述分析表明,评判指标对猜测概率具有很好的预 测功能。
2. 专家评判一致性检验 专家评判结果基本致,但专家培训还应加强。 表格 2 相关性 表格 3 肯德尔 W 检验统计量 表格 4 概化分析对各效应的变差分量估计
3. 专家评判信度分析 三位专家评判时概化系数已超过 0.7 ,说明整体评 判具有较好的信度。可以在此基础上对选项的可 猜性进行进一步分析。 表格 5 评判专家侧面变化 D-Study 分析结果
结果与讨论 -II 选项可猜性对比分析
1. 整体可猜性 表格 6 单样本 t 检验对比分析 两套试卷整体上的可猜性都比较大,或者说,对 选项可猜性的控制情况都不太理想,干扰项的干 扰功能和答案项的构念效度不容乐观。
2. 猜项的分布及评判准确性 表格 7 可猜项的分布及评判准确率对比分析
结果与讨论 -III 选项可猜性控制措施
1. 加强命题培训 导致选项可猜的根源在于命题人员 – 要么是因为重视不够,命题人员没有将可猜性控制作为命题质量管 理的重要内容; – 要么是由于经验不足,命题人员不知道该从哪些方面来对可猜性进 行控制。 一种错误的观点: 只要确保选项没有错误,可不可猜无关紧要。有人甚至还有可能主 张故意使用一些明显可猜的选项来降低项目难度。 笔者认为: 不加控制是有背测试原则的,而为了降低难度而故意使用明显可猜 的选项更是不智之举。 – 明显可猜项会使得测试效度在卷面即已受损; – 这种削足适履的做法并不一定能达到降低难度的目的,反而会导致 测试不公平,因为这对那些善于猜题的考生来说,猜测将会变得更 加轻而易举。
2. 控制猜测因素 使用频率高的评判指标是导致选项可猜的 主要因素,应重点加以控制; 其他指标也不容忽视 表格 8 评判指标使用频率统计结果
3. 小心易猜题型 显性细节辨别,如果没有其他线索的暗示,仅凭猜测是很难答对 的;而涉及推理和概括的内容,往往会比较接近常识,如命题时 不谨慎,就很容易编写出凭常识即可猜对的选项。 表格 9 题型类别与选项可猜性情况统计
4. 核查误判选项 The Help Desk in this library supplies service ______. A. only during the daytime B. in case of emergency C. till the end of the Spring Break D. after 22:00 p.m. every day In case of emergency, please call the Help Desk at , and follow the procedures outlined … The Help Desk supplies service to you all the year round! …
难度=.737 区分度=.45
结语 旨在提高而非批判 – 很有必要 ( 猜测概率高 ) – 切实可行 ( 能够得到准确评判和有效控制 - 软件 ) 旨在命题而非答题 – 用于命题质量控制而非答题过程预测 – 实际被选情况与猜测概率的关系还有待进一 步研究
谢谢