1 问题提出 2 研究目的 7 不同专家、学者公开发表的相关数据 3 信度分析 4 效度分析 6 区分度分析 5 难度分析.

Slides:



Advertisements
Similar presentations
因数与倍数 2 、 5 的倍数的特征
Advertisements

质数和合数 2 的因数( ) 6 的因数( ) 10 的因数 ( ) 12 的因数 ( ) 14 的因数 ( ) 11 的因数 ( ) 4 的因数( ) 9 的因数( ) 8 的因数( ) 7 的因数( ) 1 、 2 、 3 、 4 、 6 、 12 1 、 11 1 、 2 、 5 、 10.

3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
因数与倍数 2 、 5 的倍数的特征 绿色圃中小学教育网 扶余市蔡家沟镇中心小学 雷可心.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
2014 年职称英语等级考试 综合类精讲班 主讲:叶老师. 职称英语考试与复习方法 一、职称英语考试 1. 职称英语考试的特点: a 综合英语分为 A B C 级 b 职称英语考试和教材的关系 c 可以借助字典 d 送分( 分) (1) 词汇选项(可能送 3—8 分) (2) 阅读判断.
1 计算机软件考试命题模式 计算机软件考试命题模式 张 淑 平 张 淑 平. 2  命题模式内容  组织管理模式 − 命题机构和人员组成 − 命题程序  试卷组成模式.
数据结构的引入. 通讯录管理 社团机构管理 校园导航管理 通讯录管理 社团机构管理 校园导航管理.
▲ 走 近 高 考 ▲ 笑 谈 高 考 ▲ 轻 松 备 考 走近高考 ● 高考是选拔人才的基础方式 ● 高考就是一次常规考试 ● 是知识技能和心理品质的考察.
专 业:心理学、教育学 主 讲:章 永 单 位:教科院 一、客观性测验题目的编制 1. 客观性测验题目的常见类型 1. 客观性测验题目的常见类型 选择题 是非题 匹配题 填空题 简答题 选择题 是非题 匹配题 填空题 简答题 2. 客观性测验题目的特点 2. 客观性测验题目的特点.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
学业评价的理论与实践 江西财经大学 谭光兴 教授、博士生导师.
职称:***(博导、教授、副教授、讲师)
证券投资技术分析.
第八章 信度与效度分析 2017/3/16.
10.2 立方根.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
实用操作系统概念 张惠娟 副教授 1.
关于本门课程.
四种命题 2 垂直.
1.1.3四种命题的相互关系 高二数学 选修2-1 第一章 常用逻辑用语.
常用逻辑用语复习课 李娟.
财务绩效评价计分方法 1、基本指标计分 财务绩效定量评价的基本指标计分是按照功效系数法计分原理,将评价指标实际值对照相应行业标准值,按照规定的计分公式计算各项基本指标得分。    (1)单项指标得分= 本档基础分 调整分 + 本档基础分=指标权数×本档标准系数 功效 系数 实际值-本档标准值 调整分=
第六章 测量的效度 第一节 效度概述 第二节 内容效度 第三节 构想效度 第四节 效标关联效度 第五节 影响测验效度的因素.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
不确定度的传递与合成 间接测量结果不确定度的评估
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
《数据结构》课程简介 李武军 南京大学计算机科学与技术系 2016年秋季.
第一节 旅游规划的意义和种类 第二节 旅游规划的内容 第三节 旅游规划的编制 第四节 旅游景区规划
SOA – Experiment 3: Web Services Composition Challenge
全国高校数学微课程教学设计竞赛 知识点名称: 导数的定义.
Harvard ManageMentor®
第十章 方差分析.
分布式程序设计 姚斌 计算机科学与工程系 上海交通大学.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第一章 函数与极限.
C语言程序设计 主讲教师:陆幼利.
实数与向量的积.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.
网页设计与制作 —— 学习情境二:网页模板设计
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
实体描述呈现方法的研究 实验评估 2019/5/1.
6.4 你有信心吗?.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
北师大版五年级数学下册 分数乘法(一).
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第4课时 绝对值.
Parallel Programming Xuanhua Shi/Pingpeng Yuan
例题2-15讲解 主讲人 束美其.
分数再认识三 真假带分数的练习课.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
《离散结构》 二元运算性质的判断 西安工程大学计算机科学学院 王爱丽.
第三章 测量信度 第一节 信度概述 一、什么是信度? 信度(reliability)是指测量结果的稳定性程度,也叫测量的可靠性。 操作定义:
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
试卷质量评价要素分析 按照安徽农业大学本科试卷评价表: 一、试卷(命题)质量(40分) 二、卷面质量(10分) 三、试卷评阅(40分)
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
学习目标 1、什么是列类型 2、列类型之数值类型.
Presentation transcript:

2009年全国高等师范院校第五届生物学课程与教学论学术论坛 生物学试题和试卷的定量分析 宋锡全 贵州师范大学生命科学学院 2009年9月于成都

1 问题提出 2 研究目的 7 不同专家、学者公开发表的相关数据 3 信度分析 4 效度分析 6 区分度分析 5 难度分析

一、问题提出 定性分析是日常教学工作中绝大多数工作者采用的主要形式,如学生测验质量分析包括集体质量(含平均分、标准差等)和个体质量(标准分、百分数等)。而定量分析是平时教学工作中很少被采用的。但是,试题和试卷的定量分析是最客观和合理的。我们将重点介绍定量分析主要体现在考题的信度、效度、难度和区分度上。

二、研究目的 试卷质量统计分析与评价是考试管理中一项重要工作,也是我们评价考试质量的最重要、最有效的方法。它能够为改进考试设计工作,使之更符合考生实际提供重要信息;也能够为改进命题工作提供大量信息,提高试题和试卷的编制质量;也是完善题库,提高题库试题质量的重要途径。

三、信度分析 1、考试误差 考试误差主要来源于三个方面,其一为试题试卷质量;其二考生水平考试时的应试状态,也即考生的临场发挥;其三为考试的实施办法及过程控制。 根据误差产生因素的不同,考试误差一般分为两类。一类是由在考试过程不可预期的偶然因素导致的,称为随机误差;(实施和评分)一类是在考试过程中一旦出现便始终存在的恒定因素导致的,称作系统误差。(命题) 在考试中,我们把因偶然因素所引起的随机误差的控制程度叫做考试信度,把系统误差和随机误差的综合控制程度叫做考试效度。

2、信度概念 信度是反映考试可靠性的指标,考试的信度是指考试分数的可靠程度。如果我们将考试成绩看成由真分数(包含系统误差)和随机误差分数构成,信度即为真分数的方差与考生观察分数方差之比。简单的说,就是重复参加同一次考试成绩的一致性。信度是考试公平性的重要体现。对考生提供相同难度的试题,对社会提供同一标准的评价。

3、信度系数的计算 信度系数的计算有多种方法,各种方法所适用的信度类型不同,因此,在计算信度系数时,必须认真考虑实际所求信度的类型,然后选择恰当的计算信度系数公式[1]。 3.1 再测信度 同一测验前后两次施测于同一组被试,根据受试者前后两次测验分数计算所得相关分数为再测信度。

3.2 复本信度 复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法可以用在试卷命题上,即根据相同的命题双向细目表,制作两份在内容、难度和题型上尽可能类似的试卷,然后分别用这两份试卷来测验同一群学生(可连续或相隔一段时间实施),每位学生各得两个分数,再求出两组分数之间的相关系数,即为信度系数。这两份试卷互称为复本,得出的信度也叫复本信度。

3.3 分半信度 将试卷中的题目按单、双题号分为两半,然后用斯皮尔曼-布郎校对公式(spe-arman-brown formula)公式计算其信度。该方法的优点是不需用两套试卷去考两次。公式为:Rtt=2Rhh/(1+Rhh)。其中,Rtt为分半信度系数;Rhh为两半分数的相关系数。分半信度又称内部一致性系数,它不适用于速度测验,这一点需要注意。

3.4 库李法(Kuder-Richardson method) 库李二氏于1937年提出一些评估信度的公式,其中比较常用的有两个公式,称为KR20和KR21。其计算公式如下: KR20 =K/K-1[1-∑pq/s2] KR21 = K/K-1[1-M(K-M/K s2)] 其中,K:试题数,p:答对某一试题的学生所占的比例,q:答错某一试题的学生所占的比例(q=1-p),s:分数之标准差,M:分数之平均数。

当评价工具的难度大体上均在50%左右时,用KR21来计算信度比较简便,不过当试题之难度不一,且变化很大时,使用KR21往往会低估信度。库李法与等分法就内容上来说,都在估算评价工具的内部一致性[刘恩山,2003]。

3.5 评分者信度 是指不同评分者的评判结果的可靠性,即不同的评分者所评分数是否一致评分者信度,一般测验应有较高的评分者信度。如果评分是客观的并有统一的规定,这点能够得到保证,一般不用考察评分者信度。

4、信度值 信度多少通常以α系数表示,若α系数低于0.35属于低信度,应该拒绝使用;介于0.50~0.70属于尚可接受,高于0.70以上属于高信度。通常教学评量所参考的α系数应不低于0.80才是。信度的最大值为1,最低为0,大规模的考试要求信度在0.9以上。国外一般知识性测验要求在0.95以上,常达到0.95。

5、影响信度的因素 (1)试卷的长度(题量); (2)题型的选择(即使用的题型); (3)命题的规范化; (4)考试设计:即答题时间是否充分,是 否提供考试指导,是否具备举办考试的条件(空间场地、温度条件、灯光噪音、运动等) ; (5)评分方法(例如提供指导,评分者检查系统)。

6、提高信度措施 (1)年与年之间考试内容覆盖面要广且一致; (2)用同等的作业任务评价考生; (3) 试题或项目必须具备评分的一致性; (4)年与年之间试题的难度水平保持一致; (5)控制测验的质量; (6) 控制举办测验的条件; (7)控制评分的过程; (8)控制评等级的过程。

四、效度分析 1、效度概念 2、效度计算 效度(Validity)即有效性,指考试对所要测量的知识、技能和能力测量的精确程度。 为了检验考试的效度,必须找到一个能代表考试目标的外在标准,将侍评价的考试与这个标准相比较,由两者相一致的程度来推断考试的效度(有的考试不预先进行模拟测验,没有与现行考试目标相一致的考试,所以找不到代表考试目标的外在标准,可以用学生前几次测验的平均成绩为外在标准来计算相关系数)。计算效度采用积矩相关系数法[赵珂,2001 ]。

3、效度值 效度的大小是以效度系数来表示的,最高值为1,最低值为-1。1表示考试结果与考生的实际水平完全相符,-1表示考试结果与考生的实际水平完全相反,0则表示与所要测的完全无关。一般考试的效度应在0.4~0.7之间[陈继贞等,2003]。

4、效度类型 4.1 内容效度 指的是一个考试所测量的内容的代表性程度。内容效度的高低与我们通常说的“覆盖面”有关。在高考命题时,为了把握好内容效度常用制作双向细目表(能力层次与题型、章节内容)的办法进行控制。在高等教育和中专自学考试命题时,为把握好内容效度常用制作三向细目表(能力层次与题型、章节内容、题量)的办法进行控制。 系统的检验方法有:专家判断、再测、统计分析等方法。

4.2 构想效度 4.3 实证效度 是指测验能够检验理论的抽象概念或特质的程度,可用验证性因素的分析方法加以考察。 实证效度又称为效标关联效度,用测验分数与效度标准之间的相关系数表示。效度标准是根据经验选用的某一个标准测验。

4.4 预测效度 衡量考试有效性的一个重要方法是评价这项考试所做出的预测是否成立。例如用高考的成绩来预测入学后的考生学习情况,如果准确性高则说明高考的预测效度较好[项伯衡等,2001 ]。

5、提高考试效度措施 (1)控制系统误差——来自命题; (2)适当加大题量,扩大样本的容量和代表性; (3)适当增加题型的多样性,根据课程特点,确定主客观试题的合适比例; (4)编写双向细目表,保证测验体现考试大纲的要求; (5)精心命题——试题考核目标明确。

6、信度与效度的关系 从信度与效度的关系来看,测验的效度高,其信度也高;但信度高的测验,其效度并不一定高,测验结果具有一致性的测验,在信度上是高的,在效度上则不一定高。

五、难度分析 1、难度概念 指题目的难易程度,或说测验的难易程度,常以试题的通过率作为难度的指标。 2、计算方法 2.1客观性试题难度P(这时也称通过率)计算公式:P=k/N(k为答对该题的人数,N为参加测验的总人数) 2.2主观性试题难度P计算公式: P=X/M(X为试题平均得分;M为试题满分)

2.3 适用于主、客观试题的计算公式: P=(PH+PL)/2(PH、PL分别为试题针对高分组和低分组考生的难度值) 在大群体标准化中,此法较为方便。具体步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④按上面的公式计算。

例1:一次生物测试中,在100名学生中,高低分组各有27人,其中高分组答对第一题有20人,低分组答对第一题的有5人,这道题的难度为: PH=20/27=0.74    PL=5/27=0.19   P=(0.74+0.19)/2=0.47

另外,也有学者认为难度应以失分率来表示,其公式: Q(失分率)=1-[R(平均分)/N(满分)] Q值越小,题目越容易;Q值越大,题目越难。 整个试卷的难度等于所有试题难度之平均值(包括主、客观试题)。

2.4 难度系数计算公式: 一套试题的难度系数最终要考完以后才能知道。具体算法是用参加考试的人平均分除以试题的总分,或者用参加考试的人的总得分除以所有试卷的总分也一样。

对一道题来说,也是这样,比如一道题是4分,共有100个人参加考试,其中30人做对了,得4分,50人半对,得2分,那么参考人共得30×4+50×2=220分,再除以总分400分,得到难度系数0.55。

“难度系数”也可以理解成“容易度系数”。一道10分的试题如果难度系数为0 “难度系数”也可以理解成“容易度系数”。一道10分的试题如果难度系数为0.5,可以理解为这道10分的试题平均得分为5分。“参考样题”中,将每一道样题的难度系数都公布了,样题是过去几年的高考试题,难度系数是国家高考后测量的结果,十分准确,具有很高的可信度。

一般来说高考试卷易中难试题的比例为2:6:2或3:5:2,过去的《考试说明》一直是这样表述的,现在的表述是“以中等试题为主”,但数据上,没有什么变化,中低档试题占八成,750分占600分。那么什么是中低档试题呢?一般来说难度系数在0.4-0.7的试题为中等试题,低于0.4的为难题,高于0.7的为容易题。

3、难度值 难度值在0至1之间。P>0.8试题太易;P<0.2时,试题太难。一份试卷应该由不同难度按一定比例组成。一般地说,P>0.8 、P<0.2的试题各占10%;P=0.2~0.4,和P=0.6~0.8的试题各占20%;P>0.4、P<0.6的中等难度试题应占60%。整套试卷平均难度在0.4~0.6之间。

六、区分度分析 1、区分度概念 2、计算方法 指测验对考生实际水平的区分程度或鉴赏能力。它是题目质量和测验质量的一个重要指标。 2.1客观性试题区分度D的计算公式: D=PH-PL(PH、PL分别为试题高分组和低分组考生的难度值) 选27%的高分组(非正态分布取1/3左右的高分组),计算高分组某题通过的百分数PH,再计算低分组(低分部分的27%的被试,非正态分布取1/3左右)通过某题的百分比PL。PH、PL的计算方法同上。

例2  一次生物测试中,在100名学生中,高低分组各有27人,其中高分组答对第一题有20人,低分组答对第一题的有5人,这道题的区分度为:D=PH-PL=0.74-0.19=0.55。

2.2主观试题(非选择题)区分度D的计算公式: D=(XH-XL)/N(H-L) (XH表示接受测验的高分段学生的总得分数,XL表示接受测验的低分段学生的总得分数,N表示接受测验的学生总数,H表示该题的最高得分,L表示该题的最低得分。)

一般被试样本人数应在370人左右,这样27%的高分组与低分组大约100左右。如果被试人数少,可取27%稍大些的比率,划分低分组与高分组。 整个试卷的区分度,是所有试题区分度的平均值。

3、区分度值 一般区分度的取值范围是-1.00≤D≤+1.00,其值越大区分效果越佳。D>0.4时,区分效果好,说明该题目能起到很好的区分作用;D<0.2时,说明该题目的区分性很差,必须淘汰;0.3≤D≤0.39,区分效果良好;0.2≤D≤0.29区分效果尚好,需要修改。D值为负数时,说明试题或答案有问题。

4、区分度与难度的关系 难度与区分度的关系非常密切,一般来说,较难的试题对高水平的考生区分度高,较易的试题对水平低的考生区分度高。一般讲难度越大或越小,其区分度越差。难度值为0.5时,其区分度最好。要达到区分度最好,要求各难度题目的分布也应中间难度题目多,两头难度(较易或较难)的题目数少些,为正态分布最好。

七、不同专家、学者公开发表的相关数据

难度 信度 区分度 项伯衡等 P≥7 容易题 R=0.9以上 好 D>0.4 区分性较好 P0.4-0.7 中难题 D0.39-0.3 良好 D0.29-0.2 尚好,需修改 D0.2以下 淘汰 金娣等 P0.0-0.2 难题 未谈 D>0.25(英国) 良好 P0.3-0.7 中难题 未谈 D ≥ 0.3(美国) 良好 P0.8- 1.0 易题 未谈 D = 0.2-0.29尚可,需修改 D< 0.2,区分性差,必须淘汰 D0.4以上 区分性好

难度 信度 区分度 刘恩山等 P=1 完美 未谈 D>0.4 极佳的试题 D0.39-0.3 尚可的试题,可能需要稍加改进 D0.29-0.2 不佳的试题,必须加以改进或废弃 D0.19以下 极差的试题,应废弃 陈继贞等 P0.3-0.7中等难题 未谈 D>0.4 非常好 P0.4-0.6 适宜 未谈 D0.39-0.3 良好,如能改进更好 P0.6- 0.8 易题 未谈 D = 0.2-0.29 尚好,用时需改进 D 0.19以下, 差,必须淘汰,改进

难度 信度 区分度 周美珍(本科教材) P178-179页 R最高为1 D=0.3-0.39 良好,如能改更好 最低为0 D=0.2-0.29 尚可,用时需改进 P0.3-0.7 R0.9以上(1985年上海0.96) D= 0.19以下,差,必须淘汰,改进 周美珍(研究生教材——生物教育学) P0.5 左右高考为宜 D=0.4-0.6 较好 P0.8 左右会考为宜 同上 宋锡全(生物学通报,1992第三期) D 0.3-0.7 或0.2-0.6计,区分性强,教好 P0.3-0.7 R最高为1 R最低为0 D=0.3以下, 区分性教差 P<0.3 难题 国外P0.95以上 D0.2-0.3以下,题难 D>0.7 太容易 D0.3-0.7,难易适度 P=0.5 最好 D0.3以下 区分性教差

主要参考文献: [1] 孟庆茂.教育科学研究方法[M].北京:中央广播电视大学出版社,2001:185~188 [3] 赵珂.试卷质量指标分析[J].新疆教育学院学报,200l,17(4):134~136 [4] 陈继贞,张祥沛,曹道平. 生物学教学论[M].北京:科学出版社,2003:234~243 [5] 项伯衡,郑春和.生物学教育测量与评价[M].南宁:广西教育出版社,2001:118~127 [6] 宋锡全,王素英.多项选择题的编写[J].生物学通报, 1992,27(3):40~46 [7] 任占营,杜其军等.《计算机操作系统》试题库系统的设计与实现[J].防灾科技学院学报,2007,9(2):92—94

Thank You ! 敬请各位专家、研究生批评指正!