第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授
教学目标 了解语言测试的两大功能 了解语言测试的分类及各类测试的特点与性质 了解常模及差异显著性的含义 数据的类型 数据分布的集中趋势与离散程度 常模、标准化及差异的显著性
2.1 考试、测量与评估 Test Measurement Evaluation
一、语言测试功能 1 教学功能 入学 课程 结业 入学 考试 课程 考试 结业
一、语言测试的功能 2 研究功能 研究问题及假设(Questions & Hypotheses) 研究对象及抽样(Objects & Sampling) 研究方法与过程(Methods & Procedures) 实验设计、测量工具、变量及类型、分析方法 研究结果与讨论(Results & Discussions) 描述(统计图表)、解读(结果及原因)
二、语言测试的类别 测试目的 测量形式 考分解释 考试时间 测试方式 影响力度 分离式测试(Discrete-point Test) 水平测试(Proficiency Test) 学业测试(Achievement Test) 学能测试(Scholastic Aptitude Test) 分级测试(Placement Test) 诊断测试(Diagnostic Test) 测试方式 直接测试(Direct Test) 间接测试(Indirect Test) 测量形式 分离式测试(Discrete-point Test) 综合式测试(Integrative Test) 考分解释 常模参照测试(Norm-referenced Test) 标准参照测试(Criterion-referenced Test) 考试时间 速度测试(Speed Test) 难度测试(Power Test) 影响力度 高风险测试(High-stakes Test) 低风险测试(Low-stakes Test)
数据的类型及分布 信息 尺度 信息类型 类别 顺序 间距 比例 定类 √ 定序 定距 定比 定类(nominal scale):“=”或“≠”,如姓名、类别 定序(ordinal scale):“>”或“<”,如学号、排名 定距(interval scale):“+”或“-”,如年龄、成绩 定比(ratio scale):“×”或“÷”,如比率、权重 SPSS(统计产品及服务解决方案,Statistical Product and Service Solutions)软件中仅有三种:名义、序号和度量 信息 尺度 信息类型 类别 顺序 间距 比例 定类 √ 定序 定距 定比
分布的集中趋势(central tendency) 算术平均数(Mean) 众数(Mode) Mo: 数列中出现次数最多的数 中位数(Median) Me: 位于数列中间位置的数
分布的离散程度(dispersion) 极差/全距(Range) 平均差(Average deviation) 方差(Variance) 标准差(Standard deviation) 标准差系数(标准差相对于均值的量) 标准误(抽样的平均误差,等于抽样均值的标准差) n – 1为自由度
自由度(degree of freedom/df) 定义 当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。 公式 df = n – k,n为样本量,k为被限制的条件数或变量个数。 df = n,对总体均值的估计没有限制条件,样本中的每个x 都可以自由变化(k=0) df = n-1,对总体方差的估计,由于受样本均值的约束,只有 n-1 个 x 可自由取值(k=1)
频数分布(Frequency) 成绩频数分布表 成绩频数分布直方图 成绩频数分布曲线图 分组 组距(l) 频数(fi) 频率(F) 密度(D) 50~60 10 2 5.0 0.2 60~70 7 17.5 0.7 70~80 11 27.5 1.1 80~90 12 30.0 1.2 90~100 8 20.0 0.8 合计 40 成绩频数分布直方图 成绩频数分布曲线图
分布的正态性 (normality)、偏度(skewness)和峰度(kur`tosis) 峰度值越大, 标准差越小 三值归一,对称分布 皮尔生(Pearson)规则:在钏型分布只存在适度或轻微偏斜的情形下,中位数一般介于众数与算术平均数之间;并且,中位数与算术平均数的距离,大约只是中位数与众数距离的一半。(黄良文,2000,P.74,《统计学原理》,中国统计出版社:北京) 正偏移 负偏移
标准正态分布、标准化和标准分(Z Score)、T Score、 GRE Score、IQ 。 -3 -2 -1 1 2 3 标准正态分布 不同平均值的正态分布 。 不同标准差的正态分布
标准正态密度函数 预测时,置信度与准确度、精确度(说服力)的关系怎样? 0.5% 2% 13.5% 34% 34% 13.5% 2% * * * * * * * * * * * * * * * * * * 预测时,置信度与准确度、精确度(说服力)的关系怎样?
原始分与标准分对比 甲、乙二考生相比,甲的总分高但标准分却低,请解释为什么? 如果总分服从近似正态分布,丙的排名如何? 科 目 总分 均值 科 目 总分 均值 标准差 原始数 标准分 甲 乙 丙 1. 语文 70 8 91 71 2.625 0.125 0.000 2. 数学 56 4 50 64 55 -1.500 2.000 -0.250 3. 英语 42 5 40 51 -0.400 1.800 4. 政治 80 10 85 75 0.500 -0.500 5. 物理 60 2.500 5.000 6. 化学 12 45 2.917 0.417 0.167 合 计 — 401 381 332 6.642 9.342 -0.983 甲、乙二考生相比,甲的总分高但标准分却低,请解释为什么? 如果总分服从近似正态分布,丙的排名如何?
求综合成绩排名 如下表所示,已知某两位毕业生的三科成绩、各科成绩的平均分和标准差、综合标准化成绩的平均分和标准差。试结合概率分布表求两人在100名毕业生中的排名。 课程 成绩 平均分 标准差 σ 标准分 甲 乙 C1 70 69 72 8 C2 55 53 50 2 C3 89 95 10 综合标准化成绩 3 1 排名+1 -.25 -.38 2.5 1.5 1.9 2.5 4.15 3.62 F(z)甲 =.75 F(z)乙 =.47 (1-.75)/2 ×100=13 (1-.47)/2 ×100=27 1.15 .62
假设检验(Hypothesis Testing) 1、提出假设: 原(零、虚无)假设(Null Hypothesis)H0:大概率事件,通常用来被拒绝 备择(对立)假设(Alternative Hypothesis)H1:小概率事件,通常为期望结果 2、确定显著水平(Significance level, Sig. / α ),通常为小概率,如.05(5%), .01(1%),.001(1/1000)等;分单双侧检验(单侧仅考虑一个方向的变化)。 置信度(Confidence level, 1-α) [-1,1] F=0.6827 [-2,2] F=0.9500 [-3,3] F=0.9973 4、做出决策 如果p 值比 α 更小,则说明H0几乎不可能成立,完全有理由拒绝H0而接受H1; 相反,如果p 值大于 α,则说明拒绝H0的理由还不够充分,只能接受H0。 拒绝区间 α/2 接受区间 1-α p/2 3、计算抽样的统计量或概率值 p。 注意:如果p值不大,即使接受H0,结论的说服力也不强;如果p值为大概率,那么接受H0同样具有说服力。
两类错误 决 策 H0为真 H0为假 拒绝H0 弃真(Type I error) 决策正确 接受H0 纳伪(Type II error) 决 策 H0为真 H0为假 拒绝H0 弃真(Type I error) 决策正确 接受H0 纳伪(Type II error) 弃真的概率为显著性水平α,弃真也称α错误。由于α为一个很小的概率,所以犯弃真错误的可能性很小。 纳伪的概率用β表示,纳伪也称β错误。 “拒绝才有说服力”:H0通常为大概率事件,对于大概率事件,通过逻辑推理即可得出结论而没有必要进行假设检验,所以假设检验中的H0通常是用来被拒绝的,并且弃真的可能性很小。 小概率原理:若能证实小概率事件(H1),证明一般情况下不可能发生的事情确实发生了,那就意味假设中的“小概率”事实上很可能不是小概率,H1的发生肯定是有原因的。
假设检验例析 一、试用假设检验的“小概率”原理分析以下现象: 二、试分别列出下列检验的H0、H1和期望的p值: 如果一般情况下不可能发生的事情通过实验证明确实发生了,说明实验说服力强。 如果大家普遍接受的理论被证明确实有误,则证伪很有说服力。 如果嫌疑人的指纹跟罪犯在现场留下的指纹一致,则嫌疑人正是罪犯。 如果考生在高考中的排名位于前十万分之一,则加20分很有说服力。 二、试分别列出下列检验的H0、H1和期望的p值: 正态分布检验(Test of Normality) 方差齐性(同质性)检验(Test of Homogeneity of Variance ) 评分员之间的一致性检验(Test of Inter-Rater Consistency) 数据的相关性检验(Test of Correlation)