第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2007 年广州市初中信息技术 结业考试海珠区质量分析 海珠区教育发展中心 范谊 2007 年 9 月 8 日.
心理与教育测量学 贵州师范大学教育科学学院 赵守盈.
7.1 假设检验 1. 假设检验的基本原理 2. 假设检验的相关概念 3. 假设检验的一般步骤 4. 典型例题 5. 小结.
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
資料分析 ---敘述統計分析.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
How to Use SPSS in Biomedical Data analysis
國立中正大學勞工研究所 黃良志 副教授 中 華 民 國 九 十 四 年 九 月
生物醫學統計學.
市場調查的問卷設計與編製流程(產品、服務等滿意度調查) 共2週
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
第 1 章 資料與統計.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第 2章 统计数据的描述 2.1 数据的计量尺度 2.2 统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第四章 抽样误差与假设检验 要求: 掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及其与参考值范围的区别。
统计学期末复习
Business Statistics Topic 6
Descriptive statistics
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
分析化学教程 第二章 分析数据处理及 分析测试的质量保证 (1) 分析化学教程( 学年)
第 5 章 樣本資料的數值分布.
研究方法 Research Methodology
第一章 敘述統計學.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
第八章 科研资料的整理与分析.
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第一章.
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
第十章 方差分析.
受欢迎的课堂具有什么特征 课堂观察研究 问卷调查研究
描述性统计学 作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)
課程七 假設檢定.
第七章 参数估计 7.3 参数的区间估计.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
生物統計 1 課程簡介 (Introduction)
抽样和抽样分布 基本计算 Sampling & Sampling distribution
EXCEL+ORIGN+SPSS的描述统计
抽樣分配 Sampling Distributions
相關統計觀念復習 Review II.
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
Descriptive Statistics
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
Review of Statistics.
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第八章 假设检验 8.1 假设检验的基本概念.
难点:连续变量函数分布与二维连续变量分布
生物统计学 Biostatistics 第一章 统计数据的收集与整理
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第七章 计量资料的统计分析.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
97學年度第二學期水保系碩專班專題報告 農生再生試辦區之分析探討 報告人:簡榮杰.
假设检验.
创新机制 团结协作 稳步推进 病虫害专业化统防统治
Presentation transcript:

第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授

教学目标 了解语言测试的两大功能 了解语言测试的分类及各类测试的特点与性质 了解常模及差异显著性的含义 数据的类型 数据分布的集中趋势与离散程度 常模、标准化及差异的显著性

2.1 考试、测量与评估 Test Measurement Evaluation

一、语言测试功能 1 教学功能 入学 课程 结业 入学 考试 课程 考试 结业

一、语言测试的功能 2 研究功能 研究问题及假设(Questions & Hypotheses) 研究对象及抽样(Objects & Sampling) 研究方法与过程(Methods & Procedures) 实验设计、测量工具、变量及类型、分析方法 研究结果与讨论(Results & Discussions) 描述(统计图表)、解读(结果及原因)

二、语言测试的类别 测试目的 测量形式 考分解释 考试时间 测试方式 影响力度 分离式测试(Discrete-point Test) 水平测试(Proficiency Test) 学业测试(Achievement Test) 学能测试(Scholastic Aptitude Test) 分级测试(Placement Test) 诊断测试(Diagnostic Test) 测试方式 直接测试(Direct Test) 间接测试(Indirect Test) 测量形式 分离式测试(Discrete-point Test) 综合式测试(Integrative Test) 考分解释 常模参照测试(Norm-referenced Test) 标准参照测试(Criterion-referenced Test) 考试时间 速度测试(Speed Test) 难度测试(Power Test) 影响力度 高风险测试(High-stakes Test) 低风险测试(Low-stakes Test)

数据的类型及分布 信息 尺度 信息类型 类别 顺序 间距 比例 定类 √ 定序 定距 定比 定类(nominal scale):“=”或“≠”,如姓名、类别 定序(ordinal scale):“>”或“<”,如学号、排名 定距(interval scale):“+”或“-”,如年龄、成绩 定比(ratio scale):“×”或“÷”,如比率、权重 SPSS(统计产品及服务解决方案,Statistical Product and Service Solutions)软件中仅有三种:名义、序号和度量 信息 尺度 信息类型 类别 顺序 间距 比例 定类 √ 定序 定距 定比

分布的集中趋势(central tendency) 算术平均数(Mean) 众数(Mode) Mo: 数列中出现次数最多的数 中位数(Median) Me: 位于数列中间位置的数

分布的离散程度(dispersion) 极差/全距(Range) 平均差(Average deviation) 方差(Variance) 标准差(Standard deviation) 标准差系数(标准差相对于均值的量) 标准误(抽样的平均误差,等于抽样均值的标准差) n – 1为自由度

自由度(degree of freedom/df) 定义 当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。 公式 df = n – k,n为样本量,k为被限制的条件数或变量个数。 df = n,对总体均值的估计没有限制条件,样本中的每个x 都可以自由变化(k=0) df = n-1,对总体方差的估计,由于受样本均值的约束,只有 n-1 个 x 可自由取值(k=1)

频数分布(Frequency) 成绩频数分布表 成绩频数分布直方图 成绩频数分布曲线图 分组 组距(l) 频数(fi) 频率(F) 密度(D) 50~60 10 2 5.0 0.2 60~70 7 17.5 0.7 70~80 11 27.5 1.1 80~90 12 30.0 1.2 90~100 8 20.0 0.8 合计 40 成绩频数分布直方图 成绩频数分布曲线图

分布的正态性 (normality)、偏度(skewness)和峰度(kur`tosis) 峰度值越大, 标准差越小 三值归一,对称分布 皮尔生(Pearson)规则:在钏型分布只存在适度或轻微偏斜的情形下,中位数一般介于众数与算术平均数之间;并且,中位数与算术平均数的距离,大约只是中位数与众数距离的一半。(黄良文,2000,P.74,《统计学原理》,中国统计出版社:北京) 正偏移 负偏移

标准正态分布、标准化和标准分(Z Score)、T Score、 GRE Score、IQ 。 -3 -2 -1 1 2 3 标准正态分布 不同平均值的正态分布 。 不同标准差的正态分布

标准正态密度函数 预测时,置信度与准确度、精确度(说服力)的关系怎样? 0.5% 2% 13.5% 34% 34% 13.5% 2% * * * * * * * * * * * * * * * * * * 预测时,置信度与准确度、精确度(说服力)的关系怎样?

原始分与标准分对比 甲、乙二考生相比,甲的总分高但标准分却低,请解释为什么? 如果总分服从近似正态分布,丙的排名如何? 科 目 总分 均值 科 目 总分 均值 标准差 原始数 标准分 甲 乙 丙 1. 语文 70 8 91 71 2.625 0.125 0.000 2. 数学 56 4 50 64 55 -1.500 2.000 -0.250 3. 英语 42 5 40 51 -0.400 1.800 4. 政治 80 10 85 75 0.500 -0.500 5. 物理 60 2.500 5.000 6. 化学 12 45 2.917 0.417 0.167 合 计 — 401 381 332 6.642 9.342 -0.983 甲、乙二考生相比,甲的总分高但标准分却低,请解释为什么? 如果总分服从近似正态分布,丙的排名如何?

求综合成绩排名 如下表所示,已知某两位毕业生的三科成绩、各科成绩的平均分和标准差、综合标准化成绩的平均分和标准差。试结合概率分布表求两人在100名毕业生中的排名。 课程 成绩 平均分 标准差 σ 标准分 甲 乙 C1 70 69 72 8 C2 55 53 50 2 C3 89 95 10 综合标准化成绩 3 1 排名+1 -.25 -.38 2.5 1.5 1.9 2.5 4.15 3.62 F(z)甲 =.75 F(z)乙 =.47 (1-.75)/2 ×100=13 (1-.47)/2 ×100=27 1.15 .62

假设检验(Hypothesis Testing) 1、提出假设: 原(零、虚无)假设(Null Hypothesis)H0:大概率事件,通常用来被拒绝 备择(对立)假设(Alternative Hypothesis)H1:小概率事件,通常为期望结果 2、确定显著水平(Significance level, Sig. / α ),通常为小概率,如.05(5%), .01(1%),.001(1/1000)等;分单双侧检验(单侧仅考虑一个方向的变化)。 置信度(Confidence level, 1-α) [-1,1] F=0.6827 [-2,2] F=0.9500 [-3,3] F=0.9973 4、做出决策 如果p 值比 α 更小,则说明H0几乎不可能成立,完全有理由拒绝H0而接受H1; 相反,如果p 值大于 α,则说明拒绝H0的理由还不够充分,只能接受H0。 拒绝区间 α/2 接受区间 1-α p/2 3、计算抽样的统计量或概率值 p。 注意:如果p值不大,即使接受H0,结论的说服力也不强;如果p值为大概率,那么接受H0同样具有说服力。

两类错误 决 策 H0为真 H0为假 拒绝H0 弃真(Type I error) 决策正确 接受H0 纳伪(Type II error) 决 策 H0为真 H0为假 拒绝H0 弃真(Type I error) 决策正确 接受H0 纳伪(Type II error) 弃真的概率为显著性水平α,弃真也称α错误。由于α为一个很小的概率,所以犯弃真错误的可能性很小。 纳伪的概率用β表示,纳伪也称β错误。 “拒绝才有说服力”:H0通常为大概率事件,对于大概率事件,通过逻辑推理即可得出结论而没有必要进行假设检验,所以假设检验中的H0通常是用来被拒绝的,并且弃真的可能性很小。 小概率原理:若能证实小概率事件(H1),证明一般情况下不可能发生的事情确实发生了,那就意味假设中的“小概率”事实上很可能不是小概率,H1的发生肯定是有原因的。

假设检验例析 一、试用假设检验的“小概率”原理分析以下现象: 二、试分别列出下列检验的H0、H1和期望的p值: 如果一般情况下不可能发生的事情通过实验证明确实发生了,说明实验说服力强。 如果大家普遍接受的理论被证明确实有误,则证伪很有说服力。 如果嫌疑人的指纹跟罪犯在现场留下的指纹一致,则嫌疑人正是罪犯。 如果考生在高考中的排名位于前十万分之一,则加20分很有说服力。 二、试分别列出下列检验的H0、H1和期望的p值: 正态分布检验(Test of Normality) 方差齐性(同质性)检验(Test of Homogeneity of Variance ) 评分员之间的一致性检验(Test of Inter-Rater Consistency) 数据的相关性检验(Test of Correlation)