Interpretation of Test Scores

Slides:



Advertisements
Similar presentations
1.( O ) 在統計學上,大數法則也就是所謂中央 極限定理。 ( 是非題 ) 【 91. 彰師大 測驗與統計】
Advertisements

3 受訪者對於本校畢業生各項就業力表現的滿意程度 4 受訪者認為本校畢業生哪些就業力具有優勢.
傳統試題和 IRT試題 分析的方法 國家教育研究院籌備處測評組
單元九:單因子變異數分析.
2 項目分析.
Lecture 7 試題分析 試題分析的意義 試題分析的目的 試題分析的步驟 試題難度分析 試題鑑別度分析 難度與鑑別度的關係 選項分析.
酸鹼食物對人體的影響性.
普通話水平測試 考試課程與能力等級說明 查詢
智力測驗計分與解釋 輔導老師 黃曉樺.
香港扶貧計劃 關愛基金 Group 5 組員 馬曉真 余葆 董賽騫 蕭雪兒.
肆、多元評量的設計與實施.
104 學年度第二學期 高中多元選修課程說明會 Calculus(I) 開課教師:老師 開課教師: Mr. Math 老師2016/02/15.
行銷研究 單元二 行銷研究的程序.
應用統計學 授課大綱 – 暑期班 By: Dr. Tsung-Nan Tsai.
2 杜威十進分類法 複習 000 總類 100 哲學及心理學類 200 宗教類 300 社會科學類 400 語文類 500 自然科學及數學類
校內試題的難易度與鑑別度 報告人:屏東縣數學科國教輔導團 林天祥.
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
測驗的信度 林陳涌 國立台灣師範大學 生物學系.
17 類別資料的分析  學習目的.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
陳維魁 博士 儒林圖書公司 第九章 資料抽象化 陳維魁 博士 儒林圖書公司.
TQC+ JAVA全國教師研習會 PLWeb 程式設計練習平台 簡介.
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
Signal and Systems 教師:潘欣泰.
Project 2 JMVC code tracing
第零章 統計學概論 0.1 統計學的定義 0.2 敘述統計學與推論統計學 0.3 測量尺度 0.4 資料、資訊與因果關係 ©2009 陳欣得
Using EXCEL for ANOVA.
以 WebQuest 模版整合教材 促進學生主動學習
Tense Buster 操作手冊 畹禾有限公司.
第十一章 相關研究法.
班 級: 通訊二甲 學 號: B 學 生: 楊 穎 穆 老 師: 王 志 湖
1.3 在整除性問題之應用 附加例題 3 © 文達出版 (香港 )有限公司.
指導老師: 蘇明俊 老師 組長:潘翠娥 組員:張惠雅 葉麗華
虎克定律與簡諧運動 教師:鄒春旺 日期:2007/10/8
BCY行動研究2011之後 上課日誌 隔週上課前兩天以 時間: 年 月 日  紀錄者: 檔案名: 上課日期+學生名字
第一章 直角坐標系 1-3 函數圖形.
四年級 數學科.
小學數學科 二年級課程 — 統計圖 製作 — 麥頌儀老師 (青山天主教小學上午校).
數學 近似值 有效數值.
網頁資料知多少? 事 實 ? 謠言?.
基礎數學概念評量 柯華葳 編製.
信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.
臨床生理復健相關適性化評估測驗 組員: 翁嘉遜、陳雅苹、吳蕙雯、 陳愉婷、管玉芬、許全.
楊志強博士 國立台北師範學院 測驗品質考驗與TestGraf 98的應用 楊志強博士 國立台北師範學院
How to design a writing task with designated genre
小數除法.
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
共源極頻率響應 科系:通訊工程學系 執導老師:王志湖 學號:B 姓名:何信賢.
視訊skype計畫 多元評量 蔡麗棉.
106年度教育雲服務策略聯盟計畫 酷學習 COOL CLASS.
Live ABC 英檢網使用說明 - 1 登入帳號:學號 登入密碼:學號 (第一次登入請更改密碼).
小學數學科 方塊圖 製作 — 麥頌儀老師 (青山天主教小學上午校).
臺北市立教育大學 張德銳、丁一顧、李俊達、 簡賢昌、高紅瑛
教育概論 教育原理與制度試題解題與分享 第五組
試題分析.
英文管理期刊導讀 A Guide on Reading International Management Journals Spring, 2007 Friday, 10:10~12:00 R9208 Instructor: 張婉菁 Phone:
第一講 哲學系 林火旺教授 倫理學 第一講 哲學系 林火旺教授
二項分配-Binomial 伯努利試驗(Bernoulli Trial) 每一次試驗皆僅有兩種可能結果,不是成功(S),就是失敗(F)。
第十章 態度量表(問卷設計).
第十四章名義資料的數字 描述:關連測量 © Copyright 版權所有:學富文化事業有限公司。本光碟內容僅提供教師於教學上使用,非經本公司許可,禁止複製 (給學生)。感謝老師的配合。
數位學習 孫春在、曾憲雄、陳登吉、袁賢銘.
資料表示方法 資料儲存單位.
第一節 餐飲服務的定義及範圍 4-2 鋸條的種類、用途與規則 一. 鋸條規格 二. 鋸條的種類 三. 鋸條的用途.
科學專題研究 日常飲品pH值的探究.
Introduction of School-based Curriculum Development Support Services for Secondary Schools 中學校本課程發展支援服務簡介 School-based Curriculum Development (Secondary)
第四組 停車場搜尋系統 第四組 溫允中 陳欣暉 蕭積遠 李雅俐.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
JUDGE GIRL 使用介紹 & 常見問題 TAs :
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

Interpretation of Test Scores 林陳涌 師大生物系

試題分析 試題的品質除了發展前需注意事項外, 尚可在測試後藉由統計的方法來了解試題的品質. 提高試題的品質以增進測驗的信度與效度

試題分析可提供的資訊 題目的功能是否如預期? NRT CRT 題目的難度是否適當? 題目是否有缺點? 題目的誘答是否有效?

試題分析的功能 回饋給學生 回饋給老師 提供改進課程的依據 增進教師命題的技巧

試題分析的步驟 1. 根據總分的高低依序排列試卷 2. 從最高分部分向下取總人數的27%為高分組(higher group), 再從最低分部分向上取總人數的27%為低分組(lower group)* 以27%所數據的可靠性最大, 一般合理的百分比在25%--33%之間.

試題分析的步驟 3. 分別計算高低分組在每個試題答對人數的百分比 PH PL 4. 計算每題難度指數 5. 計算每題鑑別度指數 P = (PH + PL)/2 5. 計算每題鑑別度指數 D = PH-PL 6. 檢查每一題所列選項的回答人數, 以確定誘答力

難度…….

難度分析 難度分析的主要目的在確定每一個試題的難度. 最簡單的是計算全體受試者答對每議題的人數的百分比. 有分高低分組則 P=R/N(100) 有分高低分組則 P = (PH + PL)/2

難度指數的意義 難度指數數值越大, 表示題目越簡單 難度指數數值越小, 表示題目越難 這種難度指數是一種順序量尺(ordinal scale), 無法說明各難度之間的差異大小. 這種難度指數容易計算與使用, 若要發展較精確的工具, 可使用等距量尺(interval scale)分析. (P. 263)

試題難度與測驗分數的分配 難度高的測驗, 如題目的難度均落在 P .25時, 其分配型態是正偏 題目難, 無法區別能力較低的學生 難度低的測驗, 如題目的難度均落在 P.80時, 其分配型態是負偏 題目簡單, 無法區別能力較高的學生 現在高中聯考的觀點

試題難度與測驗分數的分佈範圍 比較 三組的 變異數 (分布範圍) 信度 難度集中在.5 難度分散在 .1-.9之間 比較 三組的 變異數 (分布範圍) 信度 難度集中在.5 難度分散在 .1-.9之間 難度分佈在兩端 .1-.3, .8左右

鑑別度

鑑別力的分析法 內部一致性分析 旨在了解各個試題的功能是否和整個測驗的功能相符合一致. 此分析的假設是:整個測驗的分數具有某種程度的效度, 如果此假設成立,則個別的反應若和總分數之間具有一致性, 就表示題目有某種程度的效度. 鑑別度指數 D = PH-PL

鑑別度指數 鑑別度指數介於 -1.00--+1.00之間 鑑別度為0的因素可能 指數愈大, 鑑別度愈高 指數愈小, 鑑別度愈低 題目太難獲太容易 題目不清楚

難度與鑑別度的關係 圖8-4

試題選擇的標準 評鑑試題的優劣, 沒有一定的標準. 通常 先選出鑑別度較高的題目 在從中選出難度指數較適中的題目

鑑別度的評鑑標準(Eble, 1979) 鑑別指數 試題評鑑 0.40以上 非常優良 0.30--0.39 優良, 可能需要修改 鑑別指數 試題評鑑 0.40以上 非常優良 0.30--0.39 優良, 可能需要修改 0.20--0.29 尚可, 通常需要修改 0. 19以下 劣, 淘汰或修改

難度的評鑑標準 以接近 0.50的試題最為適宜 很難全找到 接近0.50的試題 選題仍需視測驗的目的 興趣 雙向細目表的分配, 但需力求全測驗的平均難度接近0.50

選目的有效性分析-1 組別 選目 A B* C D N D P 高分組 2 16 1 1 0 0.4 0.6 低分組 5 8 4 3 0

選目的有效性分析-2 組別 選目 A* B C D N D P 高分組 14 0 0 6 0 0.1 0.65 低分組 12 0 8 0 0

選目的有效性分析-3 組別 選目 A B C* D N D P 高分組 9 0 10 1 0 0.2 0.4 低分組 5 4 6 5 0

選目的有效性分析-4 組別 選目 A B* C D N D P 高分組 5 6 4 5 0 0.05 0.28 低分組 4 5 5 6 0

選目的有效性分析-5 組別 選目 A B C D* N D P 高分組 3 6 3 8 0 -0.2 0.50 低分組 3 1 4 12 0

選目的有效性分析-6 組別 選目 A B* C D N D P 高分組 0 10 10 0 0 0.1 0.45 低分組 2 8 8 2 0

標準參照評量的試題分析

鑑別力分析 教學前後的差異 接受教學與未接受教學的差異 精熟組與味精熟組的差異

難度分析 可用前述的方法 但因標準參照評量所以選題不要只找難度0.5的

測驗詮釋

資料分析的階層及範圍 1.試題表現 (Item Performance): 2.主題表現 (Task Performance): 以學生在某一試題之表現代表該試題所評測之主概念或評測目標之學習表現。 2.主題表現 (Task Performance): 以學生在某些相關試題的表現代表這些試題所評測的主概念或主題之學習表現。 3.分測驗表現 (Subtest Performance): 以學生在一分測驗的表現來代表該分測驗所評測之概念次領域(Sub-domain)之學習表現。

資料分析的階層及範圍 4.測驗表現 (Test Performance): 5.整體表現 (Total Performance): 以學生在一測驗的表現來代表該測驗所評測之概念領域(Domain) 之學習表現。 5.整體表現 (Total Performance): 以學生在整體測驗組(Test battery)的表現來代表該整體測驗所評測之學科之學習表現。

詮釋類型 敘述的解釋 溯因的解釋 預測的解釋 評斷的解釋

詮釋注意原則 解釋測驗者應了解測驗的性質與功能 測驗分數應為學生保密 解釋分數應參考其他有關資料 解釋分數應避免只給數字

詮釋注意原則 對低分者得解釋應更謹慎小心 解釋分數時應設法了解學生的感受 解釋分數只做建議, 而勿作決定 應以一段可信賴範圍解釋 標準誤 信賴水準

The End!

生物學習表現之認知精熟度階層 3.應用基本科學資訊(Applies, A) 4.統整科學資訊(Integrates, I) 分析及解釋資料。 應用科學知識進行推理、推論、預測。 分析資料並應用資料進行推理、推論、預測。 4.統整科學資訊(Integrates, I) 綜合各項資訊, 指出各變項之間的關係。 統整實驗過程及數據, 指出擬驗證之假說及 提出結論。 統整科學概念, 提出結論。 綜合各階層科學知識, 以解決問題。

生物學習表現之認知精熟度階層(Cognitive Proficiency Levels) 1.知曉科學知識(Knows, K) 記憶在學校課程或日常生活經驗中所習得之科學 事實或知識。 ‧區別或界定基本科學名詞、術語或科學實驗器材。 閱讀圖表。 2.了解基本科學原理法則(Understands, U) 了解基本科學概念、原理、法則 (Principles)。 了解科學學說和定律的內容。 了解科學知識間的關係。

測驗結果之解釋模式 1. 試題中心(Item-centered): 2. 目標中心(Objective-centered): 應用許多試題來評測及解釋某一內容領域的學習進展(Many test items are used to assess a large content domain.)。 2. 目標中心(Objective-centered): 每一項評測目標均有一定數目的試題來評測 及解釋(Each objective is assessed by a number of test items.)。

測驗結果之解釋模式 3. 分測驗中心(Subtest-centered): 一個測驗可以分為數個「分測驗」,每一個「分測驗」分別代表一個學習內容之「次領域」(Sub-domain);而每一分測驗則由相當數目的試題組成,以評測及解釋相對應之「次領域」評測目標 (Each subtest is assessed with a moderate number of items.)。