傳統試題和 IRT試題分析的方法國家教育研究院籌備處測評組

Slides:

Advertisements

Similar presentations

工職數學第四冊第一章導數 1 － 1 函數的極限與連續 1 － 2 導數及其基本性質 1 － 3 微分公式 1 － 4 高階導函數.

Advertisements

©2009 陳欣得統計學 —e1 微積分基本概念 1 第 e 章微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.

不定積分不定積分的概念不定積分的定義 16 不定積分的概念 16.1 不定積分的概念以下是一些常用的積分公式。

變數與函數大綱 : 對應關係函數函數值顧震宇台灣數位學習科技股份有限公司. 對應關係蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元顧震宇老師台灣數位學習科技股份有限公司變數與函數下表是早餐店價格表的一部分：蛋餅飯糰土司漢堡咖啡奶茶.

單元九：單因子變異數分析.

資料整理與圖表編製內容說明：教師與學生互動練習，熟習資料整理與圖表編製。.

資料整理與圖表編製內容說明：教師與學生互動練習，熟習資料整理與圖表編製。.

Interpretation of Test Scores

2 項目分析.

Lecture 7 試題分析試題分析的意義試題分析的目的試題分析的步驟試題難度分析試題鑑別度分析難度與鑑別度的關係選項分析.

智力測驗計分與解釋輔導老師黃曉樺.

項目分析與信度估計（Item Analysis and Reliability Estimation ）

肆、多元評量的設計與實施.

音樂之旅第一冊單元二音名、唱名.

遞迴關係－爬樓梯.

數據分析林煜家魏韶寬陳思羽邱振源.

TestGraf98 軟體介紹桃園縣深耕種子教師福豐國中郭俊麟.

17 類別資料的分析  學習目的.

第四章　數列與級數 4－1　等差數列與級數 4－2　等比數列與級數 4－3　無窮等比級數下一頁總目錄.

TQC+ JAVA全國教師研習會 PLWeb 程式設計練習平台簡介.

第五章　標準分數與常態分配第一節　相對地位量數第二節　常態分配第三節　偏態與峰度第四節　常態化標準分數第五節　電腦習作.

Project 2 JMVC code tracing

SQL Stored Procedure SQL 預存程序.

Tense Buster 操作手冊畹禾有限公司.

第十一章相關研究法.

Chap3 Linked List 鏈結串列.

第一章直角坐標系 1－1　數系的發展.

虎克定律與簡諧運動教師：鄒春旺日期：2007/10/8

----直線運動應用力學by志伯 ----直線運動

第一章直角坐標系 1-3　函數圖形.

第十章補充允收抽樣.

複拍子國小音樂科學習加油站 Content.edu.tw/primary/music/tp_ck

哪些人是管理者？管理者？指和一群人工作，並藉由協調他人來完成工作，以便達成組織目標的人

Definition of Trace Function

小學四年級數學科 8.最大公因數.

信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.

臨床生理復健相關適性化評估測驗組員: 翁嘉遜、陳雅苹、吳蕙雯、陳愉婷、管玉芬、許全.

楊志強博士國立台北師範學院測驗品質考驗與TestGraf 98的應用楊志強博士國立台北師範學院

學習內容概說損失函數雜音：造成品質變異的原因訊號雜音比直交表回應表與回應圖田口方法.

Measurement in Research

報告人: 范誠達指導老師:任維廉教授日期:2010/5/4

大綱：加減法的化簡乘除法的化簡去括號法則蘇奕君台灣數位學習科技股份有限公司

教學媒體作業歷史系99級楊琇媚. 教學媒體作業歷史系99級楊琇媚.

第五章估計與信賴區間 5.1 估計概論估計量的分配信賴度、信賴區間與最大容忍誤差16

圓的定義在平面上，與一定點等距的所有點所形成的圖形稱為圓。定點稱為圓心，圓心至圓上任意一點的距離稱為半徑，「圓」指的是曲線部分的圖形，故圓心並不在圓上.

Live ABC 英檢網使用說明 - 1 登入帳號：學號登入密碼：學號（第一次登入請更改密碼）.

嘉義市崇文國小製作者：林雅惠、張英燦、曾瑞媛日期：

流程控制：Switch-Case 94學年度第一學期‧資訊教育東海大學物理系.

Development of the Standardized Tests

MiRanda Java Interface v1.0的使用方法

臺北市立教育大學張德銳、丁一顧、李俊達、簡賢昌、高紅瑛

第十一單元兩曲線圍出的面積.

二項分配－Binomial 伯努利試驗（Bernoulli Trial）每一次試驗皆僅有兩種可能結果，不是成功（S），就是失敗（F）。

※歡迎挑戰，兩人(隊)中先完成連線即算過關！

例題 1. 多項式的排列 1-2 多項式及其加減法將多項式按下列方式排列： (1) 降冪排列：______________________ (2) 升冪排列：______________________ 排列降冪：次數由高至低升冪；次數由低至高.

6.1 動畫檔案的格式 6.2 建立合適的動畫元素.

Chapter 13 測量之信度與效度分析. Chapter 13 測量之信度與效度分析潛在變數與衡量變數的關係在理論模型中的變數，通常很難直接衡量，我們稱為潛在變數（latent variables）我們必須找尋或設計出足以代表這些潛在變數的衡量指標，而這些指標則稱為衡量變數（measurement.

第十三章彩色影像處理.

Test for R Data Processing & Graphics

一可靠度問題.

第十四章：工作抽查工作抽查：係在隨機時間進行大量觀測以分析工作的方法；其結果可用來有效訂定各操作的適當寬放、衡量機器和人員的操作情形及建立生產的標準時間；其數據的準確性，視觀測次數及隨機觀測所涵蓋的期間而定。工作抽查的優點：p524。工作抽查的理論：係依據機率的基本法則；公式如p 及例題14-1。。

單元三：敘述統計內容：＊統計量的計算＊直方圖的繪製.

11621 : Small Factors ★★☆☆☆ 題組：Problem Set Archive with Online Judge

17.1 相關係數判定係數：迴歸平方和除以總平方和相關係數判定係數：迴歸平方和除以總平方和.

JUDGE GIRL 使用介紹 & 常見問題 TAs :

第三章比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.

Presentation transcript:

傳統試題和 IRT試題分析的方法國家教育研究院籌備處測評組 cheng@naer.edu.tw曾建銘

傳統試題和 IRT試題分析的方法傳統試題分析的方法 IRT試題分析的方法試題分析的解釋

試題分析（item analysis）一、前言二、試題分析功能三、測驗試題分析

一、前言信度與效度是測驗二項的重要特徵，二項特徵均須視試題品質優劣而定，而試題品質則可藉由試題分析而提高。

前言試題分析包括：（1）依試題內容與形式做品質分析（2）依試題統計特性做量化分析。

品質分析可由試題的內容審查、有效命題原則、教學目標進行邏輯的分析，即可達到目的。

量化分析量化的目的主要在分析每題試題所具備三大統計特徵：難度、鑑別度、誘答力。於考試完後做試題的分析，以便將內容效度適切的、鑑別力高的與難度適中的題目保留下來以建立題庫。

二、試題分析功能（一）提供回饋給學生，作為學生改進學習方法的參考。（二）提供回饋給教師，作為實施補救教學的依據。（三）提供改進課程建議的依據。（四）增強教師編製測驗的技巧。（五）增進測驗題庫運用的效能。（六）可縮短測驗長度，節省測驗時間，提高信度與效度。

三、測驗試題分析常模參照測驗試題分析分為三種分析：（1）難度（2）鑑別力（3）誘答力。

三、測驗試題分析試題量的分析步驟難度分析鑑別力分析難度與鑑別力的關係選擇題選項誘答力分析效標參照測驗試題分析

試題量的分析步驟根據原始分數的高低依序排列。從最高分往下取總人數的25%~33%為高分組再從最低分往上取總人數的25%~33%為低分組。(註一) 分別計算高分組與低分組在每一道題答對人數與百分比。計算每題的難度指數。計算每題的鑑別指數。檢查每一題所列選項回答人數以確定誘答力。

註一： Kelley(1939)─當測驗分數是常態分配時，以27%分組試題的鑑別力最可靠。 ◎當百分比低於27%時可靠性較低，而百分比太大時，會影響題目的鑑別作用。 ◎對教師而言，合理的分組百分比可在25%到33%之間。，

難度分析通過百分比分析等距量尺分析試題難度與測驗分數的分配

通過百分比分析計算全體受試者答對每題的人數百分比，這百分比稱為難度指數。如下：【公式1】 P = R / N P：難度指數優點：簡單易行。缺點：無法顯示試題區別功能，到底是高分組答對較多或低分組。

通過百分比分析【公式2】 P = P H ＋ P L / 2 P ：難度指數 P H：高分組答對的人數 P L：低分組答對的人數優點：（1）答對百分比表示難度，其數值愈大，題目愈簡單。（2）使用次序量尺，可以指出題目的等級順序或相對難度。缺點：（1）無法指出各難度間差異大小。（2）單位不相等，即P1－P2≠P2－P3

難度分析採用等距量尺分析 △=13+4z △：難度 z：σ值

難度公式的比較通過百分比分析等距量尺分析公式 △=13+4z 代表意義數字愈大，代表題目愈容易數字愈大，代表題目愈困難難度的比較順序量尺，難度間的差異並不相等，不能直接比較等距量尺，難度可直接做比較

試題難度與測驗分數的分配難度P值→0 ≤ P ≤1 （1）P ＝0.5（難度適中），分配型態為常態分配。偏分配。（4）P ＜0.3（試題較難），分配型態為正偏分配。

鑑別力分析鑑別力分析的目的在於確定題目是否具有區分高下的作用。依分析時所依據的標準可有兩種方式內部一致性分析外在效度分析

內部一致性分析內部一致性分析旨在瞭解各個試題的功能是否和整個測驗的功能相符合一致。公式如下： D＝P H － P L

內部一致性分析（1）-1≤ D ≤1 D ＝0，無鑑別度。試題太簡單，高分組與低分組學生全部答對（P H － P L＝ 0）。試題太困難，高分組與低分組學生全部答錯（2）D ＝+ 1，高分組學生全部答對，低分組學生全部答錯。（P H ＝1， P L＝ 0）。（3）D ＝－1，低分組學生全部答對，高分組學生全部答錯。（P H ＝0， P L＝ 1）。

內部一致性分析美國學者伊博（1979）的評鑑標準鑑別指數試題評鑑 0.40以上非常優良 0.30~0.29 優良，但可能需修改 0.20~0.29 尚可，但通常需修改 0.19以下劣，須淘汰或修改

外在效度分析外在效度分析旨在檢驗題目是否具有預定的某種鑑別作用（簡茂發，民67）。分析學生在試題上的反應與在效標上表現之間的關係，目的在試題反應與測驗的外在效度變得最大，用來增強效標關聯效度。根據學生在某題試題的反應答對或答錯與測驗總分相關係數，此一相關係數即用來表示試題鑑別度指標。其常用的方法有：點二系列相關、二系列相關。

難度與鑑別力的關係題目難度適中，P=0.5時，鑑別指數最大D＝1；P=1或0時，鑑別指數最大D＝0，當試題平均鑑別力愈高時，測驗的信度愈高。選擇題目時，除了顧及難度與鑑別度外，亦應考量選出試題之分配比例是否和雙向細目表符合一致。

運用試題分析的數據資料 1 2 3 4 漏做難度(p) 鑑別指數(D) 點二系列相關 21 24 52 16+ .16 .00 -.06 22 40 56+ .56 .67 .48 23 76+ 12 .76 .50 .45 28+ 28 32 8 .28 -.17 -.12 25 16 72+ .72 -.29 26 44+ .44 -.11 27 92+ .92 .33 68+ 20 .68 .83 .61 29 .46 30 88+ .88 .17 .31 31 .15 52+ .52 1.00 .73 33 60+ .60 .06 34 .59 35 80+ .80 .43 26

選擇題選項誘答力分析分析選擇題是否具誘答性，只要分析高低組學生在每個學生在每個試題選答的次數分配，加以判斷即可。國內郭生玉教授提出判斷原則：（1）每一錯誤選項至少有一低分組學生選擇。（2）選擇錯誤選項的低分組學生應比高分組學生還高。

選目的有效性分析-試題的選目分析此題的選目均屬於合理有效。組別選項 D P A B * C 未答高分組 2 16 1 0.40 0.40 0.60 低分組 5 8 4 3 此題的選目均屬於合理有效。

選目的有效性分析-試題的選目分析選目B沒有誘答力→修改選目D可能意義不清、有2個正確答案或受試者作答不小心→修改組別選項 D P A* B C 未答高分組 14 6 0.10 0.65 低分組 12 8 選目B沒有誘答力→修改選目D可能意義不清、有2個正確答案或受試者作答不小心→修改

選目的有效性分析-試題的選目分析選目A和C在正確性不夠清楚→修改使之只有一個正確答案或最佳答案。組別選項 D P A B C * 未答高分組 9 10 1 0.20 0.40 低分組 5 4 6 選目A和C在正確性不夠清楚→修改使之只有一個正確答案或最佳答案。每個選項的選答都非常接近，對低分組都有誘答力，可能是低分組缺乏知識所致。

選目的有效性分析-試題的選目分析高分組選答各個選項的次數都很接近，顯受試者可能盲目的猜測→檢討或修改。組別選項 D P A B * C 未答高分組 5 6 4 0.05 0.28 低分組高分組選答各個選項的次數都很接近，顯受試者可能盲目的猜測→檢討或修改。

選目的有效性分析-試題的選目分析高分組選答正確答案的次數反而比低分組少，顯示此題為反向題→檢討原因加以修正或淘汰不用。組別選項 D P A B C D * 未答高分組 3 6 8 -0.20 0.50 低分組 1 4 12 高分組選答正確答案的次數反而比低分組少，顯示此題為反向題→檢討原因加以修正或淘汰不用。

選目的有效性分析-試題的選目分析題目的選項分析顯示不合理而須要修改，但是在修改前應仔細研究是否是題目本身的缺陷或學生反應上的錯誤所致。組別選項 D P A B * C 未答高分組 10 0.10 0.45 低分組 2 8 題目的選項分析顯示不合理而須要修改，但是在修改前應仔細研究是否是題目本身的缺陷或學生反應上的錯誤所致。

試題選擇的標準先做試題分析評鑑試題優劣(考慮難度、鑑別力) 考慮選出試題的比例是否與雙向細目表一致試題編排增加受試者做測驗動機 → 少數較易題目放前面使能力高者感到具有挑戰性 → 選幾題較難的 ◎全測驗的試題宜力求0.50的平均難度

效標參照測驗的試題分析效標參照測驗所使用的試題通常會比常模參照測驗所使用者容易些，因為教師多半期望大多數的學生在測驗上都有良好的表現，獲得好成績，教師若仍沿用常模參照測驗的試題分析方法，則高分組與低分組學生在試題上的答對百分比值都會接近1，而鑑別度指標值趨近於0。由此可見效標參照的試題分析方法異於常模參照使用的試題分析分法，方能避免試題分析產生無法解釋的效果。 35

試題難度一般來說，效標參照測驗難度指標分析是沒有必要進行的，因為它的測驗目的不同於常模參照所致。常模參照測驗中，測驗的目的是在區分學生成就的高低，因此教師所期望的最佳難度指標是.50左右最好。效標參照測驗試題的難度指標，應和教學前預設定的通過標準(精熟標準一致)。例如，假設以80%的試題答對率或通過分數為精熟標準時，則理想的難度指標應訂為.80左右，教師可不必參考常模參照測驗的試題選擇標準，而是依據教材內容和實際教學情況，做為判斷精熟標準或難度指標。 36

教學敏感度指標 Cox和Vargas(1996)提出了一種同一組受測者在教學前進行前測和教學後進行後測的方法 D=P後-P前正常教學前後指標值大約是介於.10到.60之間 D接近0，代表該試題的鑑別度指標越低，不能反映出預期的教學效果 D接近1，代表該試題的鑑別度指標越高，對教學效果的敏感度越大，代表該試題的品質越佳 反映出命題很成功 D是負值，代表該試題是個反向作用題，反映出教學效果是有問題的，代表該試題品質極不良 應予淘汰 37

標準參照測驗試題的鑑別力分析 D＝PP－Pf D ：鑑別力指數精熟組與非精熟組的差異： PP：精熟組的答對比率 Pf：非精熟組的答對比率 ※題目難度會影響鑑別力，且標準參照測驗是預期多數學生能精熟內容，故鑑別力將比常模參照的低。

標準參照測驗試題的難度分析前面的難度分析方法可用於標準參照測驗。不過，解釋上和常模參照測驗不同： 1.希望學生在教學後能精熟教材，故教學有效時，多數題目的難度指數（通過百分比）均很大。（難度指數反映的教學品質多於題目的品質）。 2.標準參照測驗的難度應和事先設定的相同，例如：以85％為精熟標準時，理想的難度指數應訂在0.85左右。

教學敏感度分析試題 P前 P後教學敏感度指標說明 1 1.00 0.00 教學前學生均錯，教學後學生均對，試題與教學都是有效的。 2 0.80 這個試題過於簡單，學生的表現受教學影響不大，無法測量出教學效果。 3 0.15 這個試題過於困難，學生的表現受教學影響不大，無法測量出教學效果。 4 -1.00 試題相ˇ當不好，顯示教學本身有問題 5 0.60 0.10 0.50 正常教學下有效的常態試題，教學與試題均屬有效。 40

現代測驗理論現代測驗理論的特點：就是以概率表示受試能力與項目的關係。其中P（θ）表示能力θ的受試答對某試題的機率P。

IRT試題分析參數試題特徵曲線難度參數鑑別力參數猜測參數試題訊息函數

試題特徵曲線（item characteristic curve，ICC） P（θ）就是試題反應函數，將試題反應函數用平面座標圖表示出來即稱為試題特徵曲線。

試題特徵曲線說明座標的縱軸是答對機率，P（θ），也就是具某能力θ的受試答對某題的機率。機率介於0.00至1.00之間。橫軸代表能力或潛在特質。潛在特質為一連續體，由左而右表最低的無限小－∞至最高的無限大＋∞。如圖一

常態肩形ICC 最理想的試題特徵曲線就是常態肩形，多一點能力就增加一些答對機率。如S形常態分配累積次數曲線，左下方與右上方都無法真正達到0.00或1.00。如圖一

難度參數難度參數就是能力量尺θ上的落點，又稱落點參數。ICC的起點靠近左側表示題目較容易，反之靠近右側題目較困難。

難度參數的意義難度參數又稱b參數，以決定一個題目在潛在特質連續體的位置。題目愈難，所需的能力愈高，ICC越偏右，一般能力的受試者答對機率較低，反之，題目越容易，所需能力越低，ICC越偏左，一般能力的受試者答對該題的機率也會較高。

難度參數、能力與機率的關係要分析難度參數、能力與機率的關係，最容易的比較方法就是能力減難度θ－b，因b參數與能力量尺θ性質一樣，故可相減。當θ－b＝0或θ＝b時，答對機率 P（θ）＝0.5，也就是能力與難度相等時，答對機率為一半。當θ＞b時，答對機率超過一半。當θ＜b時，答對機率低於一半。圖四表示能力、難度與機率三者的關係。

回上頁

回上頁

鑑別力參數鑑別力參數又稱a參數，是能力θ變化時，答對機率變化的程度。試題特徵曲線中，a參數表示曲線陡峭的程度。 a參數愈高，ICC曲線愈陡，試題愈具有良好的分辨能力；a參數愈低，ICC曲線愈平坦，試題愈無法明顯有效的分辨出受試者的能力水準。理論上，a參數介於－∞與＋∞之間；一般以0至2之間為多，但以0.8與1.25之間最為有效。

猜測參數猜測參數又稱c參數，是指試題特徵曲線的左下漸進線，為能力極低時仍有的答對機率。 c值愈小題目愈有效，一般均以0.3為選題重點，c值超過0.3的項目不是理想的項目。

猜測的原因使用利於猜測的命題方式。測驗計分方式有利猜測。測驗指導語鼓勵猜測。題目太難或受試能力偏低。題目本身為另一題提供線索，違反局部獨立假定。選項或誘答選項配置不當。

試題訊息函數公式：

a,b,c參數在試題訊息函數中扮演的角色當b值愈接近θ時，訊息量較大；反之，b值愈遠離θ時，訊息量則較小。當a參數較高時，訊息量也會較大。當c參數接近0時，訊息量則增加。

試題訊息函數的特點訊息量愈大，能力估計的標準誤愈小。能力估計標準誤愈小，信賴區間愈小，能力的估計愈精準。試題難度符合受試能力，能獲得較大的訊息量。

試題分析的解釋 1. 若使用測驗總分作為高、低分組的依據，則試題分析只提供測驗的內部一致性。鑑別力指數並不等於題目效度。 2. 若測驗的效度已被肯定時，試題分析的資料就可解釋為題目的效度。

試題分析的解釋 1.題目愈難或愈簡單，鑑別力愈低，為了激發學生測驗動機，也須保留。鑑別指數低未必表示試題有缺點。 2.題目的同質性愈高，鑑別力愈高。若50題中有5題是測量原則的應用，45題是測量知識的記憶，則這5題的鑑別力低僅是代表它們所測量的學習結果不同與另外45題而已。

試題分析的解釋試題分析資料是假設性的。 1.試題分析的結果往往因為樣本不同而異（學生人數、能力水準、教學型態）。 2.判斷試題的優劣應以是否能測量重要教學目標，或學習結果為主要依據，而非以統計資料（難度、鑑別力）為唯一的根據。

試題分析的解釋避免只根據統計的特性選擇題目。 ◎選擇題目最好的方法是兼顧試題分析的資料和邏輯分析的結果。 1.一般班級中，試題分析人數不多，結果不可靠。 2.分析結果易受學生猜測、題目位置、正確答案位置所影響。 3.僅根據統計特性選題目，導致測驗內容缺乏代表性。 ◎選擇題目最好的方法是兼顧試題分析的資料和邏輯分析的結果。

謝謝聆聽