多媒體英語文能力檢定暨適性化 網路評量系統之建置 多媒體英語文能力檢定暨適性化 網路評量系統之建置 - 出處 - 國立交通大學理學院網路學習 在職專班碩士論文 指導教授:陳登吉博士 研究生:黃吉楠 報告人 : 潘輝銘
摘要 本研究擬建立一套多媒體英語文能力檢定暨適性化網路評量系統。 此系統功能如下: 符合聽、說、讀、寫四種能力的檢定機制,並以多媒體試題呈現之。 → 改進傳統英語評量系統中,缺乏支援多樣化多媒體試題的能力。 題庫適性值,將隨著不同受試樣本做動態的調整。 → 改進傳統英語評量系統中,缺乏動態適性值能力的調整機制。 將提供網路介面適性測驗的試題特徵曲線,方便研判試題適性值。 → 改進傳統英語評量系統中,缺乏試題特徵即時統計與曲線呈現機制。 整合不同的 IRT 分析器,進行適性測驗。 → 改進傳統英語評量系統中,缺乏整合不同特性的 IRT 分析器的能力。
研究方法 製作三階層網路適性測驗,以動態網頁 (PHP) 技術結合資料庫 (MySQL) 及網路伺服器 (Apache) 來設計與規劃整個系統。 研究步驟 收集現有適性 測驗平台架構 需求分析 系統設計與分析 規劃系統架構 系統發展與實作 系統測試 系統評估 提出論文結論與未 來發展方向
名詞定義 1. 試題反應理論 IRT (Item Response Theory) 以機率解釋考生能力與試題反應間的關係,評估受測者之能力範圍, 以鑑別度 (a) 難易度 (b) 猜測度 (c) ,作為評定某試題或某測驗的施測準 確性。 2. 試題特徵函數 (Item Characteristic Function) 考生的表現情形與能力值的關係,為一條連續性遞增的曲線,又稱試 題特徵曲線 (Item Characteristic Curve, ICC) 。
3. 試題訊息函數 (Item Information Function) 作為試題優劣的判定函數,在某一能力值的試題訊息,代表該試題提 供的貢獻量,量越高其誤差越小,以解釋試題與考生能力值的關係, 將其繪出即試題訊息曲線 (Item Information Curve, IIC) 。 4. 測驗訊息 (Test Information Function) 為所各施測試題在相同能力值上的試題訊息量總和,其繪出的圖形則 為測驗訊息曲線 (Test Information Curve, TIC) 。 名詞定義
5. 電腦適性化測驗 (Computerized Adaptive Testing, CAT) 將原本各項考試的題目儲存在電腦,形成題庫, CAT 以題庫為核心, 其選題是根據試題參數來進行,並依受試者之答題反應,估計受試者 能力值,選擇難易適中的題目,以獲得描述個體成就水準的訊息。 名詞定義
文獻探討 英語檢測相關探討 測驗名稱測驗目的測驗項目測驗方式測驗題型 TOEIC 多益 評量個人在國際商務環境中實 際運用英語能力,為企業評估 員工英語能力標準之一 聽力、閱讀傳統紙筆測驗單選題 TOEFL 托福 評量母語非英語者的英語能力 主要為申請進入美加地區之學 生的語文能力證明 聽力、文法結構 閱讀寫作 電腦化的測驗 方式,其中聽 力及文法結構 為電腦化適性 測驗。閱讀項 目則採傳統的 線性測驗 選擇題插入 文句作文等 IELTS 國際英語測驗 評量學生在專業範疇內的英語 能力 聽、說、讀、寫傳統紙筆測驗 填空、選擇、 問答、配合、 作文及口試 GEPT 全民英檢 國內評量個人英語能力之工具 並可作為學校教學成果的評鑑 初試 ( 聽力、閱讀 ) 複試 ( 寫作、口試 ) 傳統紙筆測驗選擇題單句寫 作朗讀短文等
受試能力估計 試題訊息函數可以應用到單參數、雙參數、三參數對數形試題反應模 式,這些模式都適合用於二元計分 (Dichotomously Scored) 的測驗資料。 以三個參數對數型模式為例: (1) 當 b 值愈接近 θ 時,訊息量較大 (2) 當 a 參數較高時,訊息量也會較大 (3) 當 c 參數接近 0 時,訊息量則會增加。 文獻探討
某個試題所提供的最大訊息量,剛好出現在能力參數為 θ max 的點上 θ max 的值為: 如果猜測機率為最小時 ( 當 C=0 時 ) ,則 θ max=b 當 C>0 時,某試題在能力水準比其難度值稍高的位置上,所提供的訊 息量會達到最大。訊息量愈大,能力估計標準誤就愈小愈精確。 文獻探討
電腦化適性測驗 優點: 1. 施測完畢後能即時評分,並克服紙筆測驗評分速度慢及選題上的困難。 2. 不同受試者作答不同的試題,其能力估計值可以互相比較。 3. 施測題數少於紙筆測驗的一半以上,可節省測驗的時間。 缺點 : 1. 受限於電腦等資訊設備的效能 2. 一次只能作答一題,且不能回頭修改 文獻探討
流程與方法 1. 試題反應模式的選擇:可選擇最適合的模式作為適性測驗進行時的基本根據, 如單參數、雙參數、或三參數對數型模式。其中,三參數對數型是最常用的模式。 2. 題庫的建立: 題庫的性質具備以下特點: (1) 題庫題目的參數應包括難度、鑑別度及猜測機率三種參數 (2) 難度參數的範圍應能涵蓋所有受試能力 (3) 鑑別度參數應以 0.8~1.25 為宜,猜測機率則應在 0.3 以下 (4) 題庫的題數最好在 100 題以上
3. 測驗的起始點:常用方法: (1) 自難度適中的試題中隨機抽取 (2) 由系統完全隨機抽取 (3) 估算受試者能力,再決定出那一類的試題 由於難度會隨受試者的作答反應做調整,所以偏差的起始點不至於影響測量結果 只要測驗的題數不少於 25 題的話,以那一個試題做為起點的影響不大。 文獻探討
4. 選題方式:常用的試題選擇方法有三種: (1) 最大訊息選題法:選取試題能提供受試者目前能力水準最豐富訊息量 (2) 貝氏選題法:選取試題能使受試者能力估計的事後變異數為最小的 (3) 挑選難度最接近考生現階段能力估計之試題 5. 終止標準: (1) 以最大訊息選題法為例,設定整個測驗的訊息達到標準即終止測驗。 (2) 以貝氏估計法為例,設定估計能力之變異數小到某值即終止測驗。 (3) 預設施測試題的上限,只要題數一測完,便終止施測。 文獻探討
6. 計分方法:學生能力的估計方法,進行估算能力後,據此選擇下一個試題,直 到估算的標準誤控制在設定範圍內。 (1) 最大概似值估計法 (Maximum- Likelihood Proficiency Estimate) 估計效能很好,但遇到題數少或值無法收斂,皆會產生問題。 (2) 貝氏估計法 (Bayesian Estimate) 能克服題數少之問題,但事前分配的假設不當,會產生有偏差的能力估計值。 文獻探討
適性化測驗流程
系統模組設計 同等級試題參數的驗證與兩段式的動態調整 命題委員命題委員 命題委員命題委員 字表, 字頻 文法句構分析 及驗證系統 字表, 字頻 文法句構分析 及驗證系統 試題 試題 DB 預試預試 預試預試 以 IRT 分析器 進行第一次適 性值動態調整 以 IRT 分析器 進行第二次適 性值動態調整 CAT 施 測
多媒體適性化測驗平台 口說、寫作 聽力、閱讀 系統模組設計
系統架構 系統模組設計
系統功能 試題維護功能介面
同一等級隨機命題 ( 前 ) 系統功能
同一等級隨機命題 ( 後 ) 系統功能
IRT 測驗試題參數估算 系統功能
數值分析 各試題 ICC 比較
各試題 IIC 比較 數值分析
試卷綜合比較 整份試卷題目鑑別度高 題目難易度適中,偏易的題目稍多 符合該級學生能力 數值分析
試卷訊息曲線 整份試卷對於學生能力值介於 -1 到 1 之間的測驗訊息量最多,所以對 此類學生的能力估計越準確,相對試卷品質亦趨良好。 數值分析
試題之標準誤差曲線 數值分析