不同認知診斷適性測驗演算法 結合知識結構之成效比較 不同認知診斷適性測驗演算法 結合知識結構之成效比較 國立臺中教育大學教育測驗統計研究所理學 碩士論文 研 究 生:卓淑瑜 指導教授:郭伯臣 博士 吳慧珉 博士 中華民國一百年六月 報告者:顏碧玲 101.10.2
大綱 研究動機 研究目的 名詞釋義 文獻探討 研究方法 研究結果 結論與建議
研究動機(1/2) 自從No Child Left Behind Act教育改革法案實施以來規定提供教師、學生與家長測驗診斷結果,以了解每一位學生在主要學科進步情形等各項資訊,也就是提供學生哪些概念他們已經掌握,以及哪些概念還需要進行補救教學(Cheng, 2009)而認知診斷就是一種可以提供了這類訊息的模式。 施測者可藉由受試者的試題反應組型與Q矩陣推估受試者具備或缺乏哪些認知屬性,進而據此瞭解受試者的學習狀況,進行補救教學(de la torre, 2008) 。因此,本研究欲探討不同 Q 矩陣的設定,是否會影響認知診斷適性測驗的診斷辨識率。
研究動機(2/2) 認知診斷適性測驗的主要研究著重在選題法上的探究,這些選題法在測驗初始階段因獲得的訊息較少,以致於診斷辨識率不高。 本研究主要是結合知識結構於認知診斷適性測驗,改善認知診斷適性測驗選題法,藉由模擬研究探討在選題的過程中,將選到的試題加入其知識結構所提供的訊息進行診斷,是否能提升認知診斷適性測驗的診斷辨識率。
研究目的(1/1) 比較不同Q矩陣在認知診斷適性測驗上的診斷辨識率。 比較不同選題法在認知診斷適性測驗上的診斷辨識率。 開發結合知識結構之認知診斷適性測驗選題法。 比較結合知識結構之選題法在認知診斷適性測驗上的診斷辨識率。
名詞釋義 認知屬性:在認知診斷模式中,認知屬性表示測驗所測量的概念或技能,通常以二元向量1或 0來表示受試者精熟或非精熟認知屬性,在本研究的實徵資料中,測驗的概念即為認知屬性。 診斷辨識率:診斷辨識率是用來估計受試者的認知屬性狀態是否與模擬樣本資料的認知屬性狀態一致,在這樣的概念之下,診斷辨識率是指判斷的正確性,也就是判斷的百分比愈高,其估計的結果愈準確。
文獻探討(1/7) 認知診斷模式: 可以用來診斷受試者是否具備教育測驗所需的認知概念,不同於試題反應理論只是用一個廣義的潛在特質來代表受試者的能力,認知診斷模式是利用一個潛在向量 a¡=(α¡1,α¡2…….. α¡k)來表示受試者是否精熟每一個認知概念,其中 α¡k=1表示第i位受試者精熟第k個認知概念, α¡k=0 則表示未精熟第 k個認知概念。
文獻探討(2/7) 目前已有許多認知診斷模式被開發且應用,例如規則空間模式、二元技能模式 、貝式網路推論模式、DINA模式、NIDA 模式、DINO模式 、融合模式、HO-DINA模式,本研究使用的兩種模式:DINA模式與HO-DINA模式。 所有的認知診斷模式都需由專家來界定每個試題所測量的認知概念,也就是Q矩陣(Tatsuoka, 1985)
文獻探討(3/7) Q矩陣大小為 Jxk,J為試題數,K為屬性數,其中 q jk代表要解決試題 j,是否需具備認知屬性k,公式定義如下:
文獻探討(4/7) DINA模式:是許多認知診斷模式評估方法的基礎,適合用於二元計分的認知診斷測驗。DINA 模式假設受試者答對試題的機率,會受到粗心(slip)及猜測(guess)兩個參數影響,其試題反應函數表示如下 : HO_DINA模式:de la Torre與Douglus(2004)為了減少DINA模式在估計受試者認知屬性計算上的負擔,藉由觀察受試者認知狀態與其能力間的關係,提出higher-order DINA模式(HO_DINA),認為受試者認知屬性的分布是在給定高階的潛在特質 i下,假設元素 i條件獨立,其精熟屬性的機率公式表示如下
文獻探討(5/7) 電腦化認知診斷測驗選題法:Xu, et al. (2003)的研究是在Fusion模式中提出兩種選題法:KL法與SHE法,結果顯示SHE法的表現優於KL法,但曝光率部份是KL法比較好。因此Cheng (2009)提出兩種改善KL選題法:PWKL法與HKL法,並應用於DINA模式中與SHE法進行比較,結果顯示PWKL法與HKL法皆優於SHE法。 本研究欲探討不同試題參數與不同Q矩陣的情況下,PWKL法與HKL法的表現是否仍優於SHE法。
文獻探討(6/7) 電腦化認知診斷測驗選題法: 基於 Kullback-Leibler訊息的 KL法 基於 Shannon Entropy的 SHE法 基於 Kullback-Leibler訊息的後驗加權KL法 合併 Kullback-Leibler訊息與潛在狀態間的距離法
文獻探討(7/7) 以知識結構為基礎之適性測驗: 順序理論: Airasian與Bart (1973)提出的順序理論(ordering theory, OT)常被用來建立知識結構,其定義試題間的順序的方法,主要是探討困難的上位試題答對,而簡單的下位試題答錯這種不合理狀況發生情形,來判斷試題的順序性。 以知識結構為基礎之適性測驗選題法:是依據建構出的知識或試題結構來選題,並利用結構所提供的訊息進行診斷及節省施測題數(吳慧珉,2006;劉育隆等人,2006)
研究方法(1/10) 本研究旨在探究結合知識結構之認知診斷適性測驗是否影響估計受試者認知屬性的診斷辨識率,並比較不同選題法在不同Q矩陣設計下估計診斷辨識率的成效。 結合知識結構之認知診斷適性測驗演算法:本研究將此選題法稱為PWKL_KSAT法、HKL_KSAT法、SHE_KSAT法。
研究方法(2/10) 本研究為了讓初始階段獲得較多的訊息,在初始階段是以預測精準度 0.7 時的閾值來建立知識結構,然而固定此閾值會因加入太多不確定性的訊息而導致後續診斷辨識率無法提升,因此,本研究隨著施測試題的增加,控制知識結構的閾值逐漸變小,以減少不確定性的訊息加入。
研究方法(3/10) 本研究各個模擬實驗中,受試者樣本皆為同一群受試者,因此,隨著Q矩陣平均測量的屬性數越多,受試者的平均通過率會相對地越低。然而在題庫試題為較難的情況下,兩試題間違反順序的機率在每個試題皆相差不多,以致於其知識結構會比較弱,若在選題的時候閾值降低的幅度是固定的情況下,納入預測試題的數量會隨著知識結構越弱而越少,而降低結合知識結構選題法所帶來的效益,因此,閾值的變動幅度,應隨著題庫試題平均通過率而有所不同。
研究方法(4/10) 本研究先確定研究主題,進行與研究主題相關的文獻蒐集與探討,提出演算法設計及改良,並將其程式化,再依據研究所設定之實驗情境產生模擬資料進行模擬研究,比較在不同選題法與不同Q矩陣設計下,受試者認知屬性的診斷辨識率估計成效,最後撰寫研究結果與建議,研究流程如圖3-1。
研究方法(5/10) 實驗設計 : 本研究以模擬研究比較不同Q矩陣在不同選題法下的診斷辨識率成效,以及探討結合知識結構之選題法的診斷辨識率成效,以下針對模擬資料進行說明。
研究方法(6/10) 本研究是以DINA模式為基礎的認知診斷適性測驗,透過模擬研究方式探討不同實驗設計的成效,其模擬資料變項與估計方式設計如表 3-3,以下針對實驗設計的變項進行詳述。 一、Q矩陣與試題參數設計︰本研究分別設定每個試題有 20%、30%、40%和60%四種機會測量到每一個屬性,也,Q 矩陣的設計如表 3-4 所示。試題參數分別設定粗心參數 s 與猜測參數 g 皆服從均勻分布U(0.05,0.25)。
研究方法(7/10) 二、受試者認知屬性 三、模擬作答反應資料 ︰本研究利用DINA模式計算出受試者在每一題的答對機率,再透過隨機產生之均勻分配U(0,1)判定受試者是否答對該題來產生受試者的作答反應。 四、模擬次數︰本研究在每個Q矩陣設計下,皆產生 10 個不同作答反應資料集,並且將每個資料集模擬 5 次適性測驗,以降低當選題時,計算選題指標一樣的情況下,從中隨機選題所造成隨機效果,以及降低估計時計算 MLE值相同的情況下,從中隨機選擇受試者潛在認知狀態所造成的隨機效果。
研究方法(8/10) 實徵資料驗證 ︰本研究使用的實徵資料為國立臺中教育大學教育測驗統計研究所執行之「團班教學和個別指導之教材與評量以及其相關行政管理系統計畫」的研究成果,選擇國中第三冊第五單元「根式的運算」 ,該測驗試題數為32題、概念數為8個,施測人數共319人, 概念與試題對照表和Q矩陣設計分別如表3-6與表3-7所示,接著利用OX軟體估計試題參數,試題參數如表3-8所示,試題選項分析如表3-9所示,並以專家的判斷作為受試者認知屬性的真值。
研究方法(9/10) 評估指標 :本研究以模擬產生之受試者認知屬性當做真值,與估計的受試者認知屬性進行比較,使用平均屬性辨識率(mean of each attribute accuracy)與整體屬性辨識率(whole pattern accuracy)作為評估指標,計算方法如下:一、平均屬性辨識率 二、整體屬性辨識率
研究方法(10/10) 研究工具 :本研究使用的工具有MATLAB軟體及OX軟體 MATLAB軟體:本研究使用MATLAB 2008a來撰寫認知診斷適性測驗選題演算法,以及產生受試者認知屬性狀態,配合不同Q矩陣設定,計算答對機率值,進而模擬作答反應,並用來計算辨識率。 OX軟體:本研究使用OX軟體,並以de la Torre (2008)撰寫之DINA模式程式,估計實徵資料的試題參數。
研究結果(1/12) 一、不同 Q矩陣的診斷辨識率:本研究以不同的Q矩陣設計共分成四種結果來呈現,表4-1至表4-2分別為測驗長度為12題時,受試者在不同Q矩陣設計下的平均屬性辨識率與整體屬性辨識率。 表4-1 不同 Q矩陣設計的平均屬性辨識率
研究結果(2/12) 不同Q矩陣設計下,Random法、KL法、PWKL法與HKL法會隨著Q矩陣平均測量屬性數越多,診斷辨識率越低;但 SHE 法的診斷辨識率表現並無太大差異。
研究結果(3/12) 不同選題法的診斷辨識率 :本研究依不同選題法共分成五種結果呈現,圖4-1至圖4-8分別為平均每題測量1.2、1.8、2.4、3.6個屬性的Q矩陣之平均屬性辨識率與整體屬性辨識率變動圖。 在不同選題法中,診斷辨識率以PWKL法與HKL法表現最佳,SHE法次之,KL法再次之,Random法表現最差
研究結果(4/12) 結合知識結構選題法的診斷辨識率:本研究依結合知識結構選題法共分為SHE_KSAT 法、PWKL_KSAT 法與 HKL_KSAT法,並分別與未加入知識結構之選題法進行比較,結果成效詳述如下。
研究結果(5/12) 由表4-3與表4-4可知,結合知識結構在PWKL法與HKL法的表現皆比原本選題法來得好。
研究結果(6/12) 實徵資料驗證 : 本研究使用的實徵資料其測驗試題數為 32 題、概念數為 8 個,施測人數共319 人,圖 4-35 與圖 4-36 為在不同選題法的平均屬性辨識率與整體屬性辨識率變動圖。圖 4-37 與圖 4-38 為 SHE 法與 SHE_KSAT 法的平均屬性辨識率與整體屬性辨識率變動圖。圖4-39與圖4-40為PWKL法與PWKL_KSAT法的平均屬性辨識率與整體屬性辨識率變動圖。圖 4-41 與圖 4-42 為 HKL 法HKL_KSAT 法的平均屬性辨識率與整體屬性辨識率變動圖。
研究結果(7/12)
研究結果(8/12) 由圖4-35與圖4-36可知,在實徵資料的情況下,PWKL法與HKL法明顯優於KL法與Random法SHE法也明顯優於KL法與Random法PWKL法與HKL法也優於SHE法,PWKL法與HKL法之間差異不大。
研究結果(9/12)
研究結果(10/12)
研究結果(11/12) 由圖4-37與圖4-38可知,在實徵資料的情況下,SHE_KSAT法優於SHE法。由圖 4-39 與圖 4-40 可知,在實徵資料的情況下PWKL_KSAT 法在初始階段試題少時優PWKL 法,然而隨著試題增加 PWKL_KSAT法表現並不穩定,但整體而言,其表現是有比PWKL法來的好。
研究結果(12/12) 由圖4-41與圖4-42可知,在實徵資料的情況下,HKL_KSAT 法在初始階段試題少時亦優於 HKL 法,然而隨著試題增加HKL_KSAT法表現也並不穩定,但整體而言,其表現是亦比HKL法來的好。
結論與建議(1/4) 結論 : 一、在Random法中,受試者的平均診斷辨識率與整體診斷辨識率會隨著Q矩陣平均測量屬性數越多,辨識率越低。 二、在KL法、PWKL法、HKL法中,平均測量1.8個屬性的Q矩陣下,受試者的平均屬性辨識率與整體屬性辨識率最佳。在平均測量1.8、2.4、3.6個屬性的 Q 矩陣下,受試者的診斷辨識率隨著 Q 矩陣平均每題測量的屬性數越多逐漸降低。 三、在SHE法中,四種Q矩陣設計皆有一致的診斷辨識率,並無太大差異。
結論與建議(2/4) 四、在不同Q矩陣設計下,五種選題法以PWKL法與HKL法表現最佳;SHE法也有不錯的診斷辨識率,只是隨著測驗題數的增加,表現無 PWKL法或HKL法好;PWKL法、HKL法與SHE法皆明顯優於KL法與Random法。 五、在不同 Q 矩陣設計下,隨著 Q 矩陣平均測量的屬性數越多,SHE_KSAT 法表現會逐漸比 SHE 法還差;反之,隨著 Q 矩陣平均測量的屬性數越PWKL_KSAT 法表現會逐漸比 PWKL 法還要好,HKL_KSAT 法表現也逐漸比HKL法還要好,因此建議將知識結構結合在PWKL法與HKL法中。
結論與建議(3/4) 建議 : 一、本研究Q矩陣為均勻分布平衡設計,也就是測量每個屬性的試題總數一致,建議後續研究者可以探討Q矩陣不平衡的設計,是否會影響診斷辨識率。 二、本研究只模擬整份測驗為6個認知屬性的情況,建議後續研究者可以探討當整份測驗測量的屬性數越多,是否會影響診斷辨識率。 三、本研究的試題反應函數為DINA模式,建議後續研究者可以探討其他模式的估計成效。
結論與建議(4/4) 四、本研究為同一受試者在不同Q矩陣下的診斷辨識率,建議後續研究者可以探討不同受試者在同一個Q矩陣設計下適性測驗診斷辨識率的成效。 五、本研究終止測驗的條件是以固定測驗長度為 12 題,建議後續研究者可以探討其他CAT的終止條件。 六、本研究並未探討試題的曝光率,建議後續研究者可以探討試題的曝光率。
報告結束 敬請指導