信度的意義 信度的性質 信度的類型與考驗方法 影響信度的因素及補救措施 信度概念在教學評量上的應用
信度的概念構圖
信度的意義 概念性的定義 一個測驗結果的一致性,信度越高表示該測驗的結果越一致。 也可說信度高的測驗有良好的穩定性。
信度的定義 計量上的定義 真分數模式 X = T + E (實得分數= 真正分數+誤差分數) 三者變異量的關係 Sx2 = St2+Se2 真實分數的變異數St2佔總變異Sx2的比率,即定義為「信度」
信度的性質 信度是指評鑑工具所獲得「結果」的可靠性,而非指工具本身。 每一個信度的估計值,僅指某一特定類型的一致性,而非泛指一般的一致性。 信度是效度的必要條件,但不是充分條件。 效度的考驗方法包括邏輯的分析與統計的應用,而信度的考驗則完全採用統計方法。
信度的類型與考驗方法 常模參照 重測信度 複本信度 折半信度 庫李信度 α係數 評分者信度 標準參照 百分比一致性 K係數
信度的類型與考驗方法 (常模參照) 重測信度 同一份測驗於不同時間對相同學生前後重複測量兩次,並根據這兩次測驗分數所求得的相關係數。通常用皮爾森積差相關(r) 代表。
信度的類型與考驗方法 (常模參照) 重測信度 例子:一份測驗在不同的時間點測驗同樣五位學生的表現
信度的類型與考驗方法 (常模參照) 複本信度 做法:根據相同編制藍本使兩份題數﹑難度﹑指導說明﹑施測時限﹑與例題舉隅等都相當的測驗拿給同一批學生施測,在依據施測後所得的兩份測驗分數來求相關係數。
信度的類型與考驗方法 (常模參照) 複本信度 例子:五位學生在正本和複本兩種測驗上的表現情形
信度的類型與考驗方法(常模參照) 內部一致性係數可方便得到信度 重測與複本信度都必須進行兩次施測或使用兩份測驗,使用不方便。 折半信度 庫李信度 α係數內部一致性信度
信度的類型與考驗方法(常模參照) 折半信度 利用單獨一次測驗結果,以隨機方式將其分成兩半,再求出這兩半測驗結果間的相關係數。 公式: 說明:rxx為完整測驗的估計信度,rh為原測驗的信度,g為測驗加長或減短題數的倍數。
折半信度舉例 五位學生在一個四個題目的測驗反映情形
信度的類型與考驗方法(常模參照) 庫李信度 須符合三種基本假設 公式: 試題的計分是使用「對或錯」的二元化計分方式 試題不受作答速度的影響 試題都是同質的,亦即都測量到一個相同的因素 公式: 說明:KR20為測驗的信度,n為測驗的題數,P為答對某一題的人數比率,q為答錯某一題的人數比率,為全部題目答對與答錯的百分比的總乘積,S2x為測驗總分的變異數。
庫李信度舉例 五位學生在是非題測驗上的表現情形
信度的類型與考驗方法(常模參照) α 係數 可適用於多元計分的測驗,如學生在五點式量表上的表現。 公式: 說明: α 係數為測驗的估計信度,n為題數,S2i為每一試題得分的變異數,S2x為測驗總分的變異數
α 係數舉例 五位學生在四題五點量表上的表現。
信度的類型與考驗方法(常模參照) 評分者信度 採用不同評分者評閱測驗券。 ρ為評分者信度,d為評定等第之差, N為被評者的人數。 公式: (評分者為兩人的Spearman等級相關) ρ為評分者信度,d為評定等第之差, N為被評者的人數。
信度的類型與考驗方法(常模參照) 評分者信度 公式: (評分者不只兩位的肯德爾和諧係數) 公式: (評分者不只兩位的肯德爾和諧係數) 說明:W為評分者信度,Ri為被評者之評定等第分數,k為評分者人數,N為被評者人數。
兩位評分者使用等第方法評定五位學生的作文成績 評分者信度舉例(評分者為兩人) 兩位評分者使用等第方法評定五位學生的作文成績
評分者信度舉例(評分者為兩人以上) 五位國文教師每人評定九篇作文的等第
信度的類型與考驗方法(標準參照) 百分比一致性指標 分析前後兩次分類決定結果是否為一致,並以百分比之和來表示。 公式: 說明:b和c表示兩次結果都相同的人數, N表總人數
信度的類型與考驗方法(標準參照) K係數 由Cohen(1960)所提出,分析評分者實際評定為一致的次數百分比,與評分者在理論上評定為一致的最大可能次數百分比(經校正誤差後)的比率。 公式: 說明:PA表實際的情形, Pc表預期的情形
百分比一致性指標與K係數舉例 針對40名學生實施數學成就測驗甲﹑乙兩個複本,或僅使用同一份測驗,但分成前後兩次(如學期初和學期末)施測,每次並決定以「答對80%的試題數」作為精熟的標準 測驗結果如下表的資料所示
測量標準誤 亦為表示信度的方法,只要是用來解釋個人測驗分數的意義和比較不同測驗分數的差異。 利用測量標準誤來解釋個人的測驗分數,以推估出個人真實分數的可信範圍。 公式: SEmeas.為測量標準誤 Sx為測驗的標準差 rxx為測驗的信度係數
測量標準誤舉例 某生在一智力測驗上得到IQ為130,該測驗的信度為.96,標準差為15,求測量標準誤之值為何? 以95%為信賴水準, 則單邊的標準誤等於 3 * 1.96 = 5.88, 約略等於6 則該生真實分數有95%的機會可能落在124至136之間。
測量標準誤 可利用差異標準誤來解釋個人在兩種測驗上的表現,其優劣是否有差異。 公式: SEdiff.表差異的標準誤 SE2meas.x 為x測驗的測量標準誤 SE2meas.y為y測驗的測量標準誤
測量標準誤舉例﹙差異標準誤﹚ 某生參與一項性向測驗,此測驗的分數的M=50, S=10。該生的語文測驗得分為54,此測驗的信度為.85;其數學測驗的得分為62,此測驗的信度為.90,是否真的顯示該生的數學性向高於語文性向? 若以95%為信賴水準,則該生的數學分數須與語文分數相差1.96(5)=9.8分以上,才可以說其數學性向優於語文性向。
信度類型摘要表
信度的影響因素 影響因素 測驗的長度 分數的分布情形 測驗的難度 客觀性 測驗越長,內容愈具有代表性,分數受到猜測因素的影響越小,所以信度越高。 分數的分布情形 分數的分布範圍越大,第二次測量時,分數相對位置改變的可能性就愈小,亦即測量誤差對相對位置的影響愈小 。 測驗的難度 測驗難度適中,能使分數變異程度加大,信度變高 。 客觀性 具客觀性的測驗其評分結果較不會受到評分者的判斷與意見的影響,所以相對而言其穩定性高,信度高。
信度的補救方法 補救方法 增加試題或刪除不良試題 校正相關係數的萎縮 增加試題可以提高測驗的信度,但是需考慮學生是否會因此而疲勞。 對於低信度的測驗最好不要使用,若不慎使用了,則務必進行相關係數萎縮的校正,才能獲取接近真實測量下的真正相關。如斯布校正公式使信度提高
信度概念在教學評量的應用 幫助教師評鑑已發行評量工具的信度 幫助教師增進自行編制之評量工具的信度 教師應熟悉信度的主要概念。 教師應辨別有多種的信度估計方法。 教師應認識某測驗的信度愈高,該測驗越佳。 教師也應進一步認知到即使是相同的測驗,也會因所採用的估計方法不同,所得到的信度係數也會有高低。 幫助教師增進自行編制之評量工具的信度