Presentation is loading. Please wait.

Presentation is loading. Please wait.

測驗的信度 歐慧敏 2019/5/31 教學評量.

Similar presentations


Presentation on theme: "測驗的信度 歐慧敏 2019/5/31 教學評量."— Presentation transcript:

1 測驗的信度 歐慧敏 2019/5/31 教學評量

2 信度的意義與原理 信度的意義與特性 2019/5/31 教學評量

3 信度的意義 測量的一致性:相同的人在不同的時間,以相同的測驗測量,或以複本測驗(相等的試題)測量,或在不同的情境下測量,所得結果的一致性。
測量的誤差性:指測驗或測驗的分數反映出真實量數的程度;即信度在於估計測量的誤差有多少。 2019/5/31 教學評量

4 信度的特性 心理測驗與教育測驗的信度比自然測驗的信度為低。其原因: 自然科學採直接測量,但心理與教育只能採間接測量。
自然科學使用的測量工具精確性相當高 自然科學測量的特徵相當穩定 2019/5/31 教學評量

5 信度不是一種普遍的特質,測驗分數不可能在任何情境下都是可靠或一致的。
各種不同的信度,代表某種特殊類型的一致性或可靠性,故信度的考慮需是測驗的用途而定。 如欲瞭解學生未來的智力發展,測驗的穩定性就非常重要。 如欲瞭解創造能力測驗分數的可靠性,即需考慮測驗分數在評分上的一致性。 2019/5/31 教學評量

6 信度是一種統計的概念,採用邏輯的分析,無法提供信度有效的證據。確定測驗信度主要有兩種方法:
採用相同的測驗重複測量單一受試者很多次,分析受試者本身的內在差異,這個差異通常用測量標準誤表示。 使用相同的測驗測量一群受試者兩次,根據分數在團體中的相對位置,分析受試者相互間的變異量,用來表示此變異情形的是相關係數。 2019/5/31 教學評量

7 測驗的信度愈高愈好(0 < 信度 < 1) 信度指測驗的分數或結果,而非指測驗本身。
使用第一種方法時,實際上不可能重複測量一個人很多次,故無法直接得到受試者內的變異,而只能利用團體資料,從受試者間相互的變異加以估計。 第二種方法教育與心理測驗信度最常用的方法。 測驗的信度愈高愈好(0 < 信度 < 1) 信度指測驗的分數或結果,而非指測驗本身。 2019/5/31 教學評量

8 信度的原理 2019/5/31 教學評量

9 真實分數與測量誤差 X=T+E 實得分數為測驗中所得到的分數 真實分數又稱普遍性分數,其無法正確被測量到。
誤差分數表測量誤差,為個人實得分數與真實分數之差。 2019/5/31 教學評量

10 測量誤差可分為下列兩種: 非系統誤差(來自隨機因素) 系統誤差 2019/5/31 教學評量

11 真實分數與信度 S2x=S2t+S2e S2x:實得分數的總變異量 S2t :真實分數的變異量 S2e :測量誤差的變異量
2019/5/31 教學評量

12 相關係數 2019/5/31 教學評量

13 2019/5/31 教學評量

14 信度的類型 估計信度的方法 2019/5/31 教學評量

15 重測法 採同一個測驗在不同的時間,重複測量相同的一群受試者兩次,根據這兩次分數求得的相關,稱為重測信度係數或稱再測信度。
此係數可表明測驗結果經過一段時間的穩定性,故又稱穩定係數。 2019/5/31 教學評量

16 再測信度的高低與兩次間隔時間的長短有密切關係:
造成重測信度係數非系統變異誤差的原因: 受試者本身情況的改變 測驗情境的改變 主試者的影響(重測的主試者要一樣) 主、受試者的交互作用 再測信度的高低與兩次間隔時間的長短有密切關係: 間隔時間愈長,信度愈低;間隔時間愈短,信度愈高。 解釋重測信度時宜將兩次間隔時間列入考慮重要因素。 2019/5/31 教學評量

17 測驗年齡幼小的兒童,其間隔時間要比年齡大的短。 較適用於動作與人格測驗,不適用於認知測驗。 重測信度的優點:
施測方便 可作為預測的參考 重測信度的缺點: 易受記憶的影響 重複作答,亦引起厭煩 特殊的考試不能用 兩次情境很難相同 2019/5/31 教學評量

18 複本方法 複本測驗:兩份測驗在內容、型式、題數、難度、指導說明、時間限制與例題等方面,必須相似或相等。
複本信度:兩個複本測驗實施於一群相同的受試者,依據所測量到的分數求相關。 2019/5/31 教學評量

19 實施兩個複本測驗的方式有兩種: 在同一時間連續實施:可反映出測驗工具的所造成的誤差,但無法反映出受試者本身狀況所造成的誤差,故又稱等值係數。
間隔一段時間實施:可反映出測驗工具的所造成的誤差,又可反映出受試者本身狀況所造成的誤差,故又稱穩定與等值係數。 2019/5/31 教學評量

20 複本方法的優點: 複本方法的缺點: 可同時反映出測驗內容與時間所導致的誤差,故為估計測驗信度的最好方法。 不受情境的干擾 適合追蹤研究
減少作弊、應付測驗所做的訓練 複本方法的缺點: 複本測驗的編製不易,不但費時,而且成本高 易受練習影響測量行為 作答的動機亦會減弱 2019/5/31 教學評量

21 內部一致性方法 折半方法 庫李方法 α係數 霍意特變異數分析法 2019/5/31 教學評量

22 折半方法 憑一次測驗結果,求兩半分數的相關,故其信度係數有時被稱為內部一致性係數。 最常用的兩種方法:
依照隨機方法將題目分為兩半 依照奇數題和偶數題分為兩半 在其他條件相等情況下,測驗愈長(題數愈多),其可靠性愈高,故半個測驗的信度比原來整個測驗的信度要低。 2019/5/31 教學評量

23 rxx:估計的信度 r :原測驗的信度 n :測驗加長或縮短的倍數 rxx:全測驗的信度 rhh:兩半測驗的相關 2019/5/31
教學評量

24 2019/5/31 教學評量

25 折半信度愈高表示兩半測驗的測驗的內容愈一致或相等,亦即內容的取樣愈適當。
此信度僅能說明測驗的內容取樣的誤差,不能提供時間取樣的誤差。 上述公式假定兩半測驗的變異數相等。若違反此假定,會導致高估測驗的信度。 2019/5/31 教學評量

26 另一折半信度的估計方法(Flanagan):
前者實際上就是測量誤差,此誤差變異量被總分的變異量除,即為誤差變異量所佔的百分比,以1減去誤差變異量比率,即為真實分數的變異比率。 rxx:估計的信度 So2 :奇數題分數的變異數 Se2 :偶數題分數的變異數 Sx2 :測驗總分的變異數 2019/5/31 教學評量

27 2019/5/31 教學評量

28 庫李方法 主要依據受試者對所有題目的反應,分析題目間的一致性,以確定測驗中的題目是否測量相同的特質。 題目間的一致性主要受兩種誤差的影響:
內容取樣 取樣內容的異質性 「內容」的同質性係指測驗中所有題目均測量同樣的性質 2019/5/31 教學評量

29 「內容」的異質性係指測驗中的題目所測量的特質超過兩種以上 庫李公式對題目的基本假定:
題目的計分均屬非對即錯 題目沒有明顯受到速度的影響 題目是同質的,亦即測量一個共同的因素 2019/5/31 教學評量

30 2019/5/31 教學評量

31 2019/5/31 教學評量

32 庫李21號公式所估計的信度總是低於20號公式,且其正確性亦較差,除非所有的題目均有相等的難度。
2019/5/31 教學評量

33 α係數 庫李信度適用於計分非對即錯的測驗,對於Likert式的多點量表,則採用Cronbach α係數。 α係數乃由庫李20號公式發展出來。
2019/5/31 教學評量

34 2019/5/31 教學評量

35 評分者方法 採不同評分者評閱測驗卷,而估計評分者一致性,稱為評分者信度。 評分者信度愈高,表示評分間的評分愈一致。
若資料為等級資料宜使用Speaman 等級相關;若為連續資料則使用Pearson積差相關。 若評分者為兩位以上則使用肯德爾和諧係數。 2019/5/31 教學評量

36 2019/5/31 教學評量

37 信度的類型與測量誤差 2019/5/31 教學評量

38 各種信度類型及其誤差來源 信度類型 解答的主要問題 誤差來源 重測信度 一、測驗情況的影響 複本信度
1.相關內容樣本所得分數受到不同測驗情境的影響如何? 2.在不同測量時間所得分數的穩定性如何? 時間取樣 複本信度 1.不管使用的複本測驗或實施的情境怎樣,測驗的一致性如何? 時間取樣與 內容取樣 2019/5/31 教學評量

39 信度類型 解答的主要問題 誤差來源 複本信度 (同時實施) 二、不同內容取樣的影響 折半信度 庫李信度
1. 測驗分數在相同情境下,是否受不同內容取樣的影響? 2.兩份仔細配合的複本測驗是否相等、平行或可交互使用? 內容取樣 折半信度 1.測驗分數在相同情境下是否受不同內容取樣的影響? 2. 複本形式的信度係數為多少? 庫李信度 1.測驗分數在相同情境下是否受不同內容取樣的影響? 2.測驗的同質性如何? 3.每一個題目的反應一致性如何? 內容取樣與內容異質 2019/5/31 教學評量

40 信度類型 解答的主要問題 誤差來源 庫李信度 (21號公式) α係數 霍意特信度 評分者信度 三、不同評分者的影響
1.測驗分數在相同情境下是否受不同內容取樣的影響? 內容取樣與內容異質 α係數 霍意特信度 1. 測驗分數在相同情境下是否受不同內容取樣的影響 ? 評分者信度 三、不同評分者的影響 1.如果使用不同評分者,分數差異的程度如何? 2.測驗的客觀程度如何? 3.不同評分者所得的結果是否可替換? 評分者誤差 2019/5/31 教學評量

41 信度係數亦即決定係數,可以直接來解釋測驗分數的總變異中,有多少變異的比率真實特質的所造成變異。
信度主要關心的是實得分數與真實分數的符合程度,此兩者間的相關(rot)稱為信度指數,事實上我們不可能得到此相關,僅能以上述方法來估計,此相關(rxx)稱為信度係數。 信度指數等於信度係數的平方根 信度係數亦即決定係數,可以直接來解釋測驗分數的總變異中,有多少變異的比率真實特質的所造成變異。 2019/5/31 教學評量

42 標準參照測驗與速度測驗的信度 標準參照測驗的信度
2019/5/31 教學評量

43 標準參照測驗目的在於依據一項標準,評量學生的學習屬於精熟或非精熟,而不是區分成就水準,故測驗的變異性不會存在。
常模參照測驗的目的在於區別或比較學生間不同成就水準,所關心的是學生個別差異,故其分數有較大的變異性。其信度係數受到團體變異所影響,團體變異愈大,測驗信度係數愈高。 標準參照測驗目的在於依據一項標準,評量學生的學習屬於精熟或非精熟,而不是區分成就水準,故測驗的變異性不會存在。 2019/5/31 教學評量

44 傳統的相關方法不適於估計標準參照測驗的信度。 估計決定的正確性可採下列方法:
百分比一致性 柯恆的K係數 2019/5/31 教學評量

45 百分比一致性 兩個複本測驗的精熟人數 測驗甲 精熟 非精熟 測驗乙 30 3 33(a+b) 2 15 17(c+d) 32(a+c)
18(b+d) 50 2019/5/31 教學評量

46 百分比一致性(Percent Agreement,PA)是分析分類決定一致性。 求得百分比一致性為.90,表分類決定的一致性為90%。
測驗品質(複本) 團體成分 2019/5/31 教學評量

47 柯恆的K係數 柯恆的K係數(Cohen’s Kappa coefficient)目的是從PA中除去團體成分(Pc)的機會影響,以估計由測量程序所造成的決定一致性。 2019/5/31 教學評量

48 Pc=.54的意義:在此團體中,依據團體組成性質的影響,可預期有54%的一致性分數。
將此影響取消後,得到K係數.78,此係數的意義是:除了團體組成所預期的影響外,測驗可貢獻78%的一致分類。 百分比一致性與K係數的選用須視所強調的重點而定,若強調團體一致性的分類,而不顧一致性的過程,就選用百分比一致性;若重點關心測量程序對一致性分類的貢獻程度,則以選用K係數為宜。 2019/5/31 教學評量

49 速度測驗的信度 2019/5/31 教學評量

50 速度測驗的信度不適宜採用根據一次測驗的實施加以估計,因會產生假性的高相關現象。
其信度估計宜採兩次的測驗實施方法,故重測信度與複本信度為適當的方法。 2019/5/31 教學評量

51 影響信度的因素 2019/5/31 教學評量

52 測驗的長度 團體的變異量 測驗的難度 測驗的客觀性 測驗愈長其信度愈高:測驗愈長,內容愈具代表性,分數受到猜測的影響亦愈小。
在其他條件相等下,團體的變異性(異質性)愈大,其信度愈高。 測驗的難度 難易適中的測驗,可使測驗的分佈範圍變大,而提高測驗信度。 測驗的客觀性 評分 題目的代表性 2019/5/31 教學評量

53 信度估計的方法 2019/5/31 教學評量

54 信度的解釋與應用 2019/5/31 教學評量

55 理想的信度係數 用來作個人決定的測驗,其所需的信度係數比用來做團體決定的測驗要高。 穩定 等值 等值穩定 認知 .90~.95
.80~.85 .70~.75 情意 比認知低.20~.30之間 2019/5/31 教學評量

56 測量標準誤 測量標準誤的意義 信度係數適合於比較不同測驗的信度,測量標準誤則適合於解釋個人的分數。
測量學生100次智商和真實分數會有一個差,此差稱為測量誤差,測量誤差分配的標準差,就是測量標準誤。 SEmeans:測量標準誤 Sx:測驗的標準差 rxx:測驗的信度係數 2019/5/31 教學評量

57 測量標準誤與信度係數的關係 測量標準誤的應用 當信度係數為1時,測量標準誤為0;信度係數為0時,測量標準誤等於測驗分數的標準差。
信度愈高,測量標準誤愈小。 測量標準誤的應用 個人分數的解釋。 比較不同測驗的分數差異 2019/5/31 教學評量

58 測驗的效度 歐慧敏 2019/5/31 教學評量

59 效度的意義與原理 效度的意義與特性 2019/5/31 教學評量

60 效度的意義 測驗分數的正確性;一個測驗測量到它所想要測量的特質程度。 2019/5/31 教學評量

61 效度的特性 效度無法直接測量,但可從其他資料推論
效度的判斷,主要依據測驗分數的使用目的,或測驗結果的解釋。故效度屬於測驗的結果,而非測驗工具本身。 效度是程度上的差別,而非全有或全無的問題。 效度在使用的目的和情境上具有特殊性,不宜視為普遍性的特質。 2019/5/31 教學評量

62 效度包含邏輯分析和統計分析 效度愈高愈好 效度愈高,信度愈高 效度不考慮界線 2019/5/31 教學評量

63 效度的理論 2019/5/31 教學評量

64 共同因素指某個測驗的變異量和其他測驗的變異量所共同分享的部分。兩個或兩個測驗以上所有的共同因素。
其中 是屬於效度的部分。 效度是指共同因素所造成的變異量比率。 共同因素指某個測驗的變異量和其他測驗的變異量所共同分享的部分。兩個或兩個測驗以上所有的共同因素。 2019/5/31 教學評量

65 APA出版之「教育與心理測驗之標準」一書指出,測驗的目的有三:
確定學生目前對於測驗中所呈現的代表性樣本的表現程度。(內容效度) 預測學生未來的行為,或估計學生在測驗中無法直接測量到的某些特質的目前狀況。(效標關聯效度) 推論學生具有某些特質的程度。(構念效度) ⊙除上述三者外,宜加入結果的考量 2019/5/31 教學評量

66 內容效度 指測驗內容的代表性或取樣的適切性。 主要採取邏輯分析。 適用於成就測驗,特別是標準參照測驗。
表面效度缺乏邏輯分析,僅只測驗給人的第一印象好像測量什麼東西,而不是指測驗事實上能測到什麼東西,故與內容效度不同。 2019/5/31 教學評量

67 效標關聯效度 2019/5/31 教學評量

68 以經驗性的方法,研究測驗分數與一些外在效標間的關係,故又稱經驗效度或統計效度。
效標效度愈高,測驗分數愈能預測外在效標。 外在效標係指測驗所要預測的某些行為或量數。 2019/5/31 教學評量

69 同時效度與預測效度 「同時效度」指測驗分數與實施測驗同一時間所取得的效標之間的相關。旨在使用測驗分數估計個人在效標方面的目前實際表現。
同時效度的效標是在做測驗的同一時間所取得,不必等待一段時間,故較易於考驗。 「預測效度」指測驗分數與實施測驗後一段時間所取得的效標之間的相關。旨在使用測驗分數預測個人在效標方面未來的表現。 2019/5/31 教學評量

70 「同時效度」與「預測效度」的不同: 效標取得的時間不同: 「同時效度」 在測驗的同時間收集效標;「預測效度」是在測驗實施後,等待一段相當長的時間再收集效標 。 測驗的目的不同: 「同時效度」 在評估目前情況;「預測效度」是在預測未來的行為。 2019/5/31 教學評量

71 效標的特性與種類 效標的特性: 效標的種類 適切性:效標資料能反映出測驗所欲測量的重要特徵。 可靠性:效標資料本身須具有可靠性。
客觀性:良好的效標必須能避免偏差和效標混淆。 可用性:在選擇效標時,經常遇到的困難為效標資料的取得是否容易和方便。 效標的種類 2019/5/31 教學評量

72 效標的種類: 預期表 學業成就 特殊化的訓練成績 實際工作成績 對照團體 精神病學的診斷 評定成績 先前的有效測驗 2019/5/31
教學評量

73 構念效度 2019/5/31 教學評量

74 指測驗能測量到理論上的構念或特質的程度。 獲得構念效度證據的方法:
相關研究 團體差異性的分析 實驗研究 內部一致性分析 對照團體法 相關法 計算分測驗與總分間相關 因素分析 2019/5/31 教學評量

75 多項特質-多項方法矩陣 相同方法測量相同特質 相同方法測量不同特質 不同方法測量相同特質 不同方法測量不同特質 2019/5/31 教學評量

76 影響效度的因素 2019/5/31 教學評量

77 測驗的品質 測驗的實施 受試者的因素 效標的品質 團體的性質 2019/5/31 教學評量

78 效度的解釋與應用 2019/5/31 教學評量

79 效度與效標分數的預測 效度與人員的選擇 錯誤的接受與拒絕 基準比率 選擇比率 效度、選擇比率與正確選擇的關係 2019/5/31 教學評量

80 效度與信度的關係 2019/5/31 教學評量

81 信度是效度的必要條件而非充分條件 2019/5/31 教學評量

82 效度與信度的變異關係 2019/5/31 教學評量

83 2019/5/31 教學評量


Download ppt "測驗的信度 歐慧敏 2019/5/31 教學評量."

Similar presentations


Ads by Google