Chapter Five 效度:基本概念
測驗效度的重點在於測驗究竟在測量什麼以及測量結果有多好。 它告訴我們:從測驗分數可以推測什麼東西。 基本上,所有建立測驗效度的程序都涉及了測驗表現與其他相關行為特徵之獨立觀察事實之間的關係。
測驗效度概念的演進 測驗最早的用途之ㄧ,是評量個人在特定內容領域中的學習效果。例如學校的期末考等,這類測驗ㄧ般稱為成就測驗,通常在檢驗其效度時是將測驗內容與原先所要評量之內容領域加以比較。 測驗發展的下一個階段重點轉為預測。不同的人在目前或未來的特定情境中會有何反應?測驗所欲測量的目標行為之表現稱為效標(criterion)。預測用途的測驗效度通常是測驗分數與直接測量該效標的獨立指標之間的相關係數。因此,對於機械性向測驗而言,其效標可能是未來擔任機械技師的工作表現。
測驗效度概念的演進 測驗發展史目前的階段反映出兩種主要趨勢: 1.理論取向逐漸受到重視 2.心理學理論密切地結合由實徵和實驗方法所進行的假設檢驗。 這些趨勢的結果之ㄧ,就是心理學家逐漸承認建構(construct)對於描述和了解人類行為的價值。建構是廣泛的類別,源自可以直接觀察之行為變項的共同特徵。它們存在於理論中,本身無法直接被觀察。
測驗效度概念的演進 建構效度被認定為涵蓋所有的基礎效度概念,因為它指明了測驗所測量的內容。內容和預測效度只是界定和了解建構的諸多訊息來源之二。 前述三個測驗發展階段所重視的效度分別稱為:內容效度、預測效度(效標關聯效度)、建構效度
描述內容的程序 性質 就本質上來看,描述內容效度程序就是:有系統地檢驗測驗內容,以決定它是否涵蓋了所欲測量之行為領域的代表性樣本。 我們必須有系統地分析所欲測試的行為領域,以便確保所有主要層面都被涵蓋在測驗題目中。
描述內容的程序 特殊程序 訂定測驗規格(test specifications)。測驗的說明書內應該清楚地陳述測驗所涵蓋的內容領域或主題、所測試的教學目標或過程及相對重要性,以及每ㄧ主題的題數。此外,參予測驗編製的專家之人數及專業資格等訊息亦應當說明清楚。
描述內容的程序 其它實徵程序(量化分析)可以用來補充教育成就的內容效度包括 1.檢驗總分以及個別題目的表現隨著年級而產生進步的情形。 2.答題的錯誤類型分析或觀察受測者的工作方法。 3.檢驗速度之影響幅度可以計算無法完成測驗的人數 4.將測驗與無關因素求相關,以獲得無關因素的影響程度。例如為了釐清閱讀指導與能力所造成的無關影響,我們可以將測驗分數與閱讀理解的測驗分數求相關
描述內容的程序 應用 上述實徵檢驗法可以回答成就測驗效度兩個基本問題 1.該測驗是否涵蓋特定技能或知識的代表性樣本? 2.測驗表現是否合理地排除無關變項的影響? 由於領域參照測驗的解釋必須根據其內容意義來解釋,因此內容效度適用於這類測驗。
描述內容的程序 內容效度也可以應用在員工甄選和分類的職業測驗中。如果該測驗是實際的工作樣本,或是從事該工作時所需的技能和知識,就適合使用內容效度。在這種情況下,我們必須進行徹底的工作分析(job analysis),以便證明工作中的活動與測驗的相似性。 但是性向測驗和性格測驗並不適合使用內容效度。 性格測驗和性向測驗不同於成就測驗,因為前者並不是以特定教學課程為基礎來進行測驗內容的抽樣。因此,對性格或性向測驗而言,人們在回答相同測驗題目時,所經歷的工作方法或心理歷程有更大的差異,相同測驗可能在不同的人身上測量到相異的功能。在這種情況下,我們根本無法由測驗內容去決定它所測量的心理功能。
描述內容的程序 表面效度 表面效度表示:對於受測者、使用測驗的管理人員,以及其他未曾接受訓練的觀察者而言,測驗是否「看起來有效」。 表面效度並不能取代客觀方法所決定的效度。但可以增進受測者的在施測時的配合。
效標預測程序 同時效度與預測效度 效標預測程序可以指出:測驗能夠預測個人在特定活動之表現的有效性。根據取得效標和測驗分數的時間關係,將之區分為同時效度和預測效度。 同時效度在某種層次上的涵義是現有分類的診斷,而非未來結果的預測。 由於同時效度的效標總是在測驗當時就已經獲得,在這種情況下,測驗的功能究竟是什麼?基本上,這樣的測驗提供了比效標資料更簡單、迅速或者便利的替代品。
效標預測程序 效標污染(criterion contamination) 避免效標受到測驗分數的影響,例如,如果大學教師或是工廠督導知道某一個人的性向測驗分數非常差,這項訊息可能就會影響他們給予這位學生或員工的成績或評分。效標污染可能會異常地提高測驗分數與效標的相關,因此必須避免。
效標預測程序 效度指標 建立測驗效度所使用的效標就像它的用途ㄧ樣多。 智力測驗最常用的效標是學業成就的指標,因此這類測驗通常被視為測量學業性向的工具。 各種學業成就的指標提供了所有教育層級的效標資料。另一種學業成就效標的形式就是個人已經完成的教育總數量。我們可以預期:一般而言,智力越高的人持續接受教育的時間越長。但是教育總數量和學業性向之間的關係並不是完美的。尤其在較高的教育水準上,經濟、社會、動機和其他非智力因素都可能影響個人是否持續接受教育。
效標預測程序 在發展特殊性向測驗的時候,通常使用的效標是特殊訓練的表現。例如,機械性向測驗可以依據實習課程的最後成就來建立效度。 在針對特殊測驗計畫所特別設計的測驗裡,訓練記錄是常用的效標資料來源。例如,空軍飛行員甄選計畫的效度便是根據基本飛行訓練的表現所建立。
效標預測程序 多元性向測驗組通常以高中或大學課程的成績為準,以便確定其區分預測效度。例如,語文理解測驗的分數可以和英文成績互相比較,空間視覺化分數則和幾何成績比較,其餘依此類推。 最終效標(ultimate criterion)通常需等待相當長的時間才能獲得,有時候甚至不存在所謂的最終效標,例如戰鬥表現(若沒有發生戰爭,哪來的戰鬥表現?)。因此,通常採用所謂的中途效標(intermediate criterion),例如各階段訓練之表現紀錄。
效標預測程序 根據工作表現的追蹤紀錄來作為效標必須注意的是,相似工作在不同組織中的性質通常有所差異,因此,在測驗指導手冊中根據工作效標所建立的效度資料不只應該描述所使用的特殊效度指標,還有工作者的職責內容。 以「對照組」來建立效度通常涉及綜合指標,它能夠反映出日常生活中無法控制之累積性選擇因素的影響。這種效標最終是以留存在特定團體中或者被淘汰為基礎。例如,音樂性向測驗的效度是比較音樂學校學生與一般學生來獲得。當然,選擇對照組時可以根據任何效標,例如,學業等第、評分或工作表現,我們只需要挑選位於效度指標分配兩端的對象即可。
效標預測程序 對照組經常用於性格測驗的效度建立。例如在建立社交性特質測驗的效度時,可以比較業務或行政人員的測驗表現與文書人員或工程師的測驗表現。其背後隱含的假設是:進入且持續留在業務或行政工作的人,再社交性特質上屬於特別傑出的一群。 職業團體通常用來建立興趣測驗的效度,例如史氏職業興趣表格(Strong Vocational Interest Blank, SVIB)
效標預測程序 如果以實徵方法建立領域參照測驗的效度,除了常見的內容效度程序之外,還可以使用數種修改過的對照組方法。 根據這種用途,我們可以採用曾經接受相關訓練不同程度之團體的測驗表現。如果使用精熟與否的計分法,則可以進行2*2的分析,比較訓練前、後團體的通過和失敗人數比例,例如將測驗施測於連續兩個年級的學童,此時他們正在學習該測驗所測量的概念或技能。如果能夠獲得不同教學時間之後的分數,則可以計算實際表現和教學時數之間的關係。
效標預測程序 在其他類型的效標當中,值得注意的是學校教師、特殊課程的老師以及工作督導的評定(ratings)。 評定幾乎可以用在各類測驗的效度建立。它們尤其適合做為性格測驗的效標,因為在此一領域中比較難找到客觀的效標。尤其對於明顯的社會性特質而言,以個人接觸為基礎的評定就邏輯上來看是最合理的效標。
效標預測程序 新測驗和現有測驗的相關通常也被引用為效度的證據。如果新測驗比現有測驗更簡短或簡單,則後者就可以當作效度指標。 因此,紙筆測驗可能根據已經建立效度、但是較為複雜耗時的作業測驗來建立效度。或者團體測驗可以根據個別測驗來建立效度。
效標預測程序 效度類化 考慮測驗對於不同團體的預測效度是否都具有一定的高水準。 有研究指出,語文、數字推理性向測驗的效度可以類推到先前所確認的其他職業。顯然,各種職業任務之成功表現的共同核心集中在認知技能。
建構確認程序 測驗的建構效度表示測驗可以測量理論建構或特質的程度。 建構的實例包括學業性向、機械理解、語文流暢性、行走速度、神經質和焦慮等等。每ㄧ個建構都是為了解釋和組織所觀察到的反應一致性。「建構」來自行為指標之間的互相關連。 建構效度的建立必須逐漸累積各種來源的訊息。任何資料若是有助於了解該特質之性質,以及對其發展和形成條件產生影響,都可以作為建構效度的適當證據。 以下將介紹確認建構的特定技術。
建構確認程序 發展變化 許多傳統智力測驗所使用的主要效標就是年齡區辨。我們預期某種能力在兒童時期會隨年齡而增強,因此如果測驗是有效的,測驗分數應該顯示出同步的增進。 第三章皮亞傑之次序量表,在建立效度時也是以發展分析為基礎。達到早先階段是學習較晚之概念技能的先決條件。
建構確認程序 與其他測驗的相關 用來證明:新測驗所測量的行為領域類似於其他同樣稱為「智力測驗」或「機械性向測驗」的既有測驗。 與效標預測效度不同的是,此時相關只須達到中等程度即可,不可以太高。如果新測驗與現有測驗的相關太高,但是又缺乏簡潔或易於施測等其他優點,則新測驗就是多餘的。 與其它測驗的相關是證明新測驗並未受到無關因素影響的另一種方式。
建構確認程序 因素分析(factor analysis) 是ㄧ種確認心理特質的方法,尤其與建構確認的程序有十分密切的關連。 舉例來說,如果對ㄧ群人實施20項測驗,第一個步驟就是計算各測驗之間的相關。在檢驗190個相關系數組成的列表之後,可以顯示出測驗所形成的集群,這就表示共同特質存在。
建構確認程序 內部一致性 這種方法的特徵是,效標就是測驗分數本身。 使用修正的對照組方法,我們有時會根據總分來選擇極端組,然後再比較高分和低分校標組在每一題上的表現。如果高分效標組之「通過」(或答對)比例低於低分校標組,則這類題目就是無效的。 例如,計算每一題「通過-失敗」與測驗總分的二系列相關。根據此方法來選題的測驗具有內部一致性,因為每ㄧ題都和總分同樣地能夠區辨高、低分的受測者。 分測驗與總分的相關也是此技術的另一種應用
建構確認程序 聚合效度(convergent validity)和區辨效度(discriminant validity) 為了證明建構效度的存在,我們不只要顯示:測驗分數與理論上應該有關的其他變項呈現高相關(即聚合效度),而且它不應該與無關變項產生顯著相關(即區辨效度)。 使用多重特質-多重方法矩陣來獲得聚合效度與區辨效度的證據。表5-1
建構確認程序 實驗介入 例如要檢驗使用於個別教學計畫之測驗的效度,則可行的途徑之ㄧ是比較測試前和測試後的分數。
建構確認程序 結構方程式模型 建立因果關係模型的基礎在於非常熟悉各變項以及所研究之情境的現有知識,模型中所假設的關係應該具備合理的理論基礎。 在因果模型中,方程式的數目通常多於未知數,所以可能同時產生數個模型。然後再根據原先實徵數據所形成的相關矩陣,以檢定其適合度。
總結與整合 表5-2列出四種使用測驗的方式,以及適合其目的之效度建立程序。 這個例子顯示出:效度建立程序的選擇必須依照測驗分數的使用目的來決定。如果將相同的測驗使用於不同用途,就應該採取不同的效度建立程序。
總結與整合 建構效度的包容性 內容、效標和建構效度之間未必可以截然區分。內容分析和測量效標關聯的特殊技術都能夠幫助我們了解測驗所測量的建構。 根據各種實用效標來建立效度,通常可以幫助使用者了解測驗的測量內容。儘管他們未必關切任何特殊效標的預測,但視效標的檢驗可以協助他們了解所抽樣的行為領域。如果我們順著這一點繼續思考,這可以看出:所有的測驗使用和測驗分數解釋都隱含了建構效度。
總結與整合 由於測驗的使用條件很少與蒐集效度資料時完全相同,因此必然會牽涉到結果之類化程度的問題。測驗分數的解釋意義永遠是以建構為基礎,但是有關於行為領域、母群和情境脈絡的廣度或可類化性可能有很大的變異。
總結與整合 從另一角度來看,即使測驗在當前的實際應用集中在內容描述(例如傳統的教育評量)或效標預測(例如工作甄選),使用適當廣度的建構仍然比特定測驗表現的指標更加有效。 效度指標和測驗分數都可以用對應的建構加以描述。更進一步來說,建構之間因果關係的研究—例如結構方程式模型—逐漸成為了解測驗如何以及為何發揮功能的主要方法。
總結與整合 測驗建構過程中的效度建立 效度建立的過程始於研究之前,作者應當從心理學理論、先前研究結果,或者針對相關行為領域所進行的系統化觀察和分析當中,導出特質的詳細陳述或建構的定義。其次是依據建構的定義撰寫題目。接下來是實徵項目分析,並且從最初的題庫中選取最有效的題目。我們還需要進行其他適當的內部分析,包括題組或分測驗的統計分析。最後的階段包括:藉由真實生活中的外在效標以建立各分數的效度,以及分數的解釋組合。
總結與整合 在發展或使用測驗的過程中,幾乎所有蒐集到的訊息都與效度有關。當然,有關內部一致性和再測信度的資料有助於界定該建構的同質性和長期穩定性。常模可以提供更詳細之建構內容說明,尤其是依據年齡、性別或其他可能影響個人經驗史以及測驗表現之人口變項所分類的常模資料。除此以外,當測驗出版之後,可以經由臨床觀察的累積資料和特殊研究計畫,繼續釐清和充實其分數的解釋意義。
總結與整合 測驗的個人性與社會性結果 有些學者建議測驗的效度概念應該包括另一項特徵,也就是測驗對於個人和社會所造成的結果。使用測驗時可能無意中對個人,或是某些經驗背景不同的種族或其他團體造成傷害。 測驗的使用及結果的解釋都必須十分小心。