Chapter Five 效度:基本概念.

Slides:



Advertisements
Similar presentations
第十八章 判别分析 Discriminant Analysis. Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant.
Advertisements

香港安老院舍評審制度先導計劃 香港老年學會 二零零四年六月十四日. 背景 1996 年《安老院條例》全面實施,確保本 港安老院舍達最基本服務水平 1998 年起就政府資助服務 ( 包括資助安老院 舍 ) 推行「服務表現監察制度」 有部份院舍採用其他服務質素評核制度, 例如 ISO 認證或「五常法」
會計學 Chapter 1 基本概念 1-2 基本概念 第一節 單式簿記 第二節 會計學的定義與功用 第三節 會計學術與會計人員 第四節 企業組織 第五節 會計學基本第五節 會計學基本慣例 第六節 會計方程式 第七節 財務報表.
Chapter 5 教育發展與職業選擇. 1. 認識高職學生的生涯進路。 2. 了解個人特質與職業屬性之 間的關係。 3. 認識打工安全與勞動權益。
一个组织素质的高低,在很大程度上是其所聘佣和保有的人员素质的一种总括反映。 ——斯蒂芬·P·罗宾斯
13 所有者权益 Chapter 12 中 OWNER’S EQUITY 级财务会计 Intermediate Accounting
北京大学人力资源开发与管理研究中心 教授 博士生导师 肖鸣政
小 王 子 組別:第五組 班級:財金二甲 組員:A 林安潔 A 陳思羽 A 許雅涵
这辈子只做一件家务,你会做什么? A、拖地 B、洗碗 C、做饭 D、倒垃圾.
因素分析方法的整合 ---- 结构效度的一种计算方法.
11-1 保險業之定義 11-2 保險業之設立 11-3 保險業之組織 11-4 保險業之營業範圍
南台科技大學 萬金生教授 九十八年六月十二日
问卷调查的规范与技术 问卷调查的规范与技术.
16PF测验.
第三章 创业者的性格测评——16PF测验 授课教师:赵荔.
9-1 火災保險 9-2 海上保險 9-3 陸空保險 9-4 責任保險 9-5 保證保險 9-6 其他財產保險
土木工程专业调查.
Chapter 6 竞争与合作战略 成本领先战略 差异化战略 集中化战略 合作战略 竞争优势分析.
做好就业与自主创业的准备.
Chapter7 退房程序與帳務的處理.
國立彰化師範大學教育研究所 學校行政碩士班 碩士論文
景氣循環 景氣循環 美國景氣循環變化歷程 景氣循環面面觀 景氣循環分析的介紹 總體經濟學 chapter 8 景氣循環.
槍砲病菌與鋼鐵 第三組.
99年成語200題庫(21-40).
Chapter 6 选择渠道成员.
Chapter 5 research Methods in Social Medicine
Chapter 9  国际货币体系 ▲国际金本位制 ▲布雷顿森林体系 ▲牙买加货币体系 ▲欧洲货币体系.
導覽解說與環境教育 CHAPTER 3 解說員.
中小企業經營管理 第五版 梁鴻民 著 3 PART 中小企業之 經營管理 中小企業經營管理.
Chapter 16 失業通膨與政府收支 經濟學 Chapter 16 失業通膨脹與政府收支.
財務報表的內容 四種報表格式 財務報表的補充說明 會計師簽證的重要性 合併報表 財務報表分析 Chapter 2 財務報表的內容.
老師 製作 法律與生活.
CHAPTER 7 服務的商務禮儀 Instructor: 李育倫.
CHAPTER 6 寫的溝通. CHAPTER 6 寫的溝通 第六章 寫的溝通125 第一節 寫的溝通之特性127 壹、蒐集資料為起點128 貳、清楚表達訊息128 一、大綱模式129 二、自問自答模式 130 三、腦力激盪式 130 參、善用資料130 肆、簡潔有力131 一、簡潔扼要,話說完就停筆131.
第十七章休閒農業之經營策略與成功之道 17 Chapter.
Chapter 2 勞工安全衛生法.
第7章 量表的建立—補充 4.1 基本觀念 4.2 測量程序 4.3 測量尺度 4.4 良好測量工具的特性 4.5 信度測量
多變量分析 Multivariant Analysis
社会医学研究方法.
報告人:古博文 彰師大運動健康研究所副教授 人權教育基金會執行長 100年8月
風險分析與財務結構 瞭解風險的定義與種類 衡量企業風險與財務風險 影響企業風險的因素 影響財務風險的因素 以現金流量衡量企業長期的財務狀況
國際行銷管理 林 建 煌 著.
Chapter9 金融监管体系.
第十三章 調查研究.
華 族 婚 俗 僑港伍氏宗親會伍時暢紀念學校 完成日期:20/12/2007 第二組.
第一節 知覺 第二節 認知 第三節 學習 第四節 創造力
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
CHAPTER 2 綜合所得稅之架構.
1.問卷調查研究設計簡介 2.問卷資料分析~項目分析與信效度檢驗 3.問卷資料分析~因素分析 4.因果關係分析~結構方程模式分析
老師 ____製作.
結構方程模式 結構方程模式由測量模型(measurement model)及結構模型(structural model)所組成。
员工的招募、甄选和录用 东北林业大学经济管理学院 田昕加
预防流感保健康 学校 老师.
5 甄選 國立中山大學企管系 甄選.
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
The Ultimate PowerPoint Design Package
Development of the Sales Locus of Control Scale
報告人: 吳以雯 指導教授:任維廉教授 報告日期:2011/05/25
老師 製作 休閒農場.
心理學—日常生活中的應用 人際溝通.
作者:梁建、樊景立 授課教師:任維廉教授 報告者:黃紹軒
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
財務預測 財務預測的用途 法令相關規定 預測的基本認知 預測的方法 製作預測性報表 財務報表分析 Chapter 16 財務預測.
第一節 績效考核週期 第二節 考核系統績效標準 第三節 績效考核的效標 第四節 績效考核的原理與原則 結 語
自慢 社長的成長學習筆記 何飛鵬.
Chapter4工作分析與工作評價 第一節 工作分析 第二節 工作評價.
針對敦煌書局 之問卷設計流程.
團體工作的倫理議題 CHAPTER 12. 團體工作的倫理議題 CHAPTER 12 團體工作的倫理議題 1.如果我有資格執行個別治療,那麼我也可以執行團體治療。 2.仔細而審慎地篩選團體成員,較符合專業倫理要求。 3.在團體治療開始前,讓成員能先有準備以便從團體中獲得最大利益,是非常重要的。
Chapter1 大師的視界,見證歷史的腳步
精進優質 計畫方案 104-1良師甲工精進教學計畫 計畫目標 各教學單位辦理教師增能研習,期能對新課程的架構與 精神有更深一層的認知與準備。
Presentation transcript:

Chapter Five 效度:基本概念

測驗效度的重點在於測驗究竟在測量什麼以及測量結果有多好。 它告訴我們:從測驗分數可以推測什麼東西。 基本上,所有建立測驗效度的程序都涉及了測驗表現與其他相關行為特徵之獨立觀察事實之間的關係。

測驗效度概念的演進 測驗最早的用途之ㄧ,是評量個人在特定內容領域中的學習效果。例如學校的期末考等,這類測驗ㄧ般稱為成就測驗,通常在檢驗其效度時是將測驗內容與原先所要評量之內容領域加以比較。 測驗發展的下一個階段重點轉為預測。不同的人在目前或未來的特定情境中會有何反應?測驗所欲測量的目標行為之表現稱為效標(criterion)。預測用途的測驗效度通常是測驗分數與直接測量該效標的獨立指標之間的相關係數。因此,對於機械性向測驗而言,其效標可能是未來擔任機械技師的工作表現。

測驗效度概念的演進 測驗發展史目前的階段反映出兩種主要趨勢: 1.理論取向逐漸受到重視 2.心理學理論密切地結合由實徵和實驗方法所進行的假設檢驗。 這些趨勢的結果之ㄧ,就是心理學家逐漸承認建構(construct)對於描述和了解人類行為的價值。建構是廣泛的類別,源自可以直接觀察之行為變項的共同特徵。它們存在於理論中,本身無法直接被觀察。

測驗效度概念的演進 建構效度被認定為涵蓋所有的基礎效度概念,因為它指明了測驗所測量的內容。內容和預測效度只是界定和了解建構的諸多訊息來源之二。 前述三個測驗發展階段所重視的效度分別稱為:內容效度、預測效度(效標關聯效度)、建構效度

描述內容的程序 性質 就本質上來看,描述內容效度程序就是:有系統地檢驗測驗內容,以決定它是否涵蓋了所欲測量之行為領域的代表性樣本。 我們必須有系統地分析所欲測試的行為領域,以便確保所有主要層面都被涵蓋在測驗題目中。

描述內容的程序 特殊程序 訂定測驗規格(test specifications)。測驗的說明書內應該清楚地陳述測驗所涵蓋的內容領域或主題、所測試的教學目標或過程及相對重要性,以及每ㄧ主題的題數。此外,參予測驗編製的專家之人數及專業資格等訊息亦應當說明清楚。

描述內容的程序 其它實徵程序(量化分析)可以用來補充教育成就的內容效度包括 1.檢驗總分以及個別題目的表現隨著年級而產生進步的情形。 2.答題的錯誤類型分析或觀察受測者的工作方法。 3.檢驗速度之影響幅度可以計算無法完成測驗的人數 4.將測驗與無關因素求相關,以獲得無關因素的影響程度。例如為了釐清閱讀指導與能力所造成的無關影響,我們可以將測驗分數與閱讀理解的測驗分數求相關

描述內容的程序 應用 上述實徵檢驗法可以回答成就測驗效度兩個基本問題 1.該測驗是否涵蓋特定技能或知識的代表性樣本? 2.測驗表現是否合理地排除無關變項的影響? 由於領域參照測驗的解釋必須根據其內容意義來解釋,因此內容效度適用於這類測驗。

描述內容的程序 內容效度也可以應用在員工甄選和分類的職業測驗中。如果該測驗是實際的工作樣本,或是從事該工作時所需的技能和知識,就適合使用內容效度。在這種情況下,我們必須進行徹底的工作分析(job analysis),以便證明工作中的活動與測驗的相似性。 但是性向測驗和性格測驗並不適合使用內容效度。 性格測驗和性向測驗不同於成就測驗,因為前者並不是以特定教學課程為基礎來進行測驗內容的抽樣。因此,對性格或性向測驗而言,人們在回答相同測驗題目時,所經歷的工作方法或心理歷程有更大的差異,相同測驗可能在不同的人身上測量到相異的功能。在這種情況下,我們根本無法由測驗內容去決定它所測量的心理功能。

描述內容的程序 表面效度 表面效度表示:對於受測者、使用測驗的管理人員,以及其他未曾接受訓練的觀察者而言,測驗是否「看起來有效」。 表面效度並不能取代客觀方法所決定的效度。但可以增進受測者的在施測時的配合。

效標預測程序 同時效度與預測效度 效標預測程序可以指出:測驗能夠預測個人在特定活動之表現的有效性。根據取得效標和測驗分數的時間關係,將之區分為同時效度和預測效度。 同時效度在某種層次上的涵義是現有分類的診斷,而非未來結果的預測。 由於同時效度的效標總是在測驗當時就已經獲得,在這種情況下,測驗的功能究竟是什麼?基本上,這樣的測驗提供了比效標資料更簡單、迅速或者便利的替代品。

效標預測程序 效標污染(criterion contamination) 避免效標受到測驗分數的影響,例如,如果大學教師或是工廠督導知道某一個人的性向測驗分數非常差,這項訊息可能就會影響他們給予這位學生或員工的成績或評分。效標污染可能會異常地提高測驗分數與效標的相關,因此必須避免。

效標預測程序 效度指標 建立測驗效度所使用的效標就像它的用途ㄧ樣多。 智力測驗最常用的效標是學業成就的指標,因此這類測驗通常被視為測量學業性向的工具。 各種學業成就的指標提供了所有教育層級的效標資料。另一種學業成就效標的形式就是個人已經完成的教育總數量。我們可以預期:一般而言,智力越高的人持續接受教育的時間越長。但是教育總數量和學業性向之間的關係並不是完美的。尤其在較高的教育水準上,經濟、社會、動機和其他非智力因素都可能影響個人是否持續接受教育。

效標預測程序 在發展特殊性向測驗的時候,通常使用的效標是特殊訓練的表現。例如,機械性向測驗可以依據實習課程的最後成就來建立效度。 在針對特殊測驗計畫所特別設計的測驗裡,訓練記錄是常用的效標資料來源。例如,空軍飛行員甄選計畫的效度便是根據基本飛行訓練的表現所建立。

效標預測程序 多元性向測驗組通常以高中或大學課程的成績為準,以便確定其區分預測效度。例如,語文理解測驗的分數可以和英文成績互相比較,空間視覺化分數則和幾何成績比較,其餘依此類推。 最終效標(ultimate criterion)通常需等待相當長的時間才能獲得,有時候甚至不存在所謂的最終效標,例如戰鬥表現(若沒有發生戰爭,哪來的戰鬥表現?)。因此,通常採用所謂的中途效標(intermediate criterion),例如各階段訓練之表現紀錄。

效標預測程序 根據工作表現的追蹤紀錄來作為效標必須注意的是,相似工作在不同組織中的性質通常有所差異,因此,在測驗指導手冊中根據工作效標所建立的效度資料不只應該描述所使用的特殊效度指標,還有工作者的職責內容。 以「對照組」來建立效度通常涉及綜合指標,它能夠反映出日常生活中無法控制之累積性選擇因素的影響。這種效標最終是以留存在特定團體中或者被淘汰為基礎。例如,音樂性向測驗的效度是比較音樂學校學生與一般學生來獲得。當然,選擇對照組時可以根據任何效標,例如,學業等第、評分或工作表現,我們只需要挑選位於效度指標分配兩端的對象即可。

效標預測程序 對照組經常用於性格測驗的效度建立。例如在建立社交性特質測驗的效度時,可以比較業務或行政人員的測驗表現與文書人員或工程師的測驗表現。其背後隱含的假設是:進入且持續留在業務或行政工作的人,再社交性特質上屬於特別傑出的一群。 職業團體通常用來建立興趣測驗的效度,例如史氏職業興趣表格(Strong Vocational Interest Blank, SVIB)

效標預測程序 如果以實徵方法建立領域參照測驗的效度,除了常見的內容效度程序之外,還可以使用數種修改過的對照組方法。 根據這種用途,我們可以採用曾經接受相關訓練不同程度之團體的測驗表現。如果使用精熟與否的計分法,則可以進行2*2的分析,比較訓練前、後團體的通過和失敗人數比例,例如將測驗施測於連續兩個年級的學童,此時他們正在學習該測驗所測量的概念或技能。如果能夠獲得不同教學時間之後的分數,則可以計算實際表現和教學時數之間的關係。

效標預測程序 在其他類型的效標當中,值得注意的是學校教師、特殊課程的老師以及工作督導的評定(ratings)。 評定幾乎可以用在各類測驗的效度建立。它們尤其適合做為性格測驗的效標,因為在此一領域中比較難找到客觀的效標。尤其對於明顯的社會性特質而言,以個人接觸為基礎的評定就邏輯上來看是最合理的效標。

效標預測程序 新測驗和現有測驗的相關通常也被引用為效度的證據。如果新測驗比現有測驗更簡短或簡單,則後者就可以當作效度指標。 因此,紙筆測驗可能根據已經建立效度、但是較為複雜耗時的作業測驗來建立效度。或者團體測驗可以根據個別測驗來建立效度。

效標預測程序 效度類化 考慮測驗對於不同團體的預測效度是否都具有一定的高水準。 有研究指出,語文、數字推理性向測驗的效度可以類推到先前所確認的其他職業。顯然,各種職業任務之成功表現的共同核心集中在認知技能。

建構確認程序 測驗的建構效度表示測驗可以測量理論建構或特質的程度。 建構的實例包括學業性向、機械理解、語文流暢性、行走速度、神經質和焦慮等等。每ㄧ個建構都是為了解釋和組織所觀察到的反應一致性。「建構」來自行為指標之間的互相關連。 建構效度的建立必須逐漸累積各種來源的訊息。任何資料若是有助於了解該特質之性質,以及對其發展和形成條件產生影響,都可以作為建構效度的適當證據。 以下將介紹確認建構的特定技術。

建構確認程序 發展變化 許多傳統智力測驗所使用的主要效標就是年齡區辨。我們預期某種能力在兒童時期會隨年齡而增強,因此如果測驗是有效的,測驗分數應該顯示出同步的增進。 第三章皮亞傑之次序量表,在建立效度時也是以發展分析為基礎。達到早先階段是學習較晚之概念技能的先決條件。

建構確認程序 與其他測驗的相關 用來證明:新測驗所測量的行為領域類似於其他同樣稱為「智力測驗」或「機械性向測驗」的既有測驗。 與效標預測效度不同的是,此時相關只須達到中等程度即可,不可以太高。如果新測驗與現有測驗的相關太高,但是又缺乏簡潔或易於施測等其他優點,則新測驗就是多餘的。 與其它測驗的相關是證明新測驗並未受到無關因素影響的另一種方式。

建構確認程序 因素分析(factor analysis) 是ㄧ種確認心理特質的方法,尤其與建構確認的程序有十分密切的關連。 舉例來說,如果對ㄧ群人實施20項測驗,第一個步驟就是計算各測驗之間的相關。在檢驗190個相關系數組成的列表之後,可以顯示出測驗所形成的集群,這就表示共同特質存在。

建構確認程序 內部一致性 這種方法的特徵是,效標就是測驗分數本身。 使用修正的對照組方法,我們有時會根據總分來選擇極端組,然後再比較高分和低分校標組在每一題上的表現。如果高分效標組之「通過」(或答對)比例低於低分校標組,則這類題目就是無效的。 例如,計算每一題「通過-失敗」與測驗總分的二系列相關。根據此方法來選題的測驗具有內部一致性,因為每ㄧ題都和總分同樣地能夠區辨高、低分的受測者。 分測驗與總分的相關也是此技術的另一種應用

建構確認程序 聚合效度(convergent validity)和區辨效度(discriminant validity) 為了證明建構效度的存在,我們不只要顯示:測驗分數與理論上應該有關的其他變項呈現高相關(即聚合效度),而且它不應該與無關變項產生顯著相關(即區辨效度)。 使用多重特質-多重方法矩陣來獲得聚合效度與區辨效度的證據。表5-1

建構確認程序 實驗介入 例如要檢驗使用於個別教學計畫之測驗的效度,則可行的途徑之ㄧ是比較測試前和測試後的分數。

建構確認程序 結構方程式模型 建立因果關係模型的基礎在於非常熟悉各變項以及所研究之情境的現有知識,模型中所假設的關係應該具備合理的理論基礎。 在因果模型中,方程式的數目通常多於未知數,所以可能同時產生數個模型。然後再根據原先實徵數據所形成的相關矩陣,以檢定其適合度。

總結與整合 表5-2列出四種使用測驗的方式,以及適合其目的之效度建立程序。 這個例子顯示出:效度建立程序的選擇必須依照測驗分數的使用目的來決定。如果將相同的測驗使用於不同用途,就應該採取不同的效度建立程序。

總結與整合 建構效度的包容性 內容、效標和建構效度之間未必可以截然區分。內容分析和測量效標關聯的特殊技術都能夠幫助我們了解測驗所測量的建構。 根據各種實用效標來建立效度,通常可以幫助使用者了解測驗的測量內容。儘管他們未必關切任何特殊效標的預測,但視效標的檢驗可以協助他們了解所抽樣的行為領域。如果我們順著這一點繼續思考,這可以看出:所有的測驗使用和測驗分數解釋都隱含了建構效度。

總結與整合 由於測驗的使用條件很少與蒐集效度資料時完全相同,因此必然會牽涉到結果之類化程度的問題。測驗分數的解釋意義永遠是以建構為基礎,但是有關於行為領域、母群和情境脈絡的廣度或可類化性可能有很大的變異。

總結與整合 從另一角度來看,即使測驗在當前的實際應用集中在內容描述(例如傳統的教育評量)或效標預測(例如工作甄選),使用適當廣度的建構仍然比特定測驗表現的指標更加有效。 效度指標和測驗分數都可以用對應的建構加以描述。更進一步來說,建構之間因果關係的研究—例如結構方程式模型—逐漸成為了解測驗如何以及為何發揮功能的主要方法。

總結與整合 測驗建構過程中的效度建立 效度建立的過程始於研究之前,作者應當從心理學理論、先前研究結果,或者針對相關行為領域所進行的系統化觀察和分析當中,導出特質的詳細陳述或建構的定義。其次是依據建構的定義撰寫題目。接下來是實徵項目分析,並且從最初的題庫中選取最有效的題目。我們還需要進行其他適當的內部分析,包括題組或分測驗的統計分析。最後的階段包括:藉由真實生活中的外在效標以建立各分數的效度,以及分數的解釋組合。

總結與整合 在發展或使用測驗的過程中,幾乎所有蒐集到的訊息都與效度有關。當然,有關內部一致性和再測信度的資料有助於界定該建構的同質性和長期穩定性。常模可以提供更詳細之建構內容說明,尤其是依據年齡、性別或其他可能影響個人經驗史以及測驗表現之人口變項所分類的常模資料。除此以外,當測驗出版之後,可以經由臨床觀察的累積資料和特殊研究計畫,繼續釐清和充實其分數的解釋意義。

總結與整合 測驗的個人性與社會性結果 有些學者建議測驗的效度概念應該包括另一項特徵,也就是測驗對於個人和社會所造成的結果。使用測驗時可能無意中對個人,或是某些經驗背景不同的種族或其他團體造成傷害。 測驗的使用及結果的解釋都必須十分小心。