High-stake OSCE 考官核心課程
OSCE 評分 標準化病人 考官 考題 評估表
OSCE 評分 信度 (reliability, repeatability, reproducibility) the ability to perform its functions consistently 效度 (validity) the tool measures what it claims to measure
信度 信度是指可靠性或一致性 信度好的指標在同樣或類似的條件下重複操作,可以得到一致或穩定的結果。 通常用測試與再測試方法(test-retest method)來檢視一個指標的穩定信度,也就是將同樣的指標對同一群體重新施測,如果每次都得到同樣的結果,則此指標即有穩定信度。
效度 指概念定義(conceptual definition)及操作化定義(operational definition)間是否契合。 測量的效度比信度難達到。因為構念是抽象的,而指標則是具體的觀察。我們對於一個測量是否有效度並無絕對的信心,但可判斷是否比另一測量更有效度。
如何增進信度 明確的概念化 提升測量尺度的精確性 使用多重指標 使用預試(pretests)、前導研究(pilot studies)及重複測試(replication)
‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ OSCE 評分 信度 (reliability, repeatability, reproducibility) 效度 (validity) ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧
OSCE 評分 標準化病人 validity reliability 個案 validity 評估表 validity
考官訓練 Intra-rater Reliability 同一評分者在重覆多次的評分時機下能夠有一 致的評分水準 同一評分者在重覆多次的評分時機下能夠有一 致的評分水準 Inter-rater Reliability 不同的評分者能夠認同公告所規定的評等標準 不同的評分者能夠同意彼此的評分 不同的評分者對於怎樣的表現算是好、怎樣的 表現算是不好有共識
考官訓練 寬鬆效應 (leniency effect, Kneeland 1929): rating the positive more positive 嚴苛效應 (severity effect, Ford 1931): rating the negative more negative 月暈效應 (halo effect): rating of a trait influences the rating of another trait 隨機效應 (randomness effect): 評分者沒有背景知識或訓練不足,以致於無法對量尺作出適當的區別,因而採用一種隨意的方式來對受試者進行評估。 http://www.bctest.ntnu.edu.tw/flying/flying41-50/flying43-5.htm
寬鬆效應& 嚴苛效應 寬鬆效果係指評分者無論在何種情況下,有評高分的傾向; 嚴苛效果就是評分者無論在何種情況下,皆有評低分的傾向。
月暈效應 (halo effect) 一個人表現好時,大家對他的評價遠遠高於他實際的表現 反之,一個人表現不好的時候,別人眼中所認為的差勁程度,也會遠大於他真正差勁的表現。 當評分者對某人某特質的評斷,是依據其對此人整體印象的優劣而定時,就有月暈效果。
考官訓練 中央趨勢 (central tendency): 當評分者避免使用極端類別,而將評分集中於量尺的中間時,會使得評分較缺乏鑑別力,進而導致信、效度的降低。 侷限效應 (restriction-of-range effect): 但中央趨勢專指評分集中於評分量尺中點附近;在侷限效果中,評分可集中於評分量尺中的任何一點 邏輯誤謬 (logical error): 評分者相信某兩特質間有所關連,而給此兩特質相似或不相似之評等時,即有所謂之邏輯誤謬。 http://www.bctest.ntnu.edu.tw/flying/flying41-50/flying43-5.htm
考官訓練 投射效果 (contrast error): 評分者傾向以自己與受試者作比較,但針對某種自己具有的特質,給予受試者和自己的評等卻完全不同。 次序效果 (order effect): 受試者的受評次序會影響其所得的評等環境、評分者與受試者背景因素影響: http://www.bctest.ntnu.edu.tw/flying/flying41-50/flying43-5.htm
考官訓練 那部份因素影響最大? 評量者心態 (Downing SM, Medical Education, 2005) 怎樣提升OSCE的評量者評量結果之客觀性? 訓練 基本假設…
考官訓練 你為什麼要受訓? 大環境因素 受訓者自我定位與角色 受訓者內在與外在因素 (鞭子與胡蘿蔔)
考官訓練 說明會 影音演練 Discussion group Modified Delphi-Method
考官訓練 體能訓練? 考試執行: 全國採共同考題,每題測驗8分鐘。 每日三場次,每場次考12人,每考場每日測驗 36人。 自我承諾書 (Wilkinson, 2003)
提升客觀性 Direct Observation of Competence Training (Muller,1998; Holmboe, 2004; Angkaw, 2006) Performance dimension training Frame-of-reference training Behavioral observation training
評分表發展流程 Performance dimension training 臨床能力 確認評估目標 逐項目進行討論決定去留 定義測量面向 醫療面談 臨床判斷 專業素養 身體檢查 Performance dimension training 決定評分方式checklist(有/無) 或是 Likert scale(1~5) 溝通技巧 同理心 確認訴求 共同決策 … 每一面向拆解成數項欲測量項目 逐項目進行討論決定去留
Frame-of-reference training 決定評分方式checklist(有/無) 或是 Likert scale(1~5) 例 評分表發展流程 確認評估目標 Mini-CEX Frame-of-reference training 定義測量面向 醫療面談 臨床判斷 專業素養 身體檢查 決定評分方式checklist(有/無) 或是 Likert scale(1~5) 溝 通 技 巧 同理心 確認訴求 共同決策 OSCE / Scenario management 每一面向拆解成數項欲測量項目 眼神接觸 開放式問句 逐項目進行討論決定去留 不打斷病人談話 未使用專有名詞
Behavioral observation training Role-play : Best VS. Worst
提升客觀性 Differential rater function over time (DRIFT) (Mclaughlin, 2009; Wolfe, 2001; Klein, 2003; Hopkins, 1998.) Rater fatigue 題目難與易? 15-20分鐘熱身 (warming-up) 可提升sensorimotor & cognitive performance?
提升客觀性 籌備會議配題藍圖 核心工作小組 考題編修 (文字) 考題信效度測試 SP演出效度測試 師資群訓練 評分共識培訓 專家指導 考題信效度測試 籌備會議配題藍圖 SP演出效度測試 核心工作小組 師資群訓練 評分共識培訓 師資群訓練 評分共識培訓 網路評分共識培訓 (出題、測試、評分考官) 網路影音平台 得菲法評分共識建立
總結 考官「薦」、「派」 試場規則與保密 reliability 自我承諾書 (Wilkinson, 2003)
High-stake OSCE 考官核心課程 OSCE評分表與及格標準之制定原則
何謂標準設定? 標準設定是一套合理的程序及準則,藉以產生一個分數,用以分辨出兩組應試者,或者是兩組不同程度的能力 此標準要能服人(defensible) 產生一個決斷分數(cut-score)、門檻、通過分數 譚克平教授提供
標準設定的目的 定出每一站的及格分數 系統性的方法 能取信於人 能經得起質疑 證據為依據 28
評分系統建議 評分項目10-15項 採用評分尺標 0 , 1 , 2。 最後有整體評分 1 ~ 5 分。 29
評分標準建議 評分表評分項目逐項說明 Criterion-based design(同2011) Modified Delphi-method rater training Rating practice by Video + Real-time discussion forum on internet 30 30
及格標準設定 實作評量之標準設定方法,大致可以歸納成三大類(Berk, 1984, 1986; Hambleton, 1990; Hambleton & Zaal, 1991): 1. judgmental methods Nedelsky method Ebel method Angoff method 2. Empirical methods Livingston method Linden & Mellenbergh method 3. Combination methods Borderline-group method Contrasting-group method 31 31
OSCE及格標準設定建議 Borderline group method + regression(2011年採用) 計算方法 Step 1. 令Y:考生的checklist總分 X:考生的global rating總分 Y=aX+b 求出每一站 a, b Step2. 以X=2.5帶入,得到每一站的及格分數, 並得出不及格站數之考生 Step3. 將各站及格分數加總, 得十二站總分之及格分數 32
Example from Boursicot(2003) y=ax+b 譚克平教授 33 33 33 33 33
OSCE及格標準設定建議 Angoff method(考試前訂定及格標準) 執行方法 請專家就每一個試題中,最低能力考生所可能答對之機率,進行評定。 將每題可能答對之機率加總,便成為該專家所判斷的通過標準。 再將數位專家之判斷的通過標準加以平均,便成為該測驗之最後的通過標準。 ■出題時同時訂定及格標準。 36
Angoff方法 1971 popular 很多變種 Modified Angoff Extended Angoff Yes/No 譚克平教授提供
Angoff方法 學科專家 開始時,評審團在會議中對所有題目做判斷 想像minimally competent examinee的學生 如有需要可彼此討論 需發揮想像力 答對的機率 很多標準設定專家小組有10-15人 譚克平教授提供
修正的Angoff流程 目前並未有一致的定義 Reckase(2000)曾提出分為下述五個步驟進行: 1. 選擇設定標準的人員; 2. 訓練設定者。 3. 要求設定者定義並描述受試者應當達到的表現 水準。 4. 令設定者估計(最低能力)受試者在每個試題 上的表現。 5. 引導設定者檢視實徵資料,如:試題的難度水 準(P值)。
Angoff方法 譚克平教授提供
Angoff方法 譚克平教授提供
瞭解評分表項目 勾選 ←
考官注意事項 評分時: 評分表填寫。 整體表現評直覺勾選一項。
考官注意事項 考試結束後: 每一考生結束時請確認評分表每一欄位皆已完成評分。 待工作人員清點、確認後,始得離開考場。