High-stake OSCE 考官核心課程

High-stake OSCE 考官核心課程

OSCE 評分標準化病人考官考題評估表

OSCE 評分信度 (reliability, repeatability, reproducibility)
the ability to perform its functions consistently 效度 (validity) the tool measures what it claims to measure

信度信度是指可靠性或一致性信度好的指標在同樣或類似的條件下重複操作，可以得到一致或穩定的結果。
通常用測試與再測試方法（test-retest method）來檢視一個指標的穩定信度，也就是將同樣的指標對同一群體重新施測，如果每次都得到同樣的結果，則此指標即有穩定信度。

效度指概念定義（conceptual definition）及操作化定義（operational definition）間是否契合。
測量的效度比信度難達到。因為構念是抽象的，而指標則是具體的觀察。我們對於一個測量是否有效度並無絕對的信心，但可判斷是否比另一測量更有效度。

如何增進信度明確的概念化提升測量尺度的精確性使用多重指標
使用預試（pretests）、前導研究（pilot studies）及重複測試（replication）

‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ OSCE 評分
信度 (reliability, repeatability, reproducibility) 效度 (validity) ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧

OSCE 評分標準化病人 validity reliability 個案 validity 評估表 validity

考官訓練 Intra-rater Reliability 同一評分者在重覆多次的評分時機下能夠有一致的評分水準
同一評分者在重覆多次的評分時機下能夠有一致的評分水準 Inter-rater Reliability 不同的評分者能夠認同公告所規定的評等標準不同的評分者能夠同意彼此的評分不同的評分者對於怎樣的表現算是好、怎樣的表現算是不好有共識

考官訓練寬鬆效應 (leniency effect, Kneeland 1929):
rating the positive more positive 嚴苛效應 (severity effect, Ford 1931): rating the negative more negative 月暈效應 (halo effect): rating of a trait influences the rating of another trait 隨機效應 (randomness effect): 評分者沒有背景知識或訓練不足，以致於無法對量尺作出適當的區別，因而採用一種隨意的方式來對受試者進行評估。

寬鬆效應& 嚴苛效應寬鬆效果係指評分者無論在何種情況下，有評高分的傾向；嚴苛效果就是評分者無論在何種情況下，皆有評低分的傾向。

月暈效應 (halo effect) 一個人表現好時，大家對他的評價遠遠高於他實際的表現
反之，一個人表現不好的時候，別人眼中所認為的差勁程度，也會遠大於他真正差勁的表現。當評分者對某人某特質的評斷，是依據其對此人整體印象的優劣而定時，就有月暈效果。

考官訓練中央趨勢 (central tendency):
當評分者避免使用極端類別，而將評分集中於量尺的中間時，會使得評分較缺乏鑑別力，進而導致信、效度的降低。侷限效應 (restriction-of-range effect): 但中央趨勢專指評分集中於評分量尺中點附近；在侷限效果中，評分可集中於評分量尺中的任何一點邏輯誤謬 (logical error): 評分者相信某兩特質間有所關連，而給此兩特質相似或不相似之評等時，即有所謂之邏輯誤謬。

考官訓練投射效果 (contrast error):
評分者傾向以自己與受試者作比較，但針對某種自己具有的特質，給予受試者和自己的評等卻完全不同。次序效果 (order effect): 受試者的受評次序會影響其所得的評等環境、評分者與受試者背景因素影響:

考官訓練那部份因素影響最大? 評量者心態 (Downing SM, Medical Education, 2005)
怎樣提升OSCE的評量者評量結果之客觀性? 訓練  基本假設…

考官訓練你為什麼要受訓? 大環境因素受訓者自我定位與角色受訓者內在與外在因素 (鞭子與胡蘿蔔)

考官訓練說明會影音演練 Discussion group Modified Delphi-Method

考官訓練體能訓練? 考試執行：全國採共同考題，每題測驗8分鐘。每日三場次，每場次考12人，每考場每日測驗 36人。
自我承諾書 (Wilkinson, 2003)

提升客觀性 Direct Observation of Competence Training (Muller,1998;
Holmboe, 2004; Angkaw, 2006) Performance dimension training Frame-of-reference training Behavioral observation training

評分表發展流程 Performance dimension training 臨床能力確認評估目標逐項目進行討論決定去留定義測量面向
醫療面談臨床判斷專業素養身體檢查 Performance dimension training 決定評分方式checklist(有/無) 或是 Likert scale(1~5) 溝通技巧同理心確認訴求共同決策 … 每一面向拆解成數項欲測量項目逐項目進行討論決定去留

Frame-of-reference training 決定評分方式checklist(有/無) 或是 Likert scale(1~5)
例評分表發展流程確認評估目標 Mini-CEX Frame-of-reference training 定義測量面向醫療面談臨床判斷專業素養身體檢查決定評分方式checklist(有/無) 或是 Likert scale(1~5) 溝通技巧同理心確認訴求共同決策 OSCE / Scenario management 每一面向拆解成數項欲測量項目眼神接觸開放式問句逐項目進行討論決定去留不打斷病人談話未使用專有名詞

Behavioral observation training Role-play : Best VS. Worst

提升客觀性 Differential rater function over time (DRIFT)
(Mclaughlin, 2009; Wolfe, 2001; Klein, 2003; Hopkins, 1998.) Rater fatigue 題目難與易? 15-20分鐘熱身 (warming-up) 可提升sensorimotor & cognitive performance?

提升客觀性籌備會議配題藍圖核心工作小組考題編修 (文字) 考題信效度測試 SP演出效度測試師資群訓練評分共識培訓
專家指導考題信效度測試籌備會議配題藍圖 SP演出效度測試核心工作小組師資群訓練評分共識培訓師資群訓練評分共識培訓網路評分共識培訓 (出題、測試、評分考官) 網路影音平台得菲法評分共識建立

總結考官「薦」、「派」試場規則與保密 reliability 自我承諾書 (Wilkinson, 2003)

High-stake OSCE 考官核心課程 OSCE評分表與及格標準之制定原則

何謂標準設定？標準設定是一套合理的程序及準則，藉以產生一個分數，用以分辨出兩組應試者，或者是兩組不同程度的能力
此標準要能服人(defensible) 產生一個決斷分數(cut-score)、門檻、通過分數譚克平教授提供

標準設定的目的定出每一站的及格分數系統性的方法能取信於人能經得起質疑證據為依據 28

評分系統建議評分項目10-15項採用評分尺標 0 , 1 , 2。最後有整體評分 1 ~ 5 分。 29

評分標準建議評分表評分項目逐項說明 Criterion-based design（同2011）
Modified Delphi-method rater training Rating practice by Video + Real-time discussion forum on internet 30 30

及格標準設定實作評量之標準設定方法，大致可以歸納成三大類(Berk, 1984, 1986; Hambleton, 1990; Hambleton & Zaal, 1991)： 1. judgmental methods Nedelsky method Ebel method Angoff method 2. Empirical methods Livingston method Linden & Mellenbergh method 3. Combination methods Borderline-group method Contrasting-group method 31 31

OSCE及格標準設定建議 Borderline group method + regression(2011年採用）計算方法
Step 1. 令Y:考生的checklist總分 X:考生的global rating總分 Y=aX+b 求出每一站 a, b Step2. 以X=2.5帶入，得到每一站的及格分數，並得出不及格站數之考生 Step3. 將各站及格分數加總，得十二站總分之及格分數 32

Example from Boursicot(2003)
y=ax+b 譚克平教授 33 33 33 33 33

OSCE及格標準設定建議 Angoff method（考試前訂定及格標準）執行方法
請專家就每一個試題中，最低能力考生所可能答對之機率，進行評定。將每題可能答對之機率加總，便成為該專家所判斷的通過標準。再將數位專家之判斷的通過標準加以平均，便成為該測驗之最後的通過標準。 ■出題時同時訂定及格標準。 36

Angoff方法 􀁺1971 􀁺popular 􀁺很多變種 􀁺Modified Angoff 􀁺Extended Angoff
􀁺Yes/No 譚克平教授提供

Angoff方法學科專家開始時，評審團在會議中對所有題目做判斷想像minimally competent examinee的學生
如有需要可彼此討論需發揮想像力答對的機率很多標準設定專家小組有10-15人譚克平教授提供

修正的Angoff流程目前並未有一致的定義 Reckase（2000）曾提出分為下述五個步驟進行： 1. 選擇設定標準的人員；
2. 訓練設定者。 3. 要求設定者定義並描述受試者應當達到的表現水準。 4. 令設定者估計（最低能力）受試者在每個試題上的表現。 5. 引導設定者檢視實徵資料，如：試題的難度水準（P值）。

Angoff方法譚克平教授提供

瞭解評分表項目勾選 ←

考官注意事項評分時：評分表填寫。整體表現評直覺勾選一項。

考官注意事項考試結束後：每一考生結束時請確認評分表每一欄位皆已完成評分。待工作人員清點、確認後，始得離開考場。

High-stake OSCE 考官核心課程

Similar presentations

Presentation on theme: "High-stake OSCE 考官核心課程"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

High-stake OSCE 考官核心課程

Similar presentations

Presentation on theme: "High-stake OSCE 考官核心課程"— Presentation transcript:

Similar presentations

About project

反馈