性平題庫的設計與實施 永福國小 李安邦 101.12.20
大綱 緣起 1 評量與題庫 2 性平,如何評量? 3 示例 4 結語 5
緣起 教學目標 起點行為 教學活動 教學評量 回饋
學習評量 目標 時間 方式 認知 情意 技能 安置性 形成性 診斷性 總結性 紙筆測驗 實作評量 檔案評量 動態評量
題庫與IRT 題庫是甚麼? 以IRT為基底的題庫: 內容效度:形式審查 鑑別度 難易度 猜測度 以IRT為基底的題庫: 可編製能夠符合各種目標的測驗。 可編製出每個目標都有適當題數的試題來測量。 測驗品質更佳 IRT建立在兩個基本概念上: 考生(examinee)在某一測驗試題上的表現情形,可由一組因素來加以預測或解釋,這組因素叫作潛在特質(latent traits)或能力(abilities); 考生的表現情形與這組潛在特質間的關係,可透過一條連續性遞增的函數來加以詮釋,這個函數便叫作試題特徵曲線(item characteristic curve,簡寫為ICC)。 其實,我們把能力不同的考生得分點連接起來所構成的曲線,便是能力不同的考生在某一測驗試題上的試題特徵曲線,把各試題的試題特徵曲線加總起來,便構成所謂的試卷特徵曲線(test characteristic curve,簡寫為TCC)。 建立題庫的步驟 試題的編寫與修訂:首先,仿照傳統編製測驗的原則,撰寫大量的試題,並邀請學科專家(如任課教師)和測驗專家就試題進行形式審查,看看是否能符合內容效度的要求,否則加以修改或刪減。 選題預試:放在題庫裡的試題,都必須是建立在同一量尺上的才行,否則試題間無法比較或延用。因此,選擇適當的試題和考生樣本,是一項很重要的步驟,幸好前二文所談的定錨測驗設計(anchor test design)可以提供本步驟的參考(Vale, 1986): 定錨試題的數目:若使用同時校準法,則至少必須使用兩題定錨試題;若使用等組法,則可以不用定錨試題。一般而言,若將來所編製的測驗,具有60到80個試題的話,則在題庫建立過程中,必須使用15至20個定錨試題才夠。 每個定錨組別至少要包含30位考生。 至於考生樣本數要多大才算足夠?大致上可以這麼說:若使用二個參數或三個參數對數型模式來進行校準時,則至少必須使用1000位考生;若使用一個參數對數型模式的話,則可以減少到500位考生便行。樣本的能力範圍,最好是呈常態分配。 試題的校準與銜接:選擇適當的反應模式來分析資料,必須考慮試題的性質。就選擇題而言,當然是以三個參數對數型模式最適合。決定好適當模式後,便可採用適當的電腦程式(如:BILOG3或LOGIST5等),以進行試題參數與考生能力參數的估計與適合度分析,統稱為校準(calibration)。經過校準後的試題,必須能夠通過適合度的考驗者,方可被保留在題庫裡,因為它們可以被適當的反應模式所解釋。如果在校準時,所使用的是不同的考生樣本,則在將試題放入題庫之前,還必須做試題銜接的工作(請參考前二文的說明),如此才能將所有的試題參數都建立在同一個量尺上。 更新題庫:理想的題庫特色是,包含題數相當充份的試題、試題具有內容效度、鑑別度不低於0.8以下、難度分佈均勻、猜測度愈小愈好等。並且由於試題被選入不同的測驗裡,和不同的試題出現在同一份試卷中,在施測時會產生不同的背景影響(context effect)。因此,當題庫裡的試題被選用之後,都必須有詳實的施測記錄,甚至必須再重新校準一次,以確定該試題參數的真正適合度。如此可以確保題庫之素質能夠不斷地更新,也可以保持題庫之安全,避免淪為考古題而被眾多考生熟悉,因而喪失題庫的功能。另外,也可以視測驗目的、使用題庫的目的、和學科的性質,於每次施測前,重新組合與排列題庫中的試題,以方便未來的使用。 測驗編輯:如果題庫的素質很高,則從題庫中抽取試題來編製一份測驗,便會很容易。編輯測驗的方式很多,最主要是看測驗目的而定。往往是由專家先將試題按學科、單元、屬性、和概念等,先行予以電腦編碼,再按其他考慮事項(如:試題參數值、訊息函數值、估計標準誤等),撰寫在電腦程式裡,以便編輯時輸入幾個關鍵字,就可獲得想要的測驗。 因為題庫的內容龐大,幾乎不太可能用人工選題的方式,來編印試卷。通常都是仰賴電腦的幫助,因此在列印試卷上,也有幾種方法可供參考: 分層隨機抽樣選取試題:按教材內容來分,將題庫予以分成幾個層次,然後就每個層次中隨機抽取適當的題數,以作為列印試卷的內容。這種作法,無法保證被選出的試題品質就一定是最好的。 依試題參數值隨機抽樣:測驗編製者可依據教材內容,決定具有所欲的難度、鑑別度、和猜測度的試題參數範圍,及擬使用的題數,再由電腦自合格的試題中隨機抽樣,以編成一份試卷。這種作法的最大優點便是,免除人為的偏見,並確保試題具有一定的品質。 由試題訊息量來選取試題:首先,由測驗編製者決定理想的目標訊息曲線(target information curve)(讀者可以參閱前面「訊息函數」與「測驗編製」二文),然後自己校準的試題中,選取訊息量能夠填滿此一曲線的候選試題,可中途更換較佳的候選試題,每選出試題便計算其訊息量是否已接近理想的曲線,若否,則一直繼續這種選題過程,直到理想的目標訊息曲線被填滿為止。 由測驗編製者主觀選題:測驗編製者依據試題的特性和統計分析的資料,再由本身的專業判斷,以便決定選取何種試題。 評估測驗品質:對於新編製的測驗,可用試題反應理論所適用的電腦程式(如:BILOG3和LOGIST5)來預測其特性。例如,電腦程式可利用所選取試題的難度、鑑別度、和猜測度的估計值,來計算出試題參數估計值的平均值、信度估計值、測驗訊息期望值和平均值、和各種不同長度下的預期測驗訊息量等資料,以便讓測驗編製者來判斷所編測驗的優劣。如果所編的測驗不符理想,則可以依據前述步驟來重編。 測驗是否達預期的水準:根據第六步驟的資料,來判斷所編的測驗是否有達到預期的水準:如果達到,則進行第八步驟;如果尚未達成,則回到第四步驟,重新更新試題再來。 執行考試:如果前個步驟顯示測驗品質不錯,則可對考生進行施測。當然,施測應有的指導語、測驗情境的安排與佈置、和其他會影響考試的注意事項等,都應該事前的準備與策劃。 評分:在經過考試後的學生作答資料,可再被拿來進行試題校準,此時,學生的考試成績,可用下列二種方法之一來加以評分: 直接以學生的能力估計值來代表學生的能力。唯這種作法,比較不容易被大眾所瞭解,因此解釋起來,頗費周章。 以真實分數(true score)來表示學生的能力。亦即將每位考生在每個試題上的答對機率,加總起來的和,即是他的真實分數。真實分數的值域將分佈於全部試題的猜測度之和與試題總題數之間。唯這種作法,仍有其解釋上的不便處,因此,可將真實分數除以試題總題數,以轉換成正確答對試題的百分比分數,此分數則與一般學校慣用的百分制計分方式的意義相同:愈接近百分之百,表示其能力愈高;反之,愈接近零,則表示其能力愈低。 決策:此步驟旨在應用上述評分與試題評鑑的結果,作為甄選學生,診斷命題技巧,與改進教學的參考。 研究與評鑑:題庫的應用,不僅是用於編製新測驗,以節省人力、物力、和時間,並可透過每次考試完畢後,針對試題與考生能力參數進行校準,以評鑑試題品質的好壞、試題內容有否偏差(如:有利於某種族群的考生,而不利於另一種族群的考生)、以及診斷學生的作答資料有否不尋常、或找出學習有誤差的部份等,這種不斷研究與評鑑的過程,正是題庫所提供的特色。
建立題庫面臨的課題 包含多少試題? 如何分類? 試題是否必需具備量尺化的參數? 是否公開? 是否安全
測驗-- 測驗的規劃必須符合測驗目標 必須確定測驗所要測量的「範圍」和「能力層次」 建立雙向細目表的「細目」,並以雙向細目表為命題的依據 依據命題原則來編擬試題 以選擇題為例,選擇題係由三個部分所構成,分別是題幹(stem)、誘答選項(distractors)與正確答案(key)(或統稱為選項)。 (1)題幹部份: ‧ 題幹要清楚表達題意,避免過短或過長,且一次只問一個問題。 ‧ 在各選項重覆出現的文字,應放在題幹內。 ‧ 題幹應盡量用正面的敘述,避免使用否定句,如用否定句,則需特別強調否定字。 ‧ 若測驗某「詞語」的定義,則該「詞語」必須放在題幹內。 ‧ 避免提供正確答案的暗示性線索。 ‧ 試題應能測量到重要的學習結果。 ‧ 題幹的敘述應保持完整,避免被選項分割成兩個部份或段落。 (2)選項的內容: ‧ 誘答選項必須具誘答性,混有常見的錯誤以及錯誤訊息,應具有與題幹相關讀似真性或合理性,以發揮應有的誘答功能。 ‧ 不要任意或過度使用「以上皆是」或「以上皆非」。 ‧ 選項應相互獨立。 ‧ 變化正確答案的長度以排除提供線索的可能。 ‧ 標準答案必須是正確的答案或是最佳答案。 ‧ 選項的敘述應力求簡短,相同的字詞宜放在題幹中。 (3)選項的排列: ‧ 盡可能將選項按邏輯次序(數字)或時序(日期)排列。 ‧ 選項的排列如無法用邏輯次序或時序排列,可按筆劃來決定排列位置,或使用「隨機字母表」來決定選項的排列。 ‧ 如果上述原則均不適用,則以隨機方式排列正確選項的位置。
量表 vs. 測驗 ?
知識分類 1956 布魯姆 認知:知識、理解、應用、分析、綜合、評鑑。 情意:接受/注意、反應、價值觀、組織及品格化。 技能:知覺、準備、模仿、機械學習、複雜反應及創作。 2001 認知歷程維度則包含了:事實知識、概念知識、程序知識、後設認知知識 知識內容向度:記憶(Remember)、暸解(Understand)、應用(Apply)、分析(Analyze)、評鑑(Evaluate)、創造(Create) 認知歷程向度由原來單一向度的分類表轉化而來,除了另立知識向度,原有類別名稱的名詞特性也轉換成動詞,以強調認知歷程的漸增複雜性階層概念,目的促進學生保留和遷移所得的知識。此向度分成六大類(Anderson、Krathwohl、Airasian、Cruikshank、Mayer、Pintrich、Raths和Wittrock在2001年修訂),其中記憶與學習保留(retention)有關,其餘五者和學習遷移(transfer)有關。 (一)記憶(Remember):是從長期記憶中提取相關知識。 包括:1.再認。2.回憶。 (二)了解(Understand):從教學訊息中創造意義;建立所學新知識與舊經驗的連結。 包括:1.詮釋。2.舉例。3.分類。4.摘要。5.推論。6.比較。7.解釋。 (三)應用(Apply):牽涉使用程序(步驟)來執行作業或解決問題,與程序知識緊密結合。 包括:1.執行。2.實行。 (四)分析(Analyze):牽涉分解材料成局部,指出局部之間與對整體結構的關聯。 包括:1.辨別。2.組織。3.歸因。 (五)評鑑(Evaluate):根據規準(criteria)和標準(standards)作判斷。 包括:1.檢查。2.評論。 (六)創造(Create):涉及將各個元素組裝在一起,形成一個完整且具功能的整體。 包括:1.產生。2.計畫。3.製作。
認知歷程向度 知識向度 1.記憶 2.了解 3.應用 4.分析 5.評鑑 6.創作 A.事實知識 B.概念知識 C.程序知識 認知歷程向度 知識向度 1.記憶 2.了解 3.應用 4.分析 5.評鑑 6.創作 A.事實知識 B.概念知識 C.程序知識 D.後設認知知識 修訂Bloom分類表 引自:Anderson, Krathwohl, Airasian, Cruikshank, Mater, Pintrich, Raths, & Wittrock, 2001, p.28。
雙向細目表 內容效度 雙向細目表之定義 題目的內容,與評量目標的一致性程度。 通常較適用在成就測驗的效度考驗上。 常用評量內容效度的方法為「雙向細目表」 雙向細目表之定義 應該包含的內容以及所評量到的能力,也是命題的依據。 以教學目標(橫軸)和學習內容(縱軸)為兩個軸,分別說明各項評量目標。
情意如何評量 筆試 認知 技能 實作 檢核表 質性 自評 互評 情意
認知會影響情意(知即德-蘇格拉底) 情意也會影響認知 認知也會影響技能 年輕人,未經 審視的生活是 不值得過的。
性平題庫的思考 性平需要測驗嗎? 評量甚麼?情意態度還是認知、技能? 使用對象? 評量方式? 如何運用? 配套措施? 如何評量? 情境題 PIRL提問層次
P I R L S四層次問題 提供具體的命題參考,各層次: 提取訊息 推論訊息 詮釋整合 比較評估 找出文中明確寫出的訊息; 需要連結段落內或段落間的訊息,推斷出訊息間的關係(文中沒有明確描述的關係); 詮釋整合 讀者需要運用自己的知識去理解與建構文章中的 細節及更完整的意思; 比較評估 讀者需批判性考量文章中的訊息。
性別平等教育課程綱要的概念架構 性別的 自我瞭解 身心發展 身心發展差異 身體意象 性別認同 性取向 多元的性別特質 生涯發展 主題軸 主要概念 次要概念 性別的 自我瞭解 身心發展 身心發展差異 身體意象 性別認同 性取向 多元的性別特質 生涯發展 不同性別者的成就與貢獻 職業的性別區隔 人我關係 性別角色 性別角色的刻板化 性別互動 互動模式 表現自我 性別與情感 情緒管理 情感的表達與溝通 情感關係與處理 性與權力 身體的界限 性與愛 性騷擾與性侵害防治 家庭與婚姻 多元家庭型態 家庭暴力 性別與法律 權益與法律救濟 自我突破 資源的運用 資訊、科技與媒體資源的運用 校園資源的運用 社會的參與 對公共事務的參與 社會建構的批判 社會文化中性別權力關係 多元文化中的性別關係
性平題庫資料庫欄位 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇 問答
性平雙向細目表 小計 主概念 次概念 能力 指標 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 合計 身心發展 身心發展差異 身體意象 性別認同 性取向 多元的 性別特質 小計
例 題:台北市某公司資訊主任依《性別工作平等法》申請育嬰留職停薪,卻被公司以業務處理有重大過失為由降調非主管職(工程師) 。 問: 原文網址: 男主管請育嬰假被降職 公司違反《性平法》挨罰2萬 | ETtoday生活新聞 | ETtoday 新聞雲 http://www.ettoday.net/news/20120820/90117.htm#ixzz2FY4CVTlU 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇
例 題:下一節是實驗課,老師想請小朋友去搬器材,請問老師請誰去比較好? 問: 男生 女生 自願的 有能力搬的 題號 型式 題目 選項1 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇
例 題:每天中午用餐完畢,老師會請二、三位的同學清洗公筷母匙。請問老師請誰去比較好? 問: 男生 女生 自願的 有能力搬的 大家輪流做 題號 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇
例 題:「你是個男生耶!聲音怎麼比女生還小?」、「你是個很聰明的孩子啊!但不要像女生一樣扭扭捏捏的!」你覺得這兩句話有沒有問題? 問: 「媽媽的笑容像月亮一樣溫柔;爸爸的身體像大樹一樣強壯。」 題:「你是個男生耶!聲音怎麼比女生還小?」、「你是個很聰明的孩子啊!但不要像女生一樣扭扭捏捏的!」你覺得這兩句話有沒有問題? 問: 男生不該聲音小或扭扭捏捏 女生也有聲音大的或不扭扭捏捏的 聲音大小和男生女生沒有關係 這兩句話沒有問題 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇
例 題:你覺得成語中的「牝雞司晨」、「紅顏禍水」、「三姑六婆」,代表甚麼意涵? 問: 題號 型式 題目 選項1 選項2 選項3 選項4 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇
例 題: Ray對保養品和彩妝美顏十分有研究,不僅很願意與班上女同學分享各種彩妝保養新知,也常常示範各種最新流行的上妝技巧。舉凡雜誌、媒體資訊、歐美日系趨勢等都難不倒他,因此Ray成為帶動班上每季最夯流行風潮的指標,班上女孩們每季努力follow上Ray的步伐、不斷update各式各樣的新知,擔心自己沒有跟上時尚的流行。? 問: 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇
例 題:學校辦活動,有一個小男生抽到粉紅色的袋子,結果有同學說:「啊~好可惜喔,你抽到粉紅色的袋子,你不能用,沒關係,你可以送給你媽媽或你姊姊。」 問: 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇
例 題: 問: 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇
例 題:影片 問: 題號 型式 題目 選項1 選項2 選項3 選項4 參考選項 主概念 次概念 能力指標1 能力指標2 1. 記憶 2. 了解 3. 應用 4. 分析 5. 評鑑 6. 創作 概念說明 參考網址 選擇
知道因你的存在, 能讓另一個生命呼吸得更順暢, 你就擁有了成功。 知道因你的存在, 能讓另一個生命呼吸得更順暢, 你就擁有了成功。