簡報人 林玲吟 教育部中央輔導團英語領域輔導群 高雄市國教輔導團英語領域召集人 高雄市前鎮區瑞祥國民小學校長 多元評量的理論與實作 簡報人 林玲吟 教育部中央輔導團英語領域輔導群 高雄市國教輔導團英語領域召集人 高雄市前鎮區瑞祥國民小學校長
教師教學的重要性 教什麼 就學什麼 怎麼教 就怎麼學 評什麼 就重視什麼 (主要來源:蔡進雄,2011)
成功教師的要件 會教 (教學知識) (會不會) 願教 (教學態度) (想不想) 能教 (學科知識) (懂不懂)
完整的教學歷程 (Glaser 1962) 設定目標 起點行為 教學活動 教學評量 提供回饋
對學生進行教學評量的能力 有能力選擇適合其教學的評量方式 有能力發展適合其教學的評量方式 有能力施測及解釋評量結果 有能力善用評量及結果
評量的意義 評量為教學的一項後續(follow-up)活 動,用以了解學生學習成果,及調整或 擬定日後教學策略。 評量是透過多元的方式,蒐集受評者之 相關資料,並進行價值判斷,以作為 改進或決定的參考。
評量的意義 評量(assessment)範圍比測驗(test)較 廣。 以測驗、面談(interview)、實作或工作 計畫(project)、檔案評量(portfolio assessment)等方式,診斷學生的語文能 力。
評量改革對教學的影響 評量 教什麼 怎麼教 教材 教法 課程架構 教師專業發展
教學評量的基本概念 認知(如:學科成就、知識、問題解決 等) 情意(如:態度、興趣等) 動作技能(如:演講、儀器操作等行為) 教學歷程分為四大部分: 教學目標、起點行為、教學活動、教學評量。 教學評量不僅可以提供回饋訊息給教師, 更能使整個教學歷程統整在一起,發揮最 大的教學與學習效果。
缺乏教學評量的教學 不知學生的學習成效 不知從何改善教學與課程 不能有效地引導學生學習 不知如何協助學生學習
評量的功用—就學生而言 協助學生瞭解學習的目標 激發學生的學習動機 增進學生的自我了解 改進學習方法與態度
評量的功用—就教師而言 明瞭學生的起點行為 瞭解教學的效率 檢視教材與課程設計 診斷學生的學習 實施充實或補救教學
評量的功用—就家長而言 使家長明瞭子女學習的情形 作為升學或就業之參考
評量的用途(余民寧,2002:25-28) 教學評量的用途 瞭解學生起點行為、作改進教學的參考 確保教學目標達成、評定學生學習成果 診斷學習的用途 診斷學生學習問題、改進命題的技巧 作補救教學的依據 幫助學習的用途 激勵學生學習動機、促進學生自我評量 幫助學生的記憶和學習遷移
教學評量的理念轉移 assessment assessment assessment for learning of learning as learning
安置、晉升、升學等成就的判斷(重學習結果) 教師 評量取向 目的 評量者 對學習的評量 assessment of learning 安置、晉升、升學等成就的判斷(重學習結果) 教師 促進學習的評量 assessment for learning 提供教師教學決定的訊息(重教與學的改進) 評量即教學 assesssment as learning 自我監控、自我修正、自我調整,激勵學生改進自己的學習,成為主動的學習者 教師與學生 Earl,2002;江文慈, 2007
傳統評量的優點 傳統教學評量一向以紙筆測驗為主,計 分客觀、閱卷迅速,且易團體施測,雖 然能發揮所謂的公平、客觀、省時、省 力及省錢的功能。
傳統評量的缺點(I) 評量目標較少顧及教學目標。 偏重認知層面,忽略技能及情意內涵。 偏重紙筆測驗,且普遍使用坊間測驗 卷。 偏重學習結果,忽略學習過程的瞭解。 未能營造公平、良好的施測情境。 評量結果解釋以量化為主,少有質化描 述,難以顯示學生學習問題。
傳統評量的缺點(II) 評量認知層次過於強調記憶評量,而忽 略較高層次思考的評量。 命題觀念與技術有待加強,未能把握命 題應有的原理、原則及目的。 評分缺乏客觀性及讓學生自省的機會。 考試領導教學,教學未能正常化。 家長分數至上的觀念難以消除,對分數 所代表的意義不甚瞭解。
多元評量的理論基礎 建構主義 多元智慧 20
建構主義 探討知識是如何獲得的 知識是由學習者自己建構的 知識是不能轉移的 人類已發現的知識是暫時性的,可變 的,是當時大多數人所達成的共識 21
建構主義強調 學習是主動、積極、有目的的 學習受學生原有的概念架構所影響 教師教學深受其原有想法所影響 社會因素影響學生建構意義的過程 知識不是客觀存在的真理 教學涉及對教室情境的了解和教學任務的設計 課程不僅是知識與技能,且可提供學生建構知 識的學習任務、教材和教學資源 22
建構主義與教學革新 改變教師的教學 改變教學的內容 改變兒童的學習 改變學習評量的觀點 改變師資培育 23
多元智慧 (Howard Gardner,1983) 語言 音樂 邏輯-數學 人際 空間 內省 肢體運作 自然 24
多元智慧的重要觀點 1.每個人都具備所有八項智慧。 2.學生因著不同的背景變項,各種智慧的發展不一,而顯現出個別差異。 3.為讓學生各項智慧完全開發,教師應以其優勢智慧來教學。 4.教師應以其專長智慧與其他教師進行協同教學。 5.實施教學評量時應給予各種機會以及多元評量方式,讓學生各項潛能得以發揮。 25
多元評量 一、傳統評量 二、實作評量(Performance assessment) 三、歷程檔案評量 紙筆測驗法(是非、造詞、填充、簡答、申論題) 二、實作評量(Performance assessment) 記錄分析法 活動分析法 作品評量法 實作評量法 . 三、歷程檔案評量 以質性評量 為主
包含真實評量、實作評量、檔案評量、 動態評量、高層次評量 另類評量 不同於傳統評量方式的新興評量形式。 包含真實評量、實作評量、檔案評量、 動態評量、高層次評量 27
真實評量 真實評量強調真實生活中可能發 生的問題和表現。 評量的工作項目(tasks)可實際 應用於真實世界中,強調評與用 之間的相等,例如寫一封道歉 信,來表示文字溝通能力而非採 行改錯字測驗,也就是將評量與 生活結合。 28
實作評量 實作評量是一種仿真實評量的模 式,從做中學概念引申出來,透過 學生的實際操作,做為評量的策 略。 這種評量型式是非常多元化的,例 如書面報告、作文、演說、操作、 實驗、作品展示、案卷評量….等。
實作評量的特性 (一)評量兼顧過程和作品 (二)要求執行一些高層思考或問題 解決技能的活動 (三)實作評量可同時評量情感和社 會技巧 (四)評量方式的多元化
實作評量的限制 (一)時間:實施及評量計分花費時間較多。 (二)經費及儀器設備:實作評量的花費通 常比一般的紙筆測驗來得多;有時需 購置儀器設備,在保管維護也可能遇 到問題。 (三)評分方面:評量和觀察重點的掌握和 評分標準的訂定有時候也是個難題, 尤其是對非結構性的作業項目進行評 量。 (四)技術品質方面:就技術品質來說,評 量結果的信度和效度是實作評量最受 爭議的地方。
實作評量的類型 成品製作、實做、作業 表演、鑑賞、實踐 行為檢核表及態度評量表 32
檔案評量 檔案評量(portfolio assessment) 是指有目的的蒐集學生的作品,藉以 顯示學生在某領域的努力、進步和成 就的事實。 而此項蒐集包括:學生參與檔案內容 的選擇、選擇的指引、評斷優劣的標 準和學生自我反省的證據。
(一)教學以學生為中心 (二)評量與教學結合 (三)多方面的學習 (四)系統地蒐集作品 (五)分擔責任和分享資源 (六)具有真實性 檔案評量的特性 (一)教學以學生為中心 (二)評量與教學結合 (三)多方面的學習 (四)系統地蒐集作品 (五)分擔責任和分享資源 (六)具有真實性
動態評量 指在教學前、教學中及教學後,以因 應及調整評量情境的方式,對學習者 的認知能力進行持續性的評量。藉此 了解教學與認知改變的關係。經由教 學後,確認學習者所能夠達到的最大 可能潛能表現。 相較於傳統的、靜態的評量,動態評 量能反映出學生的認知歷程,並敏銳 地偵測出學習者的學習潛能。
動態評量的特性(I) (一)強調學習中的知覺、思考、問 題解決等歷程的評量,目的在評估學 生的潛能而非目前的表現。 (二)評量者以主導者的角色,透過 彼此互動的關係,儘可能使受試者的 能力有所改變。 (三)強調認知能力的可變性,智力 是可以改變增長的。
動態評量的特性(II) (四)動態評量結合教學與評量,直 接檢視學生對教學的反應,評估學生 的學習潛能。(非同儕間能力的比 較,著重個別的學習歷程,比較不會 低估學生的認知潛能。) (五)由評量中發現個體認知改變所 需介入的程度與方式。 (六)動態評量關心被評量者在教學 中獲益的情形,以便提供教學訊息。
學習評量 目標 時間 方式 認知 情意 技能 安置性 形成性 診斷性 總結性 紙筆測驗 實作評量 檔案評量 動態評量
其他的分類方式
評量分類:依歷程與功能區分 安置式評量 診斷式評量 形成性評量(formative assessment) 總結性評量(summative assessment)
評量分類:依評量形式區分(I) (一)測驗式評量 紙筆測驗、口試、實驗操作等 試題可以是單項式試題或整合性試題 (二)活動式評量 問題解決、任務完成、角色扮演 歌曲韻文念唱、遊戲、小組討論 口頭發表、表演、過關、心得報告 活動學習單、成果展示、晤談等
評量分類:依評量形式區分(II) (三)課堂觀察:學習態度與興趣、參與度 (四)作業評量 除了抄寫作業,也可以閱讀、朗讀、 寫作、習作、研究、資料蒐集、創作 等方式。 (五)檔案評量:可看出學生發展的軌跡 以學生自發性、課外蒐集的資料或自 創的作品為主要內容,並須與課堂教 學內容有關。
評量分類:依評量內容區分 評量各種語言形式—認知 字母、單字、片語、句型、文法 評量各項語言能力—技能 聽、說、讀、寫 評量學習態度與參與—情意
評量分類:依評量工具區分 測驗卷 線上(網路) 電腦 錄音(影) 檔案(portfolio) 檢核表或評量表 觀察記錄表
評量分類:依評量者區分 老師 同儕 自我 家長
多元評量的意義 評量目標多元:認知、情意、技能 評量方式多元 評量歷程多元 評量人員多元 評量工具多元 評量情境多元
九年一貫課綱英語評量之規定 學習評量建議採用多元化的評量模式。 評量要根據教學目標並能反映學習成 果, 學習成果一般可分為:知識、思考、技 能和情意等類別; 評量方式除測驗外,更應涵蓋學生作品 的呈現。
九年一貫課綱英語評量之規定 第一階段可多採取形成性評量,瞭解學生 的學習起點,評量其個別的進步情形,將 學生的各項學習活動表現詳加記錄,儘量 將相關作品整理成個人檔案,且將學生的 學習態度、認真程度等同時都列入評量範 圍,作為評量的參考。 學習成果不一定全採用分數,亦可以質的 敘述方式呈現。聽與說的評量儘量以上課 的口語練習、角色扮演、配對、小組互動 表現為依據,少作紙筆測驗。
九年一貫課綱英語評量之規定 第二階段的評量,應配合教學目標,兼 顧發音、字彙、文法等各種語言成分及 聽、說、讀、寫和綜合溝通能力的評 量。 除了紙筆評量外,可兼採聽力與口說測 驗等方式; 平時上課的表現、學習態度、作業書寫 與繳交狀況等皆應列入評量考核範圍 內。
九年一貫課綱英語評量之規定 教師應依本綱要所列之分段能力指標選 擇教學材料,規劃教學活動,設計學習 評量,並盡可能事先告知學生學習評量 的相關內容與方法。教師並應視學習評 量結果,適當調整教學方法或更改教學 活動設計。
英語科評量 語言學習的重心在語言能力之培養,理所當然 地評量的重點應置於學生語言能力之發展。 語言評量時除了各種語言形式(字母、發音、 字彙與句型結構)外,更應兼顧聽、說、讀、 寫四種語言技能。 九年一貫課程英文科的教育目標包含三方面︰ (1)語言能力;(2)學習態度與方法;(3)文化 習俗。完整評量應涵蓋觀察學生的學習態度是 否積極,學習方法是否正確,並評估其對外國 文化習俗的了解是否有所增長。
英語科評量 語言形式(字母、發音、字彙與、文法、 句型結構)評量應以語言的精確 (accuracy)為重。 語言能力(聽、說、讀、寫)評量應重視 語言的意義傳達與流暢度(fluency)。
評量的要項 信度(reliance) :評量的穩定性與準確 性,須均衡涵蓋大多數的學習目標 效度(validity) :是否真正評量出評量 目標
多元評量的迷思 1. 多元評量並非廢除紙筆測驗 2. 多元評量並非一種評量 3. 多元評量是工具而非目的 4. 多元評量並非學習終點 5. 多元評量並非主觀評量 6. 多元評量並非萬靈丹 7. 多元評量莫為多元而多元 2005.12.05
評量人員除教師外,可邀請家長、小組 長、同儕或學生本人參與。 評量原則(I) 評量應與教學結合,呼應領域理念與目標 評量內涵宜兼顧情意、技能與認知 評量過程應兼顧形成性評量與總結性評量。 評量人員除教師外,可邀請家長、小組 長、同儕或學生本人參與。 評量結果評定應兼顧能力、努力向度;顧 及個別差異,並讓不同文化、背景的學習 者均能獲得成功的機會。 55
評量原則(II) 評量結果應以多元方式呈現,兼顧文字 描述與等級的方式。 評量結果宜描述學習者進步情形、成功 經驗或優良特殊事績,給予其鼓勵增 強。 評量結果應以多元方式呈現,兼顧文字 描述與等級的方式。 評量結果敘述應使用家長、學習者及一 般人能瞭解者,來描述學習者的表現。 評量不宜製造影響學習者表現的壓力。 56
情意如何評量?
情意如何評量? 筆試 認知 技能 實作 檢核表 質性 自評 互評 情意
情意如何評量? 自己寫(札記、日誌…) 同儕寫(互評、提名法…) 教師寫(觀察、檢核表…)
情意評量 做學問:對這門科目的興趣與喜 愛,以及延申的價值態度 做人:與同學的互動及合作情形 做事:對做事情的態度及表現,如 作業繳交或作實驗的態度
打分數的幾種效應 月暈效應 表面效度 趨中現象 仁慈現象
評量的分析與評鑑 1 常模參照測驗 2 試題分析:難度、鑑別度 3 信度和效度分析 4 評鑑「評量過程與工具」
評量結果的分析與詮釋 難度 試題評鑑 選項分析 鑑別度
常模參照測驗 質的分析: 分析試題的內容和形式,例如內容效度及編擬試題技術的評鑑 量的分析: 用統計方法分析,例如難度和鑑別度的分析 試題分析的功用 1. 試題是否具有所預期的功能? 2. 難度適當嗎? 3. 試題有否缺陷? 4. 誘答是否有效?
試題分析:難度 難度是指答對某題的人數佔總人數的百分比難 度(P):或稱答對率。 特點: 0.00 ≦ P ≦ 1.00,P值越大,題目越容易 題目排列應由易而難 分析難度是為了選取難度適當的題目 太難和太簡單的題目都無法區分受試者能力之差異
試題分析:鑑別度 鑑別度:區辨高能力者與低能力者的程度 高分組:總分最高的前27%(或33%) 低分組:總分最低的後27%(或33%) 鑑別度通常有兩種指標數值: 鑑別度指標(D) = 高分組答對率-低分組答對率
信度與效度 信度:測驗分數能夠測試學生的某一學習概念之可靠、一致或穩定的程度 穩定度或重測信度:測驗分數隨時間改變的穩定程度 等化度或複本信度:一套測驗、題目有兩套以上,但欲測量的概念一樣 等化且穩定度:一套測驗、兩套題目,施測時間不同 內部一致信度:一套測驗、施測一次,適合同質高的性題目 評分者信度:適用於非單一正確答案的題型 信度值愈高愈好
信度與效度 效度:測驗分數用來詮釋學生的某個學習概念的準確或適切程度 內容效度:測驗分數用來詮釋預測內容的程度 效標關聯效度:測驗分數與效度標準的關連程度 構念效度:測驗分數用來詮釋某種心理特質的程度 內容效度對成就測驗而言最為重要
評鑑「評量過程與工具」 難度的標準:試題的難度應依據測驗的目的 使測驗具有最大區分:難度應選擇在0.5左右 常模參照測驗:難度在0.50左右 標準參照測驗:精熟訂定,難度在0.8-0.9 一般試題可接受的難度為0.6-0.8 選擇題的難度為0.4-0.8 是非題的難度為0.55-0.85 形成性評量的難度≧0.8 總結性評量的難度為0.3~0.7 補救教學:選取低成就的15%學生,則難度定為0.85 甄選人員:難度宜接近錄取率
評鑑「評量過程與工具」 鑑別度:D=PH-PL -1.00< D <1.00 試題的鑑別度很好:D>0.4
誘答力分析原則 每個答案錯誤的選項都至少有一個低 分組的學生選擇 選擇答案錯誤選項的人:低分組>高 分組 當高分組中選擇每一答案選項的人都 相差不多時,應懷疑可能有盲目猜測 的可能
難度、鑑別度與誘答力 愈難愈有鑑別度? 難度值(P)升高時,鑑別度指標(D)降低 誘答力越高,難度值(P)降低 難度值越接近0.50,其鑑別度越高。 難度值越接近0與1的試題,其鑑別度越低。 難度值(P)升高時,鑑別度指標(D)降低 誘答力越高,難度值(P)降低 誘答力降低時,鑑別度指標(D)降低
多元評量的實用工具 Rubrics (評量規準)
Rubrics (評量規準) 是一套建立評分的準則,可用作評估 學生特定作業的標準,每個標準都明 列達成的程度,這種以學習成效為基 準的評估方式 (performance-base), 希望能正確反映學生的學習效果。 以量表方式呈現學生成績,學生看到 的是各項標準的加總,還可以透過量 表清楚知道自己在學習的弱點或表現 不佳的地方。
Rubrics (評量規準) 一個列有工作或計分規準的評量工具 建立一套出用來評定表現品質與程度 的工具
Rubrics (評量規準) 評分向度即不同的觀察層面,也是以 文字說明的方式描述評量的重點 評分指標即運用文字描述來表示學生 學習表現的程度與具體情形,藉由不 同敘述代表從優到劣的不同等第。
教師運用觀察法進行評量時,可分為 整體式評分法與分析式評分法兩種。 Rubrics (評量規準) 實作評量的評分方式可分為量的測量 與質的評定 當無法進行量的測量,或是必須針對 作品或表現做品質上的評定時,教師 就要靠觀察法來進行質的評量。 教師運用觀察法進行評量時,可分為 整體式評分法與分析式評分法兩種。
使用Rubrics評估學生作業的好處 具有一致且正確的評審標準 是客觀的,且能避免主觀的成見或刻 板印象 能讓學生知道成績的評審標準及各等 級的範圍為何(瞭解自己表現的優點 何在) 學生對評估的標準也有參與、決定的 權利 學生可以藉此知道自己的優點、缺 點、及未來應朝什麼方向去改進 78
使用Rubrics評估學生作業的好處 可以幫助學生發展自我評估的能力 協助學生自訂目標,並為自己的學習負責 能回答學生的問題:「為什麼我的報告得 了25分,而另一位同學得了28分? 」 能夠節省教師在評估作業及提供回饋所需 的時間 一份設計良好的Rubric與課程目標是方向 一致的 http://www.carla.umn.edu/assessment/vac/Evaluation/p_5.html 79
Rubric Template http://www.carla.umn.edu/assessment/vac/Evaluation/p_7.html 80
評量規準範例 (張美玉) 基準(criteria):能辨認小雞的叫聲並模仿小雞的運動方式。 王ㄨㄨ Ⅴ 張ㄨㄨ 林ㄨㄨ 3分 兒童姓名 3分 能辨認小雞的叫聲並模仿小雞的運動方式。 2分 只能辨認小雞的叫聲,或只會模仿小雞的運動方式。 1分 需要幫助才能辨認小雞的叫聲,或模仿小雞的運動方式。 王ㄨㄨ Ⅴ 張ㄨㄨ 林ㄨㄨ
建立Rubrics的步驟 Step 1: 參考其他課程的Rubric範例,選擇一個最 適合你的課程的 整體型Rubric: http://www.carla.umn.edu/assessment/VAC/Evalu ation/rubrics/types/holisticRubrics.htm 分析型Rubric: http://www.carla.umn.edu/assessment/VAC/Evalu ation/rubrics/types/analyticRubrics.html 82
建立Rubrics的步驟 Step 2: 建立定義清楚的評估標準 Step 3: 每個評估標準的細項和子標題要明確 Step 4: 決定三或四個不同等級的標準,如: 不佳、普通、優秀 Step 5: 訂出每個等級的分數範圍 Step 6: 敘述的文字要淺顯易懂 Step 7: 聽取同儕的回饋,不斷修正 Step 8: 在上課時,與學生溝通、討論 確認同學瞭解評估的標準 Source: http://www.carla.umn.edu/assessment/vac/Evaluation/p_7.html 83
整體式評量規準範例 六級分:優秀 五級分:文章在一般水準之上 四級分:及格分數。文章達一般水準。大約是百 分制的六十分 四級分:及格分數。文章達一般水準。大約是百 分制的六十分 三級分:文章是不充分的 二級分:文章在各方面表現都不夠好,在表達上呈 現嚴重的問題 一級分:文章顯現出嚴重的缺點,無法選擇相關 題材、組織內容,並且不能在文法、字詞及標點符 號的使用上有基本的表現。 無法判定:空白、完全離題、只重抄題目或只抄 寫題目說明、缺考。
整體式評量規準範例 六級分與五級分必須能指出具體的優點,例 如描 寫特別生動、文采豐美、結構完整等 等。給三級 分或以下,必須能指出具體的 缺點。
分析式評量規準範例 國中基測寫作測驗-四個向度與內涵 (1)能切合題旨: 選擇合適素材,表現主 題意念。 (2)結構組織:能首尾連貫,組織完整篇 章。 (3)遣詞造句:能精確流暢使用本國語文。 (4)錯別字、格式及標點符號:能正確運 用文字、 格式及標點符號。
簡報完畢 敬請指教