第7章 量表的建立—補充 4.1 基本觀念 4.2 測量程序 4.3 測量尺度 4.4 良好測量工具的特性 4.5 信度測量 第7章 量表的建立—補充 4.1 基本觀念 4.2 測量程序 4.3 測量尺度 4.4 良好測量工具的特性 4.5 信度測量 4.6 效度測量 4.7 測量工具的實用性考慮 4.8 誤差 4.9 測量工具的發展
4.1 基本觀念 在專題研究中,測量 (measurement) 是相當重要的一個程序。我們所建立的研究架構不論有多麼嚴謹,所涉及的觀念 (變數) 不論多麼「面面俱到」,但是如果在測量上發生的問題,則必然會前功盡棄,所有的努力也就付諸東流。 測量是將數字指派到一個觀念 (或變數) 上。 例如: 我們利用智商測驗的結果指派到某人的智慧水平上 (智商測驗的結果代表這個人的智慧水平)。測驗 (例如智商測驗、托福測驗) 的建立叫做量表 (scales)。 2017/3/19
定量與定性 測量是決定某一個特定的分析單位的值或水平的過程,這個值或水平可能是定性的 (qualitative),也可能是定量的 (quantitative)。 定性屬性具有標記 (label) 或名字,而不是數字。 當我們以數字來測量某種屬性時,這個屬性稱為定量屬性 (quantitative attribute)。 2017/3/19
構念與觀念 2017/3/19
構念 (construct) 是心智影像 (mental images) 也就是浮在腦海中的影像或構想 (ideas)。 研究者常為了某些特定的研究或是要發展理論來「發明」一些構念。構念是由若干個較為簡單的觀念所組成的。構念與觀念常易混淆。 我們現在舉一個例子來說明它們的差別所在。 「組織規模」是一個構念,它包括了員工人數、資本額、營業額、部門數目、產品線總數等觀念。這些觀念是相當具體的、容易測量的。 2017/3/19
4.2 測量程序 2017/3/19
觀念與操作性定義 通常研究的主體 (或稱實證事件),在觀念層次上包含對象 (objects) 及觀念 (concepts) 兩個內容 (例如「中產階級的社會疏離感」就是實證事件,其對象部分為中產階級,其觀念部分為社會疏離感)。 「性別」這個觀念並不複雜,但在專題研究上,有許多複雜的觀念,例如社會疏離感、信念、認知偏差、種族偏見等皆是。 研究者將觀念經過操作性定義 (operational definition) 的處理之後,將更為方便觀察到 (或調查到) 代表著這個觀念的各次觀念,研究者再以數字 (或標記) 指派到每一個次觀念上 (也就是決定測量的方式),以便進行統計上的分析。 2017/3/19
觀念與測量的關係圖 2017/3/19
觀念與操作性定義的關係圖 2017/3/19
4.3 測量尺度 測量尺度 (measurement scale) 共有四種類別: 名義尺度 (nominal scale) 次序尺度 (ordinal scale) 區間尺度 (interval scale) 比率尺度 (ratio scale) 2017/3/19
我的球衣號碼是1號、我考試得了第1名、我以前居住的波士頓冬天時的溫度是攝氏1度、我在留學的時候1天的飯錢只花1美元。 資料類型 我的球衣號碼是1號、我考試得了第1名、我以前居住的波士頓冬天時的溫度是攝氏1度、我在留學的時候1天的飯錢只花1美元。 以上的「1」雖然都是阿拉伯數字的「1」,但是它們的尺度或類型不同。 2017/3/19
名義尺度是區分物件或事件的數字或標記。也許最普遍的例子就是我們將性別變數中的男性指定為1,將女性指定為0。 當然我們也可以將男性指定為0,將女性指定為1;利用符號將男性指定為M,將女性指定為F;或逕自分別以「男性」、「女性」來區分。 2017/3/19
次序尺度很像名義尺度,因為它是互斥的、盡舉的。 除此之外,次序尺度的類別並不具有同樣的層級 例如: 冠軍、亞軍就不具有同樣的層級 大專聯考的第一類組、第二類組就具有同樣的層級 2017/3/19
在區間尺度上,每個差距是一樣的,例如80 歲和79歲所相差的一歲,與15 歲14 歲所相差的一歲是一樣的。 以年齡為例: 以名義尺度來處理,就是將它分成不同的年齡層 以次序尺度來處理,就是將個人依年齡的高低加以排序 以個體活在世間的年數來看,就是以區間尺度 (interval scale) 來處理。利用區間尺度,我們可以看出個體在某一屬性 (例如,年齡) 上的差距,例如最年長者比次年長者多三歲。 在區間尺度上,每個差距是一樣的,例如80 歲和79歲所相差的一歲,與15 歲14 歲所相差的一歲是一樣的。 非固定的、任意的 (nonarbitrary) 零點 ex: 溫度Why? F=(9/5)*C+32 可加、減、乘、除? 2017/3/19
比率尺度 (ratio scale) 的話->值可做乘除運算 區間尺度的話->值可做加減運算 比率尺度 (ratio scale) 的話->值可做乘除運算 因此,比率尺度具有絕對的、固定的、非任意的 (nonarbitrary) 零點無負值 ex:體重、身高、年齡 可加、減、乘、除->倍數? 2017/3/19
四種尺度的彙總說明 尺度類型 尺度的特性 基本的實證操作 名義 沒有次序、距離或原點 平等性的決定 次序 有次序,但沒有距離或獨特的原點 大於或小於的決定 區間 有次序、距離,但沒有獨特的原點 區間或差異的平等性的決定 比率 有次序、距離及獨特的原點 比率的平等性的決定 2017/3/19
要分辨一個變數是離散的還是連續的,最簡單的方法就是看它是用「算有幾個的」還是用測量的。 離散變數具有某一特定的值,而連續變數具有無限的值。 離散或連續。離散 (又稱間斷) 的測量尺度 (discrete measurement) 並沒有小數,而連續的測量尺度 (continuous measurement) 則有。 例如:家庭人口數是離散的,而年齡是連續的 (如48.5歲)。 要分辨一個變數是離散的還是連續的,最簡單的方法就是看它是用「算有幾個的」還是用測量的。 離散變數具有某一特定的值,而連續變數具有無限的值。 2017/3/19
4.4 良好測量工具的特性 信度及效度的意義 信度 (reliability)、效度 (validity) 及實用性 (practicality) 任何測量工具所不可或缺的條件。 企業對應徵人員的口試是否能有效的判定應徵者的工作潛力,是一個相當具有爭辯性的議題。 此問題的癥結所在並不在於口試的存廢,而在於測量工具 (口試) 本身的有效性。 信度指的是測量結果的一致性 (consistency) 或穩定性 (stability),也就是研究者對於相同的或相似的現象 (或群體) 進行不同的測量 (不同形式的或不同時間的),其所得的結果一致的程度。 2017/3/19
該測量工具確實是在測量其所要探討的觀念,而非其他觀念 所謂效度包含二個條件: 該測量工具確實是在測量其所要探討的觀念,而非其他觀念 例如: 測量「智慧」的工具,就是測量「智慧」,而不是測量像忠誠、信念等其他觀念 能正確的測量出該觀念 例如:智商是100的人,透過測量工具所測得的智商就是100 2017/3/19
信度及效度的圖解說明 2017/3/19
4.5 信度測量 信度是一致性的問題。如果我們用某一個測量工具來測量某一個觀念,而個體在這個觀念 (屬性) 上的值一直不變的話,所測量出來的值一直保持不變,則我們可以說這個測量工具具有信度。 (ex:體重計—彈簧 v.s 問卷—語意) 如果這個觀念的值改變了,測量工具如能正確的顯示出這種改變,則此測量工具也是具有信度的。 在專題研究中,像問卷這樣的測量工具常常因為語意的問題、尺度標示的問題、分類模糊的問題,而使得填答者因不知所云而就自己的理解加以填答,造成了填答者之間頗不一致的現象,喪失了問卷的信度。 2017/3/19
信度的類型 2017/3/19
研究者常以折半法 (split-half method) 來考驗測量工具的內部一致性信度。 研究者在建立測量工具時,將原有的題目數擴充為二倍,其中有一半是另一半的重複,研究者以前一半與後一半的得分來看此測量工具的信度。 ex: 1,2-最簡單, 3,4-略簡單, 5,6-普通, 7,8-略難, 9,10-最難; 1,3,5,7,9 v.s 2,4,6,8,10 2017/3/19
複本信度 譬如說,這個方法就是用二個磅秤在同一時點測量某個人的體重 (事實上,應該是用一個磅秤秤完了之後,再馬上用第二個磅秤來秤)。如果所得到的二個體重值之間的差距愈小,則此磅秤的信度愈高。 或者研究者設計二份問卷 (題目不同,但都是測量同一個觀念),並對同一環境下的二組人分別進行施測,如果這二組人的評點的相關係數很高,我們就可以說這個問卷具有高的信度。 2017/3/19
再測信度 Siegel and Hodge (1968) 認為信度的定義是同一個測量工具上得分 (評點) 的一致性,而不是兩個複本上得分的一致性,因此信度的測量最好還是針對同樣的測量工具做重複的測試。 ex:連兩個月每天用同一磅秤量體重,結果增加:五公斤信度???? 2017/3/19
信度的彙總說明 類型 係數 測量什麼? 方法 內部一致性 折半 Kuder-Richardson Formula 20 & 21 Cronbach Alpha 測量工具的項目是否為同質性,是否能反應出同樣的構念 特殊的相關分析公式 複本 對稱 某一工具與其複本是否能產生同樣的或類似的結果的程度。在同時(或稍有時差)進行測試。 相關分析 再測 穩定 從受測者的分數中推論測試工具的可信賴程度。在六個月內同樣的測驗對同樣的對象施測二次 2017/3/19
Cronbach α k = 測量某一觀念的題目數 i = 題目i的變異數 ij = 相關題目的共變數 (covariance) Cronbach α值≧0.70時,屬於高信度;0.35≦Cronbach α值<0.70時,屬於尚可;Cronbach α值<0.35則為低信度。 2017/3/19
4.6 效度測量 內容效度 (content validity),又稱表面效度 (face validity)???、邏輯效度 (logical validity) 效標關連效度 (criterion-related validity),又稱實用效度 (pragmatic validity)。 同時效度 (concurrent validity) 及 預測效度 (predictive validity)。 建構效度 (constructive validity)。 收斂效度、區別效度。 這兩個效度要同時獲得,才可認為具有建構效度。 2017/3/19
內容效度 決定一個測量工具是否具有內容效度,多半是靠研究者的判斷,在實際進行研究時,要做這種判斷並不是一件容易的事。 研究者必須考慮二件事情: 測量工具是否真正地測量到他 (她) 所認為要測量的觀念 (變數) 測量工具是否涵蓋了所要測量的觀念 (變數) 的各項目 (各層面) ex:衡量智慧有一題問年齡,年齡可以反應出智慧? 2017/3/19
效標效度(criterion-related validity), 又稱實用效度 (pragmatic validity) 效標效度,又稱為實用效度、同時效度與預測效度,涉及到對於同一觀念的多重測量。 同時效度是指某一測量工具在描述目前的特殊現象的有效性。例如,我們用偏見量表 (prejudice scale) 來分辨哪些人有偏見、哪些人沒有偏見 (或者偏見的程度)。 預測效度是指某一測量工具能夠預測未來的能力。例如,美國的商學研究所入學測驗 (Graduate Management Admission Test, GMAT) 用來預測申請者在未來商業界的成功潛力。 工廠員工完成件數(效標變項) v.s 手指靈巧(效標效度)同時效度 在學成績(效標變項) v.s 工作成就(預測效標變項) 2017/3/19
建構效度 假設我們建構了二類指標的社會階層,分為第一類指標、第二類指標 (每類對於社會階層都有不同的分法)。 假設我們有一個理論包含了這樣的命題:社會階層與偏見呈反比 (社會階層愈高,偏見程度愈低)。 如果我們用第一類指標針對受測者來測試這個理論,得到了證實之後,我們再用第二類指標社會階層針對受測者來測試這個理論,而且也得到了證實,我們可以說新的測量工具 (第二類的指標) 具有建構效度。 2017/3/19
效度的彙總說明 2017/3/19 類型 測量什麼? 方法 內容 項目的內涵所能適當的代表所研究的觀念 (所有相關項目的總和)的程度 判斷式的或是以陪審團進行內容效度比率的估計 效標關連 同時 預測 預測變項所能適當的預測效標變項的相關層面的程度 對目前情況的描述;效標變項的資料可以與預測分數同時獲得 對未來情況的預測;過了一段時間後,才能測量效標變項 相關分析 建構 回答這樣的問題:「造成測量工具變異的原因是什麼?」 企圖確認所測量的構念以及決定測試工具的代表性 判斷式的; 所建立的測試工具與既有的工具的相關性; 複質-複法分析(multitrait- multimethod analysis) 2017/3/19