The Building Blocks of Social Scientific Research: Measurement

The Building Blocks of Social Scientific Research: Measurement
報告人:淡志隆王翠霞 2019/4/26

Outline: Devising Measurement Strategies
Examples of Political Measurement The Accuracy of Measurement Problems with Reliability and Validity in Political Science Measurement The Precision of Measurement Multi-item Measures Conclusion

1.Devising Measurement Strategies
Direct Measurement 直接測量測量身高與體重 Indirect Measurement 間接測量測量美、動機、知識、記憶

1.Devising Measurement Strategies
測量的定義：運用一套符號系統去描述某個被觀察對象的某個屬性(attribute)的過程統計分析之觀點，測量是將某個研究者所關心的現象予以「變項化」的具體步驟，也就是把某一個屬性的內容，以變項的形式來呈現。符號系統的表現形式度量化(scaling)：以數字的形式去呈現某個屬性的數量(quantities) 分類(classification)：以分類的模式，去界定被觀察對象的某個屬性或特質是屬於何種類型。

測量的特性客觀性(objectivity)。測量應不受測量者的主觀因素而影響其結果，同時其過程應有具體的步驟與操作方法，以供他人的檢驗。
數量化(quantification)。測量的功能是提供具體的數據來描述研究者所關心的現象。溝通性(communication)。測量在產生具有特定格式與具體明確的指標與數據，而能夠提供給所有的研究者作為參考與比較。經濟性(economy)。標準化的測量活動得以有效運用其有限的時間與資源，專注於特定現象的測量與分析。科學的類化(scientific generalization)。標準化的測量，協助研究者客觀、具體的去探索社會現象或心理屬性。

變項的類型測量與統計的基礎：變異(Variety) 變項(vs.常數) 自變項(IV)vs.依變項(DV) 間斷變項 vs.連續變項
若被研究對象的某一屬性因時地人物不同而在質(quality)或量(quantity)上的變化稱為變數或變項，如智商，滿意度等若某一屬性不因時地人物而有所不同則稱為常數(Constant)，如重力加速度自變項(IV)vs.依變項(DV) 由因果關係區分，變項可以分為自變項(independent variable; IV)(或稱原因變數)與依變項(dependent variable; DV) )(或稱結果變數) 間斷變項 vs.連續變項由數值屬性區分，變項可以分為間斷變項 (discrete variable) 與連續變項 (continuous variable) 間斷變項之數值各數種類為有限的，如人數、國籍等，連續變項包含無限多種可能性，如身高、體重、氣溫等類別變項vs. 量化變項由資料分析性區分變項可以分為類別變項(categorical variable) vs. 量化變項(quantitative variable) 類別變項：數值質性概念量化變項：數值量化或測量強度概念

Operational definition 操作型定義
定義:具體描述研究變項的量測工具、方法、以及實施程序。確立事務特徵時所採納的流程、過程或測試與檢驗方式。

操作型定義比如「長度」的定義包含以公里、公尺、公分等為單位，和用尺做工具來測量長度的數量，「長度」是操作型定義。
如果定義中不含測量方法，就不是操作型定義。「美」和「神聖」的定義沒有包含單位和測量的方法。

Operational definition 操作型定義
重要性:是依據可觀察、可測量或可操作的特徵及內涵，針對研究變項加以描述或解析。操作型定義遠比概念性定義更重要，它是論文研究結果注釋、推理及結論的基礎或依據。

Q&A-1 以下何者是「操作型定義」？「時間」的定義包含以年、月、日、時、分、秒等為單位，和用鐘錶做工具，來測量時間的數量。神聖
人命值多少美

Q&A-1 答案以下何者是「操作型定義」？「時間」的定義包含以年、月、日、時、分、秒等為單位，和用鐘錶做工具，來測量時間的數量。神聖
人命值多少美

2. Examples of Political Measurement
Page and Shapiro devised measures of public that corresponded to the measures of public opinion. Fording’s investigation of impact mass insurgency on welfare generosity both welfare.expansion and the extend of rioting. Daron Shaw’s research concerned the impact of TV ads and campaign appearance on statewide presidential voting.

2. Examples of Political Measurement
A Segal–Cover score is an "attempt to measure the perceived qualifications and ideology" of United States Supreme Court justices.] The method of was introduced by Jeffrey Segal and Albert Cover in their article "Ideological Values and the Votes of U.S. Supreme Court Justices.The scores are based on analysis of pre-confirmation newspaper editorials regarding the nomination of each justice dating back to the Franklin D. Roosevelt Supreme Court candidates. The editorials analyzed are from The New York Times, The Wall Street Journal, Chicago Tribune and Los Angeles Times

3.The Accuracy of Measurement Validity and reliability of measurement
1.Test-Retest method 2.Alternative-form method 3.Split-halves method Validity 效度 1.Face validity 2.content validity 3.construct validity 4.interitem association

信度、效度一個好的問項所引出來的答案，要能夠可靠又有效地測量我們所要描述的現象。在測量的意義上：「信度」是用來衡量答案的一致程度：當我們所要描述的狀態一致的時候，答案也是一致的。而「效度」是用在評量我們所得到的真實價值，彼此契合到什麼地步。

標準化測量工具的發展流程測驗編製計劃：確定研究方向試題編寫：收集並編寫測驗試題題庫用以測量某一特質的同質性問題
題目需涵蓋充分的內容廣度，即內容效度(content validity) 初步測試題庫須達到最後所需提數之數倍，逐題刪減，終成為正式量表，建議預試題目至少為最終量表的兩倍。

標準化測量工具的發展流程預試決定題目之堪用程度，並執行項目分析（item analysis），刪除不良題目，決定正式量表。
預試方式有二：將試題執交相關學者或實務工作者評估題目之好壞與了解題目是否包涵適當範圍與內容。選取一群適當受測者，進行實際填答，並進行項目分析並以分析結果進行刪題工作。正式量表建立進行信度、效度評估，決定一個測驗量表之整體堪用程度量表研究與維護提高量表之實用性發展常模（norm），提高測驗分數的使用價值研究者對某特定團體於施測後，將樣本測量結果製成一個原始分數與百分等級之對照表，以獲知單一受測者之相對高低等級

3-1.信度(reliability) 意義: 測量的可靠性 trustworthiness 信度的數學原理
一致性（consistency）─表示測驗內部試題間是否相互符合穩定性（stability）─即對同一件事物進行兩次或以上的測量，其結果的相似程度。即不同的測驗時點下，測驗分數前後一致的程度信度越高，代表測量結果越可靠。信度的數學原理凡測量必有誤差，誤差由機率因素所支配，為一隨機誤差（random error）測驗分數=真實分數+誤差分數測驗總變異量=真實分數的變異＋隨機誤差變異信度係數介於0與+1之間，數值越大，信度越高

信度測量到的結果不管任何時間都一致，不會有誤差。測量誤差可用E=X-T表示，X是觀察到的特質，T是真實特質。
信度高的測量，才有信心用來預測未來。

信度的例子儀器的信度：視力、聽力、體重、心跳速度等。測驗的信度：考試、智力測驗。
問卷的信度：受訪者的回答，包括態度、行為、事實等等。

信度的類型再測信度（test-retest reliability）複本信度（a1ternate-form reliability）
係指以同一種測量工具，對同一群受試者，前後測驗兩次的相關係數。又稱穩定係數。複本信度（a1ternate-form reliability）同一群受試者接受兩種複本測驗的得分之相關係數。折半信度（split-half reliability）測驗題目依題目的單雙數或其他方法分成兩半，計算受測者在兩半測驗上的分數的相關係數。內部一致性係數（coefficient of internal consistency）反映測量工具內部同質性、一致性或穩定度。同質性越高，代表量表試題是在測量相同的特質。 KR20(庫李信度)適用於二分變數的測量 Cronbach’s α適用於多元尺度變數的測量評分者間信度（inter-rater reliability）不同的評量者間分數的相關係數。

折半信度(1) 將一份問卷或測驗分為兩部份計算全部問卷或測驗的信度(Spearman-Brown)： 2rhoxx’/1+ rhoxx’
假設折半的相關係數為0.75，那麼全部的信度為2*.75/1+.75=.857

折半信度(2) 假設有類似的題目加入原來的量表，則可用以下公式計算信度n*rhoxx’/1+(n-1) rhoxx’ n是題目加長或減短倍數
比方說有一個10題的量表，拆成5題5題，計算其信度得到0.2，如果再設計一個有20題的量表，那麼跟這個量表平行的量表的信度將是4*0.2/1+(4-1)*0.2=0.5

內在信度 Cronbach’s alpha: N*(mean of rho)/1+ (N-1)*(mean of rho)
題目越多，在rho相同的情況下， alpha越大

影響信度的因素影響信度的關鍵因素是測量誤差，可以減低誤差的方法，即能夠提高信度。基本原理：中央極限定理、測量標準誤、共變量的計算
受試者因素（如受測者的身心健康狀況、動機、注意力、持久性、作答態度等變動）主試者因素（如非標準化的測驗程序、主試者的偏頗與暗示、評分的主觀性等等）測驗情境因素（測驗環境條件如通風、光線、聲音、桌面、空間因素等皆有影響的作用）測驗內容因素（試題取樣不當、內部一致性低、題數過少等）時間因素

Q&A-2 以下何者是影響「信度」的因素？受試者因素(受測者的身心健康狀況) 。主試者因素(主試者的偏頗與暗示)
測驗內容因素(試題取樣不當) 以上皆是

Q&A-2 答案以下何者是影響「信度」的因素？受試者因素(受測者的身心健康狀況) 。主試者因素(主試者的偏頗與暗示)
測驗內容因素(試題取樣不當) 以上皆是

3-2.效度(validity) 效度的意義評估效度的方法測量的正確性，指測驗或其他測量工具確能測得其所欲測量的特質或功能之程度
測量的效度愈高，表示測量的結果愈能顯現其所欲測量對象的真正特徵測驗的效度通常以測驗分數與其所欲測量的特質之間的相關係數表示之評估效度的方法判斷法（informed judgment）─測量特性與質的評估實徵法（gathering of empirical evidence）─根據具體客觀的量化指標來進行評估

效度表面效度(face validity) 內容效度(content validity)
預測效度(predictive validity) 建構效度(construct validity)

表面效度就測量的表面來決定是否有效度。例如：用尺測量身高腰圍等，用水測量大象的重量，用IQ量表測量人的智商等。

內容效度單獨的測量可能具有表面效度，而多重測量可能具有內容效度，例如測量對於人性的看法，可能問好幾個問題(多數人可以信任、多數人的看法是對的、人與人之間常會有衝突等)

預測或實用效度用另一個獨立且有效的測量來評估測量的效度。以實證方法評估
例如：學生托福成績應該與其在國外語言表達能力有關；國外語言表達能力的測量有無效度可以用托福成績來確定。

建構效度與預測效度類似，但是更注重測量與測量之間的理論關係。
例如：人格特質與行為有關；家庭教育又與人格特質有關；家庭社會地位可能與家庭教育有關等等。檢驗建構：效度相關研究，因素分析，實驗研究等

內在與外在效度內在效度指在特定研究中測量是否適當？例如研究政黨，所有的政黨是否符合同樣的定義(參與選舉提名候選人等) ，並且它們不同於社會運動或利益團體等。外在效度指不同研究可應用同一測量，即不因時間與地點而改變

三種不同的效度內容效度（content validity）效標關聯效度（criterion-related validity）
反映測量工具本身內容廣度的適切程度，強調測量內容的廣度、涵蓋性與豐富性針對測量工具的目標和內容，以系統的邏輯方法來詳細分析，又稱為邏輯效度（1ogical validity）表面效度（face validity），指測量工具在外顯形式上的有效程度效標關聯效度（criterion-related validity）以測驗分數和特定效標（criterion）之間的相關係數，表示測量工具有效性之高低。同時效度（concurrent validity）與預測效度（predictive validity）建構效度（construct validity）指測量工具能測得一個抽象概念或特質的程度。多元特質多重方法矩陣法（multitrait-multimethod matrix）：聚斂效度（convergent validity）及區辨效度（discriminant validity）。因素效度（factorial validity）：一個測驗或理論因素結構的有效性。

影響效度的因素測量過程因素─實施過程標準化樣本性質─ 效標因素干擾變項選用異質性高的樣本樣本的代表性不適當的效標選用
效標本身的測量品質干擾變項

信度與效度之關係信度代表測量的穩定性與可靠性，效度為測量分數的意義、價值與應用性實際效度（rxy）≦信度（rxx）的平方根
信度的平分根是效度係數的上限。當信度越高，效度係數即可能越大。

效度測量能夠測到真正的特質，即效度。 X=T+E。 E若一直為0就是有效度。 E若是不為0但是為一固定常數，就是有信度。所以信度可以說是效度的必要條件。有信度不一定有效度，有效度則一定有信度。

效度的例子溫度計---可以用來測溫度，但是不會有人拿來測溼度。倍數高的望遠鏡可以幫我們測量行星之間的距離。用X光或超音波測量骨密度。
用巴式量表測量身體功能用GRE測量留學生的智力

Q&A-3 用尺測量身高腰圍是屬於？表面效度。內容效度預測或實用效度建構效度

Q&A-3 答案用尺測量身高腰圍是屬於？表面效度。內容效度預測或實用效度建構效度

信度與效度在政治科學測量中存在的問題家庭總收入問卷可能有之問題︰不確定（或隱藏、誇大）自己收入到底有多少不確定家庭其他成員的收入
受訪人知道收入多少但選錯項目受訪人不了解那些成員的收入要納入受訪人無法確實分辨收入的類別而亂填訪問人記錄錯誤資料轉鍵入電腦時輸入錯誤受訪人未回答而由訪問人猜測代填

信度與效度在政治科學測量中存在的問題對抽象主題的測量︰自由/保守派
Imagine how much difficult it is develop reliable and valid measures when the concept is abstract ( for example, intelligence ,self-esteem, or liberalism) and the measurement scheme is more complicated.

信度與效度在政治科學測量中存在的問題測量難以涵蓋所有面向測量結果不全然（或部分）可信或有效可信並不代表有效

The Precision of Measurement
Must be accurate and precise 以比較身材高矮為例 Level of measurement (測量層次) Involves type of information and comparison Nominal measurement (名目測量) - 高不高？ ordinal measurement (順序測量) - 誰比較高？ interval measurement (等距測量) - 高多少？(相對) ratio measurement (比率測量) - 高幾倍？(絕對)

由測量尺度區分變項(variables)：名目 (nominal)測量︰變項具明確獨立屬性，如年齡、種族、婚姻、宗教狀況等；政治屬性則不然。順序(ordinal)測量︰變項除可分類外，又可用以相互比較，以測量變項間優劣、多少、高低、次序等，如教育程度變項：藉測量研究所以上、大學、專科、高中職等不同教育水準(順序)的人之政治傾向。等距(interval)測量：針對被觀察者之某種現象或特質，依特定之標準化(等距)單位測量其特性。測量所獲數值大小，反應了被觀察數值之相對差距。因「單位等距」使變項具有可加性，但數值0無比較意義，如溫度。比率(ratio) 測量︰具有絕對的0(基點)，故可以比例作比較，如年齡、重量、長度、時間、面積等。

四種測量尺度的數學關係比較

Multi-item Measures 多元測量
社會現象的複雜 – 非單一性多項目測量可增加精確度縮小資料量及簡化分析流程類別 Index 指數 Scale 量表 Factor analysis 因素分析

指數對複雜的現象設定測量項目，依展現程度不同訂定分數，加總後依獲得尺度據以推定結論。例 1︰國家自由度測量區分 A國 B國
C國 D國 E國民營報紙 1 組黨自由* 選舉制度成人投票權監督政府得分 5 3 2 加權得分* 6 4

指數例2︰支持女性主義程度測量 (0-3分) 區分 A B C D E 工作機會均等 1 3 2 女性不是花瓶
男女照顧小孩的責任均等 … 6 5 9 得分 10 16 18

Q&A︰前2例使用了那些測量層次？有何潛在問題？

量表一個量表所代表的概念，其特質表現在每個問題上面。也就是說，個別問題是這個概念的「果」而不是「因」
一個量表代表一個概念或特質，期望透過個別的問題，能夠發現問題背後所共通的意涵。 Likert scale, Guttman scale, semantic differential

李克特量表 (Likert scale) 由一組測量某一相同性質之題目所組成，每個問題具有相同的重要性，
此量表有何問題？

李克特量表 (Likert scale) 例 2︰自由派的評量強烈不同意(1) 不同意(2) 未決定(3) 同意(4) 強烈同意(5)
政府應確保人民免於貧窮應降低國防預算照顧人民比平衡預算重要社會福利預算不能刪減政府應投資改善郊區的住屋及交通有錢人應較窮人繳更多稅公立學校公費提供通學巴士犯罪被告應受保護

Guttman Scaling (古特曼量表)
依設計問題之回答難易程度刻意安排順序，據以剔除不符預期（不合理）之回答。有何問題？對墮胎的問卷（同意A、不同意D）母親生命受威脅亂倫或強暴嬰兒健康問題父親不要母親經濟能力母親主觀決定同意數修正 1 A 6 5 2 D 4 3

Guttman scale 有何問題？

Semantic differential 語意差別測量
與 Likert量表原理類似，分數越高表受測者意見強度越高。以兩極化形容詞說明測量內容

Factor Analysis – 因素分析使用統計學技巧

Conclusion Abstract concepts are difficult to measure
Quality of researcher’s measurements achieved by Accuracy and precision Muti-item measures with indexes and scales

The Building Blocks of Social Scientific Research: Measurement

Similar presentations

Presentation on theme: "The Building Blocks of Social Scientific Research: Measurement"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

The Building Blocks of Social Scientific Research: Measurement

Similar presentations

Presentation on theme: "The Building Blocks of Social Scientific Research: Measurement"— Presentation transcript:

Similar presentations

About project

反馈