謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw 2006年3月25日 量化研究與統計分析 資料檢誤 謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw 2006年3月25日
變異 Variety是所有統計的根本,測量與統計就是一門研究變異的科學 性別 年齡 教育程度 智商
變項或變數 Variable 某一屬性因時地人物不同的內容 常數(constant) 例:資訊焦慮是一個變項,每一個人的資訊焦慮程度可能都不同 常數(constant) 某一屬性或現象不因時地物而有所不同 例:重力加速度、人的染色體數目
變項的概念 屬性(attribute) 數值(value or quantities) 研究者所關心的現象或特殊層面,即變項的名稱 例:「學歷」變項,所指涉的屬性是教育程度高低 數值(value or quantities) 是變項的存在形式,是數字形式,還是透過測量而得
自變項與依變項 自變項、獨立變項 (independent variable, IV) 即原因變項,是不受任何因素影響的變項 依變項(dependent variable, DV) 即結果變項,是受自變項影響的變項 教育程度 vs. 薪資
間斷變項與連續變項 依數值的屬性區分 間斷變項(discrete variable) 連續變項(continuous variable) 數值個數是有限的,數值與數值間無法找到更小單位的數值 例:家庭子女數、家庭戶數、家用電腦數、性別、教育程度 又稱為類別變項(categorical variable) 連續變項(continuous variable) 數值個數有無限多種可能,或在一特定範圍內,可以用無限個數值來加以表示 是利用等距或比率尺等特定單位所測量得到的變項,變項中的每一個數值,皆代表強度上的意義 例:身高、體重 又稱為量化變項(quantitative variable)
變項的測量與統計分析策略 資料的性質決定於測量所使用的尺度(scale),也決定資料分析的層次(level) 測量尺度可分成四類 名義變項 (nominal scale) 順序變項 (ordinal scale) 等距變項 (interval scale) 比率變項 (ratio scale)
名義變項 (nominal scale) 針對受試者的某一現象或特質,評估其所屬類型,並賦予一特特的數值 如:性別(男、女) 婚姻狀況(已婚、未婚、離婚、喪偶) 學校(國立、私立) 是為類別尺度(categorical scale),為具分類功能的測量工具 變項數值僅代表不同的類別,沒有任何強度、順序、大小等數學上的意義 分類必須符合互斥與完整的特性,測量前應建立一分類架構,如:宗教信仰、婚姻狀況
順序變項 (ordinal scale) 針對受試者的某一現象或特質,測量其內容,評估其所屬類型,並賦予一特定的數值,除了具有分類的意義外,各名義類別間存在特定的大小順序關係 例:大學教授的層級(教授、副教授、助理教授、講師)、教育程度(研究所、大學、高中職、國中、國小及以下)、大學年級(一、二、三、四)、社經地位(高、中、低) 名義尺度之數值可由研究者任意指定,但是順序尺度的數值分配則需考慮順序關係,研究者僅可選擇升冪或降冪來排列不同的順序類別 順序尺度所測得的數值雖具有順序的意義,但是沒有特定的單位,所以除了大小順序之外,數值並無數學邏輯運算的功能與意義
名義變項 (nominal scale) 順序變項 (ordinal scale) 類別變項 列聯表分析/交叉表、crosstables 類別 類別 卡方檢定 (統計分析>描述性統計>交叉表>統計量>卡方統計量)
等距變項 (interval scale) 針對受試者的某一現象或特質,依特定的標準化單位,測定程度上的特性 等距尺度所測量到的數值,除了具有分類、順序的意義外,數值大小反應兩個受試者的差距或相對距離。 等距變項之數值具有分類、順序和差距的意義 例:溫度、以考試決定的學業成績、以智力測驗得到的智商 等距尺度的重要特性,是其單位只有相對的零點,而沒有絕對的零點。只有數學的意義,而沒有實徵的意義。
比率變項 (ratio scale) 當測量尺度使用了標準化的單位,同時又具有一個絕對的零點時,稱為比率尺度。 是真有零點的等距尺度,如身高(公分)、體重(公斤)、工作所得(元)、年齡(歲)、畢業年數(年) 在社會科學的研究中,許多變項與特定的人口特徵,測量尺度不但具有單位,而且單位的使用有一公認的標準與意涵,無關主觀判斷,無須以人為方式調整,而有一定的絕對零點,因此比率變項在社會科學研究中被廣泛使用
測量層次 =或不等 <或> +或- X或/ 名義測量 順序測量 等距測量 比率測量
尺度之轉換 低層次的資料(名義變項)統計方法,也適用較高層次的資料(等距或比率),因為高層次的資料,均具有較低層次資料的數學特性,但是高層次的資料若以較低層次的統計方法來分析時,資料並末充分運用,造成資源浪費與精度不足 例:身高 以公分來測量>比率尺度 轉換成高、中、低三組>順序尺度或名義尺度 若一開始即請受測者依一定標準勾選組別,則僅為類別變項 例:您的月收入是: 三萬元以下 三~四萬元 五至九萬元 十萬元以上 您的月收入是_______萬________千元
資料檢誤 目的在確保研究資料的 數據查核與清理: 檢查資料的正確性 數據整備: 重新整理資料以備分析之用 正確性(accuracy) 完整性(completion) 可用程度(availability) 數據查核與清理: 檢查資料的正確性 數據整備: 重新整理資料以備分析之用
資料查核 過程查核:資料未完成輸入前所進行的資料檢查程序 定點查核、定時查核或專人查核 終點檢核:資料完成輸入之後所進行的資料檢查程序
資料查核 終點檢核:資料完成輸入之後所進行的資料檢查程序 可能性檢查(wild code checking) 檢查是否有超出範圍的數值(out-of-range value) 資料筆數是否與樣本數相符 利用Excel的自動篩選功能 利用SPSS描述統計中的次數分配表 邏輯性查核(logical or consistency checking) 檢查資料結構 次數分配是否呈常態分配 是否有特殊的偏離值 利用SPSS的列聯表,將兩數的資料切割成細格來檢查,例如教育程度與年齡 利用SPSS的圖表功能,以散佈圖、莖葉圖等分析
資料整備 反向題處理 選項的分數高低,恰與其他題目相反 1:非常 5:非常不 反向編碼 1:非常不 5:非常
資料整備 遺漏值處理 非系統性遺漏 隨機作答 系統性遺漏 受訪者一致性的遺漏或拒填 設計虛擬變項,進行遺漏分析
資料整備 遺漏值處理 遺漏值的處置與估計 編製階段: 發展良好的工具 鍵入階段: 立即反應。搭配編碼系統來進行 鍵入後補漏: 錯誤補漏。 其他 不適用或無法作答(經驗性題目) 鍵入階段: 立即反應。搭配編碼系統來進行 鍵入後補漏: 錯誤補漏。 鍵入後估計 中間數估計法:量尺之中間值 平均數估計法 迴歸估計法
偏離值的處理 偏離值(outlier) 極端值(extreme) 單變項偏離值的處理 雙(多)變數的偏離現象 指變項偏離常態、不尋常的數值,也就是與多數受測者的反應數值極端不同的狀況 平均數+標準差 極端值(extreme) 嚴重的偏離情形 單變項偏離值的處理 次數分配與直方圖的使用 盒狀圖的運用 雙(多)變數的偏離現象
單變項偏離值的檢查 分析>描述性統計>次數分配表>圖表 分析>描述性統計>預檢資料
單變項偏離: 直方圖的使用 極端值
單變項偏離值的檢查 統計分析>描述性統計>預檢資料>圖形> 盒狀圖 統計圖>盒狀圖 連續變數
單變項偏離: 盒狀圖的使用
雙變項(單類別與單連續變項)偏離檢驗
三變項(單類別與單連續變項)偏離檢驗
雙變項(雙連續)偏離檢驗 統計圖>散佈圖
偏離值的處理 錯誤偵測: 重新調閱文本資料以確知資料的正確性 虛擬變項分析法: 將偏離值視為一組,非偏離值為一組,進行區別函數分析以確定那些變項可以區分此二組,這些變項便可能是造成多變項偏離值的變項,再以散佈圖來描繪該數值的位置。 去除法 合併組法 數學轉換法
反應心向 受試者在填答問卷時,無論測驗的內容和情況如何,受試者具有一種比較固定的作答傾向稱為反應心向(Wiggins, 1973) 反應心向的發生,有時是有意識的,有時是無意識的。但皆會影響資料的正確應用 反應心向的處理 系統性偏誤(廢卷處理法) 人格屬性的變項化處理 (事前估計法、統計控制法) 使用不同的測驗形式 、
常見的反應心向 離異反應心向(deviation)─受試者傾向於回答特殊的答案 順從心向或唯唯諾諾(acquiescence)─受試者傾向於回答同意(yeasayers)或不同意(naysayers)的答案 作答粗心(careless responding)或題項遺漏(omitting items) 偽善(faking good)與偽惡(faking bad) 批判、攻擊傾向(criticatness or aggression),指受試者的答案均較具有批判性或攻擊性。 社會讚許或社會偏愛反應心向(social desirability),也就是指受試傾向於以社會大眾所歡迎的語句或選項來描述自己的狀態,避免使用社會不贊同、具負面評價的填答方式。
SPSS統計軟體之運用
SPSS程式基本概念 資料定義(data definition) 使電腦能夠正確的辨認量化的數據,並對於數據賦予正確的意義。 變項名稱指定(變項標籤)、變項數值的標籤、變項的格式類型、遺漏值的設定。 資料定義必需與codebook配合,將適當的變項名稱與數據的意義加以標註,並設定適當的遺漏值,方能使後續的資料處理與分析能夠正確有效的進行。
統計分析>摘要>預檢資料
資料轉換(data transformation) 進行資料分析前的一些校正與轉換的工作 反向題的反向計分,出生年月變項轉變成年齡之新變項的創造。 廢卷處理、資料整備、遺漏值的補漏檢查等作業。 SPSS軟體提供的觀察值選擇、重新編組或四則運算等指令,皆能協助轉換工作的進行。 一旦轉換完成後,此一資料庫已可稱為乾淨的(clean and clear)的資料。
資料分析(data analysis) 依操作者的指令,進行各種的統計分析或統計圖表的製作。 操作者必須具備良好的統計基本知識,才能在數十種統計指令當中選擇適合的統計方法來分析資料。 操作者必須能夠閱讀分析之後的報表數據,從不同的指數與指標當,尋求關鍵且正確的數據來作為研究報告撰寫的根據。
Thank You! Q & A