調查資料分析前之步驟 國立政治大學選舉研究中心 蔡佳泓副研究員
分析前之步驟 問卷整理檢查 預留欄位 編碼(coding) 鍵入(KEY-IN) 檢誤(Check Error)
資料整理、編輯與分類 面訪或郵寄問卷回收後檢查 (1) 樣本編號是否正確 (2) 問卷封面是否填寫 (3) 是否有太多漏答、跳題錯誤或無反應 (1) 樣本編號是否正確 (2) 問卷封面是否填寫 (3) 是否有太多漏答、跳題錯誤或無反應 (4) 是否有訪員舞弊情形
選項編碼 所謂「編碼」即將受訪者回答之選項量化成數字。
男性 01 02 04 1 先生(小姐)您好,我是中正大學的學生,我姓 _____,我們正在幫我們的教授做一項研究, 想要請教您對社會上一些問題的看法,首先請問您這裡是住家(或住商混合)嗎? 【不是】→很抱歉,我們這次是要訪問住家的民眾,下次有機會再訪問您。 【是】 →請問住在您家中,滿20歲以上的成年人有幾位___? 請問在這__位之中,男性有__位? 能不能請您家裡面20歲以上的這位________來接受我們的訪問?我們想請教他一些問題,謝謝。 【合格受訪者接聽電話】 1 男性 01 先生【小姐】您好,我是中正大學的學生,我姓____,想和您做個簡單的訪問,請教您幾個問題。【繼續下題進行訪問】 1 請問您的戶籍【台語:戶口】是設在哪一個縣市? (01)台北縣 (02)宜蘭縣 (03)桃園縣 (04)新竹縣 (05)苗栗縣 (06)台中縣 (07)彰化縣 (08)南投縣 (09)雲林縣 (10)嘉義縣 (11)台南縣 (12)高雄縣 (13)屏東縣 (14)台東縣 (15)花蓮縣 (16)澎湖縣 (17)基隆市 (18)新竹市 (19)台中市 (20)嘉義市 (21)台南市 (22)台北市 (23)高雄市 (95)拒答 (98)不知道 在這次國代選舉期間,有些人花(台:用)很多時間去注意選舉的新聞,有些人沒有時間注意,請問您平均每天花(台:用)多少時間注意選舉的新聞? (01)30分鐘以下 (02)31-60分鐘 (03)超過一小時到一小時半 (04)超過一小時半到二小時 (05)超過二小時 (06)完全沒在看 (94)其他【訪員請紀錄】 (95)拒答 (96)很難說 (97)無意見 (98)不知道 02 04
開放式編碼 研究人員在進行編碼之前,最好將全部的答案翻閱一次,以避免歸納得太粗略或方向不同。 可參考過去的研究做為分類的標準。
編碼簿(Coding book) 通常一份問卷會有一份專屬的『編碼表』,或稱做『譯碼簿』。 no 1-6 樣本編號 time 27-34 所用時間 1 v1 35-36 請問您的戶籍【台語:戶口】是設在哪一個縣市? 01 台北縣 ………… 23 高雄市 95 拒答 98 不知道 2 v2 37-38 在這次國代選舉期間,有些人花(台:用)很多時間去注意選舉的新聞,有些人沒有時間注意,請問您平均每天花(台:用)多少時間注意選舉的新聞? 01 30分鐘以下 02 31-60分鐘 03 超過一小時到一小時半 04 超過一小時半到二小時 05 超過二小時 06 完全沒在看 96 很難說 97 無意見 3 v3 39-40 請問您關不關心這次國代選舉的結果? 01 非常關心 02 有點關心 03 不太關心 04 非常不關心
資料鍵入 輸入問卷答案到電腦中。 目前一般使用的資料建檔(或KEY-IN)工具,依類型來區分,可大致分成:文書處理軟體、試算表軟體、統計分析軟體、資料庫軟體。
以文書處理軟體輸入 所有能處理純文字資料txt檔的軟體,如漢書、記事本等。 系統資源需求不大,操作簡單,但是日後需要寫程式定義欄位與變數的名稱、特性。 TVBS
以試算表軟體輸入 資料顯示畫面是以工作表(Sheet)方式表現,最常使用的軟體有:LOTUS 1-2-3、dBASE、EXCEL等。 試算表軟體的特色,在於其欄位的資料可以做運算,且欄位資料分隔明顯。統計軟體大多可直接轉換欄位名稱。 因為外加巨集(MACRO)及VBA的功能,使EXCEL也可做一些基本的檢誤及統計分析的工作。
以統計分析軟體輸入 以處理統計分析為主的軟體,常用軟體有SAS、SPSS、STATISTICA、MINITAB、S-PLUS等。 有的是以文字編輯軟體的畫面呈現,有的則是以試算表的畫面呈現。 好處是直接進入統計軟體,但是資料大量時並不容易具備多套軟體同時輸入
以資料庫軟體輸入 資料庫軟體顧名思義,就是專門用來儲存資料的工具軟體。最常接觸到的軟體有ACCESS、MS-SQL等等。 可編寫欄位,讓資料庫檢查輸入的值有無超出範圍、違反跳題等邏輯。
資料檢誤 資料在建檔完成後,以交叉分析檢查是否有不合常態、不符合問卷前後一致性、或問項回答間相互矛盾的資料。 規則性檢查:答案出現選項之外的數字。 常態性檢查:例如年齡超過200歲,民國90年出生等。 邏輯性檢查:例如受訪者為男性,卻回答生育第一胎的年齡。
調查資料的統計預處理 遺漏資料的處理 1.用一個樣本統計量的值去代替遺漏值 2.用一個統計模型計算出來的值去代替遺漏 值 2.用一個統計模型計算出來的值去代替遺漏 值 3.刪除有遺漏值的觀察值 4.保留有遺漏值的觀察值,僅在分析中做必要的排除
調查資料的加權 使樣本更具代表性,或為了強調某些被訪者群體的重要性。 加權變數:性別、年齡、居住地、教育程度
調查資料的轉換 重新分類或重新編碼 將資料合併成更少的幾個大類(政黨泛藍、泛綠、年齡老中青、縣市北中南東或七大區域、教育程度高中低等等) 將變數的值配合資料分析(男=1, 女=2男=0, 女=1) 重新構成的新類別必須滿足 所有的情況都已包括在新的類別之中 各個類別之間沒有交叉或重疊 類別間的差異大於類別內的差異