統計調查規劃設計 ~如何統計分析資料?~ 輔仁大學統計資訊系 謝邦昌 教授
Data Preparing 整理、編輯、分類 編碼(譯碼) 問卷先期檢查 鍵入(KEY-IN) 檢誤(Check Error)
資料整理、編輯與分類 在民調資料蒐集後的首要工作就是要對資料做整理、編輯、分類。 編輯的目的在剔除原始資料的謬誤。 記載分類號碼的目的在於將資料分類,使統計工作能順利且易於進行。
資料編碼 所謂「編碼」即將受訪者回答之問卷答項量化成電腦可以接受的語言。 封閉式問項 1 2
開放式問項編碼 研究人員在進行編碼之前,必須將全部的答案翻閱一次,先歸納出幾個顯而易見的大類別,然後再把每位受訪者的答案一一歸入各類別。 分類的標準完全取決於研究人員的專業素養與主觀判斷,但應注意必須便利於後續的統計分析工作。
通常一份問卷會有一份專屬的『編碼表』,或稱做『譯碼簿』。
問卷先期檢查 在統計分析工作開始前對資料做『先期檢查』。 (1) 樣本是否符合 (2) 問卷記錄的可解性 (3) 問卷記錄的完整性
資料鍵入 將問卷記載答案輸入電腦中。 目前一般使用者所會使用到的資料建檔(或KEY-IN)工具,依類型來區分,可大致分成:文書處理軟體、試算表軟體、統計分析軟體、資料庫軟體。不同類型的軟體,其所提供的功能也會有所差別。
文書處理軟體 所有能處理純文字資料的軟體,如PEII、漢書、記事本、UltraEdit等。 這些軟體的特色是系統資源需求不大,價格便宜(記事本為WINDOWS內附屬),操作上也相當簡單。
試算表軟體 資料顯示畫面是以工作表(Sheet)方示表現,最常使用的軟體有:LOTUS 1-2-3、dBASE、EXCEL等。 試算表軟體的特色,在於其欄位的資料可以做運算,且欄位資料分隔明顯。 EXCEL的功能,因為外加巨集(MACRO)及VBA的功能,使EXCEL也可做一些基本的檢誤及統計分析的工作。
統計分析軟體 以處理統計分析為主的軟體,常用軟體有SAS、SPSS、STATISTICA、MINITAB、S-PLUS等。 有的是以文字編輯軟體的畫面呈現,有的則是以試算表的畫面呈現。
資料庫軟體 資料庫軟體顧名思義,就是專門用來儲存資料的工具軟體。最常接觸到的軟體有ACCESS、MS-SQL、IBM-DB2、SyBase等等。 一般在使用上並不會直接將資料鍵入資料庫內,而是會利用編寫好的程式,將鍵入資料轉入資料庫內。
資料檢誤 資料在建檔完成後,需先對資料做檢誤的動作。 把不合常態、不符合問卷前後一致性、或問項回答間相互矛盾的資料,做資料確認或更正的動作,以確保爾後資料分析的品質。 規則性檢查:答案出現選項之外的數字。 常態性檢查:例如年齡超過200歲。 邏輯性檢查:例如受訪者為男性,卻回答生育第一 胎的年齡。
調查資料的統計預處理 缺失資料的處理 1.用一個樣本統計量的值去代替缺失值 2.用一個統計模型計算出來的值去代替缺失 值 2.用一個統計模型計算出來的值去代替缺失 值 3.將有缺失值的個案整個刪除 4.將有缺失值的個案保留,僅在相映的分析 中做必要的排除
調查資料的統計預處理 加權處理 主要目的:使樣本更具代表性,或為了強調某些被訪者群體的重要性。
調查資料的統計預處理 原始資料的轉換(重新分類、重新編碼) 需要將資料分成更有意義的類別 需要將資料合併成更少的幾個大類 重新構成的新類別必須滿足 所有的情況都已包括在新的類別之中 各個類別之間沒有交叉或重疊 類別間的差異大於類別內的差異
調查資料的統計預處理 變數的轉換(重新定義變數、修改變數) 、 『流行音樂參與度得分』新變數=『每月上KTV次數』+『每月購買CD數』 Dummy Variable Standardize 為了使不同單位的變數具有可比性。
統計作業上需注意的幾項原則 1. 應事先計畫好每一大分類的統計順序,如 此可避免許多混亂發生的機會。 2. 基本總數要在作業一開始時就計算。 1. 應事先計畫好每一大分類的統計順序,如 此可避免許多混亂發生的機會。 2. 基本總數要在作業一開始時就計算。 3. 應設一專人負責統籌所有的計算作業。 4. 基本總數和統計數目要不斷地反覆對照。 5. 電腦要標準化。 6. 所有格式都要有一個明確的標題。
統計作業上需注意的幾項原則 7. 所有表格都要加上號碼並排序。 8. 表格上要有詳細的分類項目。 9. 分類時必須注意不要重複。 7. 所有表格都要加上號碼並排序。 8. 表格上要有詳細的分類項目。 9. 分類時必須注意不要重複。 10. 表格記錄必須完整。 11. 計算表和統計表的分類越細越好,並盡量 配合圖形。 12. 各種資料的特性和相異性要盡量淺顯地表 現在表格上,使之一目了然。
各種衡量尺度 量化的處理工具便稱為衡量的尺度,又稱量表(Scale)。 問卷衡量尺度的設計是評估報告是否深入的關鍵。 不同的量表應用不同的統計分析,準確性才會提高。 考量的依據: 1.研究目的與問題深入的程度 2.事後資料整理時之便利性 3.各種可能選項的周延性與互斥性需兼顧 4.統計的方法
一、類別量表(nominal scale) 此種量表是根據被調查對象的性質而分類,如根據消費者答案可分為「喜歡」與「不喜歡」或「是」與「否」兩類。 每類答案的數字只作為分類之用,如果將這些答案數字(1,2,3)做運算,根本沒有意義,因為這些數字在此僅屬名義而已,真正目的是在分類。 二、順序量表(ordinal scale) 較類別量表多一特性,可以表示各類別之間的順序關係。 如要求消費者根據其心中偏好,將五種飲料品牌依最喜歡到最不喜歡的順序排列,最喜歡給5分、最不喜歡給1分,這就是一種順序量表。 不過代表順序的數字還是不能用來做運算,只能看出高低次序,卻無法確定順序之間的差異大小,例如若已知A>B>C>D>E,但並不知道A與B的差距,或C與D的差距,所以也無法得知兩種差距是否相等。
三、差距量表(interval scale) 較順序量表再推進一步,不單能表示順序關係,尚能測量各順序之間的距離,可確定地指出5分與4分之差距等於4分與3分的差距。 差距量表的分數可用來做加減乘除的運算,此為其之一大優點,但是不能說明6分為3分的兩倍,因為差距量表並沒有一個真正零點(真零)。 四、比率量表(ratio scale) 比率量表除了具有差距量表的全部特色外,再加上「真零」這個特性。 例如身高、年齡、體重等變數的測量都是用比率量表,故可說體重180磅的人比90磅的人重兩倍。 不過在態度測量方面,運用比率量表顯然有困難,消費者給一種飲料100分,另一種給50分,但卻不表示喜歡程度有兩倍的差距。因為態度測量本質上為一順序概念,顯然不宜用比率或差距量表測量。
適用於各類量表的統計分析方法列如下表:
跳出思路的陷阱 統計是取得數字後,加以整理分析的工作。
? 騙人的平均數 老謝應徵工作 公司規模:老闆、經理2位、組長3位、職員5位。 老闆:公司平均月薪6萬元,受訓期間1萬五千元,很快會加薪。 做 不做
中間數:4萬 平均數:6萬 眾數:2萬
某次統計學考試,甲班平均分數為80分,標準差為20,乙班平均分數為75分,標準差為5,哪一班成績較優?
根據統計顯示,多數車禍發生在車子行駛於一般車速的時候,只有少數車禍發生在車速超過時速150公里。 開快車較安全。 研究顯示,有個城市死於心臟病的人數與口香糖的消費量同時遽增。 嚼口香糖導致心臟病。 多數人都以一般車速開車,自然多數車禍發生於一般車速。 這兩類數字的增加是因為人口快速成長的結果。
現在我要寄一封文件給一位我不認識的人,我先寄給最有可能認識目標者的人,再請他轉寄,如此轉寄到目標者手中,請問中間經過人數? 現場有兩人是同月同日生的機率為? 平均為5人 23人機率略高於1/2, 40人機率達到90%以上。
解讀民意調查 A候選人支持度31.2% B候選人支持度28.5% C候選人支持度24.9% 成功訪問1,068位受訪者,在95%的信心水準下,抽樣誤差為正負3%。
問題與討論