資料分析前的預備動作— 資料清理、編碼與資料分析
編碼—事前編碼 收到問卷後,要將問卷資料輸入電腦中,以便進行分析 輸入資料前,須先進行編碼的工作 例1:當題目為性別:□男 □女,則輸入電腦時,可能會輸入「男」、「女」,或轉換成數字,如「1」、「0」。 例2:□很滿意 □普通 □不滿意,會編碼成3, 2, 1 編碼的目的 將問卷結果轉換成電腦可辨識與可進行分析的模式
資料清理 遺漏值 極端值 對受訪者太多無填或者亂答的狀況進行處理 若是太多問題無填答(約50%的題數未填答),則此問卷可歸為廢卷。 廢卷標準可由研究者自訂 系統性填答 可利用標準差進行判斷 若某受訪者在該量表( Ex. 滿意程度)的標準差為 0,代表受訪者填答的選項都一樣,研究者可以考慮將此問問歸為廢卷
編表與資料清理
編表的功能 找出錯誤 Ex. 出現不該出現的數値:選項介於1~4,填答結果為5 發現異常觀察值 極端值:影響分析結果 了解未回答(空白)的主要原由 刻意迴避 or 不知道(答案) 決定變數的分配型態 變數的分配不同,適用的檢定方法亦不同 Ex. 是否符合常態分配 計算平均數和離散度 了解所蒐集到樣本的特性
編表有清理資料的功能!
簡單編表—敘述統計表
資料尺度類型與適用敘述統計量 尺度的種類 數值處理 敘述統計方法 名目尺度 計數 計算頻率、百分比 順序尺度 排列順序 排列順序、中位數、計算百分等級 區間尺度 算數計算 平均數、變異數、標準差 比率尺度
次數與比率分析 受訪者150人 出席狀況:□按時上課 □偶爾未到(一星期約5次以下) □經常未到(一星期6~10次) □常常未到(一星期11次以上) 結果 按時上課:50人(33.3%) 偶爾未到:60人(40%) 經常未到:30人(20%) 常常未到:10人(6.67%)
次數分配表 目的 了解分佈的狀況 課堂參與狀況 人數 百分比 按時上課 50 33.33% 偶爾未到 60 40.00 經常未到 30 20.00 常常未到 10 6.67 150 100.00
亦可以圖形的方式呈現資料狀態
受訪者150人 性別:□男 □女 男生:75人(50%) 女生:75人(50%)
直方圖—受訪者性別比率
交叉編表(1/2) 目的 初步了解,不同母體之間,是否存在差異 Ex. 不同性別的學生,其上課出席狀況是否有所不同 課堂參與狀況 人數 男生 女生 合計 按時上課 30 20 50 偶爾未到 25 35 60 經常未到 15 常常未到 7 3 10 77 73 150
交叉編表(2/2) 如欲了解,不同性別的學生,其上課出席狀況是否存在明顯(統計顯著)差異,則建議使用卡方分析
卡方檢定—齊一性檢定(1/2) 隨機抽樣調查330位女大學生,獲得其就讀年級與選購化妝品主要目的的資料,如下表: 請問,不同年級學生選購化妝品的主要目的是否明顯不同?
假設檢定 對母體特性建立一個正面及一個反面的敘述,藉由樣本資料判斷假設對錯的過程。 正面的敘述為虛無假設(Null Hypothesis, H0) 反面的敘述為對立假設(Alternative Hypothesis, H1) H0通常為與期望結果相反的敘述
卡方檢定—齊一性檢定(2/2) 在α=0.01下,檢定不同年級女大學生的化妝品使用目的是否相同 假設檢定 H0:不同年級學生選購化妝品的主要目的相同 H1:不同年級學生選購化妝品的主要目的不相同 統計量χ2 vs. χ20.01(6)
兩變數均為屬質變數(名目尺度、順序尺度)! 卡方檢定的使用時機 兩變數均為屬質變數(名目尺度、順序尺度)!
敘述統計量 目的 可快速了解樣本的特徵 統計量類型 平均數:代表資料的集中趨勢 種類:算術平均數、中位數、幾何平均數、眾數 哪種統計量不易受極端值影響? 離勢:代表資料的離散程度 種類:全距、四分位差、變異數、標準差
敘述統計量—範例 Ex.問卷題目 性別:□男 □女 您所選購筆記型電腦的重量為_____kg 針對第二小題,可以分析 性別:□男 □女 您所選購筆記型電腦的重量為_____kg 針對第二小題,可以分析 受訪者所購筆電的重量區間為何(最重、最輕)? 受訪者所購筆電的平均重量為何? 可以計算眾數、中位數嗎? 受訪者所購筆電重量的變異數為何? 購買筆電的重量是否受性別差異的影響?
Ex.問卷題目 性別:□男 □女 您所選購筆記型電腦的重量為_____kg 欲了解購買筆電的重量是否受性別差異的影響? 該怎麼分析?
可使用分析方法 有母數 t檢定:單一樣本、兩組樣本 ANOVA:多組樣本 無母數 Mann-Whitney U檢定:兩組樣本 Kruskal-Wallis檢定法 :多組樣本
假設檢定 對母體特性建立一個正面及一個反面的敘述,藉由樣本資料判斷假設對錯的過程。 正面的敘述為虛無假設(Null Hypothesis, H0) 反面的敘述為對立假設(Alternative Hypothesis, H1) H0通常為與期望結果相反的敘述
假設檢定的範例 行政院長的執政能力遭立法委員質疑,據悉已有超過一半的委員不滿意。 以p代表立法委員不滿意的比例,則假設檢定可定為何 (H0)? or
某減肥食品公司宣稱其產品A較另一公司之產品B更有效果。以X代表服用產品A與B所減輕重量之差,則假設檢定之虛無假設與對立假設該如何定義?
相關係數 相關係數用來判定兩個變數間線性關係之強度 Ex.問卷題目包括: 網路購物佔您總消費金額的比率為何?_____% 您平均每日上網時數? 您想了解,網購佔總消費金額的比率與平均每日上網時數間,是否存在(線性)關聯。
迴歸分析 目的:了解多個變數之間,是否存在線性相關 Ex.問卷題目包括: 網路購物佔您總消費金額的比率為何?_____% 您每月可支配所得多少錢?_____ 您平均每日上網時數? 您覺得網路購物是否又保障? □有保障 □沒感覺 □沒保障 你想了解,網購佔總消費金額的比率主要是受哪些因素影響?(可支配所得、上網時數、對網路安全的觀感)