統計分析軟體入門研習-SPSS 主講人:吳朝欽 逢甲大學財稅系助理教授 分機:4305 2009/12/15
大綱 1.資料統計概論 2.假說檢定 3.多變量分析 4.複選題分析
1.資料統計概論 1.1資料概說
統計方法之考量因素 變數型態 特性 資料衡量尺度 類別:性別 名目尺度 質化變數 順序尺度 質化變數 優先順序 等距尺度 量化變數 大小 比率尺度 量化變數 資料間的比值
銀行客戶資料之變數特性與衡量尺度 變數名稱 變數值 衡量尺度 變數屬性 性別 1:男生;0:女生 名目尺度 質化變數 年齡 年齡值 比率尺度 量化變數 居住區域 東區:1;西區:2;中區:3 信用等級 最佳:1;中等:2;不良:3 順序尺度 職業 農:1;勞:2;公教:3;工商:4;自由:5;其他:6 所得 年所得值(萬元) 存款 存款值(萬元) 貸款 貸款值(萬元) 是否曾經逾期繳款 有:1;無:0
資料型態與統計方法
新資料之建立:按「輸入資料」
按「變數檢視」
解釋 名稱: 輸入變數名稱,但須注意SPSS之變數名稱僅可輸入八個字元,亦即八個半型字(英文字母或數字)或四個全型字(中文字),若輸入中文名稱則僅能輸入四個字。 類型: 一般採SPSS預設之數值型式(numeric),使用者亦可依需要選取其他資料型式。 寬度: 欄位寬度,依據資料實際位數選取適當之欄位 寬度。
解釋-1 小數: 小數點位數,此功能係設定資料呈現之小數點位數。SPSS預設值為2,故每筆數字皆會有兩位數之小數點。 標記: 變數之備註說明,針對變數(欄位名稱)加以說明。由於SPSS之變數名稱僅可輸入八個英文字母或四個中文字,若使用者無法從變數名稱判斷該變數之真正意義,則可在此欄位中輸入較多之備註說明。例如「是否曾經逾期繳款」之變數,由於字數限制,僅能在”Name”之欄位輸入「逾期繳款」四個字,為強化該變數之說明。
解釋-2 數值: 變數之數值說明。此欄位可輸入變數值所代表之意義,例如性別變數。 遺漏: 此欄位係提供定義資料遺漏值(Missing values)之用。此功能可用以輔助使用者篩選資料之用。例如銀行客戶之職業種類有六種,而加以編碼(亦即農漁畜牧業為1;勞工為2;軍公教為3;工商服務業為4;自由業為5;其他為6),若使用者認為農漁畜牧業(編號1)與其他業(編號6)所佔顧客比例較低,擬不列入分析對象,但又想加以保留而不刪除,此時即可將該值定義為遺漏值。
按「資料檢視」
基本操作 選取資料 若使用者僅針對部分資料進行統計分析,此時即可利用本功能。茲分別舉例說明如下:
範例一:選取年齡大於40歲者進行分析
其他注意事項 以 & 代表 and 以 | 代表 or
資料轉換:存放比率
重新編碼
1.資料統計概論 1.2敘述統計
次數分配表
集中趨勢
2.假說檢定
2.1各種平均值之檢定 在比較各族群之平均值是否有顯著差異之前,可能須先詢問要如何分群?各族群各項變數之平均值為何?然後再進行平均值之差異性檢定。資料的分群是以某些變數之值(如:性別)為分群的準則,用以分群的變數稱為獨立變數(independent variables),而所欲計算平均值的變數稱為依變數(dependent variables)。
平均數
單一樣本 t 檢定 若銀行客戶之樣本資料存款平均值為433萬元,該銀行欲宣稱其客戶平均存款大於400萬元,試列出虛無與對立假說,並說明檢定結果(α=0.05)(資料檔:銀行客戶.sav)。 H0:客戶平均存款未大於400萬元(μ≦400) H1:客戶平均存款大於400萬元(μ>400)
獨立樣本 T 檢定 比較銀行客戶之平均存款是否因性別而有所不同。 H0:男性客戶平均存款與女性客戶平均存款無差異 (μ0-μ1=0或μ0=μ1) H1:男性客戶平均存款與女性客戶平均存款有差異 (μ0-μ1≠0或μ0≠μ1)
配對樣本 T 檢定 H0:裝設省油器前後之耗油差異平均值未大於0(Δμ≦0) H1:裝設省油器前後之耗油差異平均值大於0(Δμ>0) 某汽車保養行為了解某汽車省油器之功效,其選取八部車輛並安裝省油器,並記錄其裝設前與裝設後之耗油紀錄如下表(每100公里需加侖數) 若車輛耗油為常態分配,試檢定該省油器是否可節省汽油。 H0:裝設省油器前後之耗油差異平均值未大於0(Δμ≦0) H1:裝設省油器前後之耗油差異平均值大於0(Δμ>0)
2.2單變量變異數分析 檢定三個以上的獨立母體之平均值是否相等時,可採用變異數分析(Analysis of Variance; ANOVA)。變異數分析種類繁多,如下表: 依變數個數 自變數個數 名稱 1 (單變量變異數分析) 單因子變異數分析 2(以上) 多因子變異數分析 (多變量變異數分析) 單因子多變量分析 多因子多變量分析
範例:單因子變異數分析 某校想要瞭解不同的教學方法對學生的學習成效是否有所差異,因而進行一項教學實驗。該校找來三組學生(每組各五位同學),並施以不同的教學方法(民主式、專制式、放任式)。一段時日後,施以測驗。試問:此三種教學方法之成效是否有所差異?
範例:雙因子變異數分析 當懷疑某一屬量的依變數可能同時受到兩個屬質的自變數的影響,較正確的分析方法應是採用雙因子變異數分析,例如:如下表想要探討「性別」與「居住區域」對「存款」的影響。性別與居住區域對存款的影響效果稱為主效果;性別與區域是否同時對存款造成不同的效應則為交互效果。
檢定內容
2.3類別資料關係探討―卡方檢定 以「銀行客戶資料」為例,探討客戶信用等級與居住區域是否有關係。建立假說如下: H0:客戶信用等級與居住區域無關 H1:客戶信用等級與居住區域有關
2.4相關分析 兩變項間之關係 若兩變數均屬於連續的量化資料,則兩變數間之相關性,適合以Pearson 積差相關係數來衡量。 範例一 探討全校成績中,智力測驗與數學成績之相關性。
建立假說 程式操作 分析結果 H0:智力測驗成績與數學成績無關(ρ=0) H1:智力測驗成績與數學成績有關(ρ≠0) 繪圖Graphs Scatter Simple 設定變數(X軸、y軸) Analyze Correlate Bivariate出現對話框:(a)設定變數(Variables)(b)勾選 Pearson(c)設定雙尾或單尾檢定 分析結果
3.多變量分析
3.1迴歸分析 迴歸分析依不同的重點分類,分為以下幾類: 依自變數個數區分 例如: 依線性性質區分 例如: 單變數迴歸(簡單迴歸):討論單一自變數對依變數的影響。例如: 複迴歸:討論二個以上的自變數對依變數的影響。 例如: 依線性性質區分 線性迴歸:自變數與依變數間具直線特性。 例如:
3.2探索性因素分析 在〝quality.sav〞檔中,衡量問項為: 高鐵車站的動線標示清楚 (X1)。 高鐵車廂乾淨清潔 (X2)。
3.3量表之信度與效度 潛在變數的衡量,通常是以量表或問卷做為測量工具,評估量表優良與否的準則為信度與效度。 壹、信度 貳、效度
信度係指測驗結果(受試者的回答)的穩定性及可靠性(可相信的程度)。信度的衡量有三種類型:穩定性、等值性與內部一致性。 效度指問卷或量表能測量到理論上的構念或特質之程度。
4.複選題分析 一、複選題例如:你曾經由哪些管道獲贈本雜誌資訊:網路、報紙、業務人員、過去經驗、朋友介紹。 二、上面有五個可複選選項!在SPSS中一般單選題是建一個變數,但上面複選題要建立五個變數,編碼上若問卷上五個都有勾選,則五個都給1(有勾的給1、沒勾的給0)! 三、在SPSS中選「分析-複選題分析-」定義集合,把五個變數放到「集內的變數」,『二分法」的數值打1,「名稱」自訂!按「新增」即完成設定。 四、按「分析-複選題分析-次數分配表」即可得到你要的!
簡報完畢 敬請指教