第四章 單變量描述性分析 第一節 描述性統計原理 第二節 報告(Reports) 第四章 單變量描述性分析 第一節 描述性統計原理 第二節 報告(Reports) 第三節 描述性統計(Descriptive Statistics) 第四節 表格(Tables) 第五節 複選題分析(Multiple Response) 第六節 描述性分析範例-CRM
學習目標 認識描述性統計分析原理與統計量。 瞭解OLAP功能及如何操作。 認識結果報告(Reports)的其他程序之功能與如何操作。 瞭解次數分配表(Frequencies)的功能與操作。 瞭解描述統計(Descriptives)的功能與操作。 理解Frequencies與Descriptives程序的差異與適用的衡量尺度。 認識表格(Table)的所有程序之功能與如何操作。 瞭解複選題分析的原理及如何定義複選題分析集。 認識複選題分析如何進行Frequencies與Crosstabs分析。 理解SPSS描述性分析的輸出如何製表及如何以文字來描述。
第一節 描述性統計原理 一、主要的統計量 二、描述性統計量
表4-1 描述性統計量彙整表
表4-2 集中量數的比較表
表4-3 分散量數的比較表
次數分配(frequency distribution) 次數分配將列出該變數所有可能值(組別)與其出現次數的表列彙總,如性別變數中的可能值為男與女、居住地變數中的可能值為北、中與南。 此外,次數分配表對於檢查資料輸入是否正確非常重要,若出現不可能值,則代表原始資料輸入有誤,例如:性別變數出現不是男或女的數值 。 計量變數資料在進行統計分析之前,必須以描述性統計的集中量數與分散量數來加以描繪該變數的特性,且可以用次數分配來顯示資料的分佈情形。 對於計質變數而言,計質變數不可進行集中量數與分散量數的計算功能。
第二節 結果報告(Reports) 一、線上分析處理(OLAP)多維度報表 二、觀察值摘要(Case Summaries) 三、分行摘要報告(Report Summaries in Row)
圖4-1 Reports選單功能
一、線上分析處理(OLAP) 多維度報表 線上分析處理(Online Analytic Processing-Multidimensional,OLAP)程序可建立資料模型(OLAP Cubes) 對於一個或多個分組變數(X)所分的組,可計算連續變數(Y)的統計量,包括總和、平均數、樣本數及其他統計量,對該連續變數作摘要分析,結果以分層的方式輸出。 OLAP對決策分析很重要,可以透過Excel的樞紐分析表(Pivot Table)來達成此功能。
圖4-2 OLAP Cubes對話框
OLAP Cubes對話框 摘要變數(Summary Variable(s)):欲選擇需要進行OLAP處理的連續變數Y,摘要變數必須是數值。 分組變數X(Grouping Variable(s)):選擇分組變數,而分組變數則必須是類別變數,其中類別變數的值,可是數字或短字串。 統計量(Statistics)子對話框:用於選擇需要輸出的一些統計量 差異(Differences)子對話框:可讓您計算摘要變數之間(between variables)或分組變數(between groups)之間所定義之組別間的百分比差異(Percentage Difference)或算術差異(Arithmetric)。將每一對中第一個變數的摘要統計量值減去該對第二個變數(減變數(Minus Variables))的摘要統計量值。
圖4-3 OLAP Cubes: Statistics子對話框
圖4-4 OLAP Cubes: Title對話框
圖4-5 OLAP觀察值彙總
圖4-6 OLAP輸出結果
圖4-7 OLAP Pivot Table Objects-Edit功能
圖4-8 OLAP Pivot Table Objects-Open功能
二、觀察值摘要 (Case Summaries) 圖4-9 Summarize Case 對話框 Case Summaries程序是用於按指定的一個或多個分組變數不同水準的交叉組合,對摘要變數進行觀察值列表,並計算相應的統計量。
圖4-10 Case Summaries 觀察值摘要
三、分行摘要報告 (Report: Summaries in Rows) 圖4-11 Case Summaries輸出結果
圖4-12 Report: Summaries in Rows對話框
Report: Summaries in Rows 輸出結果
第三節 描述性統計(Descriptive Statistics) 一、次數分配表(Frequencies) 二、描述統計(Descriptives) 三、探索性分析(Explore) 四、比例量數(Ratio)
第三節 描述性統計 (Descriptive Statistics) 其中Crosstabs因牽涉到卡方 統計檢定,本書將歸到第六章中討論。 Frequencies主要針對計質變數的分析程序 Descriptives主要針對計量變數的分析程序,兩者各有不同的適用情況。
圖4-14 Descriptive Statistics 選單功能
一、次數分配表(Frequencies)
圖4-16 Frequencies: Statistics 對話框
圖4-17 Frequencies: Charts對話框
圖4-18 Frequencies: Format 對話框 多重變數(Multiple variables)乃指若處理變數有多個時,在列印統計量時,可選擇將多個變數列印在同一表格中以做比較,或分開列表(依變數組成輸出)。
圖4-19 Frequencies程序輸出的統計量
圖4-20 Frequencies程序輸出的次數分配表 因身高為計量變數,故於此15筆資料中,出現了13個可能值,這種次數分配表雖然很長,但可用於資料的檢查。 可以依據次數分配表將實際數值區分為幾個區段,如160以下、160~164、165~169、170以上,並以人工自行累積計算每個區段(組別)次數與百分比 。
圖4-21 Frequencies程序輸出的長條圖
圖4-22 Frequencies程序輸出的圓餅圖
圖4-23 Frequencies程序輸出的直方圖
二、描述統計(Descriptives) 「描述統計」(Descriptives)程序可用來顯示數個變數的單變量摘要統計量,以及計算標準化數值(Z分數)。 圖4-24 Descriptives 對話框 當儲存Z分數後,SPSS會將它們加入目前Data Editor的資料 檔中,以供後續圖表和分析使用。
圖4-25 Descriptives: Options子對話框
圖4-26 Descriptives程序輸出的描述性統計量
圖4-27 Descriptives程序輸出的Z分數變數與Z分數值
三、探索性分析(Explore) Explore程序,主要用於對資料的性質、分配特性等不清楚時,可對資料做更詳盡的描述性統計分析。
圖4-29 Ratio Statistics對話框
圖4-30 Ratio Statistics: Statistics子對話框
Ratio統計量-分散量數(Dispersion) AAD(Average Absolute Deviation):平均絕對離差是將中位數相關比例量數的絕對離差加總,並除以總比例量數數目的結果。 COD(Coefficient of Dispersion):離散係數是將絕對離差表示成中位數百分比的結果。 PRD(Price-related Differential):價格關聯微分(另稱為迴歸的指標)是平均數除以加權平均數的結果。 以中位數為中心的變異係數(Median centered cov):以中位數為中心的變異係數是將中位數離差之平均數平方根,表示成中位數百分比的結果。
圖4-31 Ratio Statistics輸出結果
第四節 表格(Tables) 一、客製化表格(Custom Table) 二、基本表格(Basic Tables)與 通用表格(General Tables) 三、次數分配表(Table of Frequencies)
表格(Tables) Tables選單一共包含四種程序,如圖4-33所示。 它可產生各種複雜的報表,且可處理計量資料與分類資料,同時也對複選題與遺漏值提供強力的支援。 Tables功能對實務工作者與市場製作公司相當實用,但對學術研究者而言,通常並不需要製作複雜與美觀的報表,故沒有給予太多重視。
圖4-33 Tables選單功能
一、客製化表格(Custom Tables)
圖4-35 Custom Tables交叉表與卡方檢定
二、基本表格(Basic Tables)與 通用表格(General Tables)
圖4-37 Basic Tables: Statistics子對話框
圖4-38 Basic Tables: Totals 子對話框
圖4-39 Basic Table的輸出結果
三、次數分配表 (Table of Frequencies) 次數分配表可以在同一張表格內為一個以上的分類變數進行次數描述。 圖4-40 Tables of Frequencies對話框
圖4-41 Tables of Frequencies: Statistics子對話框
圖4-42 Table of Frequencies的輸出結果
第五節 複選題分析 (Multiple Response) 一、複選題分析的原理 二、定義複選題分析集(Define Sets) 三、複選題分析次數分配表(Frequencies) 四、複選題分析交叉表(Crosstabs)
圖4-43 Multiple Response 選單功能
一、複選題分析的原理(1/2) 複選題只是請受訪者勾選有或無,亦即該選項只能在建立資料時,以名目尺度的1與0來呈現。 複選題經常被使用,但許多問卷調查者並不知道複選題所能做的統計分析只有次數分配表與交叉分析表等描述性統計。 如果您只是要進行非學術性的研究、只想瞭解複選項目的次數分配,則可使用複選題 但如果您要進行的是學術性研究,則建議盡量不用使用複選題,若有必要也盡量要使用複選題的變形。
一、複選題分析的原理(2/2) 可詢問受訪者乘坐各家航空公司的乘坐次數、詢問每種減肥方式的使用比重,將原本以名目尺度來衡量的變數改為計量尺度,如此就可進行後續較多的統計程序。 複選題在建資料檔時,必須對每一個選項設為一個變數,而非一組變數成為一個變數 例如本範例中,因「上網項目」與「嗜好」各有4個與5個選項,合計有9個選項,共必須新增9個變數,結果如圖4-44所示。
圖4-44 學生-複選題範例檔的資料內容
二、定義複選題分析集 (Define Sets) 圖4-45 Define Multiple Response Sets對話框
複選題分析集名稱(Name) 可將複選題分成多重二分集和多類別集合,最多可以定義20個複選題分析集。 圖4-45乃定義第二個分析集所定義的變數(打球、看電視、打電動、逛街、唱歌) 「$嗜好」。
複選題分析集的資料編碼 二分變數(Dichotomies Counted Values):請選取二分法以建立多重二分集,如本範例的兩個分析集。則集合中的多個變數都會變成組別變數的類別 選取類別(Categories):會建立多類別集合。請在多重類別變數集合類別範圍的最小值和最大值中,輸入整數值。受訪者的上網項目不會超過三種的話,就可以只要建立三個而非四個變數,而且每個變數有四種代碼,每個代碼代表一種上網項目,如1234分別代表找資料、購物網站、線上遊戲、聊天室,則第一筆觀察值「陳一」的三種上網代碼分別是134,第三筆觀察值「張三」的三種上網代碼分別是34 雖然這兩種方式所得到的結果是相同的,但建議採二分變數較佳,此乃因用0與1較易輸入
三、複選題分析次數分配表(Frequencies) 圖4-46 Multiple Response Frequencies對話框
圖4-47 Multiple Response的次數分配表輸出比較範例
圖4-48 Multiple Response的 次數分配表輸出範例-嗜好
圖4-49 Multiple Response Crosstabs對話框
圖4-50 Multiple Response Crosstabs: Options子對話框
圖4-51 性別與複選的 上網項目交叉表
圖4-52 電腦能力與複選的 上網項目交叉表
圖4-53 性別與複選的 嗜好交叉表
第六節 描述性分析範例-CRM 一、客戶關係管理之研究 二、公司基本資料分析 三、CRM實施程度的描述性分析
描述性分析範例-CRM 對資料作深入的描述性分析,有助於對後續進一步的檢定分析。 描述性分析的製表中,最重要的是要顯示計質變數的次數分配與計量變數的平均數,且對同一組計量變數可以比較其平均數並排名高低。 研究報告的文字說明一定要與圖表的內容有所差異,要能以文字撰寫出描述性圖表背後所代表的意義,若無法以文字來寫出深闢的內涵,就沒有太大價值 此原則也適用在其它統計分析的表格製作與分析說明中。
表4-4 CRM實施程度問卷 衡量方式的範例
資料的轉換 可按12345的自然習慣來輸入,但以Compute反算回來。 COMPUTE Web網站1 = 6-Web網站1 . COMPUTE Web網站 = (Web網站1+Web網站2+Web網站3+Web網站4+Web網站5+Web網站6)/6 .
公司基本資料分析 在學術性論文中,所有的統計表格最好要精簡。 故在描述性分析中,最好不要將每一個變數的描述性分析單獨列表統計,而是應將所有變數的描述性統計加以彙整在同一張或少數幾張表格中。 此外,學術性論文中表格的格線可以盡量精簡、不可太粗且可不要顯示最左與最右邊的格線,字體也不需要太大或特別加粗。
表4-5 樣本公司基本資料與CRM採用現況分析表
表4-6 CRM系統之實施程度(互動介面) (1/2)
表4-6 CRM系統之實施程度(互動介面) (2/2)