敘述統計I:表格與圖形法 Part A (2.1-2.2) 第 2 章 敘述統計I:表格與圖形法 Part A (2.1-2.2)
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27-53頁 2.1 定性資料的彙總 2.2 定量資料的彙總 2.3 探究性資料分析:莖葉圖 2.4 交叉表格與散布圖 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27-53頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第26頁 統計實例 高露潔-棕欖應用統計學在家庭洗衣清潔產品的品質保證計畫中,計畫的重點之一是消費者對清潔劑填充量的滿意度。 為了控制清潔劑粉末密度過高的 問題,於是將粉末密度限制在一 個可接受的範圍,定期地抽取統 計樣本,並測量每一樣本的粉末密度。 接著將資料彙整提供給操作人員,以便採取修正措施,保持粉末密度在期望的品質規格之內。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第26頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27-30頁 2.1 定性資料的彙總 次數分配 相對次數分配與百分比次數分配 長條圖與圓形圖 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27-30頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27.28頁 次數分配 次數分配(frequency distribution)是資料的一種 表格彙總方式,用以顯示不相重疊的各個資料 組別中各自含有的觀察值次數。 次數分配的優點是提供了一個比原始資料更容 易瞭解的資料彙整方式,我們能瞭解 50 個購 買紀錄在 5 種產品間的分布情形。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27.28頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27頁 次數分配 以下列例子說明定性資料次數分配的建立與解釋。Coke Classic、Diet Coke、Dr. Pepper、Pepsi 和 Sprite 是 5 種廣受歡迎的清涼飲料。表 2.1 列舉了 50 個清涼飲料的購買成本。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27頁 表2.1 次數分配 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第27頁 表2.1
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28頁 次數分配 為求得這些資料的次數分配,我們計算每種飲料在資料的總出現次數,Coke Classic 出現 19 次,Diet Coke 出現 8 次,Dr. Pepper 出現 5 次,Pepsi出現 13 次,Sprite 出現 5 次。 我們彙整了這些次數,並列示於表 2.2 的次數分配表。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28頁 表2.2 次數分配 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28頁 表2.2
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28頁 相對次數 一個資料組的相對次數(relative frequency)即代 表該類別之觀察值次數與所有觀察值次數的比 率。 該組別的次數 一個組別的相對次數 = n 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28頁
第2章敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28頁 相對次數分配 相對次數分配(relative frequency distribution)是一 個資料的表格化彙總,顯示資料裡每個組別的相 對次數。 第2章敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第28頁 百分比次數分配 百分比次數分配(percent frequency distribution) 也是資料集的表格化彙總。 百分比次數分配顯示每一個組別的百分比次 數。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第28頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28-29頁 表2.3 百分比次數分配 表2.3是購買清涼飲料的相對次數和百分比次數,可看出 Coke Classic 的相對次數是 19/50=0.38,Diet Coke 的相對次數則是 8/50=0.16 等等。由百分比次數分配,我們可發現 38 % 的購買者選擇 Coke Classic,16% 選擇 Diet Coke 等等,也可看出前三名佔全體的比例為 38%+26%+16%=80%。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第28-29頁 表2.3
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第29頁 長條圖 長條圖(bar graph 或 bar chart) 是一種圖形,用以描述經過彙總 (如次數分配、相對次數分配,或百分比次數分配) 的定性資料。 圖形的一軸 (通常是橫軸) 是用來表示組別名稱的標記或符號。圖形的另一軸 (通常是縱軸) 則表示次數、相對次數或百分比次數。 各個組別名稱上方有固定寬度的長條,以長條的高度表示次數、相對次數或百分比次數。 對定性資料而言,每個組別應有所分隔不相鄰接,表示每個組別 (或類別) 是有所區隔的。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第29頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第29頁 圖2.1 長條圖 圖 2.1 為 50 筆清涼飲料購買資料的次數分配長條圖。在圖形中可看出 Coke Classic、Pepsi 與 Diet Coke 為最受歡迎的品牌。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第29頁 圖2.1
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第29頁 圓形圖 圓形圖(pie chart)也是一種用來表示 定性資料相對次數及百分比次數分 配的圖形。 圓形圖的畫法是,由一個圓形的圓心依照各資料組的相對次數所對應的圓心角而劃分。 例如 Coke Classic 之相對次數為 0.38,因此 Coke Classic 所佔圓形的部分相當於圓心角 0.38 × 360=136.8 度的扇形。同理,其他三種品牌亦可得到相對應的扇形部分,結果如圖 2.2 所示。扇形內的數值可以是次數、相對次數或百分比次數。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第29頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第30頁 圖2.2 圓形圖 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第30頁 圖2.2
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第29-30頁 評註 通常,次數分配的組數和資料的類別總數是相同的。就如同本節表 2.1 的資料顯示,該資料裡有 5 種清涼飲料,每一種品牌便是次數分配裡的一個組別。如果這個資料包括了所有的清涼飲料,則將有資料個數非常少的組別出現在次數分配裡 (甚至有購買次數為 0 的清涼飲料產品)。大部分的統計學家建議這些觀察值次數非常少的組別彙整為同一組,組名可取為「其他」。次數在5% 以下的組別,通常會依上述方式處理。 次數分配的總次數應等於觀察值的總數;相對次數的總和必須為1.00;百分比次數分配的百分比總和則應為100。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第29-30頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第33-39頁 2.2 定量資料的彙總 次數分配 相對次數分配與百分比次數分配 點圖 直方圖 累積分配 肩形圖 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第33-39頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第33頁 次數分配 為定量資料做次數分配,必須完成以下三個步驟: 決定不相重疊的組別數目。 決定每一組的組寬。 決定每一組的組界。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第33頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第33.34頁 表2.4 組數 組數 (number of classes) 的制定可經由資料裡資料值的範圍來規定。 一般而言,我們建議將資料分成 5 至 20 組。較小的資料,通常分成 5 組或 6組即可,較大的資料需要較多的組數。 分組時,我們希望使用夠多的 組數來表示資料的變化性,但 也不希望組數太多,而每組卻 只包含很少的資料次數。 由於表 2.4 的資料較少 (n=20), 我們將分成 5 組來建構次數分配。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第33.34頁 表2.4
組寬(width of the classes) 建構定量資料的次數分配需要選定每組的寬度。 建議每組均採用相同的寬度。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第34頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第34頁 組寬 稽核天數的資料顯示,最大值與最小值分別為 33 與 12,由於已事先決定組數為 5,利用式 (2.2) 得出近似的組寬為 (33-12)/5=4.2。 因此我們決定採用 5 天為次數分配的組寬。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第34頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第34頁 組界 選定組界 (class limits) 後,要讓每個資料只屬於唯一一組。下組界 (lower class limit) 用以確認該分組的最小可能值;上組界 (upper class limit) 則是確認最大可能值。 如果是定性資料的次數分配,不必特意決定組界,因為每個資料會自然歸屬於一個組別(類別)。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第34頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第34頁 組界 運用表 2.4 的資料,我們以 10 天為第一組的下組界,14 天為第一組的上組界。 表 2.5 將第一組標示為 10-14。資料的最小值 12,落在 10-14 這組。第二組的下組界是 15,上組界是 19。 整個資料被分為 5 組,分別是:10-14, 15-19, 20-24, 25-29, 30-34。 資料的最大值是 33,落在 30-34 該組中。 兩個相鄰組別的下組界之間的差異便是組寬。 利用前兩個組別的下組界 10 及 15,我們知道組寬為 15-10=5。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第34頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第34.35頁 表2.5 組界 一旦決定組數、組寬以及組界, 便可經由計數落於每組內的資料 個數來建構一個次數分配表。 由此次數分配我們可知: 次數最多的稽核時間介於 15-19 天。 20 個稽核時間有 8 個是屬於這一組。 僅有一個稽核時間超過 30 天以上。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第34.35頁 表2.5
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁 組中點 在某些應用中,我們也許希望求出定量資料次數分配的組中點,組中點 (class midpoint) 指的是上組界及下組界的中間值,在稽核時間的資料中, 5 個組中點分別是 12, 17, 22, 27 及 32。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁 相對次數分配與百分比次數分配 定量資料的相對次數與百分比次數分配的定義,與前述定性資料的作法相同。首先,所謂的相對次數乃資料裡某資料組的資料個數佔資料總數的比率。對觀察值為 n的情況而言, 而百分比次數則是相對次數乘上 100。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁 相對次數分配與百分比次數分配 根據表 2.5 中的次數分配和 n=20,表 2.6 顯示稽核時間資料的相對次數分配與百分比次數分配。 其中,有 0.40 或 40 % 的稽核需要 15 至 19 天。 僅 0.05 或5% 的稽核需要 30 天以上。 與未經彙整的原始資料相比,表 2.6 可以讓我們進一步解釋資料。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁 表2.6 相對次數分配與百分比次數分配 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁 表2.6
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁 點圖 點圖 (dot plot) 是最簡單的圖形彙總之一。 水平軸表示資料的值域,因此,每一個資料值均以點表示在水平軸上方適當的位置。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35-36頁 圖2.3 點圖 圖 2.3 為表 2.4 的點圖。 圖中有3 個點位於 18,表示資料共有 3 個 18。 點圖除了可以表示詳細資料外,在比較兩個或以上變數的資料分布時也非常有用。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第35-36頁 圖2.3
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第36頁 直方圖 另一個常見的定量資料圖形表示是直方圖 (histogram)。 在建構直方圖之前,資料須先經過前述的彙整,如次數分配、相對次數分配或百分比次數分配。 直方圖之建構是將我們感興趣之變數置於橫軸上,而次數、相對次數或百分比次數則置於縱軸上。 每一分組的次數、相對次數或百分比次數以一個矩形圖表示,其寬度是該組別之組寬,高度則是相對應之次數、相對次數或百分比次數。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第36頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第36頁 直方圖 圖 2.4 是稽核時間的直方圖,其中次數最大的矩形位於 15-19 天這一組,矩形高度顯示該組的次數為 8。 相對次數或百分比次數的直方圖與圖 2.4 是相同的,只是縱軸改為相對數值或百分比數值。 如圖 2.4 所示,與長條圖不同的是,直方圖裡兩相鄰組別的矩形是相接的,相鄰組別並不存在自然的分界。由於稽核時間的組寬分別為 10-14, 15-19, 20-24, 25-29 及 30-34,所以組別間應有一個單位的區隔:14 到 15、19 到 20、24 到 25,以及 29 到 30。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第36頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第36頁 圖2.4 直方圖 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第36頁 圖2.4
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第36-37頁 直方圖 但在畫直方圖時,刪除了這些間隔。刪除組間間隔有助於看出:即使資料值被歸整為整數,稽核時間可能是介於第一組的下組界及最後一組的上組界之間的任何數值。 直方圖最重要的用處之一是,讓我們瞭解資料分布的形狀或形式。圖 2.5 中有4 個相對次數分配的直方圖。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第36-37頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5 圖2.5 直方圖顯示不同程度的偏態 圖 A 顯示資料的分布呈現左偏 (skewed to the left), 這是指分布形狀的左尾 (左端) 延伸得較遠。 此種直方圖常見於考試成 績的次數分配。因為分數不會高於 100%,大部分的成績通常高於70%,很低的分數則比較少見。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5 直方圖顯示不同程度的偏態 圖 B 則是適度右偏 (skewed to the right) 的直方圖,這是指分布形狀的右尾 (右端) 延伸得較遠。 購屋價格就是此種直方圖的常見例子,少數的豪宅會使資料的右尾延伸。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第37頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5 直方圖顯示不同程度的偏態 圖 C 是對稱的直方圖,此圖中的左尾是右尾的鏡射。實務中的直方圖不會完全對稱,但會大致對稱。 諸如 SAT 成績、身高或體重之類的資料都是大致對稱的形式。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第37頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5 直方圖顯示不同程度的偏態 圖 D 則是高度右偏,此圖的資料來自某女性服飾店的顧客一日採購金額。 商業經濟的實際應用中,常可見此種向右偏態的直方圖,例如,購屋價格、薪水、採購金額等等。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第37頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第37頁 累積分配 累積次數分配(cumulative frequency distribution) 是次數分配的變形,它提供定量資料另一種表 格化的彙總。 累積次數分配利用次數分配的組數、組寬,以 及組界來進行資料的表格化彙總。 並不列出每個組別的資料次數,而是列出小於 或等於上組界的總資料次數。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第37頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第37-38頁 累積分配 表 2.7 中的前兩欄是稽核時間資料的累積次數分配值。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第37-38頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第38頁 累積分配 累積相對次數分配 (cumulative relative frequency distribution) 和累積百分比次數分配 (cumulative percent frequency distribution) 分別代表小於或等於每一個組別上組界的資料個數佔資料總數的相對比率和百分比。 累積相對次數分配的計算可由相對次數分配的比率值相加總而得,也可由累積次數除以資料的資料總數而得。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第38頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第38頁 肩形圖 表示累積分配的圖形稱為肩形圖 (ogive)。 橫軸為資料值,而縱軸為累積次數、累積相對次數或是累積百分比次數。 圖 2.6 為表 2.7 稽核時間資料的累積次數肩形圖。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第38頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第39頁 圖2.6 肩形圖 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第39頁 圖2.6
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第39頁 評註 長條圖與直方圖基本上是相同的;兩者都是次數分配資料的圖形表示。直方圖是長條之間沒有間隔的長條圖。長條之間有間隔,長條各自分開,對定性資料而言是恰當的,因為資料為離散,可以沒有中間值。對某些定量資料而言,長條之間也可能有間隔。例如,大學院校中註冊學生的班級數。這樣的資料只可能是整數。兩個資料之間的中間值,例如 1.5 及 2.73 等等都是不可能存在的值。對連續的定量資料而言,例如表 2.4 的稽核時間,長條之間若有間隔就不恰當。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第39頁
第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第39頁 評註 定量資料的上、下組界的適當值由資料內容的精確程度來決定。若以表 2.4 稽核時間的組界資料為例做說明,我們可以瞭解,因為資料原本的形式是整數,因此組界自然呈現 10-14, 15-19 的形式。若將時間資料以四捨五入處理成小數點後一位的精確程度,則資料就會出現 12.3, 14.4 等的數值,而組界自然也就呈現出 10.0-14.9 的形式。若將時間資料以四捨五入處理成小數點後二位的精確程度,則資料就會出現 12.34, 14.45 等數值,而組界也就出現 10.00-14.99 的形式。 第2章 敘述統計I:表格與圖形法 Part A (2.1-2.2) 第39頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第39頁 評註 所謂的開放組別 (open-end class) 僅能有一個上組界或一個下組界。例如,在表2.4 的資料中,假設有 58 天與 65 天兩個資料值。現在,我們不再將資料分成35-39, 40-44, 45-49 等等以 5 為組寬的各種組別,而是讓次數分配的分組簡化成一個開放組別「35 或以上」。這樣一來,這個組別裡就只有 58 天和 65 天兩個資料。有時,這種開放組別是下開形式,而不像「35 或以上」是一種上開形式 。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第39頁
第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第39頁 評註 完成累積次數分配之後,還要填入資料的總資料個數;在累積相對次數分配裡一定要填入 1.00,而在累積百分比次數分配裡則一定要填入 100。 第2章 敘述統計 I:表格與圖形法 Part A (2.1-2.2) 第39頁
End of Chapter 2, Part A