敘述統計I:表格與圖形法 Part B (2.3-2.4) 第 2 章 敘述統計I:表格與圖形法 Part B (2.3-2.4)
Part B 2.3 ~ 2.4 探究性資料分析:莖葉圖表示法 交叉表格與散佈圖 x y
2.3 探究性資料分析 探究性資料分析(exploratory data analysis)的技 巧包括簡單的算術與可以快速彙總資料且容易 繪製的圖形。 有種稱為莖葉圖(stem-and-leaf display)的方法 可同時顯示資料的順序及形狀。
莖葉圖實例 為了說明莖葉圖的用法,以表2.9的資料為例。這些資料是50位哈斯肯斯公司(Haskens Manufacturing)的應徵者參加能力測驗的結果,這項測驗共有150道題目,這些資料代表應徵者答對的題數。 為了繪製莖葉圖,我們首先將每一個資料的十位數安排到垂直線的左邊且由小至大依序排列,垂直線的右邊則記錄每一個資料的個位數,所放的位置須對應十位數的位置。
莖葉圖實例
莖葉圖實例 將資料重新安排如上述的形式後,資料排序就非常簡單。排序完成後,即完成莖葉圖如下。
莖葉圖實例 直線左邊的數字(6, 7, 8, 9, 10, 11, 12, 13與14)是莖(stem),線右邊每一個數字是葉(leaf),例如,第一列的6是莖,8, 9是葉。
莖葉圖實例 這表示有兩個資料值的第一位數字是6,葉的數值顯示兩個資料是68與69。同理,第二列是 表示第一位數是7的資料有6筆:72, 73, 73, 75, 76以及76。 為了強調莖葉圖的形狀,我們利用長方形將每一個莖的葉之部分框起來。如此一來,我們便可以得到以下的表示圖。
莖葉圖實例 將上面的圖形依逆時針方向旋轉90度,則得到一個組界為60-69, 70-79, 80-89等的直方圖。
莖葉圖的優點 莖葉圖容易繪製。 在一個分類組別區間內,由於莖葉圖列出所有實際資料值,故能提供比直方圖更詳細的資訊。
莖葉圖 莖葉圖沒有絕對的列或莖的數目 可將原始資料的第一個數字再分成兩個或兩個以上的莖,輕易地擴充莖葉圖。 莖葉圖以單一個數字來定義葉的值,葉單位顯示莖葉圖的數字應乘上的適當倍數,如此一來莖葉圖即可以近似原始資料。葉單位可以是100, 10, 1, 0.1等等。
莖葉圖實例 以下列資料為例,這是速食餐廳15週的漢堡銷售量。 這些資料的莖葉圖如下。 以第一列的莖為15、葉為6來說明,兩者合起來是156。為得到原始資料的估計值,我們將156×10,也就是乘上葉單位。因此,1,560是原始觀察值的近似值。
2.4 交叉表格與散佈圖 至目前為止,我們介紹的都是針對一個變數的 表格與圖形化彙總方法。 2.4 交叉表格與散佈圖 至目前為止,我們介紹的都是針對一個變數的 表格與圖形化彙總方法。 管理者或決策者常常也需要有助於瞭解兩變數間 關係的表格化與圖形化方法。 交叉表格與散佈圖即彙總兩變數之資料的方法。
交叉表格 交叉表格(crosstabulation)可同時彙整兩變數 的資料。 交叉表格可以使用在: 一個定性變數,其他類別為定量變數 兩個變數都是定性變數 兩個變數都是定量變數 表的最左欄與最上列的標記為表中兩個變數的 各種類別
交叉表格實例 Zagat‘s Restaurant Review會刊出全世界各地餐廳的相關資料,各種變數的資料諸如餐廳品質評等、餐點價格等均有報導。 品質評等是一個定性變數,其類別有好、非常好、卓越的三個等級,餐點價格為定量變數,範圍從 $10到 $49之間。 品質評等與餐點價格資料來自洛杉磯地區的300家餐廳所構成的樣本,表2.10顯示前十家餐廳。
交叉表格實例
交叉表格實例 此應用例子的交叉表格在表2.11。 表的最左欄與最上列的標記為表中兩個變數的各種類別,在表的左邊第一欄中有三個等級(好、非常好、卓越的)對應品質評等變數的三個類別。 在表的上方,行的標示分類($10-19, $20-29, $30-39與 $40-49)分別對應餐點價格的四種類別。
交叉表格實例 每一個餐廳均提供品質評等與餐點價格之資料。因此,每一個餐廳將可歸屬於交叉表格中的某一格子(cell)。 例如,第5家餐廳的品質評等是非常好,餐點價格則是 $33。這家餐廳應該落在表2.11中第二列與第三欄的格子內。在建構交叉表格時,我們只要計算格子裡之餐廳數目。 定量變數 定性變數
交叉表格實例 品質評等的次數分配 餐點價格的次數分配
交叉表格實例 將交叉表格右方欄位的次數除以總次數,即得到品質評等的相對次數以及百分比次數分配。 由百分比次數分配可以看出,28% 的餐廳得到的評等是「好」,50% 是「很好」,22%是「非常好」。
交叉表格實例 將交叉表格下方欄位的次數除以總次數,則可以得到餐點價格的相對次數及百分比次數分配。 各個欄位的加總並未恰好等於總和,這是因為經過四捨五入的運算而產生的結果。由百分比次數分配,可以很快看出,26% 的餐廳的餐點價格是在最低價($10-19)的組別,39% 的餐廳則落在下一組。
辛浦森詭論 兩個或更多的交叉表格常會被整合成一個彙整 的交叉表格,以顯示兩變數間的關聯。 要由彙整的交叉表格得到兩個變數間的關係之 結論時,必須非常謹慎。 在某些情況下,基於彙整表格而得到的結論可 能與由個別表格得到的結論恰恰相反,此種現 象稱為辛浦森詭論(Simpson's paradox)。
散佈圖與趨勢線 散佈圖(scatter diagram)是一種表示兩定量變數 間關係的圖形 一個變數顯示在縱軸而其他變數則顯示在橫軸。 一般的散佈圖型態與其變數相關形式,如圖2.8。 趨勢線(trendline)則是提供近似關係的直線。
散佈圖與趨勢線 圖2.8是一般的散佈圖型態與相關形式。 左上的散佈圖型態類似之前所說的廣告次數與銷售量的例子。 右上的散佈圖顯示變數間無明顯的相關。 下方的散佈圖在描繪負相關,此處的y會隨著x的增加而遞減。
散佈圖與趨勢線 正相關 y x
散佈圖與趨勢線 負相關 y x
散佈圖與趨勢線 不相關 y x
散佈圖與趨勢線實例 以舊金山地區音響設備店的銷售與廣告關係為例來說明。在過去三個月內,商店利用週末的電視廣告進行促銷推廣的次數為10次,經理要調查廣告出現次數與接下來一週的銷售量是否有關。表2.13為10週的銷售量樣本,單位是百元。
散佈圖與趨勢線實例
散佈圖與趨勢線實例 圖2.7為表2.13資料的散佈圖與趨勢線。橫軸為廣告次數(x),而縱軸為銷售量(y)。
散佈圖與趨勢線實例
散佈圖與趨勢線實例 圖2.7的散佈圖顯示廣告次數與銷售量呈正向的關係,較高的銷售量對應於較高的廣告次數。 由於散佈圖上的點並非全在同一條直線上,銷售量與廣告次數並非完全的正比關係。 從一般型態來說,銷售量與廣告次數的關係仍是正向的。
圖2.9 彙總資料的表格法與圖示法 資料 定性資料 定量資料 表格法 圖示法 表格法 圖示法 次數分配 長條圖 次數分配 相對次數分配 點圖 圖2.9 彙總資料的表格法與圖示法 資料 定性資料 定量資料 表格法 圖示法 表格法 圖示法 次數分配 相對次數分配 百分比次數分配 交叉表格 長條圖 圓形圖 次數分配 相對次數分配 百分比次數分配 累積次數分配 累積相對次數分配 累積百分比次數分配 交叉表格 點圖 直方圖 肩形圖 莖葉圖 散佈圖
End of Chapter 2, Part B