Chapter 2 頻率分配
學習目標 利用頻率分配組織數據。 利用直方圖、頻率多邊形以及肩形圖這一類頻率分配圖呈現數據。 利用直條圖、柏拉圖、時序圖以及圓餅圖呈現數據。 繪製與解讀莖葉圖。
2-1 組織數據
全球前50大富豪年齡原始數據
利用組別與頻率,以表格組織原始數據的結果叫做頻率分配 (frequency distribution)。
頻率分配表
類別頻率分配 例題 2-1 血型的分配
例題 2-1 血型的分配(解答)
例題 2-1 血型的分配(解答)
例題 2-1 血型的分配(解答)
群組頻率分配 1. 應該有 5 到 20 組。雖然沒有很嚴格的規則決定頻率分配應該包含幾組,但最重要的是要有足夠的組別清楚地呈現數據的分配。 2. 組距最好是奇數,但不一定需要。這樣可以確定每一組的中點和數據會是同樣的位數。組中點 (class midpoint) Xm等於上下組邊際加起來除以 2,或是上下組界加起來除以 2: 或是
群組頻率分配 3. 組別必須彼此互斥。彼此互斥的組別有著不重疊的組界,所以一筆數據不會同時落入兩個不同的組別。很多時候,像以下的頻率分配:
群組頻率分配 4. 組別必須是連續的。即使某一組沒有任何數字,該組還是必須被放在頻率分配內。頻率分配不應該有間隙。唯一的例外是,第一組或是最後一組沒有數字的時候,此時可以忽略。因為忽略兩端沒有數字的組別不會影響分配的性質。 5. 組別必須是完整的。必須要有足夠的組別包含每一筆數據。
群組頻率分配 6. 必須要有一樣組距的組別。這樣可以避免扭曲數據的分配。 當數據有一組是開放組時,會有例外。也就是說,該組沒有明確的起點或是終點。有著開放組的頻率分配叫做開放分配 (open-ended distribution)。 以下的兩個分配有著開放組。
建構群組頻率分配 步驟 1 決定組別。 求出最大值與最小值。 求出全距。 挑選希望的組數。 透過全距除以組數以及無條件進入求出組距。 步驟 1 決定組別。 求出最大值與最小值。 求出全距。 挑選希望的組數。 透過全距除以組數以及無條件進入求出組距。 挑選起點(通常是最小值或是小於最小值的方便數字);加上組距以得到下組界。 求出上組界。 求出組邊際。 步驟 2 劃記數據。 步驟 3 求出絕對頻率及累加頻率。
例題 2-2 高溫紀錄
例題 2-2 高溫紀錄(解答)
例題 2-2 高溫紀錄(解答)
例題 2-2 高溫紀錄(解答)
例題 2-2 高溫紀錄(解答)
例題 2-3 越野車的每加侖哩程數
例題 2-3 越野車的每加侖哩程數(解答)
例題 2-3 越野車的每加侖哩程數(解答)
例題 2-3 越野車的每加侖哩程數(解答)
建構頻率分配的理由 1. 使用有意義、可理解的方式組織數據。 2. 幫助讀者決定分配的本質或是它的形狀。 3. 有助於平均與分散的計算程序(詳見第 3-1 和 3-2 節)。 4. 幫助研究員繪製呈現數據的圖表(詳見第 2-2 節)。 5. 幫助讀者比較不一樣的數據集。
觀念應用2-1 總統就職時的年齡 以下數據是美國總統第一次就職時的年齡。 1. 這個數據集是母體還是樣本?解釋你的理由。 觀念應用2-1 總統就職時的年齡 以下數據是美國總統第一次就職時的年齡。 1. 這個數據集是母體還是樣本?解釋你的理由。 2. 最老的總統就職時是幾歲? 3. 最年輕的總統就職時是幾歲? 4. 為這個數據集建構頻率分配。(自行決定組數與組距。) 5. 分配有高峰嗎? 6. 指出可能的離群值。 7. 為頻率分配顯示的數據本質撰寫一份簡短的摘要。
2-2 直方圖、頻率多邊形 與肩形圖
研究上最常用的三種圖形 1. 直方圖 2. 頻率多邊形 3. 累加頻率圖或是肩形圖
直方圖 直方圖 (histogram) 是一種為了顯示數據,利用各種高度、一個接著一個的長方形(高度可能是 0)表達組別頻率的圖形。
例題 2-4 高溫紀錄
例題 2-4 高溫紀錄(解答)
例題 2-4 高溫紀錄(解答)
頻率多邊形 頻率多邊形 (frequency polygon) 是用線段連起以組中點為 x 座標,頻率為 y座標的一種圖形。也就是說,頻率是圖形上每一點的高度。
例題 2-5 高溫紀錄 例題 2-5 高溫紀錄(解答)
例題 2-5 高溫紀錄(解答)
例題 2-5 高溫紀錄(解答)
肩形圖 肩形圖 (ogive) 是一種表達各組別累加頻率的圖形。
例題 2-6 高溫紀錄 例題 2-6 高溫紀錄(解答)
例題 2-6 高溫紀錄(解答)
例題 2-6 高溫紀錄(解答)
例題 2-6 高溫紀錄(解答)
相對頻率圖 例題 2-7 每週跑幾哩
例題2-7 每週跑幾哩(解答)
例題2-7 每週跑幾哩(解答)
例題2-7 每週跑幾哩(解答)
例題2-7 每週跑幾哩(解答)
例題2-7 每週跑幾哩(解答)
圖 2-7 分配形狀
圖 2-7 分配形狀
觀念應用 2-2 銷售房地產 假設你是佛州 Bradenton 的房地產仲介。你不久前取得一份最近 6 個月該地區房屋售價的資料。你希望組織這一些數字,讓你可以把有用的資訊提供給具有潛力的買家。利用以下的數據產生直方圖、頻率多邊形及累加頻率多邊形。
觀念應用 2-2 銷售房地產 1. 看著直方圖而不是上述表格,比較容易回答什麼樣的問題? 觀念應用 2-2 銷售房地產 1. 看著直方圖而不是上述表格,比較容易回答什麼樣的問題? 2. 看著頻率多邊形而不是上述表格,比較容易回答什麼不一樣的問題? 3. 看著累加頻率多邊形而不是上述表格,比較容易回答什麼不一樣的問題? 4. 有任何極大值或是極小值嗎? 5. 最好用哪一種圖表達這一些極值? 6. 分配偏向哪一邊嗎?
2-3 其他圖形
直條圖 直條圖 (bar graph) 是以高度表達頻率的橫向或是直向長方形表達數據的分配。
例題 2-8 大一新生的開銷(解答)
例題 2-8 大一新生的開銷(解答)
柏拉圖 柏拉圖 (Pareto chart) 是一種用來表達類別變數之頻率分配的圖形,它用高度表示頻率的縱向長方形,而且長方形必須由最高排到最低。
例題 2-9 報案電話
例題 2-9 報案電話(解答)
例題 2-9 報案電話(解答)
時序圖 時序圖 (time series graph) 表達數據隨著時間過往的先後變化情形。
例題 2-10 吸菸者比例
例題 2-10 吸菸者比例(解答)
例題 2-10 吸菸者比例(解答)
圓餅圖 圓餅圖 (pie graph) 是根據分配的每一種類別的相對頻率,把一個圓切成幾個部分。
例題 2-11 超級盃的零嘴
例題 2-11 超級盃的零嘴(解答)
例題 2-11 超級盃的零嘴(解答)
例題 2-11 超級盃的零嘴(解答)
例題 2-11 超級盃的零嘴(解答)
例題 2-11 超級盃的零嘴(解答)
例題 2-12 報案電話
例題 2-12 報案電話(解答)
例題 2-12 報案電話(解答)
例題 2-12 報案電話(解答)
點圖 點圖 (dotplot) 是一種統計圖,在圖裡每一個橫軸上的圓點代表一筆數據。
例題 2-13 有名字的颶風
例題 2-13 有名字的颶風(解答)
莖葉圖 莖葉圖 (stem and leaf plot) 是利用數據的部分位數為莖、部分位數為葉,定義群組數據的組別,進而得到一種類似頻率分配的圖形。
例題 2-14 門診病人心電圖
例題 2-14 門診病人心電圖(解答)
例題 2-14 門診病人心電圖(解答)
例題 2-15 大都市汽車的失竊件數
例題 2-15 大都市汽車的失竊件數(解答)
例題 2-15 大都市汽車的失竊件數(解答)
例題 2-16 大樓的樓層數
例題 2-16 大樓的樓層數(解答)
例題 2-16 大樓的樓層數(解答)
造成誤解的圖形
造成誤解的圖形
造成誤解的圖形
造成誤解的圖形
造成誤解的圖形
造成誤解的圖形
觀念應用 2-3 1999–2009 年美國人意外死亡原因 以下是披露美國人意外死亡件數的圖形。回答以下關於此圖形的問題。
觀念應用 2-3 1999–2009 年美國人意外死亡原因 1. 圖上的變數為何? 2. 這些變數之中,哪些是屬性的?哪些是屬量的? 觀念應用 2-3 1999–2009 年美國人意外死亡原因 1. 圖上的變數為何? 2. 這些變數之中,哪些是屬性的?哪些是屬量的? 3. 這是什麼圖? 4. 哪一個變數顯示死亡件數逐年遞減? 5. 哪幾個變數顯示死亡件數逐年遞增? 6. 哪一個變數顯示死亡件數每年大致一樣? 7. 列舉 2001 年每一種死亡原因的死亡件數。 8. 在 1999 年,哪一種原因死了最多人?在 2009 年,哪一種原因死了最多人? 9. 哪一年中毒和墜落的死亡件數大概一致?
結語 收集數據的時候,被記錄下來的數字叫做原始數據。因為可以從原始數據取得的資訊非常有限,必須用某種有意義的方式組織原始數據。通常會用到利用組別的頻率分配。(2-1) 一旦建構頻率分配,可以為數據畫一張視覺效果的圖。統計學最常用的圖有直方圖、頻率多邊形與肩形圖。(2-2) 也可以用其他類型的圖,例如直條圖、柏拉圖、時序圖及圓餅圖。經常可以在報紙、雜誌及各種統計報告發現這些圖。(2-3)
結語 莖葉圖使用數據的一些位數當作是莖、一些位數當作是葉。這種圖有著頻率分配和直方圖的優點。(2-3) 最後,圖形可能會誤導讀者,假如畫得不好。比如說,隨著時間遞增或是遞減的時序圖可以因為改變 y 軸刻度而被誇大。也可以利用二維的圖形誇大一維遞增或是遞減的圖形。當刻意省略標籤或是單位,就無法決定類別間真正的差距。(2-3)