資料整理與次數分配 Organizing Data 社會統計(上)
變數variable Variable 變數 Qualitative variable 類別變數 Quantitative variable 量化變數 Discrete variable 間斷變數 Continuous variable 連續變數 社會統計(上)
Tabulation 歸類成表 社會統計(上)
1-1 類別資料的次數分配 依照每一筆資料在一類別變數(如父親籍貫)上所屬的類別(閩南、客家…等)將資料進行分組的排列整理,並統計每一個組別元素出現的次數,稱之為次數分配表(frequency distribution )。 次數分配表是表達每個類別有多少觀察值(observations) 的一種統計表。掉入第i組的觀察值個數,稱之為第i組的組次數(class frequency)以符號 fi來表示。 社會統計(上)
台灣客家 : 正正正正 台灣閩南:正正正正正正正正正正 大陸各省:正正 社會統計(上)
次數分配表 組次數 組別 社會統計(上)
類別資料的相對次數(relative frequency)分配 1-1 類別資料的相對次數(relative frequency)分配 某類別的相對次數= 某類別的組次數 所有類別的次數總和(總次數) The relative frequency (rfi) of the ith class is the proportion of observations falling in that class.相對次數代表該類別的觀察值個數佔所有觀察值的百分比(percentage)或比例(proportion)。 社會統計(上)
相對次數分配表 第一組(台灣閩南人)的相對次數 = 1534/1992 = 0.7701 (77.01%) 相對次數 組別 社會統計(上)
Histogram 直方圖
社會統計(上)
Pie chart
Figure 社會統計(上)
次數分配(frequency distribution) 定義 一個連續數值的變數如何整理? A frequency distribution is a listing of intervals of possible values for a variable, together with a tabulation of the number of observations in each interval. 連續變數的次數分配必須先將資料進行分組,即是將一個變數所有可能的數值分成若干個區間(intervals),然後再按照每個觀察值所屬的區間進行歸類(tabulate),計算並列出每一個區間的觀察值個數。 社會統計(上)
未分組資料的次數分配表: 連續變數由於可能的數值太多,因此原始次數分配表過長,不容易閱讀。因此應對資料進行分組再來統計各組次數,稱為分組資料的次數分配表。
分組資料的次數分配 (frequency distribution) 實例說明 分組資料的次數分配 (frequency distribution) 社會變遷基本調查資料中,每一名受訪者皆被要求提供月薪資訊: 第一位受訪者 月薪2.4萬 第二位受訪者 月薪4.5萬 …….. 第1813位受訪者 月薪5.2萬 此時我們可以透過次數分配表來整理資料,以便瞭解台灣地區民眾收入的分佈情形。 社會統計(上)
次數分配(frequency distribution) 定義 上組界Upper limit 下組界Lower limit Width of class組寬= Bk- Bk-1 組中點=(Bk+Bk-1)/2 社會統計(上)
次數分配(frequency distribution) 實例說明 次數分配(frequency distribution) 組上界=2萬 組下界=1萬 組寬=1萬 組中點 = 1.5萬
選擇組界的兩個原則(two rules for selecting classes) 定義 互斥性mutually exclusive:各組的組界不得重疊,即每有任何一個觀察值可以被同時分類至不同的兩個組中。 一般以「不含組上界值」為規範,如組上界為2萬,僅將2萬元以下的觀察值歸入該組,2萬元整及以上的觀察值歸入下一組。 周延性Exhaustive:所有的觀察值皆能被歸入某一組中。 社會統計(上)
分組的其他原則 究竟要分幾組才恰當? 視情況而定,一般以5-20組為原則。 或者可採用下列公式及算組數: 定義 究竟要分幾組才恰當? 視情況而定,一般以5-20組為原則。 或者可採用下列公式及算組數: 組數=1+3.322 ×log(n樣本數) 組寬要多大? 最好能設等距的組寬,但如果部分觀察值的分佈情形非常集中,另一部份非常分散,則有時候會採用不等距的分組方式。 社會統計(上)
實例說明 不等距分組 組寬=1萬 組寬=10萬
分組的其他原則 定義 組界的選擇 最好能夠選擇組的上下界,使組中點接近該組觀察值的平均數。因為我們在計算全體總平均時,會以組中點來代表該組的平均值,因此組中點越接近該組的平均值,估計的總平均數會越準確。 社會統計(上)
實例說明 分組的其他原則 Midpoint 200元 100元 Midpoint 130元 230元 社會統計(上)
Relative Frequency Distributions相對次數 定義 Relative frequency for an interval is the proportion of the sample observations that fall in that interval 相對次數為第i組的次數,佔全體的比例。 社會統計(上)
相對次數(Relative frequency) 實例說明 相對次數(Relative frequency) 第二組的相對次數為: 330/1813 = 0.182
分組資料的直方圖 Frequency Histogram 定義 A frequency histogram is a graphical presentation of a frequency distribution. 組次數 社會統計(上)
相對次數直方圖 定義 與直方圖相同,為其縱軸改以相對次數表達 組相對次數 社會統計(上)
次數方配直方圖與相對次數分配的直方圖有相同的形狀
Stem-and-Leaf Plot 枝葉圖
Stem-and-Leaf Plot 枝葉圖 Frequency Stem & Leaf 1.00 0 . 8 1.00 1 . 8 2.00 2 . 45 5.00 3 . 44468 9.00 4 . 003466888 8.00 5 . 00044667 8.00 6 . 00224666 2.00 7 . 48 5.00 8 . 08889 5.00 9 . 02244 2.00 10 . 26 1.00 11 . 0 Stem width: 10 表示Stem為十位數,Leaf為個位數 社會統計(上)
Splitting stem分枝
組距= 2 年 社會統計(上)
組距= 4 年 社會統計(上)
組距= 10 年 社會統計(上)
組距= 20 年 社會統計(上)
檢視分配 Overall pattern Outlier 分配的整體形狀shape 中心位置center 資料的分散幅度spread 有幾個高峰modes? 對稱還是偏斜symmetric/skewed? 中心位置center 資料的分散幅度spread Outlier 社會統計(上)
資料的分佈型態(shapes) 社會統計(上)
Symmetric distribution 對稱的資料分佈 社會統計(上)
Shapes 社會統計(上)
社會統計(上)
中心點約4% 單峰unimodal spread: 0%-40% 右偏skewed to the right outliers
電子類股票的價格 (單位:元) 資料來源:民國88年11月2311日台灣證證券交易所 社會統計(上)
表3.8 電子類股票價格的相對次數分配表 社會統計(上)
Cumulative Frequency累加次數 1-1 Cumulative Frequency累加次數 社會統計(上)
表3.9 電子類股票價格的累加次數分配表 社會統計(上)
以下累加相對次數(cumulative relative frequency) 1-1 非類別資料的累加相對次數 以下累加相對次數(cumulative relative frequency) 以下累加相對次數,是指小於等於第i組的相對次數和。以符號CRFi表示。亦即: 以上累加相對次數(decumulative relative frequency) 以上累加相對次數是指大於等於第i組之相對次數和。以符號DRFi表示,亦即 社會統計(上)
圖3.6 電子類股票價格的次數分配直方圖 社會統計(上)
圖3.8 電子類股票價格的次數多邊圖 社會統計(上)
圖3.7 電子類股票價格以下累加次數直方圖 社會統計(上)
圖3.9 電子類股票價格的以下累加次數多邊圖 社會統計(上)
表3.11 台北市家庭經常性收入分配之變動 社會統計(上)
表3.12 台北市家庭經常性收入累加相對次數 社會統計(上)
圖3.10 台北市家庭所得分配的羅倫氏曲線 社會統計(上)
羅倫氏曲線Lorenz curve)與吉尼係數(Gini coefiicient) 社會統計(上)
羅倫氏曲線Lorenz curve)與吉尼係數(Gini coefiicient)
時間 第五分位組為第一分位組之倍數 吉尼係數 民國五十三年 5.33 0.321 民國七十四年 4.5 0.29 民國五十五年 5.25 0.323 民國七十五年 4.6 0.296 民國五十七年 5.28 0.326 民國七十六年 4.69 0.299 民國五十九年 4.58 0.294 民國七十七年 4.85 0.303 民國六十一年 4.49 0.291 民國七十八年 4.94 民國六十三年 4.37 0.287 民國七十九年 5.18 0.312 民國六十五年 4.18 0.28 民國八 十 年 4.97 0.308 民國六十六年 4.21 0.284 民國八十一年 5.24 民國六十七年 民國八十二年 5.42 0.316 民國六十八年 4.34 0.285 民國八十三年 5.38 0.318 民國六十九年 4.17 0.277 民國八十四年 5.34 0.317 民國七 十 年 0.281 民國八十五年 民國七十一年 4.29 0.283 民國八十六年 5.41 0.32 民國七十二年 4.36 民國八十七年 5.51 0.324 民國七十三年 4.4 民國八十八年 5.5 0.325
Time Plot時間圖 將時間置於橫軸,變數置於縱軸 很多的有趣的資料皆為「時間序列」資料。如失業率的變化趨勢。 季節週期圖seasonal variation 時間趨勢圖trend 社會統計(上)
上升趨勢
社會統計(上)
社會統計(上)
社會統計(上)
社會統計(上)
臺灣所得不平等變化趨勢圖 社會統計(上)
TAIWAN 0.324 (1998) TAIWAN 0.343 (2003) 社會統計(上)
社會統計(上)