資料整理與次數分配 Organizing Data 社會統計(上).

Slides:



Advertisements
Similar presentations
SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo
Advertisements

第六章 统计表与统计图 第一节 统计表 第二节 统计图 1.
資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作 商管研究資料分析SPSS的應用 Chapter 1 資料概說.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
Measures of location and dispersion
第一章 生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系,其涉及哪些内容 1.
Keller: Stats for Mgmt & Econ, 7th Ed 圖表敘述法
张博恒 MD, PhD 复旦大学循证医学中心 国际临床流行病学上海培训中心
生物醫學統計學.
经济成长和差距平等化 东京学艺大学 铃木亘.
如何定义和确定参考区间 郭健 卫生部北京医院.
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
第 1 章 資料與統計.
統計學 郭信霖 許淑卿.
如何使用 Excel 與SPSS繪製 統計圖型
医学统计学 主讲人:信息部 林雪君.
第二章 地理数据的采集及处理.
第一章.
第三章 隨機變數.
管理统计学 主讲人: 北京理工大学 管理与经济学院 李金林 电话: 办公室: 中心教学楼1012房间
統計學 授課教師:林志偉 Tel:5021.
第 5 章 資料的整理與表現 ─統計表與統計圖.
第二章 公共经济学的研究对象 主讲:浙江大学公共管理学院 戴文标 公共经济学 第2章 公共经济学的研究对象.
Population proportion and sample proportion
Descriptive statistics
SPC introduction.
描述資料: 次數表, 次數分配, 以及 統計圖 第二章
Continuous Probability Distributions
第 5 章 樣本資料的數值分布.
3.2 Tally Table:將資料分成等距離的組別,再
Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用
Properties of Continuous probability distributions
Sampling Theory and Some Important Sampling Distributions
敘述統計-資料的特性 Properties of Variable
Chapter 2 頻率分配.
STATA 7 蘇國賢.
第一章 敘述統計學.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
圖表製作 集中指標 0628 統計學.
Interval Estimation區間估計
第 2 章 敘述統計:表格與圖形法.
敍述統計學 許明宗.
Workshop on Statistical Analysis
統計圖表繪製 何沛勝.
第一次上統計Tutorial 就上手 不是只有上一次嗎.
表達及陳列統計資料 統計圖表 統計量數 次數分配表 直方圖 次數多邊圖 累加次數圖 條形圖 圓形比例圖 集中量數 變異量數或離散量數
敘述統計I:表格與圖形法 Part A ( ) 第 2 章 敘述統計I:表格與圖形法 Part A ( )
生物統計 1 課程簡介 (Introduction)
資料整理與次數分配 Organizing Data 社會統計(上) ©蘇國賢2000.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
Chapter 7: The Wage Structure
EXCEL+ORIGN+SPSS的描述统计
抽樣分配 Sampling Distributions
Dr. C. Hsieh College of Informatics Kao yuan University
The Bernoulli Distribution
CH12-物流中心.
統計學簡介 許明宗.
Review of Statistics.
医学统计学 (Medical Statistics)
经济学基础 主讲人:方春龙 安徽财贸职业学院
第二章 次數分配表與統計圖 第一節 次數分配表的製作 第二節 統計圖的製作 第三節 次數分配的形狀和性質 第四節 電腦習作.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
組長:李儂.組員:溫芷沂.詹文君 桃園市北門國小5年12班
规范经营、专业服务、 与客户资产共成长 谢爱红 一德期货经纪有限公司 2005年9月.
Statistical Table and Statistical Graph
參考書籍:林惠玲與陳正倉(2002),應用統計學(第二版)。台北:雙葉書廊有限公司。
體驗‧探索‧創造─ 〈晉公子重耳之亡〉.
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

資料整理與次數分配 Organizing Data 社會統計(上)

變數variable Variable 變數 Qualitative variable 類別變數 Quantitative variable 量化變數 Discrete variable 間斷變數 Continuous variable 連續變數 社會統計(上)

Tabulation 歸類成表 社會統計(上)

1-1 類別資料的次數分配 依照每一筆資料在一類別變數(如父親籍貫)上所屬的類別(閩南、客家…等)將資料進行分組的排列整理,並統計每一個組別元素出現的次數,稱之為次數分配表(frequency distribution )。 次數分配表是表達每個類別有多少觀察值(observations) 的一種統計表。掉入第i組的觀察值個數,稱之為第i組的組次數(class frequency)以符號 fi來表示。 社會統計(上)

台灣客家 : 正正正正 台灣閩南:正正正正正正正正正正 大陸各省:正正 社會統計(上)

次數分配表 組次數 組別 社會統計(上)

類別資料的相對次數(relative frequency)分配 1-1 類別資料的相對次數(relative frequency)分配 某類別的相對次數= 某類別的組次數 所有類別的次數總和(總次數) The relative frequency (rfi) of the ith class is the proportion of observations falling in that class.相對次數代表該類別的觀察值個數佔所有觀察值的百分比(percentage)或比例(proportion)。 社會統計(上)

相對次數分配表 第一組(台灣閩南人)的相對次數 = 1534/1992 = 0.7701 (77.01%) 相對次數 組別 社會統計(上)

Histogram 直方圖

社會統計(上)

Pie chart

Figure 社會統計(上)

次數分配(frequency distribution) 定義 一個連續數值的變數如何整理? A frequency distribution is a listing of intervals of possible values for a variable, together with a tabulation of the number of observations in each interval. 連續變數的次數分配必須先將資料進行分組,即是將一個變數所有可能的數值分成若干個區間(intervals),然後再按照每個觀察值所屬的區間進行歸類(tabulate),計算並列出每一個區間的觀察值個數。 社會統計(上)

未分組資料的次數分配表: 連續變數由於可能的數值太多,因此原始次數分配表過長,不容易閱讀。因此應對資料進行分組再來統計各組次數,稱為分組資料的次數分配表。

分組資料的次數分配 (frequency distribution) 實例說明 分組資料的次數分配 (frequency distribution) 社會變遷基本調查資料中,每一名受訪者皆被要求提供月薪資訊: 第一位受訪者 月薪2.4萬 第二位受訪者 月薪4.5萬 …….. 第1813位受訪者 月薪5.2萬 此時我們可以透過次數分配表來整理資料,以便瞭解台灣地區民眾收入的分佈情形。 社會統計(上)

次數分配(frequency distribution) 定義 上組界Upper limit 下組界Lower limit Width of class組寬= Bk- Bk-1 組中點=(Bk+Bk-1)/2 社會統計(上)

次數分配(frequency distribution) 實例說明 次數分配(frequency distribution) 組上界=2萬 組下界=1萬 組寬=1萬 組中點 = 1.5萬

選擇組界的兩個原則(two rules for selecting classes) 定義 互斥性mutually exclusive:各組的組界不得重疊,即每有任何一個觀察值可以被同時分類至不同的兩個組中。 一般以「不含組上界值」為規範,如組上界為2萬,僅將2萬元以下的觀察值歸入該組,2萬元整及以上的觀察值歸入下一組。 周延性Exhaustive:所有的觀察值皆能被歸入某一組中。 社會統計(上)

分組的其他原則 究竟要分幾組才恰當? 視情況而定,一般以5-20組為原則。 或者可採用下列公式及算組數: 定義 究竟要分幾組才恰當? 視情況而定,一般以5-20組為原則。 或者可採用下列公式及算組數: 組數=1+3.322 ×log(n樣本數) 組寬要多大? 最好能設等距的組寬,但如果部分觀察值的分佈情形非常集中,另一部份非常分散,則有時候會採用不等距的分組方式。 社會統計(上)

實例說明 不等距分組 組寬=1萬 組寬=10萬

分組的其他原則 定義 組界的選擇 最好能夠選擇組的上下界,使組中點接近該組觀察值的平均數。因為我們在計算全體總平均時,會以組中點來代表該組的平均值,因此組中點越接近該組的平均值,估計的總平均數會越準確。 社會統計(上)

實例說明 分組的其他原則 Midpoint 200元 100元 Midpoint 130元 230元 社會統計(上)

Relative Frequency Distributions相對次數 定義 Relative frequency for an interval is the proportion of the sample observations that fall in that interval 相對次數為第i組的次數,佔全體的比例。 社會統計(上)

相對次數(Relative frequency) 實例說明 相對次數(Relative frequency) 第二組的相對次數為: 330/1813 = 0.182

分組資料的直方圖 Frequency Histogram 定義 A frequency histogram is a graphical presentation of a frequency distribution. 組次數 社會統計(上)

相對次數直方圖 定義 與直方圖相同,為其縱軸改以相對次數表達 組相對次數 社會統計(上)

次數方配直方圖與相對次數分配的直方圖有相同的形狀

Stem-and-Leaf Plot 枝葉圖

Stem-and-Leaf Plot 枝葉圖 Frequency Stem & Leaf 1.00 0 . 8 1.00 1 . 8 2.00 2 . 45 5.00 3 . 44468 9.00 4 . 003466888 8.00 5 . 00044667 8.00 6 . 00224666 2.00 7 . 48 5.00 8 . 08889 5.00 9 . 02244 2.00 10 . 26 1.00 11 . 0 Stem width: 10 表示Stem為十位數,Leaf為個位數 社會統計(上)

Splitting stem分枝

組距= 2 年 社會統計(上)

組距= 4 年 社會統計(上)

組距= 10 年 社會統計(上)

組距= 20 年 社會統計(上)

檢視分配 Overall pattern Outlier 分配的整體形狀shape 中心位置center 資料的分散幅度spread 有幾個高峰modes? 對稱還是偏斜symmetric/skewed? 中心位置center 資料的分散幅度spread Outlier 社會統計(上)

資料的分佈型態(shapes) 社會統計(上)

Symmetric distribution 對稱的資料分佈 社會統計(上)

Shapes 社會統計(上)

社會統計(上)

中心點約4% 單峰unimodal spread: 0%-40% 右偏skewed to the right outliers

電子類股票的價格 (單位:元) 資料來源:民國88年11月2311日台灣證證券交易所 社會統計(上)

表3.8 電子類股票價格的相對次數分配表 社會統計(上)

Cumulative Frequency累加次數 1-1 Cumulative Frequency累加次數 社會統計(上)

表3.9 電子類股票價格的累加次數分配表 社會統計(上)

 以下累加相對次數(cumulative relative frequency) 1-1 非類別資料的累加相對次數  以下累加相對次數(cumulative relative frequency) 以下累加相對次數,是指小於等於第i組的相對次數和。以符號CRFi表示。亦即:  以上累加相對次數(decumulative relative frequency) 以上累加相對次數是指大於等於第i組之相對次數和。以符號DRFi表示,亦即 社會統計(上)

圖3.6 電子類股票價格的次數分配直方圖 社會統計(上)

圖3.8 電子類股票價格的次數多邊圖 社會統計(上)

圖3.7 電子類股票價格以下累加次數直方圖 社會統計(上)

圖3.9 電子類股票價格的以下累加次數多邊圖 社會統計(上)

表3.11 台北市家庭經常性收入分配之變動 社會統計(上)

表3.12 台北市家庭經常性收入累加相對次數 社會統計(上)

圖3.10 台北市家庭所得分配的羅倫氏曲線 社會統計(上)

羅倫氏曲線Lorenz curve)與吉尼係數(Gini coefiicient) 社會統計(上)

羅倫氏曲線Lorenz curve)與吉尼係數(Gini coefiicient)

時間 第五分位組為第一分位組之倍數 吉尼係數 民國五十三年 5.33 0.321 民國七十四年 4.5 0.29 民國五十五年 5.25 0.323 民國七十五年 4.6 0.296 民國五十七年 5.28 0.326 民國七十六年 4.69 0.299 民國五十九年 4.58 0.294 民國七十七年 4.85 0.303 民國六十一年 4.49 0.291 民國七十八年 4.94 民國六十三年 4.37 0.287 民國七十九年 5.18 0.312 民國六十五年 4.18 0.28 民國八   十 年 4.97 0.308 民國六十六年 4.21 0.284 民國八十一年 5.24 民國六十七年 民國八十二年 5.42 0.316 民國六十八年 4.34 0.285 民國八十三年 5.38 0.318 民國六十九年 4.17 0.277 民國八十四年 5.34 0.317 民國七   十 年 0.281 民國八十五年 民國七十一年 4.29 0.283 民國八十六年 5.41 0.32 民國七十二年 4.36 民國八十七年 5.51 0.324 民國七十三年 4.4 民國八十八年 5.5 0.325

Time Plot時間圖 將時間置於橫軸,變數置於縱軸 很多的有趣的資料皆為「時間序列」資料。如失業率的變化趨勢。 季節週期圖seasonal variation 時間趨勢圖trend 社會統計(上)

上升趨勢

社會統計(上)

社會統計(上)

社會統計(上)

社會統計(上)

臺灣所得不平等變化趨勢圖 社會統計(上)

TAIWAN 0.324 (1998) TAIWAN 0.343 (2003) 社會統計(上)

社會統計(上)