課程三 描述統計:次數分配、中央趨勢.

Slides:



Advertisements
Similar presentations
工職數學 第四冊 第一章 導 數 1 - 1 函數的極限與連續 1 - 2 導數及其基本性質 1 - 3 微分公式 1 - 4 高階導函數.
Advertisements

林惠玲 陳正倉著 雙葉書廊發行 2009 第 4 章 分析資料 - 以統計測量數呈現 1 統計學 方法與應用 四版上冊 第 4 章 分析資料 - 以統計測量數呈現.
數數 8. 認識 100 以內的數 讓孩子仔細觀察表格,並說 出以下規律: 每行有 ___ 個數,前一個比 後一個少 ___ ; 每列有 ___ 個數;下一個比 上一個多 ___ ; 右斜看發現下一個數比上一 個數多 ___; 左斜看發現上一個數比下一 個數少 ___ ; 數一數,一位數有 ___.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
Ch12 資料分析.
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
Describing Data: Numerical Measures
統計學(Statistics) 其 目的 應用.
二、以圖表描述資料 2. Charts & Graphs.
量化研究與統計分析 Data Graphing 國立臺灣體育運動大學 高明峰
參考書籍:林惠玲與陳正倉(2002),應用統計學(第二版)。台北:雙葉書廊有限公司。
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
第三章 敘述統計(II)——統計量數 3.1 集中趨勢量數 3.2 差異量數 3.3 平均數與標準差的應用 3.4 偏態量數、峰態量數與動差
第 6 章 連續機率分配.
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
統計軟體工作坊 輕鬆學會統計軟體R 2013/05/16.
17 類別資料的分析  學習目的.
Chapter 3 第三章 Numerical Descriptive Measures 數值量測及資料描述
認識倍數(一) 設計者:建功國小 盧建宏.
統計量 (一) 大綱:算術平均數 中位數 眾數 顧震宇 台灣數位學習科技股份有限公司.
資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
量化研究與統計分析 Data Graphing
Chap3 Descriptive statistics -numerical measures Minitab & Excel
第四章 資金成本.
第3章 資料的整理與表現- 統計表與統計圖.
一、緒論 1. Introduction.
第零章 統計學概論 0.1 統計學的定義 0.2 敘述統計學與推論統計學 0.3 測量尺度 0.4 資料、資訊與因果關係 ©2009 陳欣得
點狀圖 (Dot Plot).
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
課程九 迴歸與相關2.
NTHU 98上 普物實驗 講師 侯宗昆 助教 陳慶鴻 王宏哲
敘述統計 2.1 次數分配 2.2 統計量數 個案:樣本敘述 商管研究資料分析SPSS的應用 Chapter 2 敘述統計.
單一分配 Uniform distribution
介紹SPSS SPSS 本為 Statistical Package for the Social Sciences 的簡寫,由於產品及功能不斷地擴充,目前改名成 Statistical Product and Service Solutions。
第4章 常態分佈.
第2章 集中量數.
第三章 敘述統計量 陳順宇 教授 成功大學統計系.
第3章 變異量數與分佈形狀.
第一章 直角坐標系 1-3 函數圖形.
15.5 最大值和最小值 的問題 附加例題 9 附加例題 10 © 文達出版 (香港 )有限公司.
數學 近似值 有效數值.
輸入&輸出 函數 P20~P21.
小學四年級數學科 8.最大公因數.
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
楊志強 博士 統計學 楊志強 博士
第三章 敘述統計量.
Review of Statistics.
Ogive plot example 說明者:吳東陽 2003/10/10.
Chapter 4 Variability 離散趨勢測量 2019/4/26.
小 學 四 年 級 數 學 科 正方形和長方形的面積.
Introduction to Basic Statistics
體積.
生物統計與SAS軟體課程教學(二) 單變項描述 (Descriptive Statistics)
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
第十四章名義資料的數字 描述:關連測量 © Copyright 版權所有:學富文化事業有限公司。本光碟內容僅提供教師於教學上使用,非經本公司許可,禁止複製 (給學生)。感謝老師的配合。
第七章 資料轉換和 個案選擇 7.1 前言 7.2 〝Recode〞功能 7.3 〝Compute〞功能 7.4 〝Count〞功能
第四章 統計資料的整理:統計量數.
※歡迎挑戰,兩人(隊)中先完成連線即算過關!
百分數認識.
( )下列何者正確? (A) 7< <8 (B) 72< <82 (C) 7< <8 (D) 72< <82 C 答 錯 對.
資料表示方法 資料儲存單位.
第一章 直角坐標系 1-3 函數及其圖形.
4-1 變數與函數 第4章 一次函數及其圖形.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
描述統計 Descriptive Statistics
11621 : Small Factors ★★☆☆☆ 題組:Problem Set Archive with Online Judge
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

課程三 描述統計:次數分配、中央趨勢

描述統計 以最有效率的方式描述量化或類別變數的重要特徵 例如:都市化、經濟成長率、競爭力 例如:性別、教育程度

表格:本村的重大事務決策權 次數 百分比 村代會 52 22.22 村委會 75 32.05 黨支部 39 16.67 聯席會議 45 19.23 其他 23 9.83 總數 234 100

長條圖 bar 適用於類別變數,可表示各類別的次數、百分比等。 可找出相對多數的類別

長條圖1

長條圖2

直方圖 Histogram 適用於連續變數(如果太過離散則需要適當地分組) 可表示變數中各個值的次數、百分比、密度等。 若用於百分比,直方的高度累加=1(類似百分比的長條圖)。 用於密度,可加上平滑曲線,曲線下的面積=1,而直方的總面積=1

長條圖:0-10分(連續但已分組)

直方圖:0-10分

加上平滑曲線:老實泉等待時間

餅狀圖

莖葉圖1 用於量化變數,可表示次數的分佈情形。 莖代表至少2位數,葉代表觀察值最末一位。 葉有可能自動四捨五入進位 莖可能因為尺度一致而進位

莖葉圖2 10 12 14 16 18 20 21 22 20 21 22 20 21 22 20 21 22 20 21 22 31 32 33 34 35 36 44 45 46 47 48 49 50 44 45 46 47 48 49 50 1 | 024 1 | 68 2 | 000001111122222 2 | 3 | 1234 3 | 56 4 | 44 4 | 5566778899 5 | 00

莖葉圖3 200 204 209 210 212 213 217 217 219 220 227 229 235 243 246 247 249 249 250 253 254 260 264 265 282 284 286 289 303 331 20 | 049023779 22 | 0795 24 | 36799034 26 | 045 28 | 2469 30 | 3 32 | 1

莖葉圖4 20 | 049 21 | 023779 22 | 079 23 | 5 24 | 36799 25 | 034 26 | 045 27 | 28 | 2469 29 | 30 | 3 31 | 32 | 33 | 1

中央趨勢 眾數 中位數 百分位數 平均數

眾數 適用於質化及量化變數。 定義為發生最多次的那一個值。 有可能超過一個。

百分位數及中位數 第p個分位數表示(100-p)%的數比它大,p%的數比它小。 可以是實際存在的數,也可以是計算所得 假設有n個數,i=1,…n

百分位或四分位算法1 例:X=1, 1001, 1002, 1003 50百分位=[(4*50)/100]+0.5=2.5 因為2.5落在1001及1002中間,所以0.5*1001+0.5*1002=1001.5 25百分位=[(4*25)/100]+0.5=1.5 因為落在1及1001中間,所以0.5*1+0.5*1001=751 75百分位=[(4*75)/100]+0.5=3.5 0.5*1002+0.5*1003=1002.5

百分位或四分位算法2 例:y=2,3,4,7,9,10,12,12 中位數=[2*(N+1)/4]=4.5。因為落在7, 9中間所以:7+0.5*(9-7)=8 25分位數=[1*(8+1)/4]=2.25。因為位於3及4之間故:3+0.25*(4-3)=3.25 75分位數=[0.75*(8+1)]=6.75。10+0.75*(12-10)=11.5

百分位數及中位數 中位數即第50分位數。 中位數不受兩端值大小的影響;決定於觀察值數目以及落點所在的鄰近兩個數。 可以是計算得到的數。 有許多計算方法。也可以因為研究需要而進位。 對於推論統計沒有太大用處。

分組資料的中位數 假設有k個組,按各組的性質加以排序之後,計算中位數,視該中位數落在那一組。 見A&F, p.42.

平均數 用在量化變數或是二元變數。 可以想成是觀察值的平衡點:比平均值大的數的總和等於比平均值小的數的總和的絕對值。 會受到極端值的影響。 可以考慮去掉頭尾的極端值再求平均數。 對於推論統計有極大用處。

平均數計算方式 計算方式 y1=6, 7, 8, 8, 9, 10, 13, 15, 16, 45 y2=1, 6, 7, 8, 8, 9, 10, 13, 15, 16, 51 y1bar<y2bar 但是若去掉頭尾各一個值,y1bar=y2bar

加權平均 假設觀察值分為k=1…k個組,每一組有y1, y2,..人,每一組平均數為y1bar, y2bar,…則全體的平均數為:

偏態 正偏:右邊的尾巴較左邊長,眾數偏左左 負偏:左邊的尾巴較右邊長,眾數偏右 常態分佈的偏態值=0 樣本偏態值= 有偏態時須注意平均值是否會誤導。

偏態圖形 右偏 左偏

峰度 峰度(Kurtosis)是次數分配曲線與常態曲線比較,是較為尖峻或平坦

離散1 範圍(range):最大值及最小值的差距。 若是常態分佈,範圍約等於六個標準差。 平均數相同,範圍可能不同(A&F, p. 46)

離散2:標準差 差(deviation):觀察值與平均數之間的差距 樣本標準差(standard deviation): 如果樣本來自二元分佈,即0,1,則標準差為:

舉例 2009年的中國「春運」,據估計有23.2億的旅客運量。假設把所有轉車都算成一次,各大車站估計旅客人數(單位:萬)為50, 52, 55, 28, 30, 35, 40, 49, 32, 19, 15, 61, 43,47, 44, 70, 83, 66, 88, 85, 36, 36, 47, 49,67, 68等。

春運(續) 計算平均值為:49.8萬 計算標準差為:19.38萬 由此可知68%的車站的估計旅客人數落在49.8-19.38萬及49.8+19.38萬之間,也就是在30萬與70萬之間。

標準差的特性1 大於或等於0 因為是樣本標準差,故用n-1當分母 如果樣本成常態分配,則平均數的正負1個標準差包含約68%的樣本(不是母體平均數)。正負2個標準差包含約95%的樣本。正負3個標準差包含約99%的樣本。

標準差的特性1(續) 如果知道樣本的平均數跟最大值及最小值,而且樣本成常態分佈,便可以估計標準差,也就是range/6。 因此,可以推測平均數左右兩個標準差所包含的95%的樣本的最大值及最小值。

標準差的特性2 改變樣本的單位,標準差也會改變 H (15000 7000 19000 3000 15000 19000 4000 12000 17000 9000) sd: 5962.848 h: (15 7 19 3 15 19 4 12 17 9) sd: 5.962 加減樣本的值會改變平均值,但是不會改變標準差(?)

標準差的特性4 平方和越大,標準差可能越大,越可能解釋其它變數。 有三個變數,分別成常態分佈,平均值為60,但是第一個變數v1的標準差為0.1,v2的標準差為5,v3的標準差為7。 另一個變數y,也成常態分布,平均值為62,標準差為1。 以v1, v2, v3分別對y做迴歸,v3的標準誤最小,R-squared值最大,可知v3最能解釋y

四分位數間距(IQR) 25分位距與75分位之間的差距,表示中位數附近的數的範圍。 不受到極端值的影響。 如果數值大於75百分位+1.5個IQR,或小於25百分位-1.5個IQR,稱為界外值(outliers) 如果數值大於75百分位+3個IQR,或小於25百分位-3個IQR,稱為極端界外值(extreme outliers)

總結 瞭解不同的變數所使用的描述統計或圖形 瞭解各種描述統計的意義 瞭解中央趨勢如眾數、中位數、平均數求法 瞭解四分位數、標準差的求法