第3章 變異量數與分佈形狀.

Slides:



Advertisements
Similar presentations
林惠玲 陳正倉著 雙葉書廊發行 2009 第 4 章 分析資料 - 以統計測量數呈現 1 統計學 方法與應用 四版上冊 第 4 章 分析資料 - 以統計測量數呈現.
Advertisements

單元九:單因子變異數分析.
Ch12 資料分析.
資料分析 ---敘述統計分析.
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
Describing Data: Numerical Measures
單元四:資料的描述(二) ㄧ、集中趨勢統計量數 二、分散程度統計量數.
統計學(Statistics) 其 目的 應用.
量化研究與統計分析 Data Graphing 國立臺灣體育運動大學 高明峰
參考書籍:林惠玲與陳正倉(2002),應用統計學(第二版)。台北:雙葉書廊有限公司。
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
17 類別資料的分析  學習目的.
Chapter 3 第三章 Numerical Descriptive Measures 數值量測及資料描述
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
量化研究與統計分析 Data Graphing
假設檢定.
Chap3 Descriptive statistics -numerical measures Minitab & Excel
試算表軟體 II 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
第 3 章 敘述統計:數值方法.
Using EXCEL for ANOVA.
第 5 章 樣本資料的數值分布.
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
順德聯誼總會梁潔華小學 六年級 數學科 下學期 數形.
第 4 章 分散量數.
敘述統計 2.1 次數分配 2.2 統計量數 個案:樣本敘述 商管研究資料分析SPSS的應用 Chapter 2 敘述統計.
單一分配 Uniform distribution
介紹SPSS SPSS 本為 Statistical Package for the Social Sciences 的簡寫,由於產品及功能不斷地擴充,目前改名成 Statistical Product and Service Solutions。
第4章 常態分佈.
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
第2章 集中量數.
敍述統計學 許明宗.
第三章 敘述統計量 陳順宇 教授 成功大學統計系.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第一章 敘述統計學 1.1 原始資料 1.2 統計表 1.3 統計圖 1.4 統計量值 一些經驗法則 44 ©2009 陳欣得
第九章 離散程度.
估計與假設檢定.
小學四年級數學科 8.最大公因數.
信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.
CH05. 選擇敘述.
田口方法應用於語音辨識 報告者:李建德.
Dr. C. Hsieh College of Informatics Kao yuan University
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
第十章 證券投資組合.
第三章 敘述統計量.
Review of Statistics.
Ogive plot example 說明者:吳東陽 2003/10/10.
順德聯誼總會梁潔華小學 六年級 數學科 下學期 數形.
Chapter 4 Variability 離散趨勢測量 2019/4/26.
Introduction to Basic Statistics
第二章 統計學概論.
Parameter Estimation and Statistical Inference
生物統計與SAS軟體課程教學(二) 單變項描述 (Descriptive Statistics)
楊志強 博士 統計學 楊志強 博士
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
第十四章名義資料的數字 描述:關連測量 © Copyright 版權所有:學富文化事業有限公司。本光碟內容僅提供教師於教學上使用,非經本公司許可,禁止複製 (給學生)。感謝老師的配合。
第四章 統計資料的整理:統計量數.
課程三 描述統計:次數分配、中央趨勢.
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
4-1 變數與函數 第4章 一次函數及其圖形.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
描述統計 Descriptive Statistics
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

第3章 變異量數與分佈形狀

前言 只用集中量數來描述資料是不夠的。忽略了資料點的分散情形,可能會做出錯誤的判斷。 以下介紹幾種反映資料分散情形的量數,包括全距、四分位距、平均絕對離差、標準差等。除此之外,利用數字呈現資料的集中和分散情形,不如直接呈現資料的分佈圖。

第一節 變異量數 (1) 全距/範圍(range) 全距就是最大值減最小值。全距越大表示分數的離散程度越大。 Excel並沒提供函數直接計算全距。不過可利用MAX求得最大值,用MIN求得最小值,然後相減即得全距。除此之外,也可利用Excel提供的「敘述統計」內設功能,求得最大值和最小值。

第一節 變異量數 (2) 四分位距(interquartile range) 如果將數值由小至大排列,第N個分數就是第一個四分位數(quartile),以Q1來表示;第N個分數就是第二個四分位數(Q2),Q2也就是中位數;第N個分數就是第三個四分位數(Q3)。 所謂四分位距就是: Q = (Q3 - Q1)

第一節 變異量數 (3) 平均絕對離差(mean absolute deviation) 每個分數減去平均數,叫做離均差(deviation from the mean)。離均差取絕對值後加總,再取其平均值就是平均絕對離差。即:

第一節 變異量數 (4) 例如1, 2, 3, 4, 5等數字的平均數為3,離均差分別為-2, -1, 0, 1, 2。絕對值離均差為2, 1, 0, 1, 2。 Excel的AVEDEV函數可用以計算平均絕對離差。如鍵入「=AVEDEV(1,2,3,4,5) 」就可以得到平均絕對離差為1.2。

第一節 變異量數 (5) 變異數(variance) 如果資料是母體,變異數就是每個分數減去母體平均數(即離均差),加以平方,然後加總,最後除以個數,即為變異數(可想成:離均差平方的平均數)。

第一節 變異量數 (6) 例如有一公平骰子,令出現點數為X,數值分別為1, 2, 3, 4, 5, 6。則X的平均數為3.5,變異數為2.92。

第一節 變異量數 (7) 如果是從母體抽取少數樣本時,樣本變異數(sample variance)算法為

第一節 變異量數 (8) 例如有5個資料點為樣本,數值分別為1, 2, 3, 4, 5,則樣本平均數為3,樣本變異數為2.5。

第一節 變異量數 (9) 標準差(standard deviation) 標準差就是變異數開根號。 可分為母體標準差和樣本標準差。

第一節 變異量數 (10) Excel的VARP和VAR兩函數分別用以計算母體變異數和樣本變異數。 STDEVP和STDEV則分別用以計算母體標準差和樣本標準差(其中P代表母體population)。 「=VARP(1,2,3,4,5)」得母體變異數為2。 「=VAR(1,2,3,4,5)」得樣本變異數2.5。 「=STDEVP(1,2,3,4,5)」得母體標準差1.414。 「=STDEV(1,2,3,4,5)」得樣本標準差1.581。

第一節 變異量數 (11) 變異係數(coefficient of variation) 標準差除以平均數就是變異係數。 由於計算變異數(或標準差)時,因為每個值都要減去平均數,因此變異數必然受到平均數的影響。為了避免變異指標受到平均數的影響,將標準差除以平均數,形成變異係數。

第一節 變異量數 (12) 在一項實驗裡,實驗組接受了某種閱讀技巧訓練,控制組則無,每組各10人。 實驗組的標準差3.52約為控制組7.01的一半,控制組的變異係數0.14不到實驗組0.35的一半。

第二節 各種變異量數的比較 (1) 全距的優點在於計算容易,容易理解。缺點是只利用最大和最小值,完全漠視了其他值的存在,無法精確反應所有資料的分散情形。 四分位距將極端的前1/4和後1/4去除,而利用第三個與第一個四分位數的差距來表示分散情形,因此避免了全距受到極端值影響的缺點。不過,四分位距的計算顯然不如全距來得方便,因為必須將資料由小到大排序。和全距一樣,四分位距也沒使用到所有的資料點。

第二節 各種變異量數的比較 (2) 平均絕對離差則使用了全部的資料,這是比較恰當的作法。此外,平均絕對離差也蠻容易理解。不過,由於計算平均絕對離差必須先求絕對值,因此運算並不方便。 標準差和平均絕對離差的意義非常類似,因此不難理解。變異數及標準差還有方便四則運算,以及可用以推估母體參數(母體變異數、母體標準差)的好處,因此是推論統計的基石。

第二節 各種變異量數的比較 (3) 變異數(標準差)比平均絕對離差容易受到極端值的影響,這是因為計算變異數時使用了平方的關係。 例如1, 2, 3, 4, 5的母體標準差為1.41,平均絕對離差為1.20,兩者頗為接近。如果資料是1, 2, 3, 4, 10,則兩者分別為3.16和2.40,可見標準差受到極端值的影響比平均絕對離差來得大。 變異係數可以消去平均數的影響,如果要比較兩種平均數差異很大的資料的分散情形,利用變異係數比用標準差來得恰當了。

第三節 柴氏不等式定理 (1) 柴氏不等式(Chebyshev’s Inequality) 該定理表示:數值在平均數m上下k個標準差之內的機率不小於1-1/k2。即 P[(|X – m|)  ks ]  1 – 1/ k2 柴氏不等式定理適用於任何的分佈,包括間斷機率分佈和連續機率分佈,樣本和母體的分佈。

第三節 柴氏不等式定理 (2) 例如智商的平均數m = 100,標準差s = 15,則數值在平均數100  1s之內(即介於85到115之間)的機率不小於0(=1-1/12)。 數值在平均數100  2s之內(即介於70到130之間)的機率不小於3/4(=1-1/22)。 數值在平均數100  3s之內(即介於55到145之間)的機率不小於8/9(=1-1/32)。

第四節 分佈形狀 (1) 最佳描述資料的方法就是呈現所有的資料點,包括資料的分佈形狀,配合集中量數和變異量數,將更能完整呈現資料的特性。 例如調查100位中學生每週流連網路咖啡店的時數,結果發現平均數為5.68,標準差為5.77。看到這樣的數字,我們就會以為多數人每週花在網咖的時間為5到6小時。

上圖稱為直方圖(histogram)。直方圖類似長條圖,不過直方圖中的長條沒有空隙。這是因為直方圖的X軸的變項是連續的量變項。

第四節 分佈形狀 (2) 隨著分佈形狀的改變,集中量數,如平均數、中位數、眾數三者的關係會有所變化。 圖 (a)呈現的是所有的資料數值都是一樣的次數,例如每週去網咖的時間為0、2、4、6、8、10、12、14小時的人數都是10人。此時平均數和中位數相同,但並無眾數。這稱為均勻分佈(uniform distribution)。

第四節 分佈形狀 (3) 如果分佈像圖 (b)所示,呈現左右對稱的單峰分佈(unimodal distribution),平均數、中位數、眾數三者相同。成年男性或女性的身高應該都是這種單峰且對稱的分佈。 如果分佈如圖(c),大部份的數值集中在右邊,成單峰分佈,則眾數大於中位數,中位數大於平均數。這種分佈又稱為左偏態分佈或負偏態分佈(negatively skewed distribution),因為左邊的尾巴很長。

第四節 分佈形狀 (4) 如果分佈如圖(d),大部份的數值集中在左邊,成單峰分佈,則平均數大於中位數,中位數大於眾數。這種分佈又稱為右偏態分佈或正偏態分佈(positively skewed distribution),因為右邊的尾巴很長。 如果資料呈現雙峰分佈(bimodal distribution)且左右對稱,如圖(e),則眾數會有兩個,平均數和中位數相同。如果將成年男性和成年女性的身高擺在一起,就可能形成這種雙峰且對稱的分佈。