第三章 敘述統計量
概論 統計量包括五種類型 中央趨勢之衡量統計量 分散度之衡量統計量 相對位置之衡量統計量 形狀之衡量統計量 兩變數線性相關之衡量統計量
3.1中央趨勢之衡量統計量 中央趨勢之衡量統計量(measure of central tendency)主要是衡量資料的中心位置,故又稱為中心之衡量(measure of center) 一般較常用的中央趨勢之衡量統計量有平均數(mean)、中位數(median)、眾數(mode)等
3.1.1 平均數 平均數是最常用的一種中央趨勢之衡量統計量,它最大的功用即在能以一個簡單的數代表母體或樣本的數值 適合用數學運算方法,計算簡單且易於了解 計算一組統計資料的平均數時,該組資料內的所有數值皆被列入計算,所以較具有代表性且敏感度高 平均數的唯一缺點是容易受到極端值(extreme value)的影響,而減弱平均數的代表性
3.1.1 平均數(續) 平均數以求算方式可分為三種 ,即 但後兩種平均數較不常見,應用範圍也不廣 。 算術平均數(arithmetic mean) 幾何平均數(geometric mean) 調和平均數(harmonic mean) 但後兩種平均數較不常見,應用範圍也不廣 。
3.1.1 平均數(續) 平均數的意義 以全部觀測值的總和除以觀測值個數而得
3.1.1 平均數(續) 平均數的計算 統計資料未分組時由於仍然完整,因此在求算統計量時不會有任何問題,但資料經過分組後,即會失去某些資訊 求算已分組資料的統計量時,一般都是依循下列兩個基本假設 1. 集中分配:假設各組觀測值都相等於組中點 2. 均勻分配:假設各組觀測值都是均勻分佈在組內
3.1.1 平均數(續)
3.1.1 平均數(續)
3.1.1 平均數(續) 【例3.3】承例2.3,某一班級50名學生的統計學期中考成績的次數分配如下所示,試求其平均成績。
3.1.1 平均數(續)
3.1.1 平均數(續)
3.1.1 平均數(續) 平均數的特性
3.1.1 平均數(續) *Key to solve
3.1.2 中位數
3.1.2 中位數(續)
3.1.2 中位數(續)
3.1.2 中位數(續) 中位數的特性 在資料無嚴重的重複情形下,中位數將資料分為兩等分 各觀測值xi與中位數Me之差的絕對值總和,比和其他任意數之差的絕對值總和都來得小, 即 ,T為任一常數
3.1.2 中位數(續)
3.1.3 眾數 定義3.1.9 眾數 一組統計資料中,出現次數最多之觀測值即為眾數(mode),一般均以Mo表示之 定義3.1.10 未分組資料的眾數 在計算未分組的統計資料之眾數時,可先將數值依大小排列,其中出現次數最多的數值即為眾數;但若某一數值很明顯地佔全部資料中最大比例時,則此時不必將資料排列也可找到眾數。
3.1.3 眾數(續)
3.1.3 眾數(續) 求已分組資料之眾數的方法 ,一般最常見的有以下三種 金氏(W.I. King)插補法 克如伯(E. Czuber)比率法 皮爾生(K. Pearson)法
3.1.3 眾數(續)
3.1.3 眾數(續)
3.1.3 眾數(續)
3.1.3 眾數(續)
3.1.3 眾數(續)
3.1.4 各中央趨勢之衡量統計量之比較 適用性表較
3.1.4 各中央趨勢之衡量統計量之比較(續) 優缺點比較
3.1.4 各中央趨勢之衡量統計量之比較(續)
3.2 分散度之衡量統計量 分散度之衡量統計量可衡量資料之離散程度 分散度之衡量統計量可以用於尋找變異的原因和性質 常見的分散度之衡量統計量有:全距、四分位差、平均絕對差、變異數及標準差、變異係數等
3.2.1 全距 定義3.2.1 全距 資料中的最大值與最小值之差即為全距(range),通常以R來表示。
3.2.1 全距(續)
3.2.1 全距(續) 全距的性質 計算簡單,意義明顯 具有順序統計量的概念 易受極端值影響 缺乏敏感度
3.2.2 四分位差 四分位差是指將資料去掉兩端最大及最小值各25%的觀察值,只剩中間50%部分的資料,之後再求這50%資料的全距
3.2.3 平均絕對離差 計算各觀察值與平均數的距離總和,然後在取其算術平均數,而不討論離均差之正負號,此即為平均絕對離差(mean absolute deviation),通常以MAD表示
3.2.3 平均絕對離差(續)
3.2.3 平均絕對離差(續)
3.2.3 平均絕對離差(續)
3.2.3 平均絕對離差(續) 平均絕對離差的特性 其值越大,則資料的分散情況也越大;反之,則越小 平均絕對離差的優點 觀念簡單,易於了解 敏感度較高,代表性較佳 平均絕對離差的缺點 當資料數多時,較不易計算 易受極端值的影響
3.2.4 變異數與標準差 變異數(variance)的概念,是將各個資料與其平均數之間的離差平方後再加總除以總項數後即為變異數
3.2.4 變異數與標準差(續)
3.2.4 變異數與標準差(續) 未分組資料的標準差
3.2.4 變異數與標準差(續)
3.2.4 變異數與標準差(續) 已分組資料的標準差
3.2.4 變異數與標準差(續)
3.2.4 變異數與標準差(續)
3.2.4 變異數與標準差(續) 變異數與標準差的特性 其理論的結果在往後的機率理論佔有相當重要的地位 分散度之衡量統計量中優點最多的 變異數與標準差的重要的性質 值恆大於或等於零 ,其值越大代表資料分散程度越大;反之則分散程度越小 只能用來比較兩組或兩組以上平均數相近且具有相同單位之資料間分散程度的大小
3.2.4 變異數與標準差(續) 變異數與標準差的優缺點 優點: 靈敏度較高 將中央趨勢之衡量統計量(平均數)列入計算、且適合用代數演算。 適合用樣本變異數s2對未知的母體變異數2進行估計,而且s2是2的不偏估計 缺點 :易受極端值的影響
3.2.5 變異係數 所謂的相對分散度之衡量統計量就是絕對分散度之衡量統計量與某一中央趨勢之衡量統計量或其它適當數量之比 一般最常用的相對分散度之衡量統計量是變異係數(coefficient of variance),通常以CV表示,變異係數乃標準差與平均數比值的百分數
3.2.5 變異係數(續)
3.2.5 變異係數(續)
3.2.5 變異係數(續)
3.2.5 變異係數(續) 變異係數的特性 變異係數為一種無單位的係數 變異係數具有下列兩種使用時機: 當單位不同的兩組或兩組以上的資料欲比較分散程度時 當單位相同但數值相差懸殊的資料欲比較分散程度時
3.3 位置之衡量統計量 位置之衡量統計量(measures of location)是用來測量某觀測值在全部樣本資料中排序後的累積相對百分比,或是給某相對百分比求對應的量是多少。
3.3.1 百分位數
3.3.1 百分位數(續)
3.3.1 百分位數(續)
3.3.1 百分位數(續)
3.3.1 百分位數(續)
3.3.1 百分位數(續)
3.3.1 百分位數(續)
3.3.2 四分位數
3.3.2 四分位數(續)
3.3.2 四分位數(續)
3.3.2 四分位數(續)
3.3.2 四分位數(續)
3.3.3 Z值
3.3.3 Z值(續)
3.4 形狀之衡量統計量 形狀之衡量統計量(measures of shape)是用來描述一組資料的分配形狀,如是否對稱,或資料分佈形狀的峰度有多高等等問題 一般最常用的即為偏態係數及峰態係數。
3.4.1 偏態係數 所謂偏態(skewness)係指一組單峰分配資料分配不對稱的程度 偏態係數(coefficient of skewness)為表示單峰分配偏態的一種係數,故其亦為一種統計表徵數
3.4.1 偏態係數(續) 偏態係數的範圍大致在正負三之間,偏態係數的絕對值越大表示偏斜程度越大 Sk=0為對稱(symmetric);Sk>0為右偏(skewed right),或稱正偏;Sk<0為左偏(skewed left),或稱負偏。
3.4.1 偏態係數(續)
3.4.2 峰度係數 峰度(kurtosis)是指次數分配高峰高聳的程度 常態分配的高峰叫做常態峰(Mesokurtic),當CK(峰態係數)=3 次數分配中較常態峰高而狹者叫做高狹峰(Leptokurtic) ,當CK>3 較常態峰低而闊者叫做低闊峰(Platkurtic) ,當CK<3
3.4.2 峰度係數(續)
3.5 謝比雪夫不等式與經驗法則
3.5 謝比雪夫不等式與經驗法則(續)
3.5 謝比雪夫不等式與經驗法則(續)
3.5 謝比雪夫不等式與經驗法則(續)
3.5 謝比雪夫不等式與經驗法則(續)
3.6 探索性資料分析 探索性資料分析(exploratory data analysis;EDA)強調以簡單的繪圖方式彙總來描述一組樣本資料 探索性資料分析主要包括兩種最常用的圖形,即枝葉圖(stem-and-leaf diagrams)和箱形圖(box and whisker plots)
3.6.1 枝葉圖
3.6.2 箱形圖 箱形圖(box-and-whisker plot)又叫做箱鬚圖係將某些中央趨勢之衡量統計量與分散度之衡量統計量利用圖形表現出來的一種圖示法 圖中含顯示出資料的最大值L(largest)、最小值S(smallest)、第一四分位數(Q1)、中位數(Me)、第三四分位數(Q3)、四分位距(IQR)等
3.6.2 箱形圖(續) Q1=46 Me=62 Q3=75 S=22 L=96
3.7 兩變數線性相關之衡量統計量 3.7.1 共變異數
3.7.1 共變異數(續)
3.7.1 共變異數(續)
3.7.1 共變異數(續)
3.7.2 相關係數
3.7.2 相關係數(續)
3.7.2 相關係數(續)
3.7.2 相關係數(續)
3.7.3 共變數與相關係數間的關係
3.7.3 共變數與相關係數間的關係(續)
3.7.3 共變數與相關係數間的關係(續) (續下頁)
3.7.3 共變數與相關係數間的關係(續)