Presentation is loading. Please wait.

Presentation is loading. Please wait.

第三章 敘述統計(II)——統計量數 3.1 集中趨勢量數 3.2 差異量數 3.3 平均數與標準差的應用 3.4 偏態量數、峰態量數與動差

Similar presentations


Presentation on theme: "第三章 敘述統計(II)——統計量數 3.1 集中趨勢量數 3.2 差異量數 3.3 平均數與標準差的應用 3.4 偏態量數、峰態量數與動差"— Presentation transcript:

1 第三章 敘述統計(II)——統計量數 3.1 集中趨勢量數 3.2 差異量數 3.3 平均數與標準差的應用 3.4 偏態量數、峰態量數與動差
3.1 集中趨勢量數 3.2 差異量數 3.3 平均數與標準差的應用 3.4 偏態量數、峰態量數與動差 3.5 探索性資料分析 3.6 分組資料之各種統計量數的計算(可省略) 統計學導論 Chapter 3 敘述統計(II)——統計量數

2 統計量數之分類 歸納數量變數原始資料集 研究資料集的變化情形 研究資料集的集中趨勢 或散佈情形 利用下列測量值測量數量 利用下列方式找尋資料
集的中間值 (1)平均數 (2)中位數 (3)眾 數 (4)分位數 利用下列測量值測量數量 資料集的變化情形 (1)全 距 (2)四分位差 (3)平均偏差 (4)變異數與標準差

3 3.1.1 集中趨勢量數--平均數 平均數(Mean)的意義 平均數其最大的功用即在能以一個簡單的數代表母體或樣本的數值 。
集中趨勢量數--平均數 平均數(Mean)的意義 平均數其最大的功用即在能以一個簡單的數代表母體或樣本的數值 。 適合用數學運算方法,計算簡單且易於了解 計算一組統計資料的平均數時,該組資料內的所有數值皆被列入計算,所以較具有代表性且敏感度高 平均數的唯一缺點是容易受到極端值(extreme value)的影響,而減弱平均數的代表性 (3-1) 統計學導論 Chapter 3 敘述統計(II)——統計量數

4 例題 3.1:某班甲、乙兩組學生,甲組5人,乙組4人。某次統計學測驗成績如下: 甲組:89, 72, 55, 68, 78
甲組:89, 72, 55, 68, 78 乙組:88, 63, 76, 69 該次測驗結果,二組成績孰優? 解: 甲組平均成績: 乙組平均成績: 乙組較優。

5 平均數的特性 資料的總和等於平均數的n倍。即: 任一組資料中,各觀察值與平均數差之總和等於零,換句話說,平均數是資料的平衡點。即:
任一組資料中,各觀察值與平均數差之平方和為最小: 統計學導論 Chapter 3 敘述統計(II)——統計量數

6 例題 3.2:設有三個班級甲、乙、丙,其學生人數分別為50、48、52人。某次統計學考試,此三個班級的平均成績分別為80、76、85。試求出此三個班級統計學之總平均成績。
統計學導論 Chapter 3 敘述統計(II)——統計量數

7 例題 3. 3:已知26位男同學之平均體重為62. 5公斤,數日後發現其中有一位是女同學,其體重為45
例題 3.3:已知26位男同學之平均體重為62.5公斤,數日後發現其中有一位是女同學,其體重為45.5公斤,試問其餘25位男同學之平均體重為何? 統計學導論 Chapter 3 敘述統計(II)——統計量數

8 3.1.2 集中趨勢量數--中位數(Median) 例題 3.4:求下列二組資料之中位數:
一組按大小順序排列的資料x1, x2,…,xn,其中位數為位於中間位置的數值,亦即:當n為奇數時,第 位置的數值為其中位數;當n為偶數時,第 或 位置之二數值的平均為其中位數。 例題 3.4:求下列二組資料之中位數: Ⅰ: 13, 20,8,15,7 →7,8,13,15,20 →Me=13 Ⅱ: 5,10,19,23,11,15 →5.10,11,15,19,23 →Me=13 統計學導論 Chapter 3 敘述統計(II)——統計量數

9 例題 3.5:某家醫院報導其6位移植心臟的病人在手術完成後,其活存的時間分別是15, 3, 46, 623, 126, 64天。試求出該醫院換心病人之活存時間的平均數與中位數,並加以比較。
中位數的特性1: (3-5) 其餘中位數的特性請參考p.41。 統計學導論 Chapter 3 敘述統計(II)——統計量數

10 3.1.3 集中趨勢量數--眾數(Mode) 一組資料中,出現次數最多的數值即為眾數。 例題 3.6:試求出下列三組資料之眾數:
統計學導論 Chapter 3 敘述統計(II)——統計量數

11 3.1.4 集中趨勢量數--百分位數 1/2 百分位數(Percentile)的定義
集中趨勢量數--百分位數 1/2 百分位數(Percentile)的定義 將資料按大小順序排列後,若至少有p%的觀測值位於某一數值以下,且至少有(100-p)%的觀測值位於該值以上,則此數值稱為該組資料的第p個百分位數(p-th percentile)。 百分位數的計算步驟 : (1)將資料依大小順序排列。 (2)求出百分位數(Pk)所在位置的指標(index),設為i=n*k/100,則(n表示觀測值的個數)。 (3)若i為非整數,則Pk為下一個整數位置的數值,例如i=9.23,則取第10個位置之數值為Pk;若i為整數,則取第i與i+1位置的兩個數值之平均,即為所求的Pk。 統計學導論 Chapter 3 敘述統計(II)——統計量數

12 例題 3.7:在某一十字路口測量噪音水準,記錄50個觀測值,由小而大依序排列,如表3.1所示。試求出P25, P30, P50, P75。
統計學導論 Chapter 3 敘述統計(II)——統計量數

13 百分位數與中位數(Me)、四分位數(Q)、十分位數(D)之對照
表3.2 百分位數與中位數、四分位數、十分位數之對照 統計學導論 Chapter 3 敘述統計(II)——統計量數

14 各中央趨勢之衡量統計量之比較 適用性比較 中央趨勢之衡量統計量 類別資料 順序資料 等距資料 比率資料 平均數 不適用 適用 中位數 眾數

15 3.2.1 差異量數—全距 全距(Range) 一組資料中,數值最大者與最小者之差稱為全距,一般以R表示。
差異量數—全距 全距(Range) 一組資料中,數值最大者與最小者之差稱為全距,一般以R表示。 全距只考慮最大值和最小值而已,對於中間附近資料皆沒有考慮,所以,對於極端值相當敏感。 例題 3.8:設有二組資料如下: A:3, 4, 5, 6, 7, 9, 9, 10, 12, 15 B:3, 8, 8, 9, 9, 9, 10, 15 試求出其全距、平均數與中位數,並做比較。 解: A組:全距=12、平均數=8與中位數=8。 B組:全距=12、平均數=9與中位數=9。 A組較分散於3與15之間, B組大部份之數值趨於中央。由此可知, 僅由全距來測度差異量數,其結果並不可靠。 統計學導論 Chapter 3 敘述統計(II)——統計量數

16 3.2.2 差異量數—四分位差 四分位距: 四分位差: (3-6) (3-7)
差異量數—四分位差 四分位距: 四分位差: (3-6) (3-7) 例題 3.9:試計算表3.1中,50個噪音水準的四分位距與四分位差。 統計學導論 Chapter 3 敘述統計(II)——統計量數

17 3.2.3 差異量數—平均偏差 (3-8) 例題 3.10:求算5, 6, 7, 9, 23與5, 6, 7, 9兩組資料之平均偏差。
差異量數—平均偏差 (3-8) 例題 3.10:求算5, 6, 7, 9, 23與5, 6, 7, 9兩組資料之平均偏差。 統計學導論 Chapter 3 敘述統計(II)——統計量數

18 差異量數—變異數與標準差 1/2 變異數(variance)的概念,是將各個資料與其平均數之間的離差平方後再加總除以總項數後即為變異數 母體變異數 樣本變異數 例題 3.11:設有二組資料(母體)如下,試計算其變異數,並做比較: A: 8, 9, 10, 11, 12 B: 4, 7, 10, 13, 16 例題 3.12:求算下列樣本資料的變異數: 3.4, 2.5, 4.1, 1.2, 2.8, 3.7 統計學導論 Chapter 3 敘述統計(II)——統計量數

19 差異量數—變異數與標準差 2/2 若一資料分配之標準差很小,表示大部份的數值皆集中於平均數的附近,此時平均數的代表性高,反之,平均數的代表性低。 標準差恆大於等於零,所有數值皆相等,則標準差=0 。 若已知兩組母體資料,平均數與標準差已知,合併成一組,總平均數與變異數分別為: (3-12) 統計學導論 Chapter 3 敘述統計(II)——統計量數

20 例題 3.13 :設有A、B二班,其統計學平均成績、標準差與人數如下所示: 試計算兩班全體同學之統計學平均成績與標準差。
統計學導論 Chapter 3 敘述統計(II)——統計量數

21 例題 3.14:衛保組提供馬老師其導師班學生體重的資料,25位女生平均體重為56公斤,標準差為2公斤。但馬老師發現該班僅有24位女生,經比對資料後發現其中一位體重64公斤是男生的體重。請替馬老師計算該班女生真實的平均體重與標準差。(母體資料) 統計學導論 Chapter 3 敘述統計(II)——統計量數

22 3.3 平均數與標準差的應用 柴比雪夫定理(Chebyshev Theorem) 經驗法則
3.3 平均數與標準差的應用 將平均數與標準差結合起來應用,可提供資料描述與分析更多的方法 變異係數(Coefficient of Variance) Z分數(Z score) 柴比雪夫定理(Chebyshev Theorem) 經驗法則 統計學導論 Chapter 3 敘述統計(II)——統計量數

23 平均數與標準差的應用--變異係數 變異係數(Coefficient of variation,簡稱CV,是一種相對差異量數),一種無單位的係數,適用於 當單位不同的兩組或兩組以上的資料欲比較分散程度時 當單位相同但數值相差懸殊的資料欲比較分散程度時 (3-13) 例題 3.15 :某家庭企業有二部機器生產鐵釘,A機器生產的鐵釘平均重量為120公克,標準差為6公克;B機器生產的鐵釘的平均重量為80公克,標準差為5公克。試比較這二部機器何者所生產的鐵釘重量差異較大? 解: 統計學導論 Chapter 3 敘述統計(II)——統計量數

24 3.3.2 平均數與標準差的應用-- Z分數 (3-14) Z分數是透過平均數與標準差的結合,可決定一組資料之各觀測值的相對位置。
Z分數又稱標準化值(Standardized value) ,表示某觀測值x與平均數的距離有幾個標準差。 若z1=1.2,表此觀測值在平均數右邊1.2倍標準差。 若z2=-0.5,表此觀測值在平均數左邊0.5倍標準差。 (3-14) 統計學導論 Chapter 3 敘述統計(II)——統計量數

25 例題 3.16 :假定某班有10位學生,其統計學期中與期末考成績如下表所示: (a)請計算其中A、B、C三位學生之各次考試成績的Z分數。
(b)請問A學生的期末成績就全班而言,是否進步了? 解:(a)期中考之平均數與標準差為50、7.4;期末考之平均數與標準差為75、11.1。 Z分數 A B C 期中考 1.081 0.135 -0.811 期末考 -0.270 0.180 (b) A學生之成績期中考排名第二,但期末考排名第五,顯然退步了。就Z分數來看,期中考成績高於全班平均1.081倍標準差,期末考成績卻低於全班平均0.27倍標準差,顯然退步很多。 統計學導論 Chapter 3 敘述統計(II)——統計量數

26 3.3.3 平均數與標準差的應用-- Chebyshev定理
柴比雪夫定理:在任何的資料分配中,觀測值落於平均數左右k個標準差的區間內之比例,至少為 。 表3.3 各種不同k 值之柴比雪夫定理的應用 統計學導論 Chapter 3 敘述統計(II)——統計量數

27 例題 3. 17 :假定從一批產品隨機抽出18個量測其長度(公分),記錄如下: 試利用Chebyshev定理求出,有多少比例的觀測值落於(1
解: 先計算平均數與標準差為2.7、0.5881;要利用柴比雪夫定理,先要k為何? 1.495=2.7-k* =2.7+k*0.5581 可計算出k=2.0489,大約k=2 。由柴比雪夫定理得知,至少有75%的資料是落於(1.495, 3.835)的區間內,亦即,至少有18*0.75=13.5 ≒14個資資料是落於(1.495, 3.835)的區間內。 事實上,所有18筆資料均落於(1.495, 3.835)的區間內,符合了柴比雪夫定理。 統計學導論 Chapter 3 敘述統計(II)——統計量數

28 3.3.4 平均數與標準差的應用--經驗法則 當資料分配呈鐘形形狀(bell-shaped)時,亦即為對稱分配,則:
平均數與標準差的應用--經驗法則 當資料分配呈鐘形形狀(bell-shaped)時,亦即為對稱分配,則: (1)約有68%的觀測值落於      的區間內。 (2)約有95%的觀測值落於      的區間內。 (3)約有99.7%的觀測值落於 的區間內。 表3.4 Chebyshev 定理與經驗法則之比較 統計學導論 Chapter 3 敘述統計(II)——統計量數

29 例題 3. 18 :參考例題3. 17,利用經驗法則,約有68%觀測值落於(2. 08, 3. 25)區間內,亦即約有68%×18=12
例題 3.18 :參考例題3.17,利用經驗法則,約有68%觀測值落於(2.08, 3.25)區間內,亦即約有68%×18=12.24(個),實際上則有13個觀測值落於此區間。同理,由經驗法則知,約有95%(即0.95×18≒17個)觀測值落於(1.495, 3.835)區間內,而實際上則有18個觀測值落於此區間。當資料分配愈近似對稱分配,則經驗法則更精確。 統計學導論 Chapter 3 敘述統計(II)——統計量數

30 例題 3.19 :茲隨機抽出200名員工,發現其每日支出平均為615元,標準差為135元。(a)利用Chebyshev定理,求出每日支出落於(345, 885)區間內的人數;(b)假設這200名員工每日支出的資料呈對稱分配,試利用經驗法則求出落於(a)之區間的員工人數。 解: (a) 平均數=615與標準差=135;要利用柴比雪夫定理,先要k為何? 345=615-k* =615+k*135 可計算出k=2,大約k=2 。由柴比雪夫定理得知,至少有75%的資料是落於(345, 885)的區間內,亦即,至少有200*0.75=150個 員工之每日支出資料是落於(345, 885)的區間內。 (b) 若以經驗法則來看,大約有95%的資料是2倍標準差區間內落,亦即,`約有200*0.95=190個 員工之每日支出資料是落於(345, 885)的區間內。 統計學導論 Chapter 3 敘述統計(II)——統計量數

31 3.4 偏態量數、峰態量數與動差 其他常見的統計量數: 偏態量數(第三級動差) 峰態量數(第四級動差)
3.4 偏態量數、峰態量數與動差 其他常見的統計量數: 偏態量數(第三級動差) 峰態量數(第四級動差) 動差─原動差(以0為中心)與主動差(以平均數為中心) 統計學導論 Chapter 3 敘述統計(II)——統計量數

32 3.4.1 偏態係數 偏態量數(Coefficient of skewness, Sk)─用來衡量資料分布的形狀。也代表一組單峰分配資料分配不對稱的程度。 偏態量數計算有兩種:皮爾森偏態量數與動差偏態量數。 曲線為對稱分配,此時中心位置就是平均數、中位數與眾數的所在,三者為同一點,呈現三點合一的情形 曲線為左偏分配,此時平均數最小,中位數則介於平均數與眾數之間 曲線為右偏分配,此時平均數為最大,且呈現與左偏分配相反之位置分布 統計學導論 Chapter 3 敘述統計(II)——統計量數

33 3.4.1 偏態係數─皮爾森偏態量數 皮爾森(Pearson)的研究發現,在偏態分配中,平均數至眾數的距離是平均數至中位數距離的3倍。
母體﹕ 或樣本﹕ 其中, 與 分別代表母體平均數與樣本平均數, 是中位數, 與s分別代表母體標準差與樣本標準差。 統計學導論 Chapter 3 敘述統計(II)——統計量數

34 例3.20: 50位學生性向測驗成績之平均數為60.36,標準差為18.61‧中位數為62,試求50位學生性向測驗成績的偏態係數。
解:將平均數為60.36,標準差為18.61‧中位數為62代入公式,可得 故此這組資料的分配是左偏的

35 3.4.1 偏態係數─動差偏態量數 依據動差偏態量數可知: (1)當α1=0時,表示資料的分配會近似對稱分配。 (2)當α1>0時,表示資料的分配會近似右偏分配。 (3)當α1<0時,表示資料的分配會近似左偏分配。 統計學導論 Chapter 3 敘述統計(II)——統計量數

36 3.4.2 峰態係數量數 1/2 峰度(kurtosis)是指次數分配高峰高聳的程度,依據峰態量數可知:
峰態係數量數 1/2 峰度(kurtosis)是指次數分配高峰高聳的程度,依據峰態量數可知: 當β1=3時,表示資料分布呈常態峰(Mesokurtic),形成一般正常的型態。 當β1>3時,表示資料分布呈高狹峰(Leptokurtic),集中於平均數或眾數附近。 當β1<3時,表示資料分布呈低闊峰(Platkurtic),平均地分散於兩端。 統計學導論 Chapter 3 敘述統計(II)——統計量數

37 峰態係數量數 2/2 圖 3.2 峰態圖形定義 統計學導論 Chapter 3 敘述統計(II)——統計量數

38 3.4.3 動差(Moment) 原動差 稱為第r級原動差(moment about zero)。 主動差
稱為第r級主動差(principal moment)。 統計學導論 Chapter 3 敘述統計(II)——統計量數

39 3.5 探索性資料分析 探索性資料分析(exploratory data analysis;EDA)強調以簡單的繪圖方式彙總來描述一組樣本資料 。 探索性資料分析主要包括兩種最常用的圖形,即 枝葉圖(stem-and-leaf diagrams) 盒鬚圖(box and whisker plots) 統計學導論 Chapter 3 敘述統計(II)——統計量數

40 3.5.1 枝葉圖 1/2 例題 3.27參考例題2.3的資料(48位學生統計學成績),試繪製其枝葉圖。
枝葉圖 1/2 例題 3.27參考例題2.3的資料(48位學生統計學成績),試繪製其枝葉圖。 圖 位學生統計學成績之枝葉圖 統計學導論 Chapter 3 敘述統計(II)——統計量數

41 枝葉圖 2/2 圖3.6 劃上矩形之枝葉圖 統計學導論 Chapter 3 敘述統計(II)——統計量數

42 盒鬚圖 1/4 盒鬚圖(box-and-whisker plot)又叫做箱形圖係將某些中央趨勢之衡量統計量與分散度之衡量統計量利用圖形表現出來的一種圖示法。 圖中含顯示出資料的最大值L(largest)、最小值S(smallest)、第一四分位數(Q1)、中位數(Me)、第三四分位數(Q3)、四分位距(IQR)等。 圖3.8 表 3.1 噪音水準資料的盒鬚圖 統計學導論 Chapter 3 敘述統計(II)——統計量數

43 盒鬚圖之畫法和界外值判斷2/4 以長方形(箱形)表示從Q1至Q3的數值資料,其箱形的長度即為四分位距,並標示中位數的位置。在箱形內包括了50%的數值資料。 標示出最大值和最小值,並以直線與長方形連接即完成一箱形圖。介於Q1與最小值之間佔了全部資料的25%,介於Q3與最大值之間佔了全部資料的25%。 連接最小值到長方形左邊中點的水平線稱為左鬍鬚(虛線),連接最大值到長方形右邊中點的水平線稱為右鬍鬚(虛線) ,若左鬍鬚遠大於右鬍鬚,則稱資料是左偏,相反地,若右鬍鬚遠大於左鬍鬚,則稱資料是右偏。 箱型圖可用於幫助辨認出觀察值是否為異常值或界外值(outlier): 若觀察值位於長方形左右邊的1.5倍與3倍IQR(四分位距)之間,則稱為可疑的異常值(suspected outliers),必須密切注意這些觀察值的使用。 若觀察值位於長方形左右邊的3倍IQR(四分位距)之外,則稱為異常值(outliers),必須特別小心這些觀察值的使用。 統計學導論 Chapter 3 敘述統計(II)——統計量數

44 3.5.2 盒鬚圖 3/4 圖 盒鬚圖與資料的內外圍和界外值 統計學導論 Chapter 3 敘述統計(II)——統計量數

45 盒鬚圖 4/4 圖3.10 四種不同分配的盒鬚圖 統計學導論 Chapter 3 敘述統計(II)——統計量數

46 3.6 分組資料之各種統計量數的計算 平均數 例題 3.20:表3.5列示某一社團35位團員的年齡分布,試求其平均數。 可跳過
3.6 分組資料之各種統計量數的計算 平均數 例題 3.20:表3.5列示某一社團35位團員的年齡分布,試求其平均數。 表 位團員之年齡次數分配 統計學導論 Chapter 3 敘述統計(II)——統計量數

47 變異數與標準差 例題 3.21 :參考例題3.20,計算該分組資料的變異數與標準差。 可跳過
統計學導論 Chapter 3 敘述統計(II)——統計量數

48 可跳過 中位數 所以, (3-17) 統計學導論 Chapter 3 敘述統計(II)——統計量數

49 例題 3.22:設某一班級50位學生之統計學成績的次數分配如下表所示,試求其中位數。
可跳過 例題 3.22:設某一班級50位學生之統計學成績的次數分配如下表所示,試求其中位數。 統計學導論 Chapter 3 敘述統計(II)——統計量數

50 例題 3.23:參考例題3.22,求出全班50名學生統計學成績之Q1、Q3、D1及P30。
可跳過 例題 3.23:參考例題3.22,求出全班50名學生統計學成績之Q1、Q3、D1及P30。 統計學導論 Chapter 3 敘述統計(II)——統計量數

51 可跳過 眾數 1/3 金氏法 (3-18) 圖 3.3 金氏法求眾數之圖解 統計學導論 Chapter 3 敘述統計(II)——統計量數

52 可跳過 眾數 2/3 克氏法 (3-19) 圖 3.4 克氏法求眾數之圖解 統計學導論 Chapter 3 敘述統計(II)——統計量數

53 眾數 3/3 皮爾森經驗法則 (3-20) 例題 3.24─3.26 參考例題3.22,求其次數分配的眾數(利用金氏法)
可跳過 眾數 3/3 皮爾森經驗法則 (3-20) 例題 3.24─3.26 參考例題3.22,求其次數分配的眾數(利用金氏法) 同例題3.24,利用克氏法求其眾數。 同例題3.25,利用皮爾森經驗法則求出眾數。 統計學導論 Chapter 3 敘述統計(II)——統計量數


Download ppt "第三章 敘述統計(II)——統計量數 3.1 集中趨勢量數 3.2 差異量數 3.3 平均數與標準差的應用 3.4 偏態量數、峰態量數與動差"

Similar presentations


Ads by Google