Presentation is loading. Please wait.

Presentation is loading. Please wait.

第 5 章 樣本資料的數值分布.

Similar presentations


Presentation on theme: "第 5 章 樣本資料的數值分布."— Presentation transcript:

1 第 5 章 樣本資料的數值分布

2 統計量(statistic)或表徵數:依據樣本資料計算出具有特定意義的數值,是描述統計學(Descriptive Statistics)的主要內容,也是推論統計學的推論基礎。
統計量的測量(measure)或統計量的計算:定義和計算出統計量的過程或方法。

3 曲線圖與統計量的關係: 1. 集中趨勢量數(measures of central tendency):位於圖形最高點附近的統計量,包含平均數(Mean)、中位數(Median)和眾數(Mode); 2. 差異量數(measures of variability):集中趨勢量數平均數上下界限的統計量,包含標準差(Std deviation)和變異數(Variance);

4 3. 大小量數(measures for size):位於圖形二極端點的統計量,包括最大值(Maximum)、最小值(Minimum)和全距(Range);
4. 偏差量數(measures of deviation from normality):表示圖形是否常態分布的統計量,包括偏態(Skewness)和峰度(Kurtosis)。

5 具有特殊意義的圖形或量數: 1. 抽樣誤差(sampling error)或平均數穩定性量數(measures of stability):用標準誤差(S.E. mean)來表示,是推論統計學的基礎; 2. 五數綜合(five-number summary)圖:最大值(Maximum) 、第一四分位數(first quartile)、中位數(Median)、第三四分位數(third quartile)和最小值(Minimum);

6 3. 盒形圖(boxplot):將五數綜合圖加上二個內柵,用來找出離群值(outlier);
4. 相對變異量數(measures of relative variability):比較不同單位變項間的變異,例如變異係數(coefficient of variation)。

7 5.1 常用數學運算符號 1. 求總和的數學符號Σ(sigma): (5.1) 2. 求連乘積的數學符號是 (pei): (5.2)

8 5.1 常用數學運算符號 3. 用積分符號表示機率函數: (5.6)

9 5.2 集中趨勢量數 集中趨勢量數(measures of central tendence)或中心位置量數(measures of central location):圖形最高點的統計量,平均數(Mean)、中位數(Median)或眾數(Mode)。

10 5.2.1 算術平均數 (5.7) 算術平均數 (arithmetic mean) :觀測值總和 ,除以有效樣本數 n :

11 5.2.2 中位數 中位數(Median) 或稱二分位數:資料分布的中間值。 中位數求算步驟如下: 1. n 個觀測值由小到大重新排列。
5.2.2 中位數 中位數(Median) 或稱二分位數:資料分布的中間值。 中位數求算步驟如下: 1. n 個觀測值由小到大重新排列。 2. 求出中項 O (md): (5.8)

12 5.2.2 中位數 3. 求出中項的對應值中位數 md: (5.9) (5.10)

13 5.2.3 眾 數 眾數(Mode)mo:出現次數最多次的值。
5.2.3 眾 數 眾數(Mode)mo:出現次數最多次的值。 眾數求算步驟如下: 1. 將 n 個觀測值由小到大重新排列。 2. 重複出現次數最多的觀測值就是眾數。

14 5.2.4 集中量數間的關係 算術平均數 、中位數 md 和眾數 mo 關係圖形: 1. 單峰對稱 (symmetric) 分布:
5.2.4 集中量數間的關係 算術平均數 、中位數 md 和眾數 mo 關係圖形: 1. 單峰對稱 (symmetric) 分布: 參閱圖 5.1。 圖5.1 單峰對稱分布

15 5.2.4 集中量數間的關係 2. 單峰左偏 (skewed to left)分布: 參閱圖 5.2。 圖5.2 單峰左偏分布

16 5.2.4 集中量數間的關係 3. 單峰右偏 (skewed to right)分布: 參閱圖5.3。 圖5.3 單峰右偏分布

17 5.2.5 平均數與中位數的使用時機 選用原則如下: 1. 常態分布,二者皆可使用,優先使用平均數。
5.2.5 平均數與中位數的使用時機 選用原則如下: 1. 常態分布,二者皆可使用,優先使用平均數。 2. 偏態分布,中位數比平均數具代表性。 3. 序位變項或整群抽樣資料,使用中位數。 4. 指數或對數分布變項,使用中位數。 5. 母數推論統計法使用平均數,無母數推論統計法使用中位數。

18 5.3 平均數的差異量數 差異量數(measures of variability)、離勢量數(measures of dispersion)或分散量數(measures of spread):表示分散情形的統計量,標準差(Standard deviation)和變異數(Variance)。

19 5.3.1 變異數 (5 .11) 樣本變異數(Variance):觀測值與算術平均數差距平方和 ,除以自由度

20 5.3.1 變異數 自由度 df (degree of freedom): (5 .12) 母體變異數: (5 .13)

21 5.3.2 標準差 樣本標準差S.D. (Standard deviation):樣本變異數平方根值: (5 .14)

22 5.3.2 標準差 母體標準差: (5 .15) 變異數或標準差大,表示觀測值差異性或分散程度大。

23 5.4 分布的大小量數 大小量數(measures for size)或分布的分散(spread of the distribution):觀測值或圖形二極端值的統計量,最大值(Maximum)、最小值(Minimum)和全距(Range)。 最大值(Maximum):最大的觀測值。 最小值(Minimum):最小的觀測值。 全距R(Range):最大值 max 和最小值 min 的差: (5 .16)

24 5.5 常態分布的偏差量數 偏差量數(measures of deviation from normality):判斷資料是否常態分布的統計量,偏態(Skewness)和峰度(Kurtosis)。

25 5.5.1 峰 度 峰度(Kurtosis)或峰度係數:量度尖(peakness)或平(flatness)程度的統計量: 判斷標準如下:
5.5.1 峰 度 峰度(Kurtosis)或峰度係數:量度尖(peakness)或平(flatness)程度的統計量: (5.17) 判斷標準如下: (1) 高窄峰 (leptokurtic):峰度 Kur > 3。 (2) 常態峰 (mesokurtic):峰度 Kur = 3。 (3) 低闊峰 (platykurtic):峰度 Kur < 3。

26 5.5.1 峰 度 (5.18) 標準化峰度 Nkur:

27 5.5.1 峰 度 判斷標準: (1) 高窄峰 (leptokurtic):峰度 Kur > 0。 參閱圖 5.5
5.5.1 峰 度 判斷標準: (1) 高窄峰 (leptokurtic):峰度 Kur > 0。 參閱圖 5.5 (2) 常態峰 (mesokurtic):峰度 Kur = 0。 參閱圖 5.1 (3) 低闊峰 (platykurtic):峰度 Kur < 0。 參閱圖 5.4

28 5.5.1 峰 度 圖5.5 高窄峰 圖5.4 低闊峰

29 5.5.2 偏 態 偏態(Skewness)或偏態係數:量度偏離對稱程度的統計量: (5.19)

30 5.5.2 偏 態 判斷標準如下: (1) 右偏 (skewed to the right):偏態 Sk > 0。 參閱圖 5.2。
5.5.2 偏 態 判斷標準如下: (1) 右偏 (skewed to the right):偏態 Sk > 0。 參閱圖 5.2。 (2) 對稱 (symmetry):偏態 Sk = 0 。 參閱圖 5.1。 (3) 左偏 (skewed to the left):偏態Sk < 0 。 參閱圖 5.3。

31 5.5.3 簡易判斷法 快速判斷偏差形態的方法: 1. 中距值(mid-range)與平均數比較,二數有明顯差異,是偏差形態,中距值 MR:
5.5.3 簡易判斷法 快速判斷偏差形態的方法: 1. 中距值(mid-range)與平均數比較,二數有明顯差異,是偏差形態,中距值 MR: (5.20) 2. 標準差與平均數比較,標準差超過平均數 25%,是偏差形態。 3. 最大值和最小值與 比較,超出 範圍,是偏差形態。

32 5.6 穩定性量數 標準誤差(S.E. mean 或Standard errors)或標準誤:表示平均數穩定性或抽樣誤差大小的統計量:
5.6 穩定性量數 標準誤差(S.E. mean 或Standard errors)或標準誤:表示平均數穩定性或抽樣誤差大小的統計量: (5.21)

33 5.7 分布的比較及離群值 五數綜合(five-number summary)圖:最大值(maximum) 、第一四分位數(first quartile)、中位數(median)、第三四分位數(third quartile)和最小值(minimum)。 盒形圖(boxplot):由五數綜合圖增加二內柵而成,用來找出離群值(outlier)。

34 5.7.1 四分位數 四分位數(quartile):將數列分割成四等份,由小到大依序是第一四分位數 Q1、第二四分位數 Q2 和第三四分位數 Q3,分割步驟如下: 1. 將 n 個觀測值由小到大重新排列。 2. 將數列分割成四等份。 3. 第一個分割點 25% 的位置O(Q1): (5.22)

35 5.7.1 四分位數 4. 第二個分割點 50%的位置O(Q2)或O(md): (5.8)

36 5.7.1 四分位數 5. 第三個分割點 75% 的位置 O ( Q3 ): 6. Q1、Q2 和 Q3 分別是: (5.23)
5.7.1 四分位數 5. 第三個分割點 75% 的位置 O ( Q3 ): (5.23) 6. Q1、Q2 和 Q3 分別是: (5.24) (5.25)

37 5.7.2 五數綜合圖 五數綜合圖:將最小值 min、第一四分位數 Q1、中位數 md、第三四分位數 Q3 和最大值 max 依序按比例大小排列,五條垂直線表示五數的位置,然後在 Q1、md和 Q3之間繪出盒形,如圖 5.6 所示: 圖5.6 五數綜合圖

38 5.7.3 四分位差 四分位差 Q.D.(quartile deviation): Q3和 Q1 的差距離: (5.26)

39 5.7.4 盒形圖 盒形圖:將五數綜合圖中間的盒形邊緣向二端各延伸相同距離的內柵(inner fence)。 內柵 IF 1和 IF2:
5.7.4 盒形圖 盒形圖:將五數綜合圖中間的盒形邊緣向二端各延伸相同距離的內柵(inner fence)。 內柵 IF 1和 IF2: (5.27)

40 5.7.4 盒形圖 盒形圖如圖5.7所示: 圖5.7 含有內柵的盒形圖

41 5.8 相對離勢量數 相對離勢量數(measures of relative dispersion):比較相同或不同單位變項間相對變異情形的統計量,例如變異係數(coefficient of variation)。 變異係數(coefficient of variation) C.V.:標準差和算術平均數的比值: (5.28) 變異係數沒有單位,變異係數大者,該變項分散程度或差異性較大。

42 5.9 偏態資料的處理 偏態資料來源: 1. 資料本身具有偏態的特性 2. 受離群值影響。

43 資料轉換 轉換前變數 x 和轉換後變數 x (5.29) (5.30)

44 幾何平均數 幾何平均數 G: (5.31)

45 截尾算術平均數 截尾算術平均數(trimmed mean)或修剪平均數: (5.32) 此處 (5.33)

46 5.9.4 Windsorized 算術平均數 Windsorized 算術平均數計算步驟如下: 1. 求出 Q1 和 Q3。
4. 計算修改後的算術平均數。 5. 此種算術平均數稱為Windsorized 算術平均數 (Windsorized mean)。

47 5.10 例 題

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77 5.10 例 題

78

79

80 5.11 結 語 1. 常態分布資料,算術平均數具有足夠代表性,使用母數統計法是最佳選擇。
5.11 結 語 1. 常態分布資料,算術平均數具有足夠代表性,使用母數統計法是最佳選擇。 2. 偏態分布資料,將資料轉換、刪除或修改成常態分布,然後使用母數統計法推論和分析。 3. 不能轉換或修改偏態分布資料,中位數比算術平均數更具代表性,使用無母數統計法是最佳的選擇。

81 5.11 結 語 4. 算術平均數搭配變異數或標準差,中位數通常四分位數或全距。 5. 中位數和眾數是研究質性資料的重要統計量。


Download ppt "第 5 章 樣本資料的數值分布."

Similar presentations


Ads by Google