Presentation is loading. Please wait.

Presentation is loading. Please wait.

敍述統計學 許明宗.

Similar presentations


Presentation on theme: "敍述統計學 許明宗."— Presentation transcript:

1 敍述統計學 許明宗

2 前言 馬克吐溫說:「世上有三種謊言:謊言、大謊言跟統計學。」
H. Belloc 說:「對所有的公眾人物而言,有一長久的認知,那就是統計學是謊言的來源,而且沒有任何謊言的錯誤或決策超過基於統計學所造成的錯誤或決策。」 Samuel Clemens 說:「圖表不會說謊,但是說謊者會使用圖表。」(Figures don‘t lie, but liars figure.) Ernest Rutherford 說:「如果你的實驗需要統計學,那你必需要做一個比較好的實驗。」

3 數值是不能夠「說話」的 , 但它們能夠像咨詢服務一樣告訴你許多事。但是就好像咨詢服務一樣,你必須要「問」。
所以應該問數值什麼?數學家們發展了一套完整的學問「統計學」,提供了如何把答案從數值中弄出來的方法。所以你不須要具有統計相關的學位就能夠有效的運用資料。 但是要能有效的運用資料還是需要知道一些基本的知識。 簡單的說,就是每一個人都應該精通統計學中的一些基本概念。

4 敘述統計學 在統計學上,其中有一重大的用途就是如何將搜集到的資料清楚明白的彙總
例如,心理學家對2500個學生舉行了有關害羞性的個性測驗。 如何能夠彙總這些測量?有兩個基本方法: 數值和圖表。 使用數值方式,可以計算出例如平均數、標準差等的統計量。這些統計量傳送了有關害羞性的平均程度和害羞程度上的差異的資訊。 使用圖表的方式可以繪出直方圖、莖葉圖、箱形圖等圖表。這些圖表包含了有關害羞性的程度分佈細節的資訊。 圖表方法較數值方法適合於描述資料的形態,數值方式則能夠得到較精確和客觀的資訊。 因為圖表方式和數值方式彼此之間是互補的,所以較好的作法是在分析彙總資料時,同時使用兩種方式。

5 表達及陳列統計資料 統計圖表 次數分配表 直方圖 次數多邊圖 累加次數圖 條形圖 圓形比例圖 箱形圖 莖葉圖

6 統計量數 集中趨勢量數 變異趨勢量數或離散趨勢量數 相對位置量數 分配形態量數 常態分配的檢定與圖示

7 次數分配表(Frequency Distribution)
次數分配表是整理資料之最基礎的方法之一,分組通常以5~15組為宜。 分組的方式 列舉式:不連續資料 分組式 求全距 定組距 定組界 劃記次數

8 組別 人數 累積人數 累積百分比(%) 國中 15 15.00 高中、職 10 25 25.00 專科 30 55 55.00 大學 80
80.00 研究所 20 100 100.00 列舉列次數分配表

9 分數 組中點 次數 累積次數(cf) 累積百分比(cf%) 75~79 77 15 15.00 80~84 82 10 25 25.00
85~84 87 30 55 55.00 90~94 92 80 80.00 95~99 97 20 100 100.00 分組式次數分配表

10 直方圖(Histogram) 將次數資料以條狀圖繪製在兩個維度的圖形上,Y軸代表每個分組所發生的次數,X軸代表分組,謂之直方圖。通常適用於等距及比率變數資料(如左圖所示)。

11 次數多邊圖(Frequency Polygon)
次數多邊圖與直方圖近似,唯一不同的是以單點來取代條狀標示,並將這些單點以封閉的直線連結起來。

12 累積次數肩形圖(Ogive for Cumulative Frequency Distribution)
是以累積次數及累積百分比來製作圖示,通常可分為兩類,一類為較小累積次數肩形圖,另一為較大累績次數肩形圖。

13 條形圖(Bar Chart) 以上所述之直方圖、次數多邊圖以及累積次數肩形圖通常適用於等矩及比率變數。而條形圖則適用於名義及類別變數。

14 圓形比例圖(Pie Chart) 通常如受試者學歷背景之次數分配表所示的資料,依類別分組的情況下,則圓形比例圖特別適用。

15 箱形圖 不繪製實際的觀察值,主要用來顯示資料的極端量數及分佈的型態。利用中位數、第一四位數,第三四分位數等來進行繪圖(如下圖所示)。

16 莖葉圖 莖葉圖與直方圖近似,是提供檢驗變數分佈的簡易圖示法,兼具數字和圖形的優點,不僅可以使我們看到資料的次數分配圖形,更可以提供更多有關實際資料值的訊息。通常莖葉圖是將觀察值分成兩部份,首數稱為莖(stem),尾數稱為葉(leaf), 例如數字75,有莖為7,葉為5。

17 統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數

18 集中量數(Measures of Central Tendency)
平均數 算術平均數 加權平均數 幾何平均數 調和平均數 截尾平均數 溫塞平均數 中位數 眾數

19 算術平均數(Arithmetic Mean)
算術平均數簡稱平均數,亦稱非加權平均數(unweighted mean)。其運算公式如下: 未分組資料: 分組資料:

20 加權平均數( Weighted Mean ) 加權平均數適用於當各個數值之重要程度不同,須使用不同權數表示不同比重時。

21 幾何平均數(Geometric Mean)
幾何平均數適用於平均改變率、平均成長率、平均比率或是對數分配等之資料的平均之求算。常見的幾何平均數有平均經濟成長率、物價等具有基期之資料。

22 調和平均數(Harmonic Mean) 若資料呈現調和級數(資料的倒數為等差級數)時,適用調和平均數來計。在實際的應用中,如物價固定下的平均物價、距離固定下之平均時速等資料皆適合使用。 (調和平均數永遠小於幾何平均數,而幾何平均數又小於算術平均數。)

23 截尾平均數(Trimmed mean) 截尾平均數為將資料中的第一四分位數以下、第三四分數位以上的觀察值去除後,計算剩餘觀察值(第一和第三四分位數中間的數值)的算術平均數。

24 溫塞平均數(Winsorized mean)
將資料中第一四分位數以下、第三四分數位以上的觀察值分別以第一四分位數及第三四分數位代替之,然後計算算術平均數。

25 中位數(Median) 將統計資料依其大小排列,而其位置居於中間者,為該群資料的中位數 未分組資料:
首先將n個數值由小而大順序排列,然後決定中位數所在位次,如果樣本大小n 為偶數,則以第n/2個與n/2+1個數值的平均值為中位數,如果樣本大小n為奇數, 則以第(n+1)/2個數值為中位數。 分組資料:

26 眾數(Mode) 眾數係指在一群體中出現次數最多的那個數值。通常它適用名義尺度資料。 將資料依序歸類,找出出現次數最多的數值,即為眾數。
未分組資料: 將資料依序歸類,找出出現次數最多的數值,即為眾數。 分組資料: 使用King插補法

27 平均數、中位數、眾數的比較 尺度特性 優缺點 名義尺度:眾數 序列尺度:眾數或中位數 等距尺度及比例尺度:平均數
眾數:具有作為類別資料的判斷準則(例如在民意的表達,少數服從多數)、不受極端值影響等之優點。但是如果觀察值的分佈並不集中,則不適用眾數為判斷準則;另外眾數不適合數學運算。 中位數:具有不受極端值的影響,代表機率累積到中位數時所佔之機率值為50%等優點。但是中位數一樣不適合數學運算。 算術平均數:具有可進行四則運算、誤差平方和(Error sum of squares)最小、母體平均數的最佳估計式等優點。但是容易受極端值影響及資料分配呈現雙峰分配時,無法代表集中趨勢。

28 變異量數(Measures of Dispersion)或離散量數
全距 平均絕對離差 變異數 標準差 變異係數 四分差

29 全距(Range, R) 全距是表示一群體全部數值的變動範圍。其計算簡單、意義顯明,但反應不夠靈敏,即最大、最小數值不變而其它各項數值皆改變時,全距不能反應;此外,全距容易受兩極端數值的影響。

30 平均絕對離差(Mean absolute Deviation)
平均絕對離差係用以表示所有觀察值與平均數之絕對值差異距離。由於其係根據全部數值求得,故較全距感應靈敏,但因使用絕對值運算,較不易計算,故較不常使用。

31 變異數(Variance) 變異數係用以顯示一群體中所有數值與平均數離散的情形,應用最為廣泛。 未分組資料 母體變異數 樣本變異數

32 樣本變異數 母體變異數

33 標準差(Standard Deviation, SD)
標準差為變異數的正平方根 母體的標準差 樣本的標準差

34 變異係數(Coefficient of Variation, CV)
變異係數是由標準差變化而來的另一量數,為將標準差除以平均數所得。變異係數的主要功用是用以比較單位不同之多種資料的差異程度;或用以比較單位相同,但平均數不同之多種資料的差異程度。

35 四分位數距(Inter-quartile range)及四分差(Quartile Deviation, QD)
四分位差

36 各種離散趨勢量數的比較 全距:優點為計算容易,易於瞭解,缺點是只使用了資料中的極大值與極小值,不能充份表達資料的分散情況而且易受資料中的極端值的影響。 四分位距及四分位差:優點為使用第三及第一四分位數,避免受極端值的影響;但是和全距一樣,不能充份表達資料的分散情況。 平均絕對離差:相對於全距及四分位距等量數,平均絕對離差使用了全部的資料來計算;但是因為其運算是使用絕對值的方式,在計算上較為不便。 變異數:和平均絕對離差一樣,變異數在計算上使用了全部的資料,而且其計算較為方便;但是變異數較平均容易受極端值的影響、

37 契比雪夫不等式(Chebyshev’s Inequality)

38 相對位置量數(Measures of Relative Position)
百分位數 四分位數 標準分數

39 百分位數(Percentile) 將原始資料由小至大排序後,累積次數到達第k%的觀察值,稱為第k百分位數;其表示方法為「Pk」

40 原始資料 以遞增方式將原始資料排序,(1)≦X(2)≦、、≦X(n) 當kn/100為整數時,使用內差法的公式為

41 當kn/100不為整數時,使用內差法的公式為

42 分組資料:

43 四分位數(Quartile) 為百分位數的特殊應用,亦即第一個四分位數(Q1)代表第二十五百分位數、第二個四分位數(Q2) 代表第五十百分位數,亦為中位數,第三個四分位數(Q3)則為第七十五百分位數。

44 標準分數(Standard score)

45 分配形態量數(Measure of Distribution Shape)
動差 偏態 峰度

46 動差 定義:一群數字資料中每個數值與某特定值差異之r次方的平均數,稱為r階動差。 概約動差 對任一實數a為特定值之動差,又稱之為輔助動差。

47 原動差:當 a = 0 時之動差 主要動差:當 a = 時之動差

48 偏態(skewness)係數 動差法 Pearson法 對稱分配 右偏分配 左偏分配 M0:眾數 Md:中位數 a. SK = 0對稱分配
b. SK > 0右偏分配 c. SK < 0左偏分配

49 正負偏態時,平均數、中位數、和眾數的關係

50 峰度係數 則此分配為常態峰 則此分配為高狹峰 則此分配為低闊峰


Download ppt "敍述統計學 許明宗."

Similar presentations


Ads by Google