Download presentation
Presentation is loading. Please wait.
1
第二章 統計學概論
2
2.1資料蒐集 統計學係將資料蒐集後經過一定程序處理、分析、詮釋及比較,並以圖表、曲線或數值等,表現其結果的一種科學。基本上統計學之作業方式概分為兩大層面: 演譯統計學:分析及描述一個事件。 歸納統計學:以有限樣本及機率推估整體之發展傾向。 統計資料是由研究對象之群體 (population) 中依研究個體特性採取調查或抽樣方式所獲得相關資料,以做為研究基礎。
3
2.1.1 調查法 抽樣調查係針對某項特定對象以直接接觸方式獲得資料,如:訪問、觀察或量測等,或以間接接觸的方式獲得資料,如:問卷調查。調查範圍可分為普查(census) / 百分之百檢驗 (100% inspection) 及抽樣檢驗 (sampling inspection) 兩大類。
4
一、簡單隨機抽樣 簡單隨機抽樣 (simple random sampling) 係將物件編號後以指定亂數表 (附錄A) 位置之方式執行抽樣,惟不重複選取。 如由100件物料中需抽取10件樣本檢驗,可先將100件物料編號 (00至99),並指定由亂數表第10列,第1行開始取樣,其結果為抽取編號為:81、62、83、61、00、29、25、45、68及35等物件。
5
二、分層隨機抽樣 分層隨機抽樣 (stratified random sampling) 係將群 體分為若干層,再由每一層中抽取相同數量樣本。 分層比例抽樣: 依各層產品的數量 (Ni) 之比例決定各 層之抽樣樣本數 (ni)。 其中 ,N=群體數,Ni = 各 層產品數量,ni = 各層的本數,n = 樣 本數,k = 層數。
6
紐門抽樣 紐門抽樣 依各層產品數量 (Ni) 及其標準差 (σi) 相乘之值 (nNi) 的比率,決定各層抽樣的樣本數 (ni)。 其中 ,nNi= Ni × σi,σi = 各層產品之標準差,Ni = 各層產品數量,ni = 各層的樣本數,n = 樣本數,k = 層數。
7
戴明抽樣 戴明抽樣 依各層產品數量 (Ni)、標準差 (σi) 與檢驗成本 (Ci), 決定抽樣數量 (ni)。 其中 ,Ci = 各層樣本檢驗成本,σi = 各 層產品的標準差,Ni = 各層的產品數量, ni = 各層樣本數,n = 樣本數,k = 層數。
8
常態抽樣 三、常態抽樣 若量測資料屬常態分布,其管制上下限範圍 (XL至XU) 內發生之機率為 ,如圖2.1所示。
9
常態抽樣 其信賴水準為 1- a,XL 為管制下限,XU 為管制上 限, (1- a) ×100% 的信賴區間為:中心值 誤差值, 即 其中 為樣本平均數,Z為標準常態分配值, 為群 體標準差。管制上下限範圍 (XL至XU) 離中心值 ( ) 之差距為誤差 (e)。由上式知,雙邊規格之估 計最大誤差 (精確度) 為:
10
常態抽樣 因此當信賴度達 (1- a) % 時,其最少的樣本數為: 當管制雙邊規格時,a = 0.05,其 Z1- a/2 = Z0.975 = 1.96;當管制單邊規格時, a = 0.05,其Z1- a/ = Z0.95 = 1.645。
11
抽樣 四、系統抽樣 五、群集抽樣 系統抽樣 (systematic sampling) 係將物件依一定順序排列,每隔一定數量取一件。
群集抽樣 (cluster random sampling) 係將群體分為若干類 (或族),每類即稱為一個群集,再由整個群集中隨機抽取部份群集,並將抽中的群集予以全部檢驗。
12
抽樣 六、多段群集抽樣 多段群集抽樣 (multi-stage cluster sampling) 係將群體 分成若干群集,再由各群集中再分成若干個次群集, 如此接續分類,最後再由最低群集中隨機抽取部份 群集做為代表,並將抽到的群集執行100% 檢驗,其 執行方式類似群集抽樣。
13
抽樣檢驗 抽樣檢驗必須能反應出產品之變異,其中產品製程變異概可分為兩類: 各類抽樣方式對群體資料之蒐集及其適用狀況,如表2.1所示。
組間變異:係指同一產品於不同層級區間內所生產的產品 (如:不同生產線、不同時段、不同廠區、不同作業員或不同環境等),該產品間之變異即為組間變異; 組內變異:係指同一產品於相同層級區間內所生產的產品,該產品間之變異即為組內變異。 各類抽樣方式對群體資料之蒐集及其適用狀況,如表2.1所示。
14
抽樣設計
15
例題 2.1 解
16
例題 2.1 nNi= Ni × σi
17
例題 2.2 解
18
2.2 資料描述 資料蒐集後須進一步整理,以配合作業需求予以分析,並以適當圖表、曲線或警戒值表示,方能成為有用資訊。一般常用的統計描述方式,如:圓形圖、長條圖、曲線圖及體積圖等;另枝葉圖 / 莖葉圖 (stem-and-leaf display) 亦為資料描述的方法之一,其繪製方式如下: 莖:前置數字 (leading letter) 係取量測數據前一、二、或多位數,由大至小排成一行,並以垂線區隔,如量測數據為三位數,則取前兩位數字為前置數字,其餘類推。 葉:將量測數字除去前置數字所剩下數字,依序排列在相對應的橫列上。
19
例題 2.3
20
例題 2.3 解
21
例題 2.3
22
2.3 資料特性 一、連續資料
23
資料特性 二、不連續資料
24
2.4 次數分配 次數分配係將蒐集之資料依其屬性、數量或發生之頻率等分類,用以顯示資料分布狀況。
25
次數分配
26
2.5 集中趨勢的量數 統計量之集中趨勢 (central tendency) 係指量測數據向中央集中的程度。其代表值可以平均數 (mean)、中位數 (median) 或眾數 (mode) 予以量化描述。
27
2.5.1 平均數 平均數之計算分為連續資料與不連續資料兩類:
28
2.5.1 平均數 在有限群體中,不連續資料之平均數計算方式可分為算術平均數及加權平均數,
其中算術平均數視每個量測值的重要程度均相同;加權平均數則視量測值的重要性賦予一個權重值 (weight)。 平均數的計算方式依量測值的形式分為:未分組數據之計算方式 (none-frequency distribution) 及分組數據之計算方式 (frequency distribution) 兩種。 平均數計算會使用所有量測值,所以容易受極端值 (extreme values) 影響。
29
未分組數據之計算方式 群體平均數 其中μ = 群體平均數,Xi = 量測數據,N = 群體數。
30
分組數據之計算方式 二、分組數據之計算方式
其中 = 樣本平均數, (樣本數),fj = 第j 組的樣本數,mj = 第j組樣本之中值,k = 組數。
31
加權平均數 三、加權平均數之計算方式 其中 = 加權平均數,Wi = 權重數,Xi = 量測值, n = 樣本數。
32
例題 2.4 解
33
例題 2.5 解
34
例題 2.6
35
例題 2.6 解
36
例題 2.7
37
例題 2.7 解
38
例題 2.8 解
39
2.5.2 中位數 中位數 (Medium, Md) 係指一系列有次序的量測值, 依大小順序排列其中間位置的值。中位數係以50% 處的量測值為代表,不受極端值影響,因此當量測 值有極端值出現時,以中位數表示量測資料比用平 均數恰當。
40
未分組數據之計算方式 當一組量測數據屬未分組時,先將該組量測數據依 大小順序排列。若該組量測數據的數量為奇數,則 中位數為該組量測數據之中間位置之數值;若該組 量測數據的數量為偶數,則中位數為該組量測數據 中間兩個數值之平均數。
41
分組數據之計算方式 當一系列數據已分組時,則先依據各組數據分布情形找出中位數所在之組,再以資料最小值端開始起算其近似中位數為:
其中 Md = 中位數, Lm = 中位數所在組的下組界, n = 總發生次數, cfm = Lm 以前各組之累積發生次數, fm = 中位數所在的組之發生次數, i = 組距。
42
例題 2.9 解
43
例題 2.10 解
44
例題 2.11
45
例題 2.11 解
46
2.5.3 眾數 眾數(Mode, Mo) 係指一系列有次序的量測數據中,發生次數最多的數值。當出現次數愈多時,其所占的比重愈大,愈具代表性。 當眾數出現次數超過量測數據一半以上,則眾數將趨近算術平均數,且其分布趨近左右對稱之單峰分布。 眾數不受極端值影響,當量測數據為左偏或右偏時,眾數比平均數更具代表性。
47
2.5.3 眾數 一、未分組數據之計算方式 若量測數據為:11、12、15、14、12、13、12、16,其中12出現3次 (最多),所以該組數據僅有單一眾數13; 若量測數據為:11、12、11、14、12、13、12、11,其中12出現3次,另11亦出現3次,兩者均為出現最多的數,所以該組數據具有雙眾數 (11、12)。
48
分組數據之計算方式 若數據係以分組形式記錄其量測數據,則眾數將落在量測次數最多那一組,該組的中值即為該次數分布的眾數,由於量測次數最多的組其前後量測數量不完全相同,因此可以內插法求其眾數,其計算方式為: 其中 Mo = 眾數;Lmo = 眾數所在的組之下組界: f1 = 與眾數組上組界相鄰之發生次數;f-1 = 與眾數組下組界相鄰組之發生次數;i = 組距。
49
例題 2.12
50
例題 2.12 解
51
2.6 離散趨勢的量數 統計量之離散趨勢 (dispersion tendency) 係描述所量測數據之散布情形或偏離中心兩側的程度。
一般離散趨勢係以量測數據之標準差 (standard deviation)、變異數 (variation)、全距 (range) 及四分位差 (quartile deviation) 等描述其離散程度。
52
2.6.1 變異數與標準差
53
變異數與標準差 若量測數據為1、2、3、4、5,其平均數為3,各數 據與3之差距,如圖2.7所示。
若僅以誤差 (e) 總和表示其誤差為0,若以平方和 (SS) 表示,則為10。因此量測值間變異不宜以誤差 和表示,應以誤差平方和表之。
54
變異數與標準差
55
群體與樣本的變異數與標準差之計算方式 一、未分組數據之計算方式
群體變異數 (V) 與標準差 (σ) 設群體有N個量測數值 X1, X2, … , XN,群體平均數為μ, 則Xi 之誤差 (e) =Xi-μ,則平方和、變異數及標準差為: 平方和 (SS) = 群體變異數(V)= 群體標準差 (σ) =
56
群體與樣本的變異數與標準差 樣本變異數 (S2) 與標準差 (S) 若由群體 (N)中隨機抽取n個樣本,其量測值為X1, X2,…, Xn,其樣本平均數為 ,則該樣本之變異數及標準差為: 樣本變異數(S2) = 樣本標準差(S) =
57
群體與樣本的變異數與標準差 二、分組數據之計算方式
群體變異數 (V) 與標準差 (σ) 群體變異數 (V) = 群體標準差 (σ) = 其中 fj = 第j組的量測次數,Xj = 第j組的中值,k = 組數。
58
群體與樣本的變異數與標準差 樣本變異數 (S2) 與標準差 (S) S2= S=
59
例題 2.13 解
60
例題 2.13
61
例題 2.14 解
62
例題 2.14
63
例題 2.15 解
64
例題 2.15
65
例題 2.16(分組數據)
66
例題 2.16(分組數據) 解
67
2.6.2 全距 全距 (Range, R) 係量測數據之最大值與最小值之差 異,亦可指定某量測範圍之間的最大值與最小值之 間的差異。
1.未分組數據之計算方式 依量測數據大小排列,X1 ≤ X2 ≤ … ≤ Xn,R=Xn-X1 2.分組數據之計算方式 R=Uk - L1,其中Uk為最後一組的上限,L1為最初一組 的下限。
68
例題 2.17 解
69
2.6.3 四分位差 四分位差係將量測數據依大小排列,分為四等份。由最小值算起第一個四分之一的區分點即為第一四分位,以Q1表之;類推至第二個四分位,即中位數,以Q2表之; 類推至第三個四分位,以Q3表之。Q3-Q1為四分位距 (quartile range),四分位差Q = (Q3-Q1) /2,其表示方式以盒 (箱) 形圖表之,如圖2.8所示。
70
四分位差
71
四分位 一、未分組數據之計算方式 其中 X = 量測值,j = 四分位的位置,n = 樣本數。
72
四分位 二、分組數據之計算方式 其中Lk在第k組的下組界,fk=Qj在第k組的發生次數, h=Qj在第k組的組距,Fk-1=Qj在第k-1組以前的累積 次數,n = 樣本數。
73
例題 4.18 解
74
例題 4.18 (2.3)
75
例題 4.19(分組數據) 解
76
例題 4.19
77
例題 2.20
78
例題 2.20 解
79
2.7 聚中與離散趨勢之探討 平均數 > 中位數 > 眾數 平均數 < 中位數 < 眾數
平均數 = 中位數 = 眾數 平均數 < 中位數 < 眾數
80
聚中與離散趨勢 對稱分布:平均數 = 中位數 = 眾數。 右偏分布 (正偏) :平均數 > 中位數 > 眾數。
左偏分布 (負偏) :平均數 < 中位數 < 眾數。
81
2.7.1 偏度 偏度 (skewness) 係指一個分配以其平均數為中心的不對稱程度,亦即量測次數分布之偏移方向與偏斜程度之值。
82
偏度 偏度對量測數據之影響,如圖2.10所示: SK = 0,表示數據分布為對稱性之常態分布; SK > 0,表示數據分布為右偏;
83
例題 2.21 解
84
例題 2.22 解
85
例題 2.22
86
2.7.2 峰度 峰度 (kurtosis) 係指一個分布與常態分布相比較時,其資料相對尖峰集中或平坦分布的程度。正峰度值表示分布較為集中,而負峰度值則表示分布較為平坦。
87
峰度 常態分布之KU = 3。若該量測數據 KU < 3,則該量測數據分布屬低潤 (platy) 的峰態。若該量測數據 KU > 3,則該量測數據分布屬高狹 (lepto) 的峰態,如圖2.11所示。
88
峰度
89
例題 2.23 解
90
例題 2.23
91
2.7.3 相對離散趨勢 當衡量數據之離散程度時必須在相同衡量單位,且平均數相近情況下,其比較才具有意義。
2.7.3 相對離散趨勢 當衡量數據之離散程度時必須在相同衡量單位,且平均數相近情況下,其比較才具有意義。 常用的相對離散量為變異係數 (Coefficient of Variation, CV) 係同時考量標準差與平均數之比,以評估品質差異。 變異係數愈大表示資料愈分散,其平均數代表性愈低;反之,表示資料愈集中,其平均數代表性愈高。
92
例題 2.24 解
93
2.8 中央極限定理 群體為常態分配,不論n取多少,其樣本平均數 ( ) 的分布一定為常態分配。
94
中央極限定理 不論每次抽取多少個樣本 (一般大於3),其樣本平均數 ( ),或其標準差的平均數 ( ) 之分布將趨近常態分配,且樣本平均數 ( ) 的平均數 ( ) 將趨近於群體平均數 (μ) ; 樣本平均數 ( ) 的標準差 ( ) (亦稱為標準誤) 與群體標準差 (σ) 之間差倍,即:
95
例題 2.25
96
例題 2.25 解
97
例題 2.25
98
例題 2.26
99
例題 2.26 解
100
例題 2.27 解
101
2.9柴比雪夫定理 柴比雪夫 (Chebyshev) 定理為:一群體量測值 X1, X2, … , XN,其平均數及標準差為μ及σ,則其量測值落在 (μ-kσ, μ+kσ) 之間的比例至少有1-(1/k2),k ≥ 1。
102
例題 2.28 解
103
例題 2.28
104
例題 2.29 解
Similar presentations