第二章統計學概論.

第二章統計學概論

2.1資料蒐集統計學係將資料蒐集後經過一定程序處理、分析、詮釋及比較，並以圖表、曲線或數值等，表現其結果的一種科學。基本上統計學之作業方式概分為兩大層面：演譯統計學：分析及描述一個事件。歸納統計學：以有限樣本及機率推估整體之發展傾向。統計資料是由研究對象之群體 (population) 中依研究個體特性採取調查或抽樣方式所獲得相關資料，以做為研究基礎。

2.1.1 調查法抽樣調查係針對某項特定對象以直接接觸方式獲得資料，如：訪問、觀察或量測等，或以間接接觸的方式獲得資料，如：問卷調查。調查範圍可分為普查(census) / 百分之百檢驗 (100% inspection) 及抽樣檢驗 (sampling inspection) 兩大類。

一、簡單隨機抽樣簡單隨機抽樣 (simple random sampling) 係將物件編號後以指定亂數表 (附錄A) 位置之方式執行抽樣，惟不重複選取。如由100件物料中需抽取10件樣本檢驗，可先將100件物料編號 (00至99)，並指定由亂數表第10列，第1行開始取樣，其結果為抽取編號為：81、62、83、61、00、29、25、45、68及35等物件。

二、分層隨機抽樣分層隨機抽樣 (stratified random sampling) 係將群體分為若干層，再由每一層中抽取相同數量樣本。分層比例抽樣：依各層產品的數量 (Ni) 之比例決定各層之抽樣樣本數 (ni)。其中，N=群體數，Ni = 各層產品數量，ni = 各層的本數，n = 樣本數，k = 層數。

紐門抽樣紐門抽樣依各層產品數量 (Ni) 及其標準差 (σi) 相乘之值 (nNi) 的比率，決定各層抽樣的樣本數 (ni)。其中，nNi= Ni × σi，σi = 各層產品之標準差，Ni = 各層產品數量，ni = 各層的樣本數，n = 樣本數，k = 層數。

戴明抽樣戴明抽樣依各層產品數量 (Ni)、標準差 (σi) 與檢驗成本 (Ci)，決定抽樣數量 (ni)。其中，Ci = 各層樣本檢驗成本，σi = 各層產品的標準差，Ni = 各層的產品數量， ni = 各層樣本數，n = 樣本數，k = 層數。

常態抽樣三、常態抽樣若量測資料屬常態分布，其管制上下限範圍 (XL至XU) 內發生之機率為，如圖2.1所示。

常態抽樣其信賴水準為 1- a，XL 為管制下限，XU 為管制上限， (1- a) ×100% 的信賴區間為：中心值誤差值，即其中為樣本平均數，Z為標準常態分配值，為群體標準差。管制上下限範圍 (XL至XU) 離中心值 ( ) 之差距為誤差 (e)。由上式知，雙邊規格之估計最大誤差 (精確度) 為：

常態抽樣因此當信賴度達 (1- a) % 時，其最少的樣本數為：當管制雙邊規格時，a = 0.05，其 Z1- a/2 = Z0.975 = 1.96；當管制單邊規格時， a = 0.05，其Z1- a/ = Z0.95 = 1.645。

抽樣四、系統抽樣五、群集抽樣系統抽樣 (systematic sampling) 係將物件依一定順序排列，每隔一定數量取一件。
群集抽樣 (cluster random sampling) 係將群體分為若干類 (或族)，每類即稱為一個群集，再由整個群集中隨機抽取部份群集，並將抽中的群集予以全部檢驗。

抽樣六、多段群集抽樣多段群集抽樣 (multi-stage cluster sampling) 係將群體分成若干群集，再由各群集中再分成若干個次群集，如此接續分類，最後再由最低群集中隨機抽取部份群集做為代表，並將抽到的群集執行100% 檢驗，其執行方式類似群集抽樣。

抽樣檢驗抽樣檢驗必須能反應出產品之變異，其中產品製程變異概可分為兩類：各類抽樣方式對群體資料之蒐集及其適用狀況，如表2.1所示。
組間變異：係指同一產品於不同層級區間內所生產的產品 (如：不同生產線、不同時段、不同廠區、不同作業員或不同環境等)，該產品間之變異即為組間變異；組內變異：係指同一產品於相同層級區間內所生產的產品，該產品間之變異即為組內變異。各類抽樣方式對群體資料之蒐集及其適用狀況，如表2.1所示。

抽樣設計

例題 2.1 解

例題 2.1 nNi= Ni × σi

例題 2.2 解

2.2 資料描述資料蒐集後須進一步整理，以配合作業需求予以分析，並以適當圖表、曲線或警戒值表示，方能成為有用資訊。一般常用的統計描述方式，如：圓形圖、長條圖、曲線圖及體積圖等；另枝葉圖 / 莖葉圖 (stem-and-leaf display) 亦為資料描述的方法之一，其繪製方式如下：莖：前置數字 (leading letter) 係取量測數據前一、二、或多位數，由大至小排成一行，並以垂線區隔，如量測數據為三位數，則取前兩位數字為前置數字，其餘類推。葉：將量測數字除去前置數字所剩下數字，依序排列在相對應的橫列上。

例題 2.3

例題 2.3 解

例題 2.3

2.3 資料特性一、連續資料

資料特性二、不連續資料

2.4 次數分配次數分配係將蒐集之資料依其屬性、數量或發生之頻率等分類，用以顯示資料分布狀況。

次數分配

2.5 集中趨勢的量數統計量之集中趨勢 (central tendency) 係指量測數據向中央集中的程度。其代表值可以平均數 (mean)、中位數 (median) 或眾數 (mode) 予以量化描述。

2.5.1 平均數平均數之計算分為連續資料與不連續資料兩類：

2.5.1 平均數在有限群體中，不連續資料之平均數計算方式可分為算術平均數及加權平均數，
其中算術平均數視每個量測值的重要程度均相同；加權平均數則視量測值的重要性賦予一個權重值 (weight)。平均數的計算方式依量測值的形式分為：未分組數據之計算方式 (none-frequency distribution) 及分組數據之計算方式 (frequency distribution) 兩種。平均數計算會使用所有量測值，所以容易受極端值 (extreme values) 影響。

未分組數據之計算方式群體平均數其中μ = 群體平均數，Xi = 量測數據，N = 群體數。

分組數據之計算方式二、分組數據之計算方式
其中 = 樣本平均數， (樣本數)，fj = 第j 組的樣本數，mj = 第j組樣本之中值，k = 組數。

加權平均數三、加權平均數之計算方式其中 = 加權平均數，Wi = 權重數，Xi = 量測值， n = 樣本數。

例題 2.4 解

例題 2.5 解

例題 2.6

例題 2.6 解

例題 2.7

例題 2.7 解

例題 2.8 解

2.5.2 中位數中位數 (Medium, Md) 係指一系列有次序的量測值，依大小順序排列其中間位置的值。中位數係以50% 處的量測值為代表，不受極端值影響，因此當量測值有極端值出現時，以中位數表示量測資料比用平均數恰當。

未分組數據之計算方式當一組量測數據屬未分組時，先將該組量測數據依大小順序排列。若該組量測數據的數量為奇數，則中位數為該組量測數據之中間位置之數值；若該組量測數據的數量為偶數，則中位數為該組量測數據中間兩個數值之平均數。

分組數據之計算方式當一系列數據已分組時，則先依據各組數據分布情形找出中位數所在之組，再以資料最小值端開始起算其近似中位數為：
　其中　Md = 中位數，　　　 Lm = 中位數所在組的下組界，　　　 n = 總發生次數，　　　　cfm = Lm 以前各組之累積發生次數，　　　　fm = 中位數所在的組之發生次數，　　　 i = 組距。

例題 2.9 解

例題 2.10 解

例題 2.11

例題 2.11 解

2.5.3　眾數眾數(Mode, Mo) 係指一系列有次序的量測數據中，發生次數最多的數值。當出現次數愈多時，其所占的比重愈大，愈具代表性。當眾數出現次數超過量測數據一半以上，則眾數將趨近算術平均數，且其分布趨近左右對稱之單峰分布。眾數不受極端值影響，當量測數據為左偏或右偏時，眾數比平均數更具代表性。

2.5.3　眾數一、未分組數據之計算方式若量測數據為：11、12、15、14、12、13、12、16，其中12出現3次 (最多)，所以該組數據僅有單一眾數13；若量測數據為：11、12、11、14、12、13、12、11，其中12出現3次，另11亦出現3次，兩者均為出現最多的數，所以該組數據具有雙眾數 (11、12)。

分組數據之計算方式若數據係以分組形式記錄其量測數據，則眾數將落在量測次數最多那一組，該組的中值即為該次數分布的眾數，由於量測次數最多的組其前後量測數量不完全相同，因此可以內插法求其眾數，其計算方式為：　其中 Mo = 眾數；Lmo = 眾數所在的組之下組界： f1 = 與眾數組上組界相鄰之發生次數；f-1 = 與眾數組下組界相鄰組之發生次數；i = 組距。

例題 2.12

例題 2.12 解

2.6 離散趨勢的量數統計量之離散趨勢 (dispersion tendency) 係描述所量測數據之散布情形或偏離中心兩側的程度。
一般離散趨勢係以量測數據之標準差 (standard deviation)、變異數 (variation)、全距 (range) 及四分位差 (quartile deviation) 等描述其離散程度。

2.6.1 變異數與標準差

變異數與標準差若量測數據為1、2、3、4、5，其平均數為3，各數據與3之差距，如圖2.7所示。
若僅以誤差 (e) 總和表示其誤差為0，若以平方和 (SS) 表示，則為10。因此量測值間變異不宜以誤差和表示，應以誤差平方和表之。

變異數與標準差

群體與樣本的變異數與標準差之計算方式一、未分組數據之計算方式
群體變異數 (V) 與標準差 (σ) 設群體有N個量測數值 X1, X2, … , XN，群體平均數為μ，則Xi 之誤差 (e) =Xi－μ，則平方和、變異數及標準差為：平方和 (SS) ＝群體變異數(V)＝群體標準差 (σ) ＝

群體與樣本的變異數與標準差樣本變異數 (S2) 與標準差 (S) 若由群體 (N)中隨機抽取n個樣本，其量測值為X1, X2,…, Xn，其樣本平均數為，則該樣本之變異數及標準差為：樣本變異數(S2) ＝樣本標準差(S) ＝

群體與樣本的變異數與標準差二、分組數據之計算方式
群體變異數 (V) 與標準差 (σ) 群體變異數 (V) ＝群體標準差 (σ) ＝其中 fj = 第j組的量測次數，Xj = 第j組的中值，k = 組數。

群體與樣本的變異數與標準差樣本變異數 (S2) 與標準差 (S) S2＝ S＝

例題 2.13 解

例題 2.13

例題 2.14 解

例題 2.14

例題 2.15 解

例題 2.15

例題 2.16(分組數據)

例題 2.16(分組數據) 解

2.6.2 全距全距 (Range, R) 係量測數據之最大值與最小值之差異，亦可指定某量測範圍之間的最大值與最小值之間的差異。
1.未分組數據之計算方式依量測數據大小排列，X1 ≤ X2 ≤ … ≤ Xn，R＝Xn-X1 2.分組數據之計算方式 R＝Uk - L1，其中Uk為最後一組的上限，L1為最初一組的下限。

例題 2.17 解

2.6.3 四分位差四分位差係將量測數據依大小排列，分為四等份。由最小值算起第一個四分之一的區分點即為第一四分位，以Q1表之；類推至第二個四分位，即中位數，以Q2表之；類推至第三個四分位，以Q3表之。Q3－Q1為四分位距 (quartile range)，四分位差Q = (Q3－Q1) /2，其表示方式以盒 (箱) 形圖表之，如圖2.8所示。

四分位差

四分位一、未分組數據之計算方式其中 X = 量測值，j = 四分位的位置，n = 樣本數。

四分位二、分組數據之計算方式其中Lk在第k組的下組界，fk＝Qj在第k組的發生次數， h＝Qj在第k組的組距，Fk-1＝Qj在第k-1組以前的累積次數，n = 樣本數。

例題 4.18 解

例題 4.18 (2.3)

例題 4.19(分組數據) 解

例題 4.19

例題 2.20

例題 2.20 解

2.7 聚中與離散趨勢之探討平均數 > 中位數 > 眾數平均數 < 中位數 < 眾數
平均數 = 中位數 = 眾數平均數 < 中位數 < 眾數

聚中與離散趨勢對稱分布：平均數 = 中位數 = 眾數。右偏分布 (正偏) ：平均數 > 中位數 > 眾數。
左偏分布 (負偏) ：平均數 < 中位數 < 眾數。

2.7.1 偏度偏度 (skewness) 係指一個分配以其平均數為中心的不對稱程度，亦即量測次數分布之偏移方向與偏斜程度之值。

偏度偏度對量測數據之影響，如圖2.10所示： SK = 0，表示數據分布為對稱性之常態分布； SK > 0，表示數據分布為右偏；

例題 2.21 解

例題 2.22 解

例題 2.22

2.7.2 峰度峰度 (kurtosis) 係指一個分布與常態分布相比較時，其資料相對尖峰集中或平坦分布的程度。正峰度值表示分布較為集中，而負峰度值則表示分布較為平坦。

峰度常態分布之KU = 3。若該量測數據 KU < 3，則該量測數據分布屬低潤 (platy) 的峰態。若該量測數據 KU > 3，則該量測數據分布屬高狹 (lepto) 的峰態，如圖2.11所示。

峰度

例題 2.23 解

例題 2.23

2.7.3 相對離散趨勢當衡量數據之離散程度時必須在相同衡量單位，且平均數相近情況下，其比較才具有意義。
2.7.3 　相對離散趨勢當衡量數據之離散程度時必須在相同衡量單位，且平均數相近情況下，其比較才具有意義。常用的相對離散量為變異係數 (Coefficient of Variation, CV) 係同時考量標準差與平均數之比，以評估品質差異。變異係數愈大表示資料愈分散，其平均數代表性愈低；反之，表示資料愈集中，其平均數代表性愈高。

例題 2.24 解

2.8 中央極限定理群體為常態分配，不論n取多少，其樣本平均數 ( ) 的分布一定為常態分配。

中央極限定理不論每次抽取多少個樣本 (一般大於3)，其樣本平均數 ( )，或其標準差的平均數 ( ) 之分布將趨近常態分配，且樣本平均數 ( ) 的平均數 ( ) 將趨近於群體平均數 (μ) ；樣本平均數 ( ) 的標準差 ( ) (亦稱為標準誤) 與群體標準差 (σ) 之間差倍，即：

例題 2.25

例題 2.25 解

例題 2.25

例題 2.26

例題 2.26 解

例題 2.27 解

2.9柴比雪夫定理柴比雪夫 (Chebyshev) 定理為：一群體量測值 X1, X2, … , XN，其平均數及標準差為μ及σ，則其量測值落在 (μ－kσ, μ＋kσ) 之間的比例至少有1－(1/k2)，k ≥ 1。

例題 2.28 解

例題 2.28

例題 2.29 解

第二章統計學概論.

Similar presentations

Presentation on theme: "第二章統計學概論."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第二章 統計學概論.

Similar presentations

Presentation on theme: "第二章 統計學概論."— Presentation transcript:

Similar presentations

About project

反馈

第二章統計學概論.

Presentation on theme: "第二章統計學概論."— Presentation transcript: