Download presentation
Presentation is loading. Please wait.
1
作者:游明新 指導教授:童超塵教授 報告學生:吳志權
多變量管制圖之比較與探討 作者:游明新 指導教授:童超塵教授 報告學生:吳志權
2
目錄 第一章 序論 研究背景 研究的目的與方向 研究架構 第二章 文獻探討 多變量管制圖
H o t e l l i n g T 2 多變量管制圖 H o t e l l i n g ’ T2衍生出的診斷方法 主成分分析法(PCA ) MYT 分解法 殘差管制圖 第三章 診斷方法的應用與比較 比較診斷方法在實際案例之使用 比較診斷方法在模擬資料之使用 改建流程之主成分分析法(MPCA) 診斷方法的模擬結果與比較(模擬一) 診斷方法的模擬結果與比較(模擬二) 第四章 結論與建議
3
第一章 序論 研究背景 良好的產品品質是許多企業永續經營的關鍵,達到此目標的方法之ㄧ應用統計製程管制方法.
統計製程管制方法主要的有蕭華特( Shewhart) 管制圖、累積和(CUSUM) 以及指數加權移動平均(EWMA) 以上這些單變量管制圖卻也只能對製程中的單一個品質特性作個別監控,所以無法完全解決現今高複雜度產品的品質偵測問題 所以學者利用單變量管制圖的觀念, 進而發展出不同的多變量管制圖, 其中又以Hotelling’s T2、MCUSUM 及MEWMA 三種方法最為廣受討論 Hotelling’s T2 綜合Shewhart 單變量管制圖的觀念而得 MCUSUM 及MEWMA 則是由單變量的CUSUM、EWMA 演變而成
4
研究的目的與方向 目的:探討當資料相關性不同時各診斷方法的特性 以及比較其優缺點其可以改善的地方, 以 期在使用多變量管制圖來監控品質時能有更 佳的表現。 方向 : 1. 探討比較資料在相關程度不同下之多變量管 制圖診斷方法的差異點。 2. 建構一個多變量相關性資料的管制流程。
5
研究架構
6
第二章 文獻探討 多變量管制圖 傳統的管制圖如Shewhart、CUSUM 和EWMA最大缺點便是將這些品質 特性視為彼此獨立的變數
如圖,兩個變數( Y1,Y2)彼此具有相關性,以二元變數來看信賴區間應為橢圓 分佈之圖形,如只用單變量管制圖來測, 其結果判斷為製程正常.這就是使用 單變量管制圖很容易會有誤判的情形發生 相關係數ρ Y1,Y2 = 信賴區間為橢圓分布 多變量品質管制法就是為了因應這樣的想法所衍生出來的, 其做法為同時監控多 個品質特性, 並將多個變數之間的相關性納入考慮, 此種品質管制方法即稱為多 變量統計製程管制( Multivariate Statistical Process Control)
7
H o t e l l i n g T 2 多變量管制圖 從事多變量分析研究的首推Hotelling(1931)
其管制圖主要的想法是利用新觀察值與歷史資料平均值之間距離的概念 當A 點到中心點很遠時, d2 會很大,當d2 大到一定程度時, 我們即認為A 點顯著 中心點( x1 , x2 )為其資料平均值 從點A(x1,x2)到平均值的直線距離為
8
因為忽略了變數X1、X2 的變異數及相關性,所以我們就利用變數
得到一個卡方統計量 此統計量是自由度為2 的卡方分配,上式可說是多元管制圖的基礎,稱之橢圓管制圖 用卡方χ2 統計量來判定是否超出管制界限,如製程平均值改變, 則χ 2 統計量便會大於臨界值如果,落在橢圓管制外,反之,χ2 統計量小於臨界值,則表示在橢圓管制內
9
如果要管制p 個品質特性時,假設此p 個特性服從p 元常態分配,樣本大小為n,則以p × 1 的向量可表示這些品質
特性的平均值 每個樣本的統計檢定值為 μ=〔μ1 ,μ 2 ,⋯ ,μ p〕為製程在管制情況下每個品質特性平均值的向量,Σ則為共變異數矩陣。管制圖上限
10
H o t e l l i n g ’ T2衍生出的診斷方法 主成分分析法(PCA )
(principal component analysis) MYT 分解法 殘差管制圖
11
主成分分析法(PCA ) 由Karl Person 於1901 年首先提出 ,目的將資料中原有的P 個變數予以縮減,使其為K(≦P)個互相無關連的互相獨立的線性組合變項(主成分),以達到簡化資料的目的 主成分分析有三個重要目標: 要保有原來變數的資訊(即有代表性) 主成分之間不能重疊(即有獨立性) 能以少數幾個主成分代替原來多個變數(即有精簡性)
12
主成分分析的作法 由歷史資料( X) 所估計的共變異數矩陣S可求得該矩陣的 p
個特徵值為λ1、λ2、˙˙、λp (其中λ1≧λ2≧˙˙≧λp ), 及特徵值λi 所對應的特徵向量為ei 轉軸方程式 yi k = e’ kx i = e k1xi 1 + e k2xi 2 + ˙ ˙ + ekpxi p k=1,2,⋯,p 主成分的重要性質有 1. 第i 個主成分變異數等於第i 個特徵值,且各主成分之間的共變數為零 表示如下: 2.原始變數的變異數和會等於新變數的變異數和,即: tr(S) = λ 1+λ 2+˙˙˙+λ p 可找前k 個主成分的新變數來代替原有的p個變數,當變數之間相關性 高時,所需要的k就愈小,而其能解釋的變異佔總變異的比例也會相對 的較高,如此便可以達到降低變數個數的目的。
13
主成分變數可將Hotelling’ s T2 分解成下式
我們選出 較大的幾項;其中再藉此找出哪些原始變數x對ti有較大之貢獻,找出影響異常值最大的要素 使用多變量主成分分析的好處為: 1. 當變數個數很多且相關性頗高時,共變數矩陣(Σ )的逆矩陣(Σ - 1)不一定存在,因此無法用Hotelling’ s T2計算,使用主成分分析可解決這樣的問題。 2. 當觀測的變數個數很多時,主成分利用轉軸的方法,可經由原始變數線性組合後的新變數,來降低所要觀測的原始變數個數。
14
MYT 分解法 Mason,Young and Tracy (1995)利用T2的分解法提出一個診斷方法, 簡稱MYT
MYT就是利用其它變數給定條件下的方式來進行診斷。其方法主要是利用迴歸分析的方法將T2統計量分解成各個不同的獨立的部分,而每一獨立的部分均有其各自的T2值。利用歷史資料X,我們再利用最後一個變數Xp對前p-1 個變數X1、X2、˙˙˙、Xp - 1 做迴歸,得 預測方程式 及殘差平方和(SSE),其中 為參數的估計值 可將Hotelling ’ s T2分解成: 利用前p-1個變數針對第p個變數矯正後所得的T2 值 , 為上述迴歸式標準差估計值
15
節省計算的法則,其步驟如下: 步驟一:用 計算 , 如果 超出管制界限,第i個變數出了問題, 因此將這些變數移除, 而後再 計算剩餘k1個變數的T2 值,不顯著則表示出問題的觀察值已經全部找到, 但如果顯著則表示尚有變數依然可能有問題,則到下一步驟 步驟二:用 計算任兩個剩餘k1個變數的 也就是一個變數為條件的情況下,共有k1x(k1-1)個,如果T2i . j超出其界線,表示i、j這兩個變數可能有問題,有問題的變數挑出, 再計算剩餘變數k2的 T2 值,不顯著則表示出問題的觀察值的變數已經全部找到,如果顯著,則表示其餘的變數依然可能有問題,則須到步驟三 步驟三:再計算 所有可能的組合,如果超出其界線,表示這三個變數之間的關係可能有問題,把這些變數挑出,再計算剩餘變數的T2 值, 不顯著則表示出問題的觀察值的變數已經全部找到,如果顯著,則表示其 餘的變數依然可能有問題,如此一直往高階的找下去,直到剩 餘變數的T2 值不顯著為止
16
殘差管制圖 單變數管制圖會因為忽略變數間的相關性而造成誤判, 所以當變數互有相關時, 我們希望在討論某一變數是否有問題時, 能將其它變數對該變數之影響全部拿掉.所以我們利用每一變數對其它所有變數的複迴歸模式所求得的殘差值作為管制對象. 複迴歸模式為: 計算殘差和,記為SSEk。針對新觀察值 中的每一個單元,利用迴歸的方式排除其它變數的影響,所得之標準殘差為: , 通常我們在特定的型Ⅰ 誤差α 下, 可求得殘差管制上下界, 當標準殘差超出管制界限時, 我們則認為此觀察值在第k 個變數出現異常。
17
第三章 診斷方法的應用與比較 問題描述 MYT計算法則雖然可以減少所要計算的分解量,計算法則在變數低於5個時,或許還能解決部分計算繁瑣的問題, 但當變數個數更多時,這個法則就嫌不夠了.逐步排除的方式同時冒著診斷錯誤的風險,且MYT和殘差管制圖皆是由迴歸分析的觀念而來, 然而卻沒有考慮到自變數具有多重共線性而造成的影響, 這很可能在判斷製程出現異常之後, 在診斷哪個變數出問題上會有誤判的情形 . 主成分分析診斷的最大問題是「原始變數的偏移不一定會反映在主成分轉軸後的變數」,因此利用這些經主成分轉軸後的變數不一定能找出所有出問題的變數.
18
比較診斷方法在實際案例之使用 用熱傳輸的實際案例來比較PCA、MYT法 在此實例中,已知三變數均發生問題, 超出T2的管制界限
在型一誤差α=0.05下, 管制界限約 ±2
19
MYT 法 (實例) 第三個變數X3在變數X1、X2 現在有一組觀察值 可得 T2=12.03 > 可以知道這三個變數至少有一出現問題
同理 第三個變數X3在變數X1、X2 已知的條件下有問題
20
共可求得12項分解項目 第一個變數X1不論是本身或是在其它變數的條件下, 均可察覺出現了問題, 第二個變數X2與第三個變數X3在其它變數的條件下, 亦可察覺出現了問題, 由此可發現此觀察值的這三個變數均有問題, 這與實際案例可全符合。因此, 藉由這樣的方式我們即可把有問題的變數診斷出來。
21
PCA 法 (實例) 利用歷史資料的共變異數矩陣可求得特徵值與特徵值向量
t1= , t2= , t3= 並將標準化的 值畫分數圖 無法經此分量找出所有有問題的原始變數, 這也驗證原始變數的偏 移並不一定會反映在主成分轉軸後的變數,因此有可能會造成誤判
22
比較診斷方法在模擬資料之使用 討論多變量管制圖模擬一組五個變數,並滿足多維常態分配,的數據,此數據的前35筆數據視為歷史資料,在後15筆數據中,第一個變數X1標準差的部分增加50%,第五個變數X5向上偏移25%個標準差,採用此組數據,比較PCA、MYT計算法則等方法之判斷結果。 現在第13個樣本有一組觀察值 計算可得整體的T2 = , 此值超過管制界限, 因此可以知道這五個變數至少有一出現問題,在算樣本五個單元個別標準化之值
23
MYT 法 (模擬) 一個節省計算的法則,先計算第48個樣本所有個別的
將變數X1移除後再計算剩餘變數的T2值(16.37)依然顯著,表示其餘的變數依然可能出現問題。接著計算其餘四個變數所有可能的分解量 利用MYT計算法則我們發現1、4、5這三個變數可能有問 題,我們無法立即判定X4、X5到底哪一個變數有問題, 因 此利用這樣的計算法則有可能會增加有問題變數的個數。
24
PCA 法 (模擬) 首先利用歷史資料的相關係數矩陣可求得特徵值與特徵向量,分別 如下: 主成分的分量 ,表示如下
主成分的分量 ,表示如下 t1= ,t2= ,t3= ,t4= ,t5=0.5749 將標準化後的 值畫分數圖
25
當標準分數絕對值大於2.5時,則有必要繼續討論原始變數對此分量的貢獻量
原始變數在第二主成分分量之貢獻值 原始變數在第三主成分分量之貢獻值
26
MYT與PCA法在案例上之結果比較 由實際資料及模擬資料診斷問題變數的例子中可發現MYT 在三個變數的案例中可以將問題變數找出來,但在五個變數的模擬資料中,透過簡化的方法雖然可以減少須計算的分解量, 但卻會有誤判的情形產生.且可看出MYT 的計算過程中, 除了殘差的差距很大時會造成顯著之外,當變數之間具有高度相關時, 會造成判定係數過高,亦會造成顯著 PCA 在三個變數的案例中只能找出第一個變數,而在五個變數的例 子中卻可以把問題變數找出來,在這兩個例子當中,第一個變數與其他變數的相關係數都較低, 而其他變數之間的相關性較高.且主成分分析在變數具有較高程度相關時, 其轉軸的效果愈好, 相反的, 若是變數之間的相關程度不高,主成分分析就不具有太大意義。
27
改建流程之主成分分析法(MPCA) 在製程或品質變數獨立的情況下,我們可以利用Shewhart 、CUSUM及EWMA 等管制圖對個別變數進行監控,但在製程或品質變數不獨立時, 利用這些單變數管制圖會因為忽略變數間的相關性而造成誤判. MYT的計算過程中,當變數之間具有高度相關時, 會造成判定係數過高, 亦會造成顯著. 主成分分析在變數之間具有較高相關程度時,其使用的結果愈好,相反的,若是變數之間的相關程度不高,主成分分析就不具有太大意義. 所以用MPCA法, 利用變數之間的相關矩陣將變數分類, 將變數之間將相關性較低的變數提出,再把剩下來具有較高程度相關的變數再進行主成分分析,結合單變量管制圖的方法去診斷問題變數。
28
改建診斷流程之流程圖
29
MPCA法 (實例) 1. 首先以單變量管制圖找出發生問題之變數,把有問題的變數挑出
2.先由歷史資料求得變數間的Pearson相關係數矩陣及p-value以找出相關程度較低的變數 3. 將相關程度較低的變數予以個別管制,其他相關程度較高的變數進行主成分分析,以進一步找出有問題的變數。 4. X1以單變量管制圖來管制,可計算出其標準誤
30
t2=-9.191 , t3=2.6159 將標準化後的 值畫分數圖 5. 對X2與X3進行主成分分析,首先找出其特徵值和特徵向量。
主成分的分量,表示如下: t2= , t3= 將標準化後的 值畫分數圖 原始變數在第一主成分分量之貢獻值 原始變數在第二主成分分量之貢獻值
31
MPCA法(模擬) 1.首先以單變量管制圖找出發生問題之變數,把有問題的變數挑出.
2. 先由歷史資料求得變數間的Pearson相關係數矩陣及p-value以找出相關程度較低的變數。 3. 將相關程度較低的變數予以個別管制,其他相關程度較高的變數進行主成分分析,以進一步找出有問題的變數。
32
4. X1以單變量管制圖來管制,可計算出其標準誤
5.對X2、X3、X4及X5作主成分分析,首先找出其特徵值和 特徵向量。 主成分的分量,表示如下 t1= ,t2= ,t3= ,t4= 並將標準化後的 值畫分數圖
33
原始變數在第一主成分分量之貢獻值 原始變數在第二主成分分量之貢獻值 原始變數在第三主成分分量之貢獻值 原始變數在第四主成分分量之貢獻值
34
MPCA在實際資料及模擬資料上的結果 由實際資料及模擬資料這兩例子中,MPCA與PCA不同的地方是在進行診斷前,先以單變量方式將問題變數挑出,再以相關係數矩陣將剩下的變數分類,保留較高程度相關的變數進行主成分分析。由結果可看出,MPCA是可以將問題變數找出,當變數間有相關程度較小的變數存在時,它有可能會影響到診斷的結果,也就是當變數間相關性愈高時,主成分分析的轉軸才有意義。
35
診斷方法的模擬結果與比較(模擬一) 用SAS 6.11統計軟體分別模擬三、四及五個獨立的變數,以X1、X2、X3、X4及X5表示,然後以變數做一些不同的線性組合 求出Y1、Y2及Y3的樣本平均數、標準差及共變異數矩陣及相關係數矩陣,再計算出T2管制界限,在模擬中,我們考慮幾種不同的變異組合: 1 . 為了解在相關程度較低的變數出問題時,是否會影響其它相關程度較高的變數診斷結果: A組,設定第一個變數和其他變數相關係數較低不相關,其p-vale小於0.05,另一組則為B,其p-vale大於0.05。 2. 我們模擬平均數的偏移和變異數的偏移共有三種情況,第一種為標準差增加25%,以V表示,第二種為標準差增加50%,以H表示,第三種為平均數向上偏移0.5倍的標準差,以M表示。(OXO)表示第二個變數作變動。
36
三個變數模擬結果 四個變數模擬結果 五個變數模擬結果
37
(模擬二) 用SAS 6.11統計軟體模擬四個獨立的變數,以X1、X2、X3及X4表示,然後以這四個變數做一些不同的線性組合
求出Y1、Y2、Y3及Y4的樣本平均數、標準差及共變異數矩陣及相關係數矩陣,再計算出T2管制界限,在模擬中,我們考慮幾種不同的變異組合: 1.為了知道變數的平均數偏移和變異數偏移在診斷上的不同,我們模擬結合平均數的偏移和變異數的偏移,S表示變數向上偏移50%個標準差並且標準差增加25%。另外模擬第一個變數有兩種偏移,分別是平均數上及變異數上的偏移了。M表示向上偏移50%個標準差,V表示標準差增加25%. 2.模擬了第一個變數和第四個變數出問題,在此第一個變數和其它三個變數相關程度較低,而後三個變數相關程度較高 3.除了變異組合的不同之外,我們尚且模擬了三種不同相關係數組合來探討相關係數在診斷上的結果,在此我們設定第一個變數和其他變數相關程度較低,相關係分別為小於0.32、小於0.26及小於0.17三種。
38
相關係數為0.32 之模擬結果 ”(1)”則表示找到一個出問題的變數 相關係數為0.26 之模擬結果 相關係數為0.17 之模擬結果
39
結論 1.可以看出在PCA 法中,找到問題變數的個數隨著相關性減低而有增加的趨勢MPCA 中則大致相同, 這是因為在MPCA 已把相關性較低的變數分類出來個別管制的關係提出,但依然不易發覺此問題變數到底是平均值或變異數改變; 因此必須再診斷方法去找出哪一個變數出問題。 2.在比較過程中,雖說MPAC在診斷上比原來的要好, 但在判斷出問題的變數上的平均個數比原來的高些, 這是由於MPCA 在第一步驟中以單變量挑出問題變數而使得判斷問題變數個數增加。主成分分析在變數間若存在相關性愈高, 其主成分解釋變異的能力愈好。 3.在模擬的設定所產生的結果中,可以發現MPAC應用在診斷問題變數上,所表現的診斷能力大多高於原來PAC。透過MPAC可以協助找出哪一個變數發生問題並提高原PAC在診斷時的準確度。
40
第四章 結論與建議 1. Hotelling’s T2管制圖對於一般多變量的檢測,已證實為最佳的統計其中主要有主成分分析、向後選取及MYT計算法則等方法卻各有其缺點。如主成分轉軸後的變數不一定會反映原始變數的偏移,而向後選取法及MYT計算法則會因逐步刪除變數而忽略變數間可能存在的相關性,且當變數數目很大時並不實用. 2.研究提出MPAC的方法,希望能診斷出問題的變數,但又不失其有效性;MPAC在診斷問題變數整體的表現上比原來主成分分析較準確。 3. 多變量資料本身具有相關性,而相關係數對於在診斷方法中亦具有其影響性。透過本研究指出,可以依照相關係數去將變數分類,把相關係數較低的變數分開處理,亦就是將相關程度高的變數予以進行主成分分析,如此一來在診斷結果上會有比較好的表現。 建議: 1. 本研究資料來自於常態分配並不具自我相關性,若是資料具有自我相關的情況下,相信會對改建管制流程之主成分分析偵測能力有影響。 2. 本研究以Hotelling’s T2管制圖之下去討論其診斷方 法,若是在MCUSUM及MEWMA管制圖之下,相信在診 斷方法亦會影響其診斷結果。
Similar presentations