第 8 章 常用的機率模式
本章概要
輕鬆一下
8.1 緒言 「機率模式」(probability model)就是用來作為分析一種類型(family)機率 問題的基型(pattern) 。 隨機變數X的機率模式是一個足以描述其行為的特定形式的機率分配。其機率是以與群體特徵相連的未知參數以及抽樣方式表示。
8.2 二項分配 柏努利隨機變數(Bernoulli random variable) 是一種只有兩種可能出象的隨機試驗,這類試驗十分常見。 當試行出現試驗者所欲的出象,稱其為「成功」以S表示,令隨機變數;否則稱其為「失敗」以F表示,令隨機變數 X=0。
例8.1 某產婦即將生產,正常出象必為男嬰或女嬰,即隨機變數X為柏努利試行。假設她希望生一子,如果生下男嬰,則令隨機變數X=1,如果生下女嬰,令X=0;反之,假設她希望生一女,如果生女,則令隨機變數X=1,如果生下男嬰,令隨機變數X=0。
柏努利過程
設X1, X2, …, Xn為與一隨機過程相同的序列隨機變數,若各隨機變數彼此為統計獨立,同時每一個均有相同的機率分配,則該過程稱為獨立且穩定(stationary)。在該狀況下的隨機變數稱為「獨立且相同分配」(independent and identically distributed)。
例8.2 由二分類群體(dichotomous population)中抽樣:設有一批產品(群體),其中每件產品可以區分為良品或不良品。 (a)放回抽樣(replacement sampling):假設一批產品共25件,其中5件為不良品。現以隨機方式由其中抽取一件,檢驗並登錄其品質後放回,然後再取下一件,如此可滿足柏努利試行的條件,若發現不良品,稱為成功,以S表示,則P(S)=5 / 25。
例8.2 (b)不放回抽樣(non-replacement sampling):在(a)中,若改以不放回方式抽樣,每次一件,共抽2件。對於第一件而言,P(S1)=5 / 25。若第一件為不良品,則剩餘24件產品不良品為4件,因此第二件為不良品的機率P(S2)4 / 24 5 / 25。因此不滿足獨立條件。
例8.2 (c)在大群體中不放回抽樣:設於2,500件的大批產品中以不放回方式抽取2件,若已知此批中不良品為500件,設沿用(b)中符號,則 P(S1)=500/2500=5/25 P(S2|S1)=499/2499 由實用的觀點來看,499/2499可視為近似5/25。因此,雖然嚴格來說,上述作法不符合試行的「獨立」性,但是由於誤差很小,所以可以視為大致上滿足柏努利試行的條件。
二項隨機變數 設n個獨立且相同分配的柏努利隨機變數的和為X,X=X1+X2+… +Xn,則X稱為二項隨機變數,以B(n, p)表示。
二項機率分配的定義 設X為一間斷隨機變數,若f(x)為: 式中n=試行次數,p=成功的機率,q=失敗的機率=1-p, 則f(x)為二項機率分配。 圖8.2 n和p變動時二項分配的不同形狀
例8.3
例8.4 回顧連續投擲一枚硬幣三次,則依據二項分配的計算公式設X表正面出現的次數。X的機率分配如下所示
例8.6 試利用附錄A.1二項分配數表計算下列諸題。 (a)求b(3|7, 0.9)。 (b)若X為B(10, 0.3),試求P(X ≥ 6)。 (c)若X為B(10, 0.8),試求P(X ≥ 6)。 (d)若X為B(10, 0.7),試求正整數r, 使P(X ≥ r)=0.8497。
例8.6 【解】
例8.6
例8.7 假設客人在某家鞋店購買鞋是服從二項分配,購買的機率為0.3,現在有10個人進入鞋店,利用EXCEL求出 (a)剛好有3個人購買鞋子的機率。 (b)至多有2個人購買的機率。
例8.7 【解】 (a)(1)【插入】→【函數】,『函數類別』選擇「統計」,『函數名稱』選擇“BINOMDIST”。點選【確定】。 (2)《Number_s》輸入“3”,《Trials》輸入“10”,《Probability_s》輸入“0.3”,《Cumulative》輸入“FALSE ”。 (3)點選【確定】後得到P(X=3)=0.266827932。
例8.7 (b)(1)【插入】→【函數】,『函數類別』選擇「統計」,『函數名稱』選擇 “ BINOMDIST ”。 (2)《number_s》輸入“2”,《Trials》輸入“10”,《Probability_s》輸入“0.3”,《Cumulative》輸入“TRUE ”。 (3)點選【確定】後得到P(X≤2)=0.382782786。
8.3 波氏分配 波瓦松分配(Poisson distribution),簡稱波氏分配,當討論在固定時段(或空間)內,隨機發生某事件的次數時,如果僅有的資訊為單位時間(或空間)內的平均發生次數np,則波氏過程為描述這種狀況的機率模式。
波氏過程與柏努利過程有兩項重要的相異點: 它並非含有間斷試行,而是在一已知量的時間、距離、面積或體積上連續地運作。 它並不產生一連串的「成功」與「失敗」,而是在已知量的時間、距離、面積或體積中,隨機地產生「成功」,這些「成功」通稱為「發生」。
例如,在一製程中,連續生產寬3公尺的布匹,在這布匹中會隨機地有線頭出現,我們只能數出在一特定長度的布面上有幾個線頭,卻沒有辦法數出有多少線頭沒有出現。又如在一工廠中,停機是一個隨機的現象,我們可以由紀錄上查出在一週內停機的次數,卻無法看出停機未發生的次數。
其他例子如下: 在單位時間內一事件的發生次數 在一單位距離內一事件的發生 在一已知面積內一事件的發生 在一已知體積上一事件的發生
8.4 波氏分配近似二項分配 X為二項分配隨機變數,其參數為p (基於n次重複),亦即 假設n→時,np=λ(常數),或當n→, p→0,使np→λ。在滿足這些條件下 這就是參數為λ的波氏分配。
我們對一問題感興趣:如果n →且p →0,而np不變。令np=λ,則二項分配 將發生什麼現象呢?將以下列例子說明。
例8.9 已知每輛車發生事故的機率很低,假設為p0.0001。設在一天某一時段,如4:00 pm到6:00 pm間,在某交通密集的地段有1,000輛車經過,試求該時段內至少發生兩次交通事故的機率。
例8.9 【解】 我們假定每輛車發生事故的p值相同,又每輛車發生事故與否與其他車子無關。假定X是1,000輛車子出事的次數,則X為二項分配且p為0.0001(事實上p不為常數,因為駕駛人的駕車技術及小心程度不同)。另一項假設在4:00 pm到6:00 pm間有1,000輛車子通過此地段,雖然事實上應為隨機變數較合理,但在此仍將n視為定值。因此
例8.9
例8.10 設一製造過程所生產的產品,其不良率為p。某送驗批內含n件產品,則恰有k件不良品的機率可由如下二項分配求出。 若X是不良品件數, P(X=k)= , 如果n很大,p很小,我們可估計為
例8.10 例如,我們假定1,000件中有一件不良品,則p=0.001。 利用二項分配可發現500件中沒有不良品的機率是(0.999)500=0.6064;如用波氏估計值,此機率變為e-0.5=0.6065,而發現2件或更多件不良品的機率依波氏估計值為 1-e-0.5(1+0.5)=0.09025。
例8.11 設X為波氏隨機變數,λ=2.1,試求P(X=3)的值。 【解】 無法直接由書後附表查得2.1的機率,因此必須利用內插法求之。
注意 以上的計算是說明n很大而p很小時,可用波氏分配來估計二項分配。 早先已證實假若X為二項分配,則E(X)=np;因此,如果X是波氏分配,則E(X)=λ,為波氏分配的參數。 二項分配是由兩個參數n與p來決定,而波氏分配只由一參數λ=np表示。λ代表單位時間內成功的期望值,該參數也稱分配的強度(intensity of the distribution)。讀者須留意區分每單位時間內發生的期望次數,和指定時間內發生的期望次數。
我們可以考慮下面的理論,來求參數為的波氏隨機變數X的變異數。X可視為參數n和p的二項分配隨機變數Y的一個極限情形。n →, p→0, np→λ,因E(Y)=np, Var(Y)=np(1-p) ,因此,在極限時, Var(Y)=np(1-p) → λ(1)= λ =Var(X)
例8.13 假設大卡車經過高速公路某定點呈波氏分配,每小時通過8部,試以EXCEL求出 (a)1小時內經過2部大卡車的機率。 (b)1小時內最多經過3部大卡車的機率。
例8.13 【解】 (a)(1)【插入】→【函數】,『函數類別』選擇「統計」,『函數名稱』選擇“POISSON”。點選【確定】。 (2)《X》輸入“2”,《Mean》輸入“8”,《Cumulative》輸入“FALSE”。 (3)點選【確定】後得到P(X=2)=0.010734804。
例8.13 (b)(1)【插入】→【函數】,『函數類別』選擇「統計」,『函數名稱』選擇“POISSON”。點選【確定】。 (2)《X》輸入“3”,《Mean》輸入“8 ”,《Cumulative》輸入“TRUE”。 (3)點選【確定】後得到P(X≤3)=0.042380112。
8.5 常態分配
常態分配或稱為高斯分配(Gaussian distribution)是一條鐘形曲線的機率分配。德國數學家高斯(Karl Friedrich Gauss, 1777-1855)在常態分配的發展史上占有重要地位,他以數學導出常態分配作為量測誤差的機率分配。
常態分配的重要性來自於其兩個基本的應用: 由於其「良好」的數學性質,它可作為在發展統計推論程序中的量測變數的基本機率模式。 更重要的應用是當樣本量n大時,中央極限定理(central limit theorem)保證參數估計量的抽樣分配為常態分配。
標準化 當和變動時,就有不同的常態曲線。在計算常態機率時,常把x值轉換成標準常態值z,其轉換的公式如圖8.5所示,該過程稱為標準化(standardization), 這時,
圖8.6是標準常態曲線,它的平均數是0,標準差是1。通常以N(0, 1)表示,即以平均數決定它的位置,以及用標準差來決定它的形狀。
標準常態表的使用 附錄中的標準常態表中列出了特定z值左方的區域面積如下 P(Z≤z)=z值左方的面積 而區間[a, b]的機率則可表示為 P[a ≤ Z ≤ b] =[b左方的面積]-[a左方的面積] 可由圖8.8中的標準常態對0對稱的情況觀察到下列性質: P(Z ≤ 0)=0.5 P(Z ≤ -z)=1-P(Z ≤ z)=P(Z ≤ z)
例8.14 求P(Z ≤ 22)及P(Z ≤ 1.22)的標準常態機率。 【解】 由附錄表A.3知,1.22左方的面積為0.8888(如表8.4),故 P(Z<1.22)=0.8888
例8.14 又(Z>1.22)與(Z<1.22)呈現互補情形,故 P(Z>1.22)=1-P(Z≤1.22)=1-0.8888=0.1112 參看圖8.9,因為標準常態分配是對稱的,因此另一個計算P(Z>1.22)的方法是計算P(Z<-1.22),也就是P(Z>1.22)=P(Z<-1.22),查表可得其機率亦為0.1112。
例8.14
例8.15 求解P(-0.143<Z<1.62)。 【解】 由附錄表A.3得知 P(Z≤1.62)=1.62左方的面積=0.9474 又P(Z<-0.143)=-0.143左方的面積利用內差法可得其值為0.4430,故 P(-0.143<Z<1.62) =0.9474-0.4430=0.5044 如圖8.10所示。
例8.15
例8.17 求解一使P(Z>z)=0.05的z值。 【解】
例8.17
例8.18 求使P(-z ≤ Z ≤ z)0.95的z值。 【解】 由標準常態的對稱關係,可知 P(Z<-z)=P(Z>z)=0.025 又由常態表可知 當z=-1.96時,P(Z<-1.96)=0.025, 又z=1.96時,P(Z>1.96)=0.025, 故由此可知,z值為1.96。
例8.18
設X為N(, 2),欲求P(a<X<b),解法為將X標準化,如圖8.14所示,即
例8.19 丹妮服飾公司設計、裁製和銷售女性衣服,現欲蒐集關於顧客身材的資訊。已知美國婦女的身高為=65英寸,=2.5英寸的常態分配,試問身高在63英寸和70英寸之間的婦女占多少比例?
例8.19
例8.19
例8.20 依據多年經驗,百家香烤鴨店的王老板知道該店每週的營業額低於15萬元的機率為0.0668,高於25萬元的機率為0.1587,試求該烤鴨店每週營業額的平均數和標準差。
例8.20
例8.20
8.6 常態分配近似二項分配 二項分配 由於常態分配為連續型而二項分配是間斷型,如何以常態機率近似二項機率呢? 為描述在n次獨立柏努利試行中,成功次數X的分配。當n相當大,而p值並不接近0或1,則常態分配可作為計算二項機率的良好近似值。 由於常態分配為連續型而二項分配是間斷型,如何以常態機率近似二項機率呢?
因為常態機率對於任何一點x的值為0。然而,對於區間x-1/2及x+1/2則有機率值存在,這加及減1/2稱為連續化校正值(continuity correction)。故能利用常態分配來求得二項分配中任一可能數值發生的機率。 例如,隨機變數X的機率分配為n=10, p=0.5的二項分配,而Y為=5, 2=2.5的常態分配,由圖8.17可知,X=5的機率為上色部分與隨機變數Y介於4.5與5.5間的機率非常近似。 也就是說 P(X=5)P(5-0.5 ≤ Y ≤ 5+0.5)
一般均假設隨機變數X~B(n, p)且Y~N(np, np(1-p)),因此,當np≥5且n(1-p)≥5時,則如圖8.18所示。
至於何時該加或減1/2個單位的原則如下所示: 當計算X ≥ a的機率時,因包含a點,所以用Y ≥ a-0.5的機率為近似值。 當計算X > a的機率時,因不包含a點,所以用Y ≥ a+0.5的機率為近似值。 當計算X ≤ b的機率時,因包含b點,所以用Y ≤ b+0.5的機率為近似值。 當計算X < b的機率時,因不包含b點,所以用Y ≤ b-0.5的機率為近似值。
同理可知 P(X ≥ 5) P(Y ≥ 5-0.5) P(X > 5) P(Y ≥ 5+0.5)
例8.21 假設隨機變數X為p=0.6的n=20二項分配,試求x=15的機率。 【解】 (a)由查附錄表A.1得0.0747。 例8.21 假設隨機變數X為p=0.6的n=20二項分配,試求x=15的機率。 【解】 (a)由查附錄表A.1得0.0747。 (b)若使用常態分配,則: (1)np=20×0.6125, n(1-p)=20×0.4=8>5,所以可以常態分配求出二項分配的近似值。 (2)=np=12,
例8.21
本書將在往後章節中討論關於比例的統計推論時會用到本結果,由於連續化校正值並不重要,因此為了簡潔起見,將之捨棄,即在往後用常態近似時,將不使用該值。圖8.19為由二項分配至常態分配的完整近似序列。 圖8.19 由二項分配至常態分配的完整近似序列
例8.22 假設某廠牌電池的壽命是常態分配,平均數為700天,標準差為100。試以手算及Excel求下列問題。 (a)隨機抽取一個電池,其壽命少於600天的機率。 (b)如果該廠牌公司想訂定一個保固期,顧客在保固期內可以免費更換該廠牌的電池,該公司最多願意承擔5%的免費更換,請問保固期應該設多久?
例8.22
例8.22
例8.22
例8.22
例8.22
例8.22
例8.22