第5章 間斷機率分佈
前言 如果生男生女得機會各半,那麼連生3個女兒的機率是多少? 如果公車平均10分鐘一班,那麼等了15分鐘,公車還不來的機率有多大? 如果產品合格率是20%,那麼要挑到5件合格產品之前,必須先挑到20件不合格產品的機率有多大? 這些問題都是在探討機率時會碰到的基本問題,本章和第六章就在說明這些機率分佈及其應用。
第一節 機率理論 (1) 機率理論主要可區分為三種主要理論: 先天機率或事前機率(a priori probability)理論,又稱古典機率理論。 在一樣本空間(sample space)裡,共有N個樣本點,且每一個樣本點出現機會相等。若事件A包括其中的nA樣本點,事件A出現機率:
第一節 機率理論 (2) 例如一個骰子有六點,且假設每點出現機率都相等,那麼出現偶數點機率就是 (1 + 1 + 1) / 6 = 0.5。 古典機率缺點在於只適用於有限樣本點。除此之外,既然假定每個樣本點機會相等,那麼機率這個概念就變得多餘。
第一節 機率理論 (3) 經驗機率(empirical probability) 要知道某事件出現機率,就是實證去做實驗。例如重複了N次實驗,事件A共出現了nA次,那麼事件A的機率就是 當N越大,機率就越準確。
第一節 機率理論 (6) 丟骰子10次,也許會發現出現偶數點機率離一半甚遠。如果丟1000次時,出現偶數點機率就會很接近一半。 當實驗次數越大,經驗機率就越接近先天機率,這就是所謂大數法則(law of large numbers)。 經驗機率缺點在於事件機率必須無數次重複實驗後才能求得。但現實上只能根據有限次數來推估事件機率。
第一節 機率理論 (7) 3. 主觀機率(subjective probability) 它是個人對某事件出現的相信程度。例如張三明年能考上大學的機率是80%。明天股市會大漲的機率是60%。 這都是主觀看法,既不建立在先天機率理論上,也沒重複無數次實驗。只是根據過去經驗,個人知識,加以猜測。 主觀機率缺點就在於不夠客觀,例如我認為張三明年能考上大學機率是80%,但他的老師可能認為張三考上機率是30%而已。
第一節 機率理論 (8) 以上三種理論必須吻合一些規則才能叫做機率,這些規則就是機率公設(probability axioms) 1. 樣本空間中任一事件機率不小於0。 2. 互斥事件聯集的機率就是各事件機率之和。 3. 樣本空間中所有事件發生機率的總和等於1。 根據這三個公設,建立運算定理,然後導出機率論的整個體系。
第二節 聯合、邊緣、條件機率 (1) 聯合機率 (joint probability) 兩個或兩個以上事件同時發生的機率。 由上表知P(吃檳榔,患口腔癌)= 0.2%。即P(不吃檳榔,患口腔癌)=1.8%。吃檳榔比不吃檳榔患口腔癌的機率更小,因此可以放心吃檳榔?!
第二節 聯合、邊緣、條件機率 (2) 邊緣機率(marginal probability) 在兩個或以上樣本空間中,忽略某個樣本空間,而只考慮另個樣本空間中事件發生機率 。 例如忽略吃檳榔這個變項,而只考慮患口腔癌與否機率,則患P(患口腔癌)= 2%, P(正常)= 98%。
第二節 聯合、邊緣、條件機率 (3) 條件機率 (conditional probability) 固定在某樣本空間的某一事件下,另一樣本空間中事件所發生機率 。 例如P(患口腔癌|吃檳榔)= 20.00% P(正常|吃檳榔)= 80.00% 從這些條件機率中,發現如果吃檳榔,患口腔癌機會為20%,但如果不吃檳榔,患口腔癌的機會只有1.82%。還是不要吃檳榔的好。 (180/9900=0.01818)
第二節 聯合、邊緣、條件機率 (4) 令變項X和Y的聯合機率為f(X, Y),則 f(xi, yj) = P(X = xi Y = yj) 即X變項為xi,且Y變項為yj的機率為f(xi, yj)。 例如P(吃檳榔,患口腔癌)= 0.2%
第二節 聯合、邊緣、條件機率 (5) X變項的邊緣機率f(X)和Y變項邊緣機率f(Y) 為 P(患口腔癌)= P(吃檳榔,患口腔癌) + P(不吃檳榔,患口腔癌) P(吃檳榔)= P(吃檳榔,患口腔癌) + P(吃檳榔,正常)
第二節 聯合、邊緣、條件機率 (6) 當Y = yj的情況下,X的條件機率為 P(患口腔癌|吃檳榔)= P(吃檳榔,患口腔癌) / P(吃檳榔)。 聯合機率等於邊緣機率乘以條件機率 : f(xi,yj) = f(yj)f(xi | yj) = f(xi)f(yj | xi)
第二節 聯合、邊緣、條件機率 (7) 獨立事件(independent events) 兩事件xi和yj互為獨立事件,若且唯若: f(xi,yj) = f(xi)f(yj) f(xi | yj) = f(xi) f(yj | xi) = f(yj) 丟硬幣和丟骰子是獨立事件。丟一硬幣和骰子,硬幣出現正面,且骰子出現6點的聯合機率等於1/12,也就是硬幣出現正面的機率1/2乘以骰子出現6點的機率1/6。換句話說,聯合機率就是個別機率的乘積
第二節 聯合、邊緣、條件機率 (8) 在硬幣出現正面情況下,骰子出現6點的機率仍然是1/6,因為丟骰子和丟硬幣是獨立事件,彼此不會干擾 。 在骰子出現6點的情況下,硬幣出現正面的機率仍是1/2 。也就是說條件機率等於該事件的機率。
第二節 聯合、邊緣、條件機率 (9) 如果這3個公式不成立,就表示兩事件不是獨立事件,而會有連帶關係。 以上表為例,f(吃檳榔,患口腔癌)=0.2%,f(吃檳榔) = 1%,f(患口腔癌)= 2%。 如果兩者是獨立事件的話,f(吃檳榔,患口腔癌)應該是1% 2% = 0.02%。 而今f(吃檳榔,患口腔癌)卻等於0.2%,與理論相距10倍之多,因此吃檳榔與患口腔癌並非獨立事件,兩者之間有頗大的關連性。
第三節 貝氏定理 (1) 貝氏定理(Bayes’s theorem) 其中f(yj|~xi)表示在非xi的情況下,事件yj發生的條 件機率。f(~xi)表示非xi的機率,等於1-f(xi)。 假設若分割為K部份,依序為k = 1, 2, …, K,則
第三節 貝氏定理 (2) 例子2 令x1表示患口腔癌,x2表示正常。y1表示吃檳榔,y2表示不吃檳榔。假設依照過去的經驗,患口腔癌者佔2%,未患口腔癌者佔98%。某研究者想瞭解吃檳榔的話,得到口腔癌的機率有多大。 他隨機調查了100位口腔癌患者,發現他們之中有10%的人吃檳榔。同樣的也隨機調查了10000位正常人(未患口腔癌者),發現有0.82%的人吃檳榔。現有1人,他吃檳榔,他患口腔癌的機率是多少?
第三節 貝氏定理 (3) 作法 由題意知f(x1) = 2%;f(x2) = 98%; f(y1|x1) = 10%; f(y1|x2) = 0.82%,所欲求的是f(x1|y1)。 由公式(5.11)知: 他患口腔癌的機率為0.2,正常的機率為0.8。
第三節 貝氏定理 (4) 在公式(5.11)裡,已知f(xk)和條件機率f(y1|xk),然 後計算另一種條件機率f(xk|y1)。 f(xk)又稱事前機率(a priori probability)。f(xk|y1)稱 為事後機率(posterior probability)。 事前機率必須建立在過去的經驗和知識。條件機率 則是我們當前透過研究蒐集到的新資訊。研究的目 的就在於瞭解事後機率。
第四節 間斷機率分佈(1) 所有事件的機率所形成的分佈就是機率分佈。有 的隨機變項是間斷的,所以就形成間斷機率分佈 (discrete probability distribution)。 有的隨機變項是連續的,所以就形成連續機率分 佈。
第四節 間斷機率分佈(2) 就間斷機率分佈而言,平均數依照定義為: 其中m為平均數,N為個數,xi為第i個間斷變項的數值,f(xi)為xi的機率。平均數就是某個數值乘以該數值的機率的總和。 間斷機率分佈的變異數,依定義為: 也就是每個值減去平均數後平方的平均數。
第四節 間斷機率分佈(3) 例子3 丟骰子出現1點到6點的機率都是1/6。則丟骰子點數的平均數和變異數各為多少? 作法
第四節 間斷機率分佈(4) 白努力分佈 定義變項X為白努力試驗(Bernoulli trial),共有兩種結果:成功和失敗。若成功,則X = 1;若失敗,則X = 0。X的機率函數就是 f(X = x; p) = px (1 - p) 1- x 其中大寫的X表示變項,小寫的x表示該變項的某個數值,其中分號後面的p是參數,在此為成功的機率,1 - p就是失敗的機率。 白努力分佈的平均數m = p,變異數s2 = p(1-p)。
第四節 間斷機率分佈(5) 例子4 丟硬幣為白努力試驗,如果出現正面則X = 1,否則X = 0。假設出現正面的機率是1/2,那麼平均數和變異數各為多少? 作法 由於p = 1/2,平均數就是1/2。變異數為1/4。
第四節 間斷機率分佈(6) 二項式分佈 適用於實驗中含有多次的試驗,而每次試驗都是 互為獨立的白努力事件,且成功的機率都是p。在 n次嘗試中,共成功X次的機率就是二項式分佈 (binomial distribution): 為從n中每次取x的組合數:
第四節 間斷機率分佈(7) 二項分佈的累積分佈函數就是 二項式分佈的平均數μ = np。 變異數s2 = np(1-p)。