第六章 機率分配
學 習 目 標 瞭解隨機變數及機率分配的觀念。 計算間斷隨機變數的期望值、變異數及標準差。 熟悉二項分配、超幾何分配及波松分配之意義與特性。 學 習 目 標 瞭解隨機變數及機率分配的觀念。 計算間斷隨機變數的期望值、變異數及標準差。 熟悉二項分配、超幾何分配及波松分配之意義與特性。 應用二項分配、超幾何分配及波松分配在日常生活中。 利用Excel求算二項分配、超幾何分配及波松分配並繪製圖形。
本 章 架 構 6.1 隨機變數(random variable) 6.2 間斷機率分配(discrete probability distribution) 6.3 常用的間斷機率分配
6.1 隨機變數 隨機變數(random variable) 係以樣本空間為定義域,以實數為值域的函數。依其取值的形式,區分為兩種:第一種若取值為有限或無限且與自然數有一對一的對應,則稱之為間斷型隨機變數(discrete random variable)。如不良品的數目、某一營業日進入銀行的顧客數皆是間斷型隨機變數;而第二種就是連續型隨機變數(continuous random variable) ,此取值在某一區間或區間集合的所有數值,如重量、時間、溫度等。 間斷隨機變數(discrete random variable) 若隨機變數之可能數值個數是可數的(countable),則不管有限或無限,則稱此隨機變數為間斷隨機變數。
判斷原則 若隨機變數之任兩個函數值之間可挿入無限多個函數值,則此隨機變數為連續型,否則為離散型。 如重量、時間、溫度等。
6.1 隨機變數(續) 圖6.1 隨機變數 樣本空間 隨機變數 (正, 正) (正, 反) (反, 正) (反, 反) 2 1
表6.1 間斷隨機變數(discrete random variable) 6.1 隨機變數(續1) 表6.1 間斷隨機變數(discrete random variable)
表6.2 連續隨機變數(continuous random variable) 6.1 隨機變數(續2) 表6.2 連續隨機變數(continuous random variable)
6.2 間斷機率分配 6.2.1 機率函數(probability function) 6.2.2 累積機率函數(cumulative distribution function) 6.2.3 間斷隨機變數之期望值(expected value) 6.2.4 間斷隨機變數之變異數 6.2.5 標準化(standardize)隨機變數
6.2.1 機率函數 機率函數(probability function): 設間斷隨機變數X其可能數值為x1,…,xn,對應X的每一個可能數值有機率值f(xi)與之對應。若f(x)滿足下列兩個條件: 0 f(xi) 1,對每一個可能數值xi。 。 則稱 f(x) 為隨機變數X之機率函數。
間斷機率函數圖 連續機率函數圖
例6.1 丟擲一個均勻的銅板三次 丟擲一個均勻的銅板三次,定義隨機變數X為出現正面的個數,求X的機率分配。 解: 假設以H表示正面和T表示反面,此隨機試驗共有8個樣本點,且每一樣本點出現的機率皆為1/8,X的可能數值為0,1,2,3,其事件與X的可能數值之對應情形如圖6.2所示。因此,隨機變數的機率分配為
例6.1 丟擲一個均勻的銅板三次(續) f(X=0) = f(0) = P({(T,T,T)})= 1/8 f( X=1) = f(1) = P({( H,T,T),(T,H,T), (T,T,H)})= 3/8 f( X=2) = f(2) = P({( H,H,T),(H,T,H), (T,H,H)})= 3/8 f( X=3) = f(3) = P({((H,H,H)})= 1/8 每一個可能數值之機率值皆介於0與1之間,且機率總和等於1。 間斷機率函數直方圖
例6.1 丟擲一個均勻的銅板三次(續1) 圖6.2 隨機變數X的機率分配 樣本空間 隨機變數 機率f(x) (H, H, H) 3 (H, H, T) (H, T, H) 2 (T, H, H) (H, T, T) 1 (T, H, T) (T, T, H) (T, T, T)
6.2.2 累積機率函數 累積機率函數(cumulative distribution function): 假設X為間斷隨機變數,則小於或等於某一可能數值x的機率,稱為X的累積機率函數,通常以F(x)表示之。其定義為 F(x)=f(X x) 且具有下列之性質 對每一個可能數值x而言,0 F(x) 1。 若x1<x2,則F(x1) F(x2)。 若a<b,則f(a<xb) =F(b) -F(a)。
例6.2 續例6.1 丟擲一個均勻的銅板三次,定義隨機變數X為出現正面的個數,求X的累積機率分配。 解: X的累積機率分配如下
例6.2 續例6.1(續) 因此,X之累積機率函數為
6.2.3 間斷隨機變數的期望值 期望值(expected value): 其中,f(x)為X之機率函數。
期望值的意義 對一隨機現象,我們常想粗略地知道其值究竟多大? 期望值(expectation, 或稱expected value, mean) ,就是常被拿來扮演這種以一單一的值,來代表一隨機現象中之變數大小的角色。 對一隨機變數而言,因無法掌握隨機的量之大小,我們才想要有一代表值,而期望值就是常被拿來當做隨機變數之代表值,期望值像是隨機變數分佈的一核心,隨機變數的可能值,散佈在期望值的左右。 釋例:某商人在夜市擺一種遊戲,袋中有紅球5個,白球3個, 藍球2個,抽獎者自袋中抽出一球,若抽中紅球可得10元,抽中白球可得100元, 抽中藍球可得200元, 試問抽獎者可獲獎金的期望值。(解:75元)
例6.3 一間斷隨機變數X之機率函數f (x)定義如下 試求X的期望值? 解:根據(6.1)式,X的期望值為 此為一母體資料0, 1, 1, 2的母體平均數計算方式。
例6.4 教師出教科書之情況 表6.3為某學校400名教師出版教科書冊數之次數分配表,試求教師出版教科書之平均冊數? 表6.3 教師出版教科書冊數之次數分配表
例6.4 教師出教科書之情況(續) 解: 如果我們讓代表教師出版教科書冊數,然後其相對次數視為其出版冊數的發生機率,那麼就可視為一個間斷的隨機變數,因此 根據(6.1) 式計算,其期望值為
6.2.4 間斷隨機變數之變異數 變異數(variance)之定義 其中,f(x)為X之機率函數。
6.2.4 間斷隨機變數之變異數(續) 因為機率分配係經過長期重複相同的隨機試驗所得到的結果,根據大數法則,其機率值等於真實的機率值,因此變異數即代表母體變異數。
6.2.4間斷隨機變數之變異數(續1) 標準差(standard deviation): 其中,f(x)為X之機率函數。
6.2.4 間斷隨機變數之變異數(續2) 線性函數X的期望值與變異數為 E(X+a)=E(X)+a E(aX)=aE(X) E(aX+b)=aE(X)+b Var(X+a)=Var(X) Var(aX)=a2Var(X) Var(aX+b)=a2Var(X)
例6.5 續例6.3 試求隨機變數X的變異數。 解:根據(6.2)式,X的變異數為 此為一母體資料 0, 1, 1, 2之母體變異數計算方式。
例6.6 接續例6.4 接續例6.4,試求某學校教師出版教科書冊數之變異數和標準差? 解: 例6.6 接續例6.4 接續例6.4,試求某學校教師出版教科書冊數之變異數和標準差? 解: 因此,某學校教師出版教科書冊數之平均數為1.5725冊,變異數為1.1897,標準差為1.09冊。
6.2.5 標準化隨機變數 透過標準化(standardize),使得隨機變數能夠予以客觀的比較。 標準化隨機變數定義為 標準化隨機變數之期望值與變異數
例6.7 續例6.4 請將某學校教師出版教科書冊數之隨機變數標準化。 解: 例6.7 續例6.4 請將某學校教師出版教科書冊數之隨機變數標準化。 解: 因期望值為1.5725,標準差為1.0908,故當X=0時,其標準化的值為 同理,可以求得當時之相對應的標準化的值如表6.4所示。
例6.7 續例6.4(續) 表6.4 教師出版教科書冊數之標準化隨機變數
6.3 常用的間斷機率分配 6.3.1 二項分配(Binomial distribution) 6.3.2 超幾何分配(hypergeometric distribution) 6.3.3 二項分配與超幾何分配 6.3.4 波松分配(Poisson distribution) 6.3.5 二項分配與波松分配
6.3.1 二項分配 二項隨機試驗 包括n次相同的試驗(trial)。 每次試驗互相獨立。 每次試驗只有兩種可能的結果,稱為成功和失敗事件。 每次試驗成功的機率為p,即失敗的機率為1 – p。
6.3.1 二項分配(續) 若隨機變數X定義為n次試驗中成功的次數,則隨機變數可能數值為0,1,….,n,而每一可能數值發生之機率值說明如下: 令S代表成功事件,F代表失敗事件, 1. X=0,表示每次試驗都是出現失敗的結果,即 因為每次試驗互相獨立,根據乘法法則可得
6.3.1 二項分配(續1) X=1,表示次試驗中只有一次成功,其他n-1次都是出現失敗的結果。現在先考慮這一次成功出現在第一次試驗,即 此事件發生之機率為 同理可知,這一次成功出現在第i次試驗,而其他次都是出現失敗的事件之機率皆為 。 因此,
6.3.1 二項分配(續2) 以此類推,當時X=x,其機率值為 n次中選擇x次成功之排列組合方式 成功率 失敗率 試驗互相獨立,根據乘法法則可得 在n次獨立的實驗中,得到x次成功的機率
6.3.1二項分配(續3) 二項機率函數 假設隨機變數X為二項隨機試驗n次試驗中成功的次數,p為成功的機率,則X的機率函數f(x)可以表示為 上述隨機變數X稱為二項隨機變數,n和p為二項隨機分配之參數。一般以X~B(n, p)表示之。
6.3.1 二項分配(續4) 二項隨機變數之期望值與變異數 E(X)=np Var(X)=np(1– p)
二項分配與大數法則 二項分布的起源與賭博有密切的關係。當然二項分布的應用不限於賭博,其他如藥效的檢定、產品好壞的檢定…等莫不涉及。 大數法則:在二項分布的機率模型假定之下,只要實驗的次數 n 夠大,則事件發生的次數比x/n,從機率的觀點來看,就會很接近 p 值。這是機率論萌芽初期的一個重要定理,它由 Jakob Bernoulli(1654~1705年)首先證得完整,而在他死後發表於1713年。 Bernoulli 的大數法則首先把這種基於定義、理想中的的數學產物 p 和實際的、實驗的結果x/n 相連起來;雖然大數法則並不保證長期實驗的比值 x/n一定會愈來愈靠近原先假定的機率 p,但至少保證這個比值靠近 p 值的機率,會隨著實驗次數增加而靠近 1。也就因為有此保證,我們常常以長期實驗所得的比值代替理想中的 p 值。我們說某藥的治癒率為 0.6,其所代表的意義正是如此。 資料來源:曹亮吉—二項分布與大數法則理論與實際相連
說明範例:投擲一枚公正的硬幣3次中,出現x次正面的機率(就以二項分配中n=3,p=0.5) 方法1:以樹狀圖或多步驟隨機試驗之計數法則求得 方法2:二項分配求得
例6.8 超級市場消費情形 一家超級市場發現在促銷活動期間,每位顧客會消費超過1,000元的機率為80%。現有5位顧客,請問這5位顧客於促銷期間會消費超過1,000元的人數之機率分配為何?其期望值和變異數又為何? 解:此隨機試驗具有下列之性質 包含5個試驗,每位顧客之消費視為一試驗。 每次試驗互相獨立,每位顧客消費之情況不會互相影響。 每次試驗只有兩種可能的結果,消費超過1,000元(視為成功)或沒有超過1,000元(視為失敗)。 每次試驗成功的機率為,消費超過1,000元的機率為0.8。
例6.8 超級市場消費情形(續 ) 由於符合二項隨機試驗之性質,故為二項隨機試驗。現定義隨機變數X為5位顧客於促銷期間會消費超過1,000元的人數。所以,其機率分配為n=5、p=0.8的二項分配。根據(6.5)式,其各可能數值之機率值分別為 根據(6.6)與(6.7)式,其期望值和變異數分別為
6.3.2 超幾何分配 超幾何分配: 當一個有限母體之總數為N,其包含k個成功的元素、 N– k個失敗的元素。 從母體中以不放回的方式抽取n個樣本,定義隨機變數X為此n個樣本中成功的個數,則隨機變數X之機率分配稱為超幾何分配,N、n、k為超幾何分配之參數。 一般以X~HG(N, n, k)表示之。
6.3.2 超幾何分配(續) 圖6.5 超幾何隨機試驗與二項隨機試驗比較表
6.3.2超幾何分配(續1) 超幾何函數 超幾何隨機變數之期望值與變異數
例6.9 行動電話系統市場概況 根據調查顯示,台灣大哥大與遠傳電信為消費者心目中的前二名行動電話系統業者。假設現有10位行動電話使用者,其中7位使用台灣大哥大,3位使用遠傳電信。茲從這10人中隨機抽取3人,定義隨機變數為抽取的3人中使用遠傳電信的人數,試問恰有2人使用遠傳電信的機率為何?X之期望值與變異數又為何? 解: 令抽取一個使用遠傳電信的人視為成功事件,且定義隨機變數為抽取的3人中使用遠傳電信的人數,則X的可能數值為0,1,2,3,根據(6.8)式,其機率值分別為
例6.9 行動電話系統市場概況(續)
例6.9 行動電話系統市場概況(續1)
例6.9 行動電話系統市場概況(續2) 因此,恰有2人使用遠傳電信的機率為7/40。 且根據(6.9)式和(6.10)式,X之期望值與變異數分別為
6.3.3 二項分配與超幾何分配 超幾何隨機試驗與二項試驗最主要之差別在於超幾何隨機試驗之試驗彼此不獨立。 若令 則
6.3.3 二項分配與超幾何分配(續) 當有限母體之總數很大或抽取之樣本數相對很小時,以放回或不放回方式抽取樣本,其結果差異不大。 所以,當 時,可利用二項分配作為超幾何分配之近似分配。 二項分配與超幾何分配之關聯
6.3.3二項分配與超幾何分配 (續1) 表6.6 三個機率分配比較表
6.3.4 波松分配 波松隨機過程之性質 某一區間特定事件發生之次數與另一區間特定事件發生之次數彼此獨立。 在每一個極小區間內特定事件發生的次數超過一次之機率幾乎為0,換言之,特定事件發生的次數最多一次。 任意兩相等區間內特定事件發生之機率相等,且特定事件發生之機率與區間的「長度」成正比。
6.3.4 波松分配(續) 波松機率函數 已知某區間內特定事件發生的平均次數為,令隨機變數X定義為某區間內特定事件發生的次數,則其機率函數f(x)為 此處為波松分配之參數。一般以X~Poisson()表示之。
6.3.4 波松分配(續1) 波松隨機變數之期望值與變異數 假設隨機變數X為波松隨機變數,則其期望值與標準差分別為: E(X)= Var(X)=
波松分配的典故 Simeon D. Poisson(1781~1840年)是一個著名的法國數學家及物理學家。到了晚年,他熱衷於將數學的機率論用到司法的運作上。他在這方面的主要著作是1837年出版的 “Recherches sur la Probabilité des Jugements”。雖然這本書的主旨是要對司法運作有具體的貢獻,但它包含了許多純粹數學的、機率的理論,所以可以看成是一本以司法應用為例的機率課本,在這本書的數學推演中,Poisson 從二項分布的極限得到了這個日後以他為名的機率分布。 Poisson 分布雖然出於 Poisson 之手,但真正使它為人重視,使它成為統計學一部分的可要算是 Bortkiewicz了。 Ladislaus von Bortkiewicz(1868~1931年)是出生在俄國聖彼得堡的波蘭人。他在德國 Göttingen 大學得到學位(1893年),並曾在 Strassburg 做過研究。在 Strassburg 時,他寫了一本小冊子《小數法則》(Das Gesetz der Kleinen Zahlen),專門研究 Poisson 分布。他不但在理論方面推演了 Poisson 分布的許多性質,並且在應用方面,也比較了一些實際發生的、有關於自殺或意外傷害的數據。 資料來源:曹亮吉—Poisson 分布
波松分配的實例 考慮下列現象:每小時服務台訪客的人數,每天家中電話的通數,一本書中每頁的錯字數,某條道路上每月發生車禍的次數,生產線上的疵品數,學生到辦公室找老師的次數……。 上述現象大致上都有一些共同的特徵:在某時間區段內,平均會發生若干次「事件」,但是有時候很少,有時又異常地多,因此事件發生的次數是一個隨機變數,它所對應的機率函數稱為 Poisson 分配。
例6.10 新光百貨公司顧客概況 新光百貨公司在晚上7:00至10:00期間,平均每半小時有90位顧客,試問該公司在晚上7:00至10:00期間,每分鐘顧客人數不少於2人之機率為何? 解: 令隨機變數X表示每分鐘內顧客的數目,因為平均每半小時有90位顧客,所以平均每分鐘有3位顧客。因為每位顧客到達百貨公司之事件互相獨立,故每分鐘顧客人數之機率分配為=3的波松分配。根據(6.11)式,其機率函數f(X)為
例6.10新光百貨公司顧客概況(續) 由(6.14)式,可得 因此,每分鐘顧客人數不少於2人之機率為
例6.10新光百貨公司顧客概況(續1) 圖6.11 每分鐘顧客人數之機率分配圖
6.3.5 二項分配與波松分配 二項分配與波松分配之關聯 在實務應用上,當n 20、n p 1或n 50、n p 5或 n 100、n p 10時,都可以松波分配機率值作為二項分配機率值之近似值。 諸如某段時間內電話打進來的數目,某段時間內交通意外事件數目,常以波松分佈當模式。這都是因其為二項分佈極限的原因:每次試驗成功的機率很低( p很小),但試驗的次數很多( n很大),因此總共的成功數,便可以波松分佈來描述了,誤差不致太大。
6.3.5 二項分配與波松分配(續) 表6.7 波松隨機試驗與二項隨機試驗比較表
6.3.5二項分配與波松分配(續1) 表6.8 三個機率分配比較表
6.3.5二項分配與波松分配(續2) 二項分配、超幾何分配與波松分配之關聯
課程練習