4. Probability Theory & Probability Distribution 四、機率論與機率分布 4. Probability Theory & Probability Distribution
定義 樣本點 樣本空間 事件 Event 隨機實驗的每個可能的結果 隨機實驗中所有可能的的樣本點的集合 樣本空間的部份集合 可以是空集合,也可以等於樣本空間
定義 聯合事件Joint Event 補集Complement 交集Intersection 事件A與事件B的交集,指事件A與事件B同時發生的事件,以 A∩B表示 聯集Union 事件A與事件B的聯集,指事件A及事件B任一或二發生的事件,以 A∪B 表示 補集Complement 事件A的補集,指事件A沒有發生,以AC 或Ā表示
Venn diagram 以陰影部份表示事件 A∩B A∪B AC
機率理論的種類 古典機率理論 頻率機率理論 主觀機率理論 機率的公理
古典機率理論 古典機率理論又稱為先驗機率理論 假定有N種互斥且出現機率相等的樣本點,若定義事件A包括了nA個樣本點,則事件A發生的機率為 P(A) = nA / N
頻率機率理論 又稱為相對次數理論 指在長期重複的隨機實驗中,某事件出現的機率為該事件出現的次數除以實驗總次數 機率乃是長期實驗的結果,因此又稱為後天機率
主觀機率理論 事件發生的機率乃是反映人們對此事件的相信程度 針對一些尚未發生又無法以客觀機率表示的事件
機率的公理 機率附合以下三公理 任一事件A發生的機率為實數,且 0 ≦ P(A) ≦1 若S為樣本空間,則 P(S) = 1 設A1, A2, …, Ak為互斥事件,則 P(A1∪A2∪…∪Ak)=P(A1)+P(A2)+…+P(Ak)
Conditional Probability 條件機率 P(B|A) 乘法原則Multiplicative rule of probability P(A∩B) = P(A) P(B|A) = P(B) P(A|B) 若已知 P(A) ≠0,P(B|A) = P(A∩B) / P(A) 若已知 P(B) ≠0,P(A|B) = P(A∩B) / P(B)
Independent 獨立 獨立事件是指一事件發生的機率不受其他事件發生與否的影響 若A與B兩事件符合下列任一條件,則A與B互為獨立 P(A|B) = P(A) P(B|A) = P(B) P(A∩B) = P(A) P(B)
Bayes’ Theorem 貝氏定理 以新獲得的資訊修正事前機率,而得到事後機率的方法。
例:貝氏定理 掌上癌細胞檢測儀 20分鐘驗出是否罹癌 檢測五十八個用針孔穿刺取下的細胞樣本,病理診斷確認出十五例癌細胞,而掌上癌細胞檢測儀總共挑出包含確認病例在內的廿個「可疑」細胞 假設58個重覆實驗可稱為足夠大的數字 以滿足頻率機率理論的要求 問1: 已知一被檢者細胞被掌上癌細胞檢測儀列為「可疑」,請問該被檢者真患有癌症的機率為? (predictive value) 假設病理診斷為真
P(檢測發現可疑 ∩ 有癌症) = 15/58 P(檢測發現可疑 ) = 20/58 P(有癌症 |檢測發現可疑 ) = P(檢測發現可疑∩有癌症) / P(檢測發現可疑) = 15/20 = 75% 問2: 已知一被檢者並無癌症,請問該被檢者細胞被掌上癌細胞檢測儀列為「可疑」的機率為?
P(test + | No cancer) = P(test+∩No cancer) / P(No cancer) = 5/43 = 0 Frequency count Cancer No Cancer 加總 Test + 15 5 20 Test - 38 43 58
Disease Yes No Diagnosis + A B - C D A: True Positive B: False Positive C: False Negative D: True Negative
例2: 子宮塗片檢測 vs. 子宮頸癌 Frequency counts D+ D- T+ T- 70 186385 186455 T- 13 813532 813545 83 999917 1000000 Sensitivity 敏感性 P(T+|D+) = 70/83 =0.8434 Specificity 特異性 P(T-|D-) = 813532/999917 =0.8136 Positive Predictive value, PPV P(D+|T+) = 70/186455 = 0.000375 Negative Predictive value, NPV P(D-|T-) = 813532/813545 = 0.99998 D+:有病 D-:沒病 T+:檢測異常 T-:檢測無異常
事前機率Prior probability 事後機率Posterior probability P(D+) 事後機率Posterior probability P(D+|T+)
隨機變數 其變數的發生是隨機的(服從某一機率) 也就是說,此變數值是無法事先確定的 但在大量的資料中,其發生的形態會呈現某一規則
間斷性機率分布 間斷隨機變數的各個變亮的發生機率的分布情形 美國兒童的出生排行
伯努利分布 Bernoulli distribution 伯努利分布 二分隨機變數 通常用”成功”與”失敗”, 或 0 and 1來分類 Mutually exclusive and exhaustive 通常用”成功”與”失敗”, 或 0 and 1來分類 例:設 Y為一隨機變數以表示一成年人的吸菸狀態,Y = 1 表示一成人目前為菸民,Y = 0表示目前非菸民 臺灣 (2004): P(Y=1) = 0.24 P(Y=0) = 1 - 0.24 = 0.76 Y~Bern(0.24): Y 為服從伯努利分布的隨機變數 p = 0.24 Source: http://tobacco.bhp.doh.gov.tw:8080/doc/94statistics.xls
二項分布Binomial distribution 每一次試行是獨立的 每次試行中的p(成功機率)是相同的 此分布之隨機變數定義為n次試行中的成功次數 n為一時,即為伯努利分布
二項式分布的平均數 Bin(n, p) is np 二項式分布的變異數 Bin(n, p) is np(1-p) 標準差
Binomial distribution (cont.) 二項式機率分布 組合Combination 階乘:n! = n(n-1)(n-2)…(3)(2)(1) 0!=1
卜瓦松分布Poisson Distribution 在一定的連續時間或空間中,某些事件發生的可能性是彼此獨立的 事件發生次數的期望值與區間大小成正比 若將區間切割至極小時,在此極小的區間中事件只發生一次或是不發生 若隨機變數X是指在上述的情形下某一連續區間內的事件發生次數,此變數便服從卜瓦松分布 當事件發生的機率極小,區間極多時,二項式分布會趨近卜瓦松分布
卜瓦松分布的參數以λ (lambda)表示 X~Poi(λ) 國立臺灣大學 統計教學中心 初等統計學教材 卜瓦松分布的參數以λ (lambda)表示 X~Poi(λ) 設 X~Bin(10000, 0.00024) – 在一萬人口中每年有多少人發生過交通意外 趨近: X~Poi(10000*0.00024) = Poi(2.4) e: exponent 指數/自然數? Ln 自然對數
Poisson Distribution (cont.) 卜瓦松分布的平均數, Poi(λ) is λ 卜瓦松分布的變異數, Poi(λ) is λ 標準差
連續性機率分布 由於連續隨機變數可以在無限多的值中發生,因此 任何特定值的機率為0 在 x1 與x2 之間的機率等於其曲線在此兩個數值中的面積
常態分布 常態分布是一個對稱,單峰及鐘型的曲線。 社會及自然界的現象以常態分配最為普遍,因此是推論統計的基本模式 大樣本推論統計的基礎 間斷機率分布在某些條件下可以利用常態分布求近似值
μ (mu)平均數,決定常態分布的位置。σ2 (sigma square)變異數,決定常態分布的分散程度。 令 X~Normal(μ,σ2) -∞< x < ∞
將任一數值減去平均數後再除以標準差的過程叫做標準化 標準常態分布 在μ= 0 及 σ2 = 1的情形下,此常態分布稱為標準常態分布 標準常態分布通常以 Z 表示 Z~Norm(0,1) 將任一數值減去平均數後再除以標準差的過程叫做標準化