Week 4,5 隨機變數 (Random Variable)
離散型(Discrete) 離散型 (discrete variable) :離散型的變數一般為類別 (category) 或變數取值有一定的間隔。 類別例如性別,老中青(年齡分類別),職業別,婚姻狀 況別,學歷,種族,自殺方式,住地,遺傳基因,或學院… 等所有分門別類或分組。 變數取值有一定的間隔,例如每家中人口數, 每家中 投票數,每週外食天數,每週唸書時數(>8, 6-8, 4-6, 2- 4, <2), 缺課次數(0, 1-3, 4-5, 6-10, >10)…等數值變 數。(一般取值範圍較少或分組)
連續型(Continuous) 變數取值間可小到任意“小”的程度 (忽略儀器的測量極限,而且“小”的程度視問題而定) 例如身高,收入,花費,體重,生物測量值,分數,國家人口數,投票數(一般取值範圍較廣) 此地“任意小”或“間隔”往往必須視問題而 定,例如每家小孩數目可視為離散變數;然而, 若各國之人口數目則可視為連續變數。
2016總統大選投票人數 台北市 148 萬/218 新北市 215 萬/320 桃園縣 109 萬/163 新竹市 22 萬/33 台中縣市 146 萬/214
隨機變數 (Random Variable) 連續型 實際上,連續的變數為一種理想狀況,僅為方便分析或建立模式用。 例如收入,二者之收入有一定間隔(錢幣之最小單位),但一般仍視為連續變數。 連續的變數可經由分組而離散化 離散的變數亦可藉由數量化而連續化 (例如,住地變成距離、教育水準變成教育年數)。
隨機變數 以大寫字母 X, Y, Z 代表 當取一組資料數 小寫代表數值 會有如此的表式 P (X = x)
如何描述隨機變數:離散型 OR Probability density function (p.d.f.) (機率密度函數) f(x) Probability mass function OR Probability density function (p.d.f.) (機率密度函數) f(x) Cumulative distribution function (c.d.f.) (累積分配函數) F(x)
p.d.f.:離散型機率密度函數
連續型 Probability density function (p.d.f.) (機率密度函數) Cumulative distribution function (c.d.f.) (累積分配函數)
連續型機率密度函數
Bernoulli(白努力分布) 例如:同意與否; 有生病與無生病; 有感染與否; 事件有無發生; 零件作用與否; 系統作用與否; 動物有被捕取與否。
伯努利家族 (Bernoulli family, 17-18世紀) 瑞士數學家族,祖孫三代出過十餘位數學家和物理學家。其中有三個人成就最大: 雅各布.伯努利(Jacob Bernoulli) 約翰.伯努利(Johann Bernoulli):雅各布之弟 丹尼爾.伯努利(Daniel Bernoulli):約翰之子
雅各布.伯努利 (Jacob Bernoulli) 分別於1671和1676年獲得哲學和神學學位,受笛卡兒、沃利斯等人的著作影響,轉向數學研究。主要貢獻有:極座標的早期使用, 1690年首先使用數學意義下的「積分」一詞 ,1713年出版《猜度術》,給出「伯努利數」、「伯努利大數定理」等結果。
約翰.伯努利 (Johann Bernoulli) 1691年時在巴黎當過洛必達的私人教師,解出懸鏈線問題,1694年最先提出「洛必塔法則」。1695年到格羅寧根大學教數學,第二年提出「最速降線問題」,後得到正確解答,引發變分學的研究。曾當過歐拉的教師,給他以特別指導。
丹尼爾.伯努利 (Daniel Bernoulli) 1728年與歐拉一起研究彈性力學,1738年出版《流體動力學》,給出「伯努利定理」等流體動力學的基礎理論。
二項分布 (Binomial Distribution) 作了 n 次獨立白努力實驗每次成功機率均為p X: n 次中得到成功之個數 X=0, 1, 2, …,n 例如: 核能廢料運送100次輻射外洩次數; 測試某零件200個其中不良品之個數; 城市感染某病之人數; 歸還取樣中同意之人數。
為何稱二項分布? 源自二項展式 令
丟三個骰子, 6 出現次數 =0,1,2,3 P(不出現) = f(0) P(出現1次) = f(1) P(出現2次) = f(2) 丟三個骰子, 6 出現次數 =0,1,2,3 P(不出現) = f(0) P(出現1次) = f(1) P(出現2次) = f(2) P(出現3次) = f(3)
P(出現1次) = f(1) 6 X X p (1-p)(1-p) X 6 X (1-p)p(1-p) X X 6 (1-p)(1-p)p
P(出現2次) = f(2) 6 6 X p p (1-p) X 6 6 (1-p) p p 6 X 6 p (1-p) p
一般 Binomial (n, p) K 成功 p p p…p = pk n-k 失敗 (1-p)(1-p)….(1-p) = (1-p)n-k 共有 C (n,k) 情形
幸運輪盤(wheel of fortune) 冒險家自 1-6 中任選一個數字,下注一元。莊家丟三個骰子,若選定的數字出現 i 次, i =1,2,3 則莊家賠 i 元,若該數字沒出現則冒險家輸,賭注歸莊家。冒險家平均勝算有多少?
幸運輪盤其實不幸運 冒險家贏1元之機會 P(出現1次) 冒險家贏2元之機會 P(出現2次) 冒險家贏3元之機會 P(出現3次) 故平均而言,冒險家輸贏:
丟2n次銅板,恰有n 個正面n 個反面的機會 丟2次銅板,恰有1個正面,1 個反面的機會 丟4次銅板,恰有2個正面,2 個反面的機會 丟10次銅板,恰有5個正面,5 個反面的機會 丟100次銅板,恰有50個正面,50 個反面的機會 無窮多次(偶數),恰有一半正面,一半反面的機會
丟2n次銅板,恰有n 個正面n 個反面的機會
卜瓦松分布 (Poisson) 例如:在某一固定時間;描述重大意外事件之次數或頻率;某時間內捕取動物之數目;某地區感染疾病之人數。λ用來表示發生次數之平均值
卜瓦松 (Poisson, Simeon-Denis) Poisson是一位數學家,力學家和物理學家,在科學上的著作量很大,內容包含數學、物理與天文,現在數學中的Poisson過程、Poisson分配、Poisson定律...都是為了紀念這位數學家的貢獻。 Poisson主要的數學貢獻之一是研究 Fourier 級數,為日後 Dirichlet 與 Riemann 的工作打下基礎
卜瓦松小故事 關於他的有趣的傳說,在他還是嬰兒時期時,是由一個保姆帶大的,有時候,這保姆會出去外面辦事情,為了怕Poisson到處亂跑弄亂東西,以及接觸到地上不乾淨的東西而生病,於是他天才的保姆就用布把他包起來,並吊在牆壁上,Poisson說被吊著擺來擺去,就是他一天最重要的運動,而他也因為從小就接觸擺動,於是他晚年都在研究''擺'',因為這對他來說,是再熟悉不過。
被馬踢死人數 騎兵隊數 機率分布 配適數目 144 139(280x0.497) 1 91 97(280x0.348) 2 32 Bortkiewicz’s Data(1868-1931:最早的Poisson Data) 被馬踢死人數 騎兵隊數 機率分布 配適數目 144 139(280x0.497) 1 91 97(280x0.348) 2 32 34(280x0.122) 3 11 8(280x0.028) 4 2(280x0.005) Total : 280(平均值=0.7)
地震的模式 在1901-2000百年間,全球有37年無強震(六級以上) ,26年有一次六級以上強震,23年有兩次,8年有三次,1年有四次,2年有五次,2年有六次,1年有七次,共129次,平均 1.29次。試以卜瓦松模式描述此數據。
地震的模式
酵母菌的個數模式
疾病的模式 1986年,美國德州某郡發生了18個百日咳病例(當時該郡人口2,942,550)若百日咳全國罹病率為1.2/100,000人,則該地是否可適用全國罹病率? (假設該地區發生百日咳病例為卜瓦松分布,若全國罹病率適合,則可利用卜瓦松分布且=1.2*29.4255=35.31,計算在此情況下人數少於或等於18的機率有多少?)
超幾何分布(Hypergeometric Distribution) 假設在人群中有 m 個男性, n 個女性,任取 r 個人(不歸還取樣) 令X:男性的個數, max(0, r-n)≦x≦min(r, m) 例如:不歸還抽樣中滿意施政之人數;重複捕取中有記號之動物。
超幾何函數
20男, 10女不歸還取樣範圍 X:男性的數目 任抽5人,男性人數 X=0, 1, 2, …, 5 X=0, 1, 2, …, r X=max(r-n, 0), …, r 任抽22人,男性人數 X=12, 13, …, 20 X=max(r-n, 0), …, min(r, m)
20男,10女不歸還取樣5人 男性人數 = 2, 女性人數 = 3 (男男女女女) 機會 = (男女男女女) 機會 = (女女男男女) 機會 = 總共 =
超幾何分布(Hypergeometric Distribution) 假設在人群中有 m 個男性, n 個女性,任取 r 個人(不歸還取樣) 令X:男性的個數, max(0, r-n)≦x≦min(r, m) 例如:不歸還抽樣中滿意施政之人數;重複捕取中有記號之動物。
二項分布 20男10女,歸還取樣5人 男性人數=2,女性人數=3 (男男女女女)機會= = (男女男女女)機會= = 總共= 二項分布
幾何分布(Geometric Distribution) X:要抽多少次才會得到第一個成功呢? X=1,2,… P(X=1)= p P(X=2)= P(X=3)= … P(X=k)= 幾何序列
負二項分布 NB(r,p) (Negative Binomial Distribution) X =等到第r次成功之次數, X = r,r+1,…… 或令 Y = X – r, Y = 0, 1, … 特例:r = 1稱為幾何分布(Geometric Distribution) 例如:歸還抽樣中至抽到50個男性停止;動物捕取中直到抽到某一稀有種為止。
負二項分布 NB(r,p) P(X=k)=P(第k次為第r個成功) =P(第k次為成功 且 前面(k-1)次 有(r-1)成功 (k-1)失敗) =
另一種形式 Y=X-r Y:在得到第r個成功前,失敗的次數 Y=0,1,2,… P(Y=k)=P(X=k+r) =
為何稱為負二項分布 源自負二項展式
離散均勻分布(Discrete Uniform Distribution) 例題:擲骰子點數的分布、生日的分布、 彩卷數字分布。
離散均勻分布 生日分布 X =1,2,…,12
離散均勻分布 樂透數字分布 X =1,2,…,42
多項分布(Multinomial Distribution) MN(n;p1,p2,…,pK) ㄧ地區中有種類為j 之比率為 今歸還取樣n 次 令 為 n 次中種類為j 之數目 例如:某一地區鳥種之分布、人類血型之分布、 數種基因形式之分布等。
多項分布(Multinomial舉例) 某地A種佔50% , B種佔30% , C種佔20%
利用R計算各項分配 Poisson分配機率的算法: 隨機生成Poisson資料(n:生成筆數) 計算Poi(lambda)在x的機率密度函數 rpois(n, lambda) 隨機生成Poisson資料(n:生成筆數) dpois(x, lambda) 計算Poi(lambda)在x的機率密度函數 ppois(x, lambda) 計算累積機率 p=P(X<=x) qpois(p, lambda) 算出百分位點 p=P(X<=x)對應的x值
以講義的卜瓦松分布之被馬踢死人 數例題來說明(平均值=0.7): #做”被馬踢死人數”實驗10次 rpois(10, 0.7) #被馬踢死人數等於1時的機率 dpois(1, 0.7) #被馬踢死人數小於等於5的機率 ppois(5, 0.7) ; sum(dpois(0:5, 0.7)) #算出百分位點0.4=P(X<=x)對應的 x值 qpois(0.4, 0.7) 0 0 0 0 2 1 0 0 0 1 0.3476097 0.99991 0.99991
Binomial分配機率的算法 隨機生成Poisson資料(n:生成筆數) 計算Ber(size,prob)在x的機率密度函數 rbinom(n, size, prob) 隨機生成Poisson資料(n:生成筆數) dbinom(x, size, prob) 計算Ber(size,prob)在x的機率密度函數 pbinom(x, size, prob) 計算累積機率 p=P(X<=x) qbinom(p, size, prob) 算出百分位點 p=P(X<=x)對應的x值
Binomial分配機率的算法 若X為5次白努力實驗中得到成功之個數,成功的機率為0.4 #生成三次結果 rbinom(3, 5, 0.4) #計算兩次成功的機率 dbinom(2, 5, 0.4) #計算成功次數小於等於4的機率 pbinom(4, 5, 0.4) ; sum(dbinom(0:4, 5, 0.4)) #算出百分位點0.8=P(X<=x)對應的 x值 qbinom(0.8, 5, 0.4) 1 3 3 0.3456 0.98976 0.98976 3
Hypergeometric 分配機率的算法 rhyper(nn, m, n, k) 隨機生成Hypergeometric資料 (nn:生成筆數;m、n:兩類個數;k:抽取個數) dhyper(x, m, n, k) 計算Hyp(m,n,k)在x的機率密度函數 phyper(x, m, n, k) 計算累積機率 p=P(X<=x) qhyper(p, m, n, k) 算出百分位點 p=P(X<=x)對應的x值
Hypergeometric 分配機率的算法 #若一班中男生有15人,女生有20人,現任取5人 #生成三次結果(結果為抽到的男生人數) rhyper(3, 15, 20, 5) #計算抽到兩位男生的機率 dhyper(2, 15, 20, 5) #計算抽到男生人數小於等於4的機率 phyper(4, 15, 20, 5) ; sum(dhyper(0:4, 15, 20, 5)) #算出百分位點0.4=P(X<=x)對應的 x值 qhyper(0.4, 15, 20, 5) 3 2 3 0.3687252 0.9907495 0.9907495 2
Negative Binomial分配機率的算法 ※R為白努力實驗中直到size次成功所需”失敗”次數 rnbinom(n, size, prob) 隨機生成Negative-Binomial資料 (n:生成筆數;size:直到size次成功;prob:成功機率) dnbinom(x, size, prob) 計算NB(size,prob)在x的機率密度函數 pnbinom(x, size, prob) 計算累積機率 p=P(X<=x) qnbinom(p, size, prob) 算出百分位點 p=P(X<=x)對應的x值
Negative Binomial分配機率的算法 #若X為白努力實驗中直到10次成功所需"失敗"次數,成功的機率為0.6 #生成五次結果 rnbinom(5, 10, 0.6) #計算所需"失敗"次數為2的機率 dnbinom(2, 10, 0.6) #計算所需"失敗"次數小於等於5的機率 pnbinom(5, 10, 0.6) ; sum(dnbinom(0:5, 10, 0.6)) #算出百分位點0.8=P(X<=x)對應的 x值 qnbinom(0.8, 10, 0.6) 9 6 4 9 5 0.05321023 0.4032156 0.4032156 9