Presentation is loading. Please wait.

Presentation is loading. Please wait.

課程五 機率.

Similar presentations


Presentation on theme: "課程五 機率."— Presentation transcript:

1 課程五 機率

2 機率 機率是長期觀察隨機變數之後,事件發生的比例 樣本空間:所有事件的集合 事件:樣本空間的子集合 離散 連續

3 機率規則 P(~A)=1-P(A) P(A∪B)=P(A)+P(B) if P(A∩B)=0 聯合(joint)機率:P(A∩B)
邊際(marginal)機率: P(A∩B1)+P(A∩B2)+… 條件機率:P(A|B)=P(A∩B)/P(B) P(B) ×P(A|B)= P(A∩B) 如果是獨立事件P(A∩B)=P(A) ×P(B)

4 上課時間 上午A1 下午A2 有無帶筆電上課 帶筆電B1 31 23 沒帶筆電B2 19 27

5 各種機率 上午上課且帶筆電的(聯合)機率為:P(A1∩B1)=31/100=0.31
上午上課的(邊際)機率為: P(A1∩B1)+ P(A1∩B2)= =0.5 帶筆電的(邊際)機率為: P(B1∩A1)+ P(B1∩A2)= =0.54 已知某同學上午上課,他帶筆電的(條件)機率: P(A1∩B1)/ P(A1)=0.31/0.5

6 假設在中國的26名省市委書記中,具有博士學位黨職的有8人,出生在「50後」有14人,有博士學位且出生在「50後」的有5人。則有博士學位或是出生在「50後」的機率為? P(A)=18/26=0.3. P(B)=14/26=0.53. P(A∩B)=5/26=0.19. P(A)+P(B)- P(A∩B)=0.64

7 機率分佈(Probability distribution)
在長時間重複觀察之後,特定事件發生的比例可以函數或是類似直方圖的方式表示 0≦P(y)≦1

8 離散變數的機率 給變數y的每一個值一個機率 計算觀察到每個值發生的次數再除以總次數。
機率分佈用直方圖表示,或稱為probability mass function (pmf)。 平均值:Σy×P(y)

9 連續變數的機率 連續變數可表示某一變數值或是區間所發生的機率。 函數下的面積應為1 機率分佈的參數為平均值μ及標準差σ 最常見的是常態分佈
P(-σ < y < σ) = 0.68, 0.95 for 2σ(A&F圖4.3)

10 常態分佈的表示方式

11 常態分佈函數

12 標準化常態分佈的表示方式

13 Z值 表示y的某個值與其平均值相差有多少標準差,也是一種標準化過程。

14

15 Z值及機率分布1 Z值與機率之間可以互相對照,代表函數底下的面積,或者是累積機率,也是一種分位數。

16

17 Z值及機率分布 當Z=0,對應為0.5的機率 當Z=1.0,對應的右尾累積機率為0.1587,也就是說平均值加1個標準差的累積機率為 =0.3413,因此平均值正負1個標準差的機率則為0.6826,或者是68%。 當Z=2.0,對應的右尾累積機率為0.0228,因此平均值正負2個標準差的機率則為1-2*0.0228=0.9544,或者是95%、0.95。

18

19 例 當平均值是100、標準差為16時, 常態分佈下的99%的IQ代表幾分?
因為累積機率為99%或者是右尾剩餘機率為1%,以標準常態分布而言,對應的Z值為2.32,所以y= *16=137.2 換句話說,當平均值是100、標準差為16時, 在常態分佈下有99%的人不到137.2

20

21 例 美國人身高平均值為70.2吋,標準差為2.89吋,那麼不到6呎的機率為?
Z=( )/2.89=0.62。查表可知右尾機率為0.2676。故 =0.73=73% 那麼身高介於70.2吋與6呎之間的機率為? 73%-50%=23%

22

23 抽樣分佈 抽樣分佈(sampling distributions)指的是根據母體所得到的樣本統計資料,所呈現的分佈。
機率分佈(probability distributions)則是列出變數的所有可能發生事件。瞭解機率分佈可幫助我們瞭解從樣本推論到母體。 實際上,我們最多知道樣本分佈。

24 例—投票選擇(二元) 民調顯示56.5%的民眾投給阿諾。 假設已知母體(加州州民)有50%的民眾投給阿諾。(μ=0.5)。
0.565是許多樣本統計的其中之一,每一「個」樣本可視為許多觀察值的總合。 樣本分佈則是把許多樣本以其樣本統計值為X軸、次數為Y軸列成直方圖。

25 例—投票選擇(二元)續 仿民意調查,我們隨機抽2705人,抽3000次。已知母體支持阿諾的機率為0.5。
經由常態分佈的模擬,可得到以下的樣本比例: 0.497, 0.515, 0.505, 0.489, 0.500, 0.504, 0.509, 0.507, 0.505, 0.508,…. 畫成直方圖表示樣本分佈,大多數集中在0.5

26

27 例—投票選擇(二元)續 或者模擬樣本數為4—統計值較少 最小值為: 0, 最大值為: 1, 平均值為: 0.5
可先建立樣本分配(sampling distribution) 或是畫圖表示

28

29 平均值y-bar的抽樣分佈 前述的投票選擇屬於二元的變數,稱為樣本比例(sample proportion),但是我們更關心連續變數y的平均數(y-bar) 不同樣本有不同y-bar,許多的y-bar可成為一個抽樣分佈。 眾多y-bar的平均值以及離散程度即這個y-bar抽樣分佈的重要參數。

30 平均數與標準誤

31 例 從任何一個母體分佈抽出若干樣本,樣本數越大,抽樣分佈應該有越小的離散程度,而其平均值應該越接近母體。
假設有一個單一分佈的母體(N=100,000, μ=95.04, σ=20.2)

32

33 , σ-y-bar 抽出100個樣本,抽100次之後,平均值為95.28, σ-y-bar=20.2/10=2.02(實際:2.09)

34

35

36

37 小結 因為實際上我們不可能知道σ,所以σ-y-bar只是估計,但是可以看到它跟實際的抽樣分佈的離散程度相當接近。
而當樣本數n越大,標準誤越小,因此抽樣分佈越集中在母體的平均值附近。

38 樣本比例 如果y是二元變數,母體的平均數為p。 變異數則是p(1-p) 但是許多的平均數所形成的抽樣分佈,標準誤為σ-y-bar。
當p=0.5, σ-y-bar=0.5/√n

39 例 母體的平均值為0.5,那麼σ-y-bar=0.5/√2705=0.01。
因此,如果有56.5%的民眾投給阿諾,0.565與母體平均值差距=6.5個標準誤。遠超過三個標準誤[0.47, 0.53]。 我們不知道σ,但是,不管母體是什麼分佈,n越大、抽樣分佈的標準誤越小,而且呈常態分佈。

40 抽樣誤差 根據抽樣分佈的標準誤,可以反推需要多少樣本。 假設母體比例為0.559, σ-y-bar=0.497/√2705=0.01
當n=400, 且μ=0.559,σ=0.497,σ-y-bar=0.497/√400=0.025。因此,樣本越大,μ相同的情況下,y-bar越集中,抽樣誤差(sampling error)越小

41 中央極限定理 不論母體的機率分佈為何,平均值的抽樣分佈隨著樣本變大,越來越接近常態分佈。
而根據經驗法則,幾乎所有平均值會落在平均值加減3個標準誤的區間。 理論上我們不知道σ,需要用樣本的s估計。如果樣本數越接近母體,抽樣誤差越小,樣本平均值也越接近母體平均值。

42 假設有一連續變數,其分佈往左偏。 可以觀察當抽出30個樣本、100個樣本,抽樣分佈接近常態分佈。

43

44

45

46 總結 瞭解機率的基本原則 瞭解機率分佈的意義 瞭解標準常態分佈z值之意義 瞭解何謂抽樣分佈


Download ppt "課程五 機率."

Similar presentations


Ads by Google