第4章 常態分佈
第一節 常態分佈的特性 (1) 如果調查台灣1000位成年男性的身高,將會發現身高特別高和特別低的人佔極少數,絕大多數的人身高都在中間(例如170公分)附近。 如果這1000人的平均身高是170公分,那麼身高離170公分越遠的人,所佔的比例就越少。簡單的說,大略呈現以170公分為中心,並往兩旁遞減的分佈圖。如下圖所示。
第一節 常態分佈的特性 (2) 如果調查的是體重、收入、智力等變項,也很可能出現類似上圖的分佈。 上圖的分佈是間斷的,可是理論上身高是連續的,因為任何兩個人之間,存在第三個人,其身高介在他們之間。 如果調查更多的人(如10萬人),那麼上圖的長條圖中間斷現象逐漸會消除。一旦調查人數非常之大,那麼上圖的長條圖會變成平滑的曲線圖,如下圖中的平滑曲線所示。
第一節 常態分佈的特性 (3) 上圖的平滑線左右對稱,好像一座山,或者類似「銅鐘」的形狀。也就是中間最高,往兩旁遞減,這就是所謂的常態分佈(normal distribution)。 由於是左右對稱,且由中間往兩旁遞減,因此中心點最高的位置就是平均數,也就是眾數、和中位數,三者合而為一。 常態分佈是連續的曲線,但是現實中,並沒有連續的曲線存在。頂多只是類似常態分佈,可是當樣本數很大時,會越接近常態分佈。
第一節 常態分佈的特性 (4) 早在18世紀就有數學家和天文學家開始探討這樣的一條曲線。德國天文家兼數學家高斯(Carl Friedrich Gauss,1777-1855)利用常態分佈研究天文學觀察中誤差的分佈情形,因此常態分佈又稱高斯分佈。 後來高登爵士(Sir Francis Galton, 1822-1911)將高斯分佈用於心理測驗的研究中。 另一位著名的數學和統計學家Karl Pearson(1857-1936)將高斯分佈稱為常態分佈。
第一節 常態分佈的特性 (5) 這條曲線的數學函數為 其中p = 3.1416,e是自然對數之底2.7183,X介在正負無限大,m是平均數,s是標準差。一旦確定平均數和標準差後,帶入公式算得f(X)。
第一節 常態分佈的特性 (6) 要決定常態分佈的形狀,就必須知道平均數m和變異數s2(或者標準差s)。常態分佈取決於兩個參數(parameter):m和s2。 只要設定這兩個參數,就可以畫出那條常態分佈曲線。只要m或s2不同,曲線就不同。 這也就是為何在上述公式裡,表明 其中分號後面代表的就是決定這個函數的參數。假如變數X服從常態分佈,平均數為m,變異數為s2,則寫成:X ~ N(m, s2),其中~表示服從,N表示常態分佈。
第一節 常態分佈的特性 (7) 下圖(機率密度函數圖,probability density function plot)呈現三條常態分佈曲線,其中A曲線的平均數和標準差分別為170和5,B曲線的平均數和標準差分別為175和5,C曲線的平均數和標準差分別為170和10。 比較A和B,可以發現當平均數不同而標準差相同時,整個曲線只是位移而已。 比較A和C可以發現如果標準差不同,整個圖形就改變了,即使他們的平均數相同。例如C便得比A來得平坦多了,那是因為C的標準差遠比A來得大所致。
第一節 常態分佈的特性 (8) 如果是間斷變項,例如骰子出現的點數,那麼就可以說出現3點的機率(probability)是1/6,即p(X = 3) = 1/6。 換做連續變項,不宜宣稱X等於某個值的機率。 假如把身高當作連續變項,那麼身高是170公分整的機率是多少?嚴格的說,在連續變項中任何一點出現的機率都是0,因此170公分整的機率等於0。
第一節 常態分佈的特性 (9) 連續變項既然無點出現的機率,改稱為機率密度(probability density)。在平均數為170,標準差為5的常態分佈中170的機率密度等於
第一節 常態分佈的特性 (10) 機率密度函數圖只能看出各個點的機率密度,但機率密度無多大意義,因此該圖並不實用。 對使用者而言,不關心170公分的機率密度,而是關心170公分以下的機率,或是165至175的機率,因此應該換另外一個能夠呈現這種意義的圖。 就數學而言,要得到這樣的圖,必須透過積分以計算某段區間的面積。令整個曲線所涵蓋面積為1,那麼某段區間所佔的面積就是該區段的機率。
第一節 常態分佈的特性 (11) 下圖呈現常態分佈(平均數170,標準差5)的累積分佈函數圖(cumulative distribution function)。 如果要計算170公分以下的機率,就直接從170處往上劃至該曲線,然後往左劃,即可算得。同理,要計算任何一個區段(如165至175)的面積,也可如此,輕易算得機率了。
第一節 常態分佈的特性 (12) 如果要計算170公分以下的機率,就直接從170處往上劃至該曲線,然後往左劃,即可算得。同理,要計算任何一個區段(如165至175)的面積,也可如此算得機率。 不過畢竟要如此計算機率,必須先有此累積分佈函數圖。可惜,通常不易獲得該圖。此外用畫線的方式也只能得到粗略的數值。
第一節 常態分佈的特性 (13) 一般的統計學教科書的附錄裡,都可以查到常態分佈的機率密度函數和累積分佈函數。 Excel的函數NORMDIST和NORMINV,直接可以查詢。 例如要查詢平均數為170,變異數為25的常態分佈,寫成N(170, 25),170的機率密度,就鍵入「=NORMDIST(170,170,5,FALSE)」得機率密度為0.0798。 其中NORMDIST就是查詢常態分佈的函數,第一個170就是要查的數值,第二個170為該常態分佈的平均數,5是標準差,FALSE表示要查的是機率密度。
第一節 常態分佈的特性 (14) 若要查負無限大到170的機率(同樣是N(170, 25)),鍵入 「=NORMDIST(170,170,5,TRUE)」,其中TRUE表示要查的是累積機率,得到0.5。這表示在平均數為170,變異數為25的常態分佈中,負無限大到170的機率就是0.5,也就是說170左邊的面積佔0.5。
第一節 常態分佈的特性 (15) 假如我們會想知道中間的80%(或90%,95%等)的成年男子的身高介在那裡至那裡之間。如果身高是平均數170,標準差5的常態分佈,那麼80%的成年男子的身高將介於170某個範圍。以平均數170為中心點,左右兩邊各佔40%,合計80%。 這可利用下圖的累積分佈函數圖窺知。在Y軸上的0.1和0.9處往右劃至曲線,再往下劃至X軸即得,分別為164和176。身高在164和176之間的人佔80%。
第一節 常態分佈的特性 (16) 上圖的作法等於在計算累積分佈函數的反函數,Excel提供了這項函數NORMINV。 我們要算從分佈的左邊起算,面積為0.1的數值是多少,以及面積為0.9的數值為多少。 鍵入「=NORMINV(0.1,170,5)」得163.59,這表示在平均數為170,標準差為5的常態分佈中,左邊起算到163.59的面積為0.1。 鍵入「=NORMINV(0.9,170,5)」得176.41,這表示從左邊起算至176.41的面積為0.9。因此在163.59到176.41的數值占的面積為0.8。
第一節 常態分佈的特性 (17) 例1: 如果全國成年男性的身高為常態分佈(嚴格的說是非常近似常態分佈),平均數為170,標準差為5。身高在平均數上下0.5個標準差的人約佔多少?在平均數上下1個標準差的人約佔多少?在平均數上下1.645個標準差、上下1.96個標準差、上下3個標準差的人約佔多少?
第一節 常態分佈的特性 (18) 作法: 已知1個標準差為5,因此在平均數上下0.5個標準差的數值就是1702.5。即167.5和172.5 。 從負無限大到167.5的面積為0.31,這可以利用NORMDIST函數求得,鍵入「=NORMDIST(167.5,170,5,TRUE)」。由於常態分佈是左右對稱,因此從172.5到無限大的面積也是0.31。扣除兩邊面積各0.31後,中間167.5到172.5的面積就是0.38。
第一節 常態分佈的特性 (19) 平均數上下1個標準差的數值為165和175。從負無限大到165的面積為0.16,從負無限大到175的面積為0.84。因此在平均數上下1 個標準差之間的面積0.68。 平均數上下1.645個標準差的數值為161.775和178.225。從負無限大到161.775的面積為0.05,從負無限大到178.225的面積為0.95。因此在平均數上下1.645個標準差之間的面 積就是0.90。
第一節 常態分佈的特性 (20) 平均數上下1.96個標準差的數值為160.2和179.8。從負無限大到160.2的面積為0.025,從負無限大到179.8的面積為0.975。平均數上下1.96個標準差之間的面積就是0.95。 平均數上下3個標準差的數值為155和185。從負無限大到155的面積為0.0014,從負無限大到185的面積為0.9987。因此在平均數上下3個標準差之間的面積就是0.9973。
第一節 常態分佈的特性 (21) 對任何的常態分佈而言,平均數上下0.5個標準差之間的面積為 0.38;上下1個標準差之間的面積為 0.68;上下1.645個標準差之間的面積為 0.90;上下1.96個標準差之間的面積為 0.95;上下3個標準差之間的面積為 0.997。
第一節 常態分佈的特性 (22) 例子2: 假設某廠牌汽車電池的壽命是常態分佈,平均數為800天,標準差為100天。現隨機抽取一個汽車電池,其壽命小於500天的機率有多大?大於1000天的機率有多大?介於700天至900天的機率有多大? 如果該公司想訂定一個保固期,在保固期限內可以免費更換電池,公司最多可以承擔1%的免費更換,保固期應該定多久?
第一節 常態分佈的特性 (23) 作法: 鍵入「=NORMDIST(500,800,100,TRUE)」得0.001,因此小於500天的機率為0.001。 鍵入「=NORMDIST(1000,800,100,TRUE)」得0.977,這是小於1000天的機率。大於1000天的機率為1 – 0.977 = 0.023。
第一節 常態分佈的特性 (24) 鍵入「=NORMDIST(700,800,100,TRUE)」得0.159。鍵入「=NORMDIST(900,800,100, TRUE)」得0.841。介於700天到900天的機率就是0.841 – 0.159 = 0.683。 由於最多承擔1%的免費更換,等於要找到一個電池壽命的天數, 其左邊的面積為1%。鍵入「=NORMINV(0.01,800,100)」得 567天。電池壽命小於567天的機率為1%。
第二節 標準常態分佈(1) 標準常態分佈(standard normal distribution),又稱Z分佈,就是將平均數訂為0,變異數訂為1的常態分佈。 任何常態分佈都可以換做標準常態分佈,只要它的值減去平均數再除以標準差。即
第二節 標準常態分佈(2) 此Z變項所形成的分佈稱為標準常態分佈,又稱Z分佈。此分佈的機率密度函數為:
Z分佈的機率密度函數圖
Z分佈的累積分佈函數圖
第二節 標準常態分佈(3) 對Z分佈而言,其值介於 ±0.5的機率為38%;其值介於 ±1的機率為68%;介於±1.645的機率為90%,介於±1.96的機率為95%,介於±3的機率為99.7%。 定義za/2為Z分佈「右邊」起算面積為a/2的z值,如下圖所示,由於Z分佈左右對稱於0,因此 z1-a/2 = - za/2 Z介於- za/2是za/2的機率為1- a: P(- za/2 < Z < za/2) = 1- a
第二節 標準常態分佈(4) 利用Excel計算Z分佈的累積分佈函數及其反函數,除了可以援用上述常態分佈的函數NORMDIST和NORMINV外(此時請鍵入平均數0,標準差1。)還可以利用NORMSDIST和NORMSINV。 不過若要計算Z分佈的機率密度函數,還得用NORMDIST,因為NORMSDIST只能計算累積分佈函數。
第二節 標準常態分佈(5) 在進行線性轉換之前,X變項是常態分佈,由於線性轉換不會改變其分佈形狀,因此Z變項仍是常態分佈。 如果X變項原本就不是常態分佈,即使進行線性轉換成為Z變項,並不使得Z變項變為常態。
第三節 峰度與偏態 (1) 峰度(kurtosis)和偏態(skewness)常被分別用於描述資料分佈的高度和左右對稱性。 常態分佈的峰度等於0。如果資料的峰度大於0,那麼該資料的分佈較高聳且狹窄,稱為高狹峰分佈(platykurtic distribution)。 如果峰度小於0,資料的分佈較平坦且寬闊,稱為低闊峰分佈(leptokurtic distribution)。
高狹峰分佈 常態分佈 低闊峰分佈
第三節 峰度與偏態 (2) 峰度的公式是 如果是樣本的話,峰度為:
第三節 峰度與偏態 (3) Excel資料分析的「敘述統計」功能可計算峰度。 或利用KURT的函數。例如資料為1, 2, 3, 4, 5, 6, 7,鍵入「=KURT(1,2,3,4,5,6,7)」就得峰度-1.2。該值小於0,因為1到7這些值的分佈比常態分佈來得平坦。 如果數值換為1, 2, 2, 2, 2, 2, 3,此7個值的分佈中間非常陡峭(2的次數非常多),鍵入「=KURT(1,2,2,2,2,2,3)」得峰度為3。
第三節 峰度與偏態 (4) 偏態也和峰度一樣在描述資料分佈的形狀,如果分數往右邊延伸,其偏態值會大於0,故稱正偏態或右偏態。 如果分數往左邊延伸,偏態值小於0,故稱負偏態或左偏態;如果對稱分佈,偏態值等於0。 第三章變異量數的圖2(c)就是負(左)偏態,2(d)則是正(右)偏態。
第三節 峰度與偏態 (5) 偏態的公式為 如果是樣本的話,則是:
第三節 峰度與偏態 (6) Excel的SKEW的函數可用來計算偏態。