第4章 常態分佈.

Slides:



Advertisements
Similar presentations
Chap 3 微分的應用. 第三章 3.1 區間上的極值 3.2 Rolle 定理和均值定理 3.3 函數的遞增遞減以及一階導數的判定 3.4 凹面性和二階導數判定 3.5 無限遠處的極限 3.6 曲線繪圖概要 3.7 最佳化的問題 3.8 牛頓法 3.9 微分.
Advertisements

工職數學 第四冊 第一章 導 數 1 - 1 函數的極限與連續 1 - 2 導數及其基本性質 1 - 3 微分公式 1 - 4 高階導函數.
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
不定積分 不定積分的概念 不定積分的定義 16 不定積分的概念 16.1 不定積分的概念 以下是一些常用的積分公式。
大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
Ch12 資料分析.
Excel Functions and Probability Distribution
石牌金頭腦 概數篇(可複選)加油哦!.
第 6 章 連續機率分配.
利用標準常態分配求常態分配的機率 X μ μ-3σ μ-2σ μ-σ μ+σ μ+2σ μ+3σ Z
第11章 線性相關.
認識倍數(一) 設計者:建功國小 盧建宏.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
第5章 間斷機率分佈.
5.1 自然對數函數:微分 5.2 自然對數函數:積分 5.3 反函數 5.4 指數函數:微分與積分 5.5 一般底數的指數函數和應用 5.6 反三角函數:微分 5.7 反三角函數:積分 5.8 雙曲函數.
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
量化研究與統計分析 Data Graphing
Chap3 Descriptive statistics -numerical measures Minitab & Excel
Chapter 5 遞迴 資料結構導論 - C語言實作.
點狀圖 (Dot Plot).
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
邏輯迴歸 Logistic Regression
順德聯誼總會梁潔華小學 六年級 數學科 下學期 數形.
SQL Stored Procedure SQL 預存程序.
第十四單元 弧長與旋轉體的表面積.
單一分配 Uniform distribution
第2章 集中量數.
偏導數的幾何意義 考慮一個由方程式 所決定的曲面。就如下面的圖3所顯示的,平面 與曲面相交於平面曲線 上,且這個值 就是這條曲線在點
積分的商業應用 不定積分的商業應用 1. 邊際成本函數  2. 邊際收益函數  3. 邊際利潤函數  4. 若已知 
劉仁沛教授 國立台灣大學農藝學研究所生物統計組 國立台灣大學流行病學與預防醫學研究所 國家衛生研究院生物統計與生物資訊組
第3章 變異量數與分佈形狀.
第一章 直角坐標系 1-3 函數圖形.
學習單元:N6 數的性質 學習單位:N6-3 用短除法求H.C.F. 和 L.C.M. 學習重點 : 1. 複習因數分解法求
估計與假設檢定.
Definition of Trace Function
小學四年級數學科 8.最大公因數.
微積分網路教學課程 應用統計學系 周 章.
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
圓的定義 在平面上,與一定點等距的所有點所形成的圖形稱為圓。定點稱為圓心,圓心至圓上任意一點的距離稱為半徑,「圓」指的是曲線部分的圖形,故圓心並不在圓上.
Review of Statistics.
Ogive plot example 說明者:吳東陽 2003/10/10.
順德聯誼總會梁潔華小學 六年級 數學科 下學期 數形.
五.連續變數及常態分佈 (Continuous Random Variables and Normal Distribution)
統計學回顧 區國強.
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
函數應用(二)與自定函數.
第十一單元 兩曲線圍出的面積.
第十四章名義資料的數字 描述:關連測量 © Copyright 版權所有:學富文化事業有限公司。本光碟內容僅提供教師於教學上使用,非經本公司許可,禁止複製 (給學生)。感謝老師的配合。
第七章 資料轉換和 個案選擇 7.1 前言 7.2 〝Recode〞功能 7.3 〝Compute〞功能 7.4 〝Count〞功能
課程三 描述統計:次數分配、中央趨勢.
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
( )下列何者正確? (A) 7< <8 (B) 72< <82 (C) 7< <8 (D) 72< <82 C 答 錯 對.
第一章 直角坐標系 1-3 函數及其圖形.
4-1 變數與函數 第4章 一次函數及其圖形.
在直角坐標平面上兩點之間 的距離及平面圖形的面積
Test for R Data Processing & Graphics
第四組 停車場搜尋系統 第四組 溫允中 陳欣暉 蕭積遠 李雅俐.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
描述統計 Descriptive Statistics
10303: How Many Trees? ★★☆☆☆ 題組:Contest Archive with Online Judge
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
以下是一元一次方程式的有________________________________。
7. 三角學的應用 正弦公式 餘弦公式 a2 = b2 + c2 - 2bc cos A b2 = a2 + c2 - 2ac cos B
第三十單元 極大與極小.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

第4章 常態分佈

第一節 常態分佈的特性 (1) 如果調查台灣1000位成年男性的身高,將會發現身高特別高和特別低的人佔極少數,絕大多數的人身高都在中間(例如170公分)附近。 如果這1000人的平均身高是170公分,那麼身高離170公分越遠的人,所佔的比例就越少。簡單的說,大略呈現以170公分為中心,並往兩旁遞減的分佈圖。如下圖所示。

第一節 常態分佈的特性 (2) 如果調查的是體重、收入、智力等變項,也很可能出現類似上圖的分佈。 上圖的分佈是間斷的,可是理論上身高是連續的,因為任何兩個人之間,存在第三個人,其身高介在他們之間。 如果調查更多的人(如10萬人),那麼上圖的長條圖中間斷現象逐漸會消除。一旦調查人數非常之大,那麼上圖的長條圖會變成平滑的曲線圖,如下圖中的平滑曲線所示。

第一節 常態分佈的特性 (3) 上圖的平滑線左右對稱,好像一座山,或者類似「銅鐘」的形狀。也就是中間最高,往兩旁遞減,這就是所謂的常態分佈(normal distribution)。 由於是左右對稱,且由中間往兩旁遞減,因此中心點最高的位置就是平均數,也就是眾數、和中位數,三者合而為一。 常態分佈是連續的曲線,但是現實中,並沒有連續的曲線存在。頂多只是類似常態分佈,可是當樣本數很大時,會越接近常態分佈。

第一節 常態分佈的特性 (4) 早在18世紀就有數學家和天文學家開始探討這樣的一條曲線。德國天文家兼數學家高斯(Carl Friedrich Gauss,1777-1855)利用常態分佈研究天文學觀察中誤差的分佈情形,因此常態分佈又稱高斯分佈。 後來高登爵士(Sir Francis Galton, 1822-1911)將高斯分佈用於心理測驗的研究中。 另一位著名的數學和統計學家Karl Pearson(1857-1936)將高斯分佈稱為常態分佈。

第一節 常態分佈的特性 (5) 這條曲線的數學函數為 其中p = 3.1416,e是自然對數之底2.7183,X介在正負無限大,m是平均數,s是標準差。一旦確定平均數和標準差後,帶入公式算得f(X)。

第一節 常態分佈的特性 (6) 要決定常態分佈的形狀,就必須知道平均數m和變異數s2(或者標準差s)。常態分佈取決於兩個參數(parameter):m和s2。 只要設定這兩個參數,就可以畫出那條常態分佈曲線。只要m或s2不同,曲線就不同。 這也就是為何在上述公式裡,表明 其中分號後面代表的就是決定這個函數的參數。假如變數X服從常態分佈,平均數為m,變異數為s2,則寫成:X ~ N(m, s2),其中~表示服從,N表示常態分佈。

第一節 常態分佈的特性 (7) 下圖(機率密度函數圖,probability density function plot)呈現三條常態分佈曲線,其中A曲線的平均數和標準差分別為170和5,B曲線的平均數和標準差分別為175和5,C曲線的平均數和標準差分別為170和10。 比較A和B,可以發現當平均數不同而標準差相同時,整個曲線只是位移而已。 比較A和C可以發現如果標準差不同,整個圖形就改變了,即使他們的平均數相同。例如C便得比A來得平坦多了,那是因為C的標準差遠比A來得大所致。

第一節 常態分佈的特性 (8) 如果是間斷變項,例如骰子出現的點數,那麼就可以說出現3點的機率(probability)是1/6,即p(X = 3) = 1/6。 換做連續變項,不宜宣稱X等於某個值的機率。 假如把身高當作連續變項,那麼身高是170公分整的機率是多少?嚴格的說,在連續變項中任何一點出現的機率都是0,因此170公分整的機率等於0。

第一節 常態分佈的特性 (9) 連續變項既然無點出現的機率,改稱為機率密度(probability density)。在平均數為170,標準差為5的常態分佈中170的機率密度等於

第一節 常態分佈的特性 (10) 機率密度函數圖只能看出各個點的機率密度,但機率密度無多大意義,因此該圖並不實用。 對使用者而言,不關心170公分的機率密度,而是關心170公分以下的機率,或是165至175的機率,因此應該換另外一個能夠呈現這種意義的圖。 就數學而言,要得到這樣的圖,必須透過積分以計算某段區間的面積。令整個曲線所涵蓋面積為1,那麼某段區間所佔的面積就是該區段的機率。

第一節 常態分佈的特性 (11) 下圖呈現常態分佈(平均數170,標準差5)的累積分佈函數圖(cumulative distribution function)。 如果要計算170公分以下的機率,就直接從170處往上劃至該曲線,然後往左劃,即可算得。同理,要計算任何一個區段(如165至175)的面積,也可如此,輕易算得機率了。

第一節 常態分佈的特性 (12) 如果要計算170公分以下的機率,就直接從170處往上劃至該曲線,然後往左劃,即可算得。同理,要計算任何一個區段(如165至175)的面積,也可如此算得機率。 不過畢竟要如此計算機率,必須先有此累積分佈函數圖。可惜,通常不易獲得該圖。此外用畫線的方式也只能得到粗略的數值。

第一節 常態分佈的特性 (13) 一般的統計學教科書的附錄裡,都可以查到常態分佈的機率密度函數和累積分佈函數。 Excel的函數NORMDIST和NORMINV,直接可以查詢。 例如要查詢平均數為170,變異數為25的常態分佈,寫成N(170, 25),170的機率密度,就鍵入「=NORMDIST(170,170,5,FALSE)」得機率密度為0.0798。 其中NORMDIST就是查詢常態分佈的函數,第一個170就是要查的數值,第二個170為該常態分佈的平均數,5是標準差,FALSE表示要查的是機率密度。

第一節 常態分佈的特性 (14) 若要查負無限大到170的機率(同樣是N(170, 25)),鍵入 「=NORMDIST(170,170,5,TRUE)」,其中TRUE表示要查的是累積機率,得到0.5。這表示在平均數為170,變異數為25的常態分佈中,負無限大到170的機率就是0.5,也就是說170左邊的面積佔0.5。

第一節 常態分佈的特性 (15) 假如我們會想知道中間的80%(或90%,95%等)的成年男子的身高介在那裡至那裡之間。如果身高是平均數170,標準差5的常態分佈,那麼80%的成年男子的身高將介於170某個範圍。以平均數170為中心點,左右兩邊各佔40%,合計80%。 這可利用下圖的累積分佈函數圖窺知。在Y軸上的0.1和0.9處往右劃至曲線,再往下劃至X軸即得,分別為164和176。身高在164和176之間的人佔80%。

第一節 常態分佈的特性 (16) 上圖的作法等於在計算累積分佈函數的反函數,Excel提供了這項函數NORMINV。 我們要算從分佈的左邊起算,面積為0.1的數值是多少,以及面積為0.9的數值為多少。 鍵入「=NORMINV(0.1,170,5)」得163.59,這表示在平均數為170,標準差為5的常態分佈中,左邊起算到163.59的面積為0.1。 鍵入「=NORMINV(0.9,170,5)」得176.41,這表示從左邊起算至176.41的面積為0.9。因此在163.59到176.41的數值占的面積為0.8。

第一節 常態分佈的特性 (17) 例1: 如果全國成年男性的身高為常態分佈(嚴格的說是非常近似常態分佈),平均數為170,標準差為5。身高在平均數上下0.5個標準差的人約佔多少?在平均數上下1個標準差的人約佔多少?在平均數上下1.645個標準差、上下1.96個標準差、上下3個標準差的人約佔多少?

第一節 常態分佈的特性 (18) 作法: 已知1個標準差為5,因此在平均數上下0.5個標準差的數值就是1702.5。即167.5和172.5 。 從負無限大到167.5的面積為0.31,這可以利用NORMDIST函數求得,鍵入「=NORMDIST(167.5,170,5,TRUE)」。由於常態分佈是左右對稱,因此從172.5到無限大的面積也是0.31。扣除兩邊面積各0.31後,中間167.5到172.5的面積就是0.38。

第一節 常態分佈的特性 (19) 平均數上下1個標準差的數值為165和175。從負無限大到165的面積為0.16,從負無限大到175的面積為0.84。因此在平均數上下1 個標準差之間的面積0.68。 平均數上下1.645個標準差的數值為161.775和178.225。從負無限大到161.775的面積為0.05,從負無限大到178.225的面積為0.95。因此在平均數上下1.645個標準差之間的面 積就是0.90。

第一節 常態分佈的特性 (20) 平均數上下1.96個標準差的數值為160.2和179.8。從負無限大到160.2的面積為0.025,從負無限大到179.8的面積為0.975。平均數上下1.96個標準差之間的面積就是0.95。 平均數上下3個標準差的數值為155和185。從負無限大到155的面積為0.0014,從負無限大到185的面積為0.9987。因此在平均數上下3個標準差之間的面積就是0.9973。

第一節 常態分佈的特性 (21) 對任何的常態分佈而言,平均數上下0.5個標準差之間的面積為 0.38;上下1個標準差之間的面積為 0.68;上下1.645個標準差之間的面積為 0.90;上下1.96個標準差之間的面積為 0.95;上下3個標準差之間的面積為 0.997。

第一節 常態分佈的特性 (22) 例子2: 假設某廠牌汽車電池的壽命是常態分佈,平均數為800天,標準差為100天。現隨機抽取一個汽車電池,其壽命小於500天的機率有多大?大於1000天的機率有多大?介於700天至900天的機率有多大? 如果該公司想訂定一個保固期,在保固期限內可以免費更換電池,公司最多可以承擔1%的免費更換,保固期應該定多久?

第一節 常態分佈的特性 (23) 作法: 鍵入「=NORMDIST(500,800,100,TRUE)」得0.001,因此小於500天的機率為0.001。 鍵入「=NORMDIST(1000,800,100,TRUE)」得0.977,這是小於1000天的機率。大於1000天的機率為1 – 0.977 = 0.023。

第一節 常態分佈的特性 (24) 鍵入「=NORMDIST(700,800,100,TRUE)」得0.159。鍵入「=NORMDIST(900,800,100, TRUE)」得0.841。介於700天到900天的機率就是0.841 – 0.159 = 0.683。 由於最多承擔1%的免費更換,等於要找到一個電池壽命的天數, 其左邊的面積為1%。鍵入「=NORMINV(0.01,800,100)」得 567天。電池壽命小於567天的機率為1%。

第二節 標準常態分佈(1) 標準常態分佈(standard normal distribution),又稱Z分佈,就是將平均數訂為0,變異數訂為1的常態分佈。 任何常態分佈都可以換做標準常態分佈,只要它的值減去平均數再除以標準差。即

第二節 標準常態分佈(2) 此Z變項所形成的分佈稱為標準常態分佈,又稱Z分佈。此分佈的機率密度函數為:

Z分佈的機率密度函數圖

Z分佈的累積分佈函數圖

第二節 標準常態分佈(3) 對Z分佈而言,其值介於 ±0.5的機率為38%;其值介於 ±1的機率為68%;介於±1.645的機率為90%,介於±1.96的機率為95%,介於±3的機率為99.7%。 定義za/2為Z分佈「右邊」起算面積為a/2的z值,如下圖所示,由於Z分佈左右對稱於0,因此 z1-a/2 = - za/2 Z介於- za/2是za/2的機率為1- a: P(- za/2 < Z < za/2) = 1- a

第二節 標準常態分佈(4) 利用Excel計算Z分佈的累積分佈函數及其反函數,除了可以援用上述常態分佈的函數NORMDIST和NORMINV外(此時請鍵入平均數0,標準差1。)還可以利用NORMSDIST和NORMSINV。 不過若要計算Z分佈的機率密度函數,還得用NORMDIST,因為NORMSDIST只能計算累積分佈函數。

第二節 標準常態分佈(5) 在進行線性轉換之前,X變項是常態分佈,由於線性轉換不會改變其分佈形狀,因此Z變項仍是常態分佈。 如果X變項原本就不是常態分佈,即使進行線性轉換成為Z變項,並不使得Z變項變為常態。

第三節 峰度與偏態 (1) 峰度(kurtosis)和偏態(skewness)常被分別用於描述資料分佈的高度和左右對稱性。 常態分佈的峰度等於0。如果資料的峰度大於0,那麼該資料的分佈較高聳且狹窄,稱為高狹峰分佈(platykurtic distribution)。 如果峰度小於0,資料的分佈較平坦且寬闊,稱為低闊峰分佈(leptokurtic distribution)。

高狹峰分佈 常態分佈 低闊峰分佈

第三節 峰度與偏態 (2) 峰度的公式是 如果是樣本的話,峰度為:

第三節 峰度與偏態 (3) Excel資料分析的「敘述統計」功能可計算峰度。 或利用KURT的函數。例如資料為1, 2, 3, 4, 5, 6, 7,鍵入「=KURT(1,2,3,4,5,6,7)」就得峰度-1.2。該值小於0,因為1到7這些值的分佈比常態分佈來得平坦。 如果數值換為1, 2, 2, 2, 2, 2, 3,此7個值的分佈中間非常陡峭(2的次數非常多),鍵入「=KURT(1,2,2,2,2,2,3)」得峰度為3。

第三節 峰度與偏態 (4) 偏態也和峰度一樣在描述資料分佈的形狀,如果分數往右邊延伸,其偏態值會大於0,故稱正偏態或右偏態。 如果分數往左邊延伸,偏態值小於0,故稱負偏態或左偏態;如果對稱分佈,偏態值等於0。 第三章變異量數的圖2(c)就是負(左)偏態,2(d)則是正(右)偏態。

第三節 峰度與偏態 (5) 偏態的公式為 如果是樣本的話,則是:

第三節 峰度與偏態 (6) Excel的SKEW的函數可用來計算偏態。