第二單元之一：統計估計-點估計.

第二單元之一：統計估計-點估計

統計估計人們對於未知的事件或現象，通常利用少數已知的資料來估計或推測它的真相，估計是人們最常使用的統計方法之。統計估計是利用樣本統計量來估計母體參數。統計估計可分為點估計及區間估計。一般而言，是先進行點估計，然後再進行區間估計。

統計估計(續) 如果是以普查的方法來蒐集資料，則不需要利用估計與檢定的方法來推估母體參數。
當我們要研究研究今年大學畢業生的平均薪資或就業比例，或要研究國民的平均所得等問題時，因為母體很大，因此我們必須利用抽樣的方法，去抽取樣本，再從樣本中得出樣本統計量（例如樣本平均數），然後根據樣本統計量的抽樣分配（sampling distribution）去估計母體參數，以瞭解母體的特性。由「樣本資料」推論「母體特性」的統計學稱為推論統計學，令推論統計學可依推論的目的區分為統計估計（statistical estimation）與假設檢定（hypothesis testing）後續章節。

統計估計(續) 統計推論因為是從樣本來推論母體，故其結果不是百分之一百確定，因此統計推論必須說明不確定的程度。
統計估計相當重要，現實世界中需要應用統計估計的事件非常多，舉凡各種選舉候選人支持度的估計、失業率的估計、國民所得的估計、捷運公司平均載客收入的估計、大學畢業生平均起薪的估計、衛生署對全民健康醫療需求與國民負擔能力的估計、電腦廠商對其電腦市場佔有率的估計等。統計估計可分為兩部份：一個是點估計（point estimation)；另一個是區間估計（interval estimation）。

什麼是點估計? 簡單的說，點估計係指以一組樣本所獲得的樣本統計量來推估母體參數的真值。點估計的目的在於，由樣本所獲得的樣本統計量能夠儘可能的接近母體參數的真值。點估計是指由母體抽取一組樣本(數量為n的隨機樣本)，並由此尋找樣本統計量做為母體參數的估計值。具體而言，我們若想估計母體平均數μ，抽取樣本數為n的隨機樣本，並計算樣本統計量X，以此來估計母體平均數μ，就叫點估計。

點估計(例1) TVBS民調中心在2008年3月10日的民意調查結果為：馬英九的支持率53％、謝長廷29％。」以隨機抽樣進行電話訪問，共訪問965位台灣地區20歲以上公民。在95％的信心水準下，抽樣誤差約為正負3.2個百分點。」問上面的估計結果其意義為何？上面的所稱的53％、29％都是點估計。估計的目的是希望藉此瞭解投票率，以及各候選人的支持率。至於為什麼要抽取965位合格選民？什麼是95%信心水準，以及抽樣誤差約為正負3.2個百分點都與區問估計有關，後面再說明。

點估計(例2) 王先生與太太想在台北市買一楝20~25坪的房子居住，由於房屋位置不同，屋齡不一，若只問幾家，恐怕吃虧。王先生學過統計學，他想利用統計估計得知台北市區房屋的一般（平均）價格μ。他的估計步驟如下： (1)以簡單隨機抽樣法從台北市區的房屋仲介公司的待售屋的資料中，抽取36間(n=36)面積20~25坪的房屋為一組樣本，其價格如下

點估計(例2續)

點估計(例2續) 根據上面抽樣的統計結果，王先生得到如下的結論：「台北市區面積20~25坪房屋的平均價格為935.28萬元，平均價格的標準差為223.65萬元。」上面所完成的這個統計過程稱為點估計。在此過程中，王先生以平均價格X=935.28萬元做為母體平均數μ的點估計值，以樣本標準差S=223.65萬元做為母體標準差σ的點估計值。你認為他的樣本估計值是否接近母體參數的真值？因為以點估計的結果來推估母體，誰也不知道結果的真確性。因為樣本為隨機樣本，而且只用一組樣本的樣本統計量做為母體參數的估計值，「估的不準」機會較高。如果他抽出另外一組樣本（仍是36個值，但其中至少有些元素不相同），那麼她所得到的點估計值必然不相同。例如可能是X=968，S=232，因此結論也就不一樣了。一般而言，點估計值總是與母體參數不同。另外，點估計係僅以一組樣本的統計量來估計。

常態分配

何謂常態分配? 很多物理及生理數據，甚至是人類經濟與社會的表現，都是依循常態分佈(normal distribution），所以它是自然界最毫無特色的分布，但卻最重要，因為它是最常見的分配。常態分佈是在數學家高斯提出”觀測誤差呈現常態分配”後，常態分配才受到關注，雖不是高斯最先提出，但又稱高斯分配。依照慣例，得先看看常態分佈的特性。

常態分配定義與特性常態分布有三種特質對稱的鐘型曲線（bell-shaped curve），以平均數為中心左右對稱，向二邊無限大延伸。
所有常態分布在其曲線下有其特有的內在分布情形。不論平均數（μ）及標準差（σ ）是多大或多小，曲線下某兩點間的相對面積永遠是相同的。常態分布是由平均數（ μ ）及標準差（ σ ）兩個參數所定義的一種理論分布，常態分布的指數方程式（exponential equation）為：

常態分配公式這個公式的影響因素有2個，即μ(平均值；集中指標)與σ (標準差；離散指標)。如同影響拋物線方程式y=ax2+bx+c線形的參數就是a、b、c。 N.D表達方式 : N( μ , σ2 )，只要變化μ , σ2，則線形有無限多個。

公式聽不懂? 公式記不起來，無所謂。

常態分布的特質鐘形對稱。曲線的中心位置即為尖峰所在之處。μ = Md=M0 總面積=1，向二邊無限遠延伸。反曲點距離中心點(μ)為σ。
請教IQ=100~120間的人有多少?怎麼算? 當然是拿常態分布公式去積分啦!上下限分別是120與100! 微積分大家學得如何?

常態分布的特質(續) 常態分配的形狀隨其參數（平均數μ與標準差σ ）的不同而不同。亦即當μ與σ變動時，常態曲線即跟著變動。左圖表示平均數相同標準差不同的常態曲線。圖中三條曲線的平均數都是0，而標準差分別為1(變異數為1)、0.5(變異數為0.25)及0.3(變異數為0.09)。由圖可知，標準差越小，分散度越小（尖峰越高）。右圖表示平均數不同標準差相同的常態曲線，圖中三個標準差都相同(0.25)，而平均數分別為2、0與-2。平均數一2的常態曲線位於平均數0的常態曲線的左邊，平均數2的常態曲線位於平均數0的右邊。

常態分布的特質(續) 應注意的是，變動常態曲線的平均數並不會改變常態曲線的形狀，只會改變曲線的中心位置；但若改變標準差，則會改變常態曲線的形狀，標準差較小的常態分配，分散度較小。但如此一來，常態分配圖形豈不是有胖有瘦?待會再談

經驗法則常態分配的機率範圍，常用的有三個(又叫68、95、99.7法則) 離平均數l個標準差等距的範圍之機率為0.6826
離平均數2個標準差等距的範圍之機率為0.9545 離平均數3個標準差等距的範圍之機率為0.9974

不同的常態分布常態分配的形狀隨其參數（平均數μ與標準差σ ）的不同而不同。亦即當μ與σ變動時，常態曲線即跟著變動。因此，有許多類似鐘形的分布，如此要算X軸上某點所圍面積，只能用積分的方式，真是這樣就累了! 這代表微積分不好，統計也學不好。所以，數學家已經算出分配表可查。只是，我們得先做些轉換。

標準常態分布

標準常態分布題型 (1)給點求面積 (2)給面積求點在看考題之前，先練習看常態分配機率表附件1 : 工程用常態分布表(負無限到z)
工程用=商用+ 0.5

題型1-給點求面積 Ex: 請計算標準常態分配 P(0<Z<0.54)的機率值

題型1-給點求面積(續) Ex: 請計算標準常態分配 P(Z>0.54)的機率值
方法2 : P(Z>0.54) = P(Z>0) - P(0<Z<0.54) = 0.5 – =

題型1-給點求面積(續) Ex: 請計算標準常態分配 P(-0.5<Z<1)的機率值
P(-0.5<Z<1) = P(-0.5<Z<0) + P(0<Z<1) = =

題型1-給點求面積(應用)

IQ分數”介於100~120之面積”及” >120之面積”
題型1-給點求面積(應用) IQ分數”介於100~120之面積”及” >120之面積”

點求面積題型心得 Z 轉換的淨效果，是將任何常態分布轉換為標準常態分布(standard normal distribution)。
標準常態分布之μ=0、 σ =1。上述轉換所得到的標準常態分布，對計算信賴界線(confidence limits)及假設檢定(tests of hypotheses)時非常重要，它所對應的面積列於附件中。因為常態曲線是對稱的，0 到任何負Z 之間的面積會等於0 到Z 之間的面積因為曲線下的總面積等於1，而且曲線是以0 為中心左右兩邊對稱，所以Z 值右方的面積可由.5 減去A 面積得之；另一種解釋方式為A 面積（介於平均數0 到Z 之間）加上B 面積（Z 及其右方的面積）永遠等於.5。

題型1-牛刀小試 Ex : (1) P(0<Z<1.96) (2) P(-1.81<Z<1.81)
(5) X~N(10,2)，觀察X介於11~13.6間之機率？

HW3 假設某產品的長度量測資料成常態分佈，其平均數為38.5公分，標準差為2.5公分，若此產品的規格界限為38±2，產品的不良率有多少?
Note: 規格中心38 cm、規格上限40 cm、規格下限36 cm

HW4 Ex : 父權官司，專家說懷孕天數(x)~N(μ=270, σ =10)，被告男方提出證明，孩子出生前240~290天不再國內，求被告是小孩生父的機率有多少?

題型1與2 (應用)

統計分配

統計分配還記得王先生只根據一組樣本作為台北市房價平均值的案例? 如果他多抽樣幾組樣本，會不會比較接近真值呢??
當我們要利用樣本統計量去推論母體參數時，會遭遇到所使用的樣本統計量是否能夠正確的代表母體參數的問題。由於樣本統計量隨樣本的變動而不同，根據樣本統計量所做的推論便含有某一程度的不確定性·為了瞭解此種不確定性的程度，就必須先瞭解樣本統計量的值可能出現的機率(這句話是甚麼意思?) 。樣本統計量的機率分配(這句話是甚麼意思?)，稱為抽樣分配。

抽樣分配

抽樣分配有了樣本平均數X的抽樣分配，我們可以進一步計算樣本平均數的平均數μx 其中 μx= μ 樣本平均數的標準差
加法定理:若母體是常態分配N(μ，σ2)，則X也是常態分配N(μ，σ2/n)，但其間還是存在一差距，只是這差距隨n變化。 Ex:已知成人的身高為一常態分配，平均數為168公分，變異數為100，簡單隨機抽取5人，則5人的平均身高將為常態分配，其平均數為μ=168公分，標準差為

中央極限定理觀念複習一般而言，感興趣的是很廣泛的族群(母體，population)，但因母體不易取得，所以會從母體中抽取部份個體(樣本，sample)，再由這些樣本資料來計算一些數字(統計量，Statistics)，估計母體的特性（或參數，parameter)。通常以希臘字表示母體的參數，英文字母表示樣本的統計量。

中央極限定理(舉例) 假設一個班級有100人, 我想進行一個抽樣調查~~ 一次抽10人，我可以抽幾次? 10次可以嗎? 可以
會有幾個樣本平均數? 10個我能不能把這10個平均數，拿來再算一個平均數? 我能不能把這10個平均數，拿來再算一個標準差? 可以

中央極限定理(續) 眾多樣本平均數的分佈 = 常態分佈眾多樣本平均數的平均數 = 母體平均數
眾多樣本平均數的標準差 = 標準誤 (standard error)

中央極限定理(續) 中央極限定理（central limit theorem）是推論統計中很基本及重要的定理之一。是指當樣本數n夠大（n>30)，則從母體（不一定是常態分佈），非常完美的隨機重複抽出固定n個樣本，樣本平均之抽樣分佈會趨近常態分佈。更廣而言之，母體不一定要連續性分布，就算連續性分布也不限常態，單峰、雙峰、多峰、不規則峰、間斷分布都適用。設母體資料之平均值為μ，標準差為σ。從母體隨機計抽取樣本，每次抽出n個數值，計算其平均值X。重複抽樣無數次，便有無數個X。這些X可組成一分佈，稱為樣本平均數組成的抽樣分佈。

中央極限定理(續)

中央極限定理及抽樣分佈製作身高直方圖母體分布

中央極限定理及抽樣分佈(續) A B C

中央極限定理及抽樣分佈(續)

為何要叫做中央極限定理? 母體分佈形狀及樣本數對樣本平均之抽樣分佈之影響母體 n=2~10 n=11~20 n=~100

何時達到中央極限續前頁，從前頁我們可以發現的趨勢，當n越大:
中的 σ x 應越小(即越往中間集中，換句話說就是離散情形越小的類似常態分布) 當n趨近非常大，以台灣人口抽樣而言，如果n趨近於2300萬(極限為全部人口)，那麼μ x分布圖會變甚麼樣? 中央極限定理結論: 若母體為常態(或近似)，則sample size n不論大小，重複抽樣的分布必定為常態。(前頁最右欄) 若母體為未知分布，則sample size n需大於30，則重複抽樣的分布才會為常態，才能用x推估μ。

應用題

應用題(解) Z Z Z

結語 ■已知數據來自某一母體（μ，σ），只有抽樣一次，可計算出現X之機率。（標準常態分佈）
■未知數據來自哪一母體，假如重複抽樣無限次，便可估計μ 。（中央極限定理） ■未知數據來自哪一母體，只有抽樣一次，可估計件值之範圍。（見後面章節信賴區間） ■未知數據來自哪一母體自一特定母體，評估X檢定），只有抽樣一次，假設數據來來自此母體之可能性。（見後面章節假說檢定）

第二單元之一：統計估計-點估計.

Similar presentations

Presentation on theme: "第二單元之一：統計估計-點估計."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第二單元之一： 統計估計-點估計.

Similar presentations

Presentation on theme: "第二單元之一： 統計估計-點估計."— Presentation transcript:

Similar presentations

About project

反馈

第二單元之一：統計估計-點估計.

Presentation on theme: "第二單元之一：統計估計-點估計."— Presentation transcript: