第二單元之一: 統計估計-點估計
統計估計 人們對於未知的事件或現象,通常利用少數已知的資料來估計或推測它的真相,估計是人們最常使用的統計方法之。統計估計是利用樣本統計量來估計母體參數。統計估計可分為點估計及區間估計。一般而言,是先進行點估計,然後再進行區間估計。
統計估計(續) 如果是以普查的方法來蒐集資料,則不需要利用估計與檢定的方法來推估母體參數。 當我們要研究研究今年大學畢業生的平均薪資或就業比例,或要研究國民的平均所得等問題時,因為母體很大,因此我們必須利用抽樣的方法,去抽取樣本,再從樣本中得出樣本統計量(例如樣本平均數),然後根據樣本統計量的抽樣分配(sampling distribution)去估計母體參數,以瞭解母體的特性。由「樣本資料」推論「母體特性」的統計學稱為推論統計學,令推論統計學可依推論的目的區分為統計估計(statistical estimation)與假設檢定(hypothesis testing)後續章節。
統計估計(續) 統計推論因為是從樣本來推論母體,故其結果不是百分之一百確定,因此統計推論必須說明不確定的程度。 統計估計相當重要,現實世界中需要應用統計估計的事件非常多,舉凡各種選舉候選人支持度的估計、失業率的估計、國民所得的估計、捷運公司平均載客收入的估計、大學畢業生平均起薪的估計、衛生署對全民健康醫療需求與國民負擔能力的估計、電腦廠商對其電腦市場佔有率的估計等。 統計估計可分為兩部份:一個是點估計(point estimation);另一個是區間估計(interval estimation)。
什麼是點估計? 簡單的說,點估計係指以一組樣本所獲得的樣本統計量來推估母體參數的真值。點估計的目的在於,由樣本所獲得的樣本統計量能夠儘可能的接近母體參數的真值。 點估計是指由母體抽取一組樣本(數量為n的隨機樣本),並由此尋找樣本統計量做為母體參數的估計值。具體而言,我們若想估計母體平均數μ,抽取樣本數為n的隨機樣本,並計算樣本統計量X,以此來估計母體平均數μ,就叫點估計。
點估計(例1) TVBS民調中心在2008年3月10日的民意調查結果為:馬英九的支持率53%、謝長廷29%。」以隨機抽樣進行電話訪問,共訪問965位台灣地區20歲以上公民。在95%的信心水準下,抽樣誤差約為正負3.2個百分點。」問上 面的估計結果其意義為何? 上面的所稱的53%、29%都是點估計。估計的目的是希望藉此瞭解投票率,以及各候選人的支持率。至於為什麼要抽取965位合格選民?什麼是95%信心水準,以及抽樣誤差約為正負3.2個百分點都與區問估計有關,後面再說明。
點估計(例2) 王先生與太太想在台北市買一楝20~25坪的房子居住,由於房屋位置不同,屋齡不一,若只問幾家,恐怕吃虧。王先生學過統計學,他想利用統計估計得知台北市區房屋的一般(平均)價格μ。 他的估計步驟如下: (1)以簡單隨機抽樣法從台北市區的房屋仲介公司的待售屋的資料中,抽取36間(n=36)面積20~25坪的房屋為一組樣本,其價格如下
點估計(例2續)
點估計(例2續) 根據上面抽樣的統計結果,王先生得到如下的結論:「台北市區面積20~25坪房屋的平均價格為935.28萬元,平均價格的標準差為223.65萬元。」 上面所完成的這個統計過程稱為點估計。在此過程中,王先生以平均價格X=935.28萬元做為母體平均數μ的點估計值,以樣本標準差S=223.65萬元做為母體標準差σ的點估計值。 你認為他的樣本估計值是否接近母體參數的真值?因為以點估計的結果來推估母體,誰也不知道結果的真確性。因為樣本為隨機樣本,而且只用一組樣本的樣本統計量做為母體參數的估計值,「估的不準」機會較高。如果他抽出另外一組樣本(仍是36個值,但其中至少有些元素不相同),那麼她所得到的點估計值必然不相同。例如可能是X=968,S=232,因此結論也就不一樣了。一般而言,點估計值總是與母體參數不同。另外,點估計係僅以一組樣本的統計量來估計。
常態分配
何謂常態分配? 很多物理及生理數據,甚至是人類經濟與社會的表現,都是依循常態分佈(normal distribution),所以它是自然界最毫無特色的分布,但卻最重要,因為它是最常見的分配。 常態分佈是在數學家高斯提出”觀測誤差呈現常態分配”後,常態分配才受到關注,雖不是高斯最先提出,但又稱高斯分配。 依照慣例,得先看看常態分佈的特性。
常態分配定義與特性 常態分布有三種特質 對稱的鐘型曲線(bell-shaped curve),以平均數為中心左右對稱,向二邊無限大延伸。 所有常態分布在其曲線下有其特有的內在分布情形。不論平均數(μ)及標準差(σ )是多大或多小,曲線下某兩點間的相對面積永遠是相同的。 常態分布是由平均數( μ )及標準差( σ )兩個參數所定義的一種理論分布,常態分布的指數方程式(exponential equation)為 :
常態分配公式 這個公式的影響因素有2個,即μ(平均值;集中指標)與σ (標準差 ;離散指標)。如同影響拋物線方程式y=ax2+bx+c線形的參數就是a、b、c。 N.D表達方式 : N( μ , σ2 ),只要變化μ , σ2,則線形有無限多個。
公式聽不懂? 公式記不起來,無所謂。
常態分布的特質 鐘形對稱。 曲線的中心位置即為尖峰所在之處。μ = Md=M0 總面積=1,向二邊無限遠延伸。 反曲點距離中心點(μ)為σ。 請教IQ=100~120間的人有多少?怎麼算? 當然是拿常態分布公式去積分啦!上下限分別是120與100! 微積分大家學得如何?
常態分布的特質(續) 常態分配的形狀隨其參數(平均數μ與標準差σ )的不同而不同。亦即當μ與σ變動時,常態曲線即跟著變動。左圖表示平均數相同標準差不同的常態曲線。圖中三條曲線的平均數都是0,而標準差分別為1(變異數為1)、0.5(變異數為0.25)及0.3(變異數為0.09)。由圖可知,標準差越小,分散度越小(尖峰越高)。右圖表示平均數不同標準差相同的常態曲線,圖中三個標準差都相同(0.25),而平均數分別為2、0與-2。平均數一2的常態曲線位於平均數0的常態曲線的左邊,平均數2的常態曲線位於平均數0的右邊。
常態分布的特質(續) 應注意的是,變動常態曲線的平均數並不會改變常態曲線的形狀,只會改變曲線的中心位置;但若改變標準差,則會改變常態曲線的形狀,標準差較小的常態分配,分散度較小。 但如此一來,常態分配圖形豈不是有胖有瘦?待會再談
經驗法則 常態分配的機率範圍,常用的有三個(又叫68、95、99.7法則) 離平均數l個標準差等距的範圍之機率為0.6826 離平均數2個標準差等距的範圍之機率為0.9545 離平均數3個標準差等距的範圍之機率為0.9974
不同的常態分布 常態分配的形狀隨其參數(平均數μ與標準差σ )的不同而不同。亦即當μ與σ變動時,常態曲線即跟著變動。因此,有許多類似鐘形的分布,如此要算X軸上某點所圍面積,只能用積分的方式,真是這樣就累了! 這代表微積分不好,統計也學不好。所以,數學家已經算出分配表可查。只是,我們得先做些轉換。
標準常態分布
標準常態分布題型 (1)給點求面積 (2)給面積求點 在看考題之前,先練習看常態分配機率表 附件1 : 工程用常態分布表(負無限到z) 工程用=商用+ 0.5
題型1-給點求面積 Ex: 請計算標準常態分配 P(0<Z<0.54)的機率值
題型1-給點求面積(續) Ex: 請計算標準常態分配 P(Z>0.54)的機率值 方法2 : P(Z>0.54) = P(Z>0) - P(0<Z<0.54) = 0.5 – 0.2054 = 0.2946
題型1-給點求面積(續) Ex: 請計算標準常態分配 P(-0.5<Z<1)的機率值 P(-0.5<Z<1) = P(-0.5<Z<0) + P(0<Z<1) = 0.1915 + 0.3413 = 0.5328
題型1-給點求面積(應用)
IQ分數”介於100~120之面積”及” >120之面積” 題型1-給點求面積(應用) IQ分數”介於100~120之面積”及” >120之面積”
點求面積題型心得 Z 轉換的淨效果,是將任何常態分布轉換為標準常態分布(standard normal distribution)。 標準常態分布之μ=0、 σ =1。 上述轉換所得到的標準常態分布,對計算信賴界線(confidence limits)及假設檢定(tests of hypotheses)時非常重要,它所對應的面積列於附件中 。 因為常態曲線是對稱的,0 到任何負Z 之間的面積會等於0 到Z 之間的面積 因為曲線下的總面積等於1,而且曲線是以0 為中心左右兩邊對稱,所以Z 值右方的面積可由.5 減去A 面積得之;另一種解釋方式為A 面積(介於平均數0 到Z 之間)加上B 面積(Z 及其右方的面積)永遠等於.5。
題型1-牛刀小試 Ex : (1) P(0<Z<1.96) (2) P(-1.81<Z<1.81) (5) X~N(10,2),觀察X介於11~13.6間之機率?
HW3 假設某產品的長度量測資料成常態分佈,其平均數為38.5公分,標準差為2.5公分,若此產品的規格界限為38±2,產品的不良率有多少? Note: 規格中心38 cm、規格上限40 cm、規格下限36 cm
HW4 Ex : 父權官司,專家說懷孕天數(x)~N(μ=270, σ =10),被告男方提出證明,孩子出生前240~290天不再國內,求被告是小孩生父的機率有多少?
題型1與2 (應用)
統計分配
統計分配 還記得王先生只根據一組樣本作為台北市房價平均值的案例? 如果他多抽樣幾組樣本,會不會比較接近真值呢?? 當我們要利用樣本統計量去推論母體參數時,會遭遇到所使用的樣本統計量是否能夠正確的代表母體參數的問題。由於樣本統計量隨樣本的變動而不同,根據樣本統計量所做的推論便含有某一程度的不確定性·為了瞭 解此種不確定性的程度,就必須先瞭解樣本統計量的值可能出現的機率(這句話是甚麼意思?) 。 樣本統計量的機率分配(這句話是甚麼意思?),稱為抽樣分配。
抽樣分配
抽樣分配 有了樣本平均數X的抽樣分配,我們可以進一步計算 樣本平均數的平均數μx 其中 μx= μ 樣本平均數的標準差 加法定理:若母體是常態分配N(μ,σ2),則X也是常態分配N(μ,σ2/n),但其間還是存在一差距,只是這差距隨n變化。 Ex:已知成人的身高為一常態分配,平均數為168公分,變異數為100,簡單隨機抽取5人,則5人的平均身高將為常態分配,其平均數為μ=168公分,標準差為
中央極限定理 觀念複習 一般而言,感興趣的是很廣泛的族群(母體,population),但因母體不易取得,所以會從母體中抽取部份個體(樣本,sample),再由這些樣本資料來計算一些數字(統計量,Statistics),估計母體的特性(或參數,parameter)。通常以希臘字表示母體的參數,英文字母表示樣本的統計量。
中央極限定理(舉例) 假設一個班級有100人, 我想進行一個抽樣調查~~ 一次抽10人,我可以抽幾次? 10次可以嗎? 可以 會有幾個樣本平均數? 10個 我能不能把這10個平均數,拿來再算一個平均數? 我能不能把這10個平均數,拿來再算一個標準差? 可以
中央極限定理(續) 眾多樣本平均數的分佈 = 常態分佈 眾多樣本平均數的平均數 = 母體平均數 眾多樣本平均數的標準差 = 標準誤 (standard error)
中央極限定理(續) 中央極限定理(central limit theorem)是推論統計中很基本及重要的定理之一。是指當樣本數n夠大(n>30),則從母體(不一定是常態分佈),非常完美的隨機重複抽出固定n個樣本,樣本平均之抽樣分佈會趨近常態分佈。更廣而言之,母體不一定要連續性分布,就算連續性分布也不限常態,單峰、雙峰、多峰、不規則峰、間斷分布都適用。 設母體資料之平均值為μ,標準差為σ。 從母體隨機計抽取樣本,每次抽出n個數值,計算其平均值X。 重複抽樣無數次,便有無數個X。 這些X可組成一分佈,稱為樣本平均數組成的抽樣分佈。
中央極限定理(續)
中央極限定理(續)
中央極限定理及抽樣分佈 製作身高直方圖 母體分布
中央極限定理及抽樣分佈(續) A B C
中央極限定理及抽樣分佈(續)
為何要叫做中央極限定理? 母體分佈形狀及樣本數對樣本平均之抽樣分佈之影響 母體 n=2~10 n=11~20 n=~100
何時達到中央極限 續前頁,從前頁我們可以發現的趨勢,當n越大: 中的 σ x 應越小(即越往中間集中,換句話說就是離散情形越小的類似常態分布) 當n趨近非常大,以台灣人口抽樣而言,如果n趨近於2300萬(極限為全部人口),那麼μ x分布圖會變甚麼樣? 中央極限定理結論: 若母體為常態(或近似),則sample size n不論大小,重複抽樣的分布必定為常態。(前頁最右欄) 若母體為未知分布,則sample size n需大於30,則重複抽樣的分布才會為常態,才能用x推估μ。
應用題
應用題(解) Z Z Z
結語 ■已知數據來自某一母體(μ,σ),只有抽樣一次,可計算出現X之機率。 (標準常態分佈) ■未知數據來自哪一母體,假如重複抽樣無限次,便可估計μ 。 (中央極限定理) ■未知數據來自哪一母體,只有抽樣一次,可估計件值之範圍。 (見後面章節信賴區間) ■未知數據來自哪一母體自一特定母體,評估X檢定),只有抽樣一次,假設數據來來自此母體之可能性。 (見後面章節假說檢定)