第十章 估計
點估計與區間估計 點估計(point estimation):根據樣本資料,求得一統計量的觀測值,作為參數(母數)的估計值。 推論統計的理論乃在根據樣本的訊息,猜測母體的特性或參數。主要 的推論型式是參數(母數)的估計與假設的檢定,參數的估計又可分 為 點估計(point estimation):根據樣本資料,求得一統計量的觀測值,作為參數(母數)的估計值。 區間估計(interval estimation):根據樣本資料,求得兩個數值,構成一個信賴區間(confidence interval,C. I.),概括出參數(母數)的可能範圍。 點估計之優點為算法簡單,意義簡單明瞭;但其缺點為無法判斷估計 結果的準確性,且其估計值會因樣本不同而有所差異。所以才會有區 間估計之推出。 假定,我們估計全體大學生平均每月可用零用金為5000元,那是點估 計,該估計為單一數值,可視為線上的一點;若我們估計全體大學生 平均每月可用零用金介於4000~6000元,那就是區間估計,因為涉及 兩點,可視為線上的一個區段。
母體平均數μ的估計 實務上,最常碰到對母體均數μ的估計。如:大學生的平均智商、平均 成績、平均身高、每月平均可用零用金、平均手機的使用月費;國民 平均所得、工廠的平均生產數量、百貨公司的平均營業額、每戶家庭 每月的平均支出、……。 估計母體平均數μ的方法可為:樣本中位數、中距( ) 與平均數。其中,以樣本平均數為最優,因其具有不偏性與一致性, 且變方最小。
大樣本時 若樣本數n>30,則以其為μ的點估計。若樣本數n>30,且母體變異數 σ2已知,則以 為μ的100(1-α)%之信賴區間。 但實務上,母體變異數σ2通常未知,當樣本數n>30,可以樣本標準差 S來取代母體標準差σ。故以
而 即我們可容忍的誤差(e)。所以,我們於第四章計算樣本大小時,就是將 簡化成 來計算樣本數。 式中,Zα/2值可用Excel之NORMSINV()函數來求算(詳第三章之說明), 其公式應為: =NORMSINV(1-α/2) 以α=0.05時為例,其Zα/2值為1.96:(詳範例Ch10.xlsx『依α査Z值』工作表)
未分組資料 若資料為未分組之數值資料,可直接以AVERAGE()與STDEV()來求 算樣本均數與標準差。續代入先前之 求得μ的點估計與信賴區間。 以範例Ch10.xlsx『飲料花費』工作表內容言,其飲料花費μ的點估計 為83.225元;μ的95%信賴區間為 即71.83~94.62元。我們可以說,有95%的信賴水準,母體(全體大 學生)的一週飲料花費會落在71.83~94.62元: 轉為媒體上所常用之口語,就是:此次調查之結果,全體大學生的一 週飲料平均花費為83.225元,於95%信賴水準之下,其誤差不會超過 ±11.39元。
其內,信賴區間之上下限的公式,於F12與G12分別為: 若依不同之顯著水準求算,其信賴區間分別為: α 信賴區間 0.10 75.20~92.54 0.05 73.54~94.20 0.01 70.30~97.44 可發現,顯著水準愈小(信賴水準愈大),信賴區間將愈大。 其內,信賴區間之上下限的公式,於F12與G12分別為: F12 =$F$2-NORMSINV(1-$E12/2)*$F$3/SQRT($F$4) G12 =$F$2+NORMSINV(1-$E12/2)*$F$3/SQRT($F$4) 然後,將F12:G12,抄給F13:G14即可。
馬上練習 以範例Ch10.xlsx『運動時間』工作表內容,求α=0.05時,大學生每 週運動時間之均數μ的點估計及其95%信賴區間。
馬上練習 續上題,求α=0.01、α=0.05與α=0.1時,運動時間之均數μ的信賴區間 分別為何?
信賴區間之範圍CONFIDENCE() CONFIDENCE(α,σ,n) CONFIDENCE(顯著水準,標準差,樣本數) 若處理對象為常態分配,母體標準差(σ)已知,其計算公式為: 實務上,很少會已知母體標準差,就以樣本標準差來替代。其計算公 式為: 故其μ的100(1-α)%之信賴區間為:
如範例Ch10.xlsx『直接以CONFIDENCE()求算飲料花費區間』工作表,其 資料內容同於前文『飲料花費』工作表。以AVERAGE()、STDEV()與 COUNT()求得均數、標準差與樣本數。然後,於F6再以 =CONFIDENCE(F5,F3,F4) 求信賴區間之範圍,可省去以=NORMSINV(1-α/2)計算Zα/2值之步驟。所求得 之95%信賴區間同樣為71.83~94.62:
馬上練習 依範例Ch10.xlsx『成績』工作表內容,求α=0.05時,成績均數μ的點 估計,並以CONFIDENCE()求其95%信賴區間。
分組資料 對問卷上,採用勾填某一區間所獲得之數字。如: 請問您整個家庭月所得狀況: □1. 5萬元以下 □2. 5至10萬元 □3. 10至15萬元 □4. 15至20萬元 □5. 20萬元以上 得將其轉為組中點(25000,75000,…,225000),再計算其均數、 變異數與標準差。然後,即可使用前文之相同公式來求其點估計及區 間估計。 以範例Ch10.xlsx『分組資料-所得』工作表之資料,其毎月所得之均 數μ的點估計為87500,其95%信賴區間為 87500 ± 11091.8 76408~98592
馬上練習 以範例Ch10.xlsx『分組資料--每月零用金』工作表內容,求每月零用 金之均數μ的點估計及其95%信賴區間。 毎月零用金之均數μ的點估計為5696,其95%信賴區間為4977.67~ 6413.64。
敘述統計 假定,以範例Ch10.xlsx『飲料花費-敘述統計』工作表之資料 擬使用『資料分析』之「敘述統計」,來計算飲料花費之各敘述統計 值。其處理步驟為: 切換到『資料』索引標籤, 點選『分析』群組『資料分析』指令按鈕, 於『分析工具』處選「敘述統計」
按 鈕 於『輸入範圍』處,以選取方式設定要處理之資料範圍(B1:B201) 於『分組方式』選「循欄」 點選「類別軸標記是在第一列上(L)」(因資料含『一週飲料花費』之字串標 記) 設定輸出範圍,本例安排於目前工作表之D1位置 點選「摘要統計(S)」 點選「平均數信賴度(N)」,設定「95%」
按 鈕結束,即可獲致詳細之相關統計數字。其內之『信賴度 (95%)』即容忍誤差,也就是本例之信賴區間應為 83. 225±11 按 鈕結束,即可獲致詳細之相關統計數字。其內之『信賴度 (95%)』即容忍誤差,也就是本例之信賴區間應為 83.225±11.46 與前文之 83.225±11.39 雖有些許誤差,但應是運算中小數點四捨五入所造成。
以資料庫統計函數求信賴區間 若要求以性別、部門、…等,分組後之母體均數的點估計與區間估計, 可使用DAVERAGE()、DSTDEV()與DCOUNT()統計函數,來依準 則求平均數、標準差與樣本數,然後即可使用前文相同之公式,來求 其母體均數μ之點估計及區間估計。 以範例Ch10.xlsx『依性別求飲料花費』工作表之資料言,其男/女之 母體均數μ及其95%信賴區間的估計值分別為: 組別 μ 95%信賴區間 男 93.29 72.93~113.65 女 77.44 63.80~91.00 全體 83.22 71.83~94.62 看起來,男性一週飲料平均費用要比女生高些,且因變異較大,其 95%信賴區間範圍也較大些。
馬上練習 依範例Ch10.xlsx『依性別求運動時間』工作表內容,計算出男/女性 及全體運動時間之母體均數μ及其95%信賴區間的估計值。
小樣本時 若母體為常態分配,樣本數n<30,仍以其為μ的點估計。若母體為常 態分配,樣本數n<30,且母體變異數σ2已知,則以 為μ的100(1-α)%之信賴區間。 但實務上,母體變異數σ2通常未知,當樣本數n<30,因為樣本太小, 樣本標準差S的變化會較大,就不可以樣本標準差S來取代母體標準差 σ。故以 為μ的100(1-α)%之信賴區間。
式中, 為查『附錄四 t方分配的臨界值』自由度為n-1時之t值。由於t 值比z值來得大,故所求得之估計區間會加大一點,可以確保原有的信賴度。 (以小樣本推估母體,本就較為不準,故得將估計區間放寬一點) 於Excel,t值可用TINV()函數來求算(詳下文說明),以n為11,自由度為 10(t分配之自由度為n-1),α=0.05時為例,其 值為2.228:(詳 範例Ch10.xlsx『t分配表』工作表)
假定,範例Ch10.xlsx『成績-小樣本』工作表內,A1:H9為全班之72人之成績 (母體),隨機抽取11人(加網底之儲存格),計算出其樣本均數(75.45)、 標準差(11.53)及其95%信賴區間: =75.45±7.74 =67.71~83.20 比於C17:C18以母體資料所計算出之73.32~79.57來得更寬,故更有把握母體 均數μ能有95%的信賴度可落在67.71~83.20:
t分配TDIST() TDIST(t,自由度,單尾或雙尾) TDIST(t,degrees_freedom,tails) 自由度(d.f.,degrees of freedom)是指一統計量中各變量可以自由 變動的個數,當統計量中每多一個限制條件(即,已知條件),自由 度就減少一個。(t分配之自由度為樣本數減1,n-1) 單尾或雙尾指定要傳回單尾或雙尾之累計機率值?為1,表傳回單尾之 累計機率值;為2,表傳回雙尾之累計機率值。 本函數在求:於某一自由度下之t分配中,求t值以外之右尾的總面積 (機率)。如為單尾,即求下圖之陰影部份:
如為雙尾,即求左右兩尾之陰影部份: t分配之圖形及機率值,將隨自由度不同而略有不同。以自由度為10之情況下, 不同t值所求得之單尾及雙尾累計機率分別為:(詳範例Ch10.xlsx『TDIST』 工作表)
t分配反函數TINV() TINV(累計機率,自由度) TINV(probability,degrees_freedom) 用以於已知自由度之t分配中,求某累計機率所對應之t值。此t為依雙 尾累計機率所求;若要求單尾之t值,得將累計機率乘以2。 由於t分配之圖形及機率值,將隨自由度不同而略有不同。範例 Ch10.xlsx『TINV』工作表,是以自由度為10之情況下,所求得之結 果。如:雙尾機率5%之t值為2.228,其求算之公式為: =TINV(5%,10) =TINV(G5,$B$1) 有了此函數,即可省去查t分配表之麻煩:
馬上練習 以範例Ch10.xlsx『t值』工作表內容,安排d.f.為1~15之情況下,單 尾機率為25%、10%、5%、2.5%、1%與0.5%之t值:
馬上練習 依範例Ch10.xlsx『外食費用-小樣本』工作表內容,計算大學生每月 在外面吃飯費用之母體均數μ及其95%信賴區間的估計值。 大學生每月在外面吃飯費用之均數為:6026.67,其95%信賴區間為: 4432.13~7621.20。
母體比例p的估計 實務上,也經常要估計母體比例p。如:估計平均失業率、產品不良率、 品牌佔有率、政策支持率、候選人支持率、政黨支持率、數位相機擁 有率、個人電腦擁有率、……。 若樣本數n>30,則以其樣本比率為母體比例p的點估計。母體比例p的 100(1-α)%之信賴區間為: 其中, 即我們可容忍的誤差(e)。所以,我們於第四章計算樣本大小時,就 是將其簡化成 來計算樣本數。
式中,Zα/2值可用Excel之NORMSINV()函數來求算,以α=0.05時為例,其 Zα/2值為1.96。 以範例Ch10.xlsx『政黨支持率』工作表之資料,調查1000位受訪者中有228 個支持執政黨,其樣本比率為22.8%,則母體比例p的95%之信賴區間為 20.20%~25.40%: =22.8%±2.60% =20.20%~25.40% 如果以口語化講,就是:此次調查民進黨的支持率為22.8%,在95%的信賴水 準下,調查的誤差不超過±2.60%。
馬上練習 以範例Ch10.xlsx『數位相機擁有率』工作表內容,求數位相機母體擁 有率p的點估計及其95%信賴區間。 此次調查位相機擁有率為33.7%,在95%的信賴水準下,調查的誤差 不超過±9.36%。
第十章 結束 謝謝!