Download presentation
Presentation is loading. Please wait.
1
估計(estimation) 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2018/12/27
2
課程大綱 「估計」的基本概念 點估計(point estimation) 估計好壞的判斷 區間估計(interval estimation)
母體比例的區間估計 樣本數的決定 計量分析一(莊文忠副教授) 2018/12/27
3
「估計」的基本概念
4
估計的意義 推論統計學依其研究方法的不同可分為:
1.母數統計學(parametric statistics):指假設母體為 常態分配或樣本為大樣本的情況下的推論統計 學。 2.無母數統計學(nonparametric statistics):指母體 分配不是常態或樣本為小樣本的情況下的推論 統計學。 3.貝氏統計學(Baysian statistics):利用樣本訊息去 修正母體參數的事後機率分配,再利用該事後 的機率分配去推論母體參數的推論統計學。
5
估計的意義 由於母體參數的真值是未知的,普查雖是獲得正確 參數值的最好方法,但或因其為不可能,或因為成 本高,只好利用抽樣所得的樣本統計量去估計母體 參數的真值。 統計估計可分為兩部分: 1.點估計(point estimation):以單一的估計值來推論母 體參數。 2.區間估計(interval estimation)估計出一個可信的區間 並決定估計的可靠度,推論母體參數的可能範圍。
6
估計的原則 求「準」—抽樣調查所得之數據雖不中 母體之數據,但亦不遠矣。換言之,重 複進行數次獨立抽樣,樣本平均數愈接 母體平均數愈準,此即「不偏(unbiased)」 原則。 求「穩」—重複進行數次獨立抽樣,所得結果非常 接近。換言之,樣本的標準差愈小愈穩,此即「無 異(invariance)」原則。 個案(cases)—母群體中的任一個成員即為一個個案,或
7
估計的四種可能情形 既準且穩:最好的估計結果,重複進行數次獨立抽樣, 樣本的平均數極為接近母體平均數,且每一次抽樣估 計的標準差極小。
不準但穩:屬於系統性的偏差估計,重複進行數次獨 立抽樣,樣本的平均數與母體平均數的差異雖大,但 集中在某一區間。 雖準但不檼:有如散彈打鳥一般,重複進行數次獨立 抽樣,樣本的平均數雖然可能命中母體平均數,但每 一次抽樣估計的標準差極大。 既不準亦不穩:最不好的估計結果,重複進行數次獨 立抽樣,不但樣本平均數離母體平均數甚遠,且每一 次抽樣估計的標準差極大。 個案(cases)—母群體中的任一個成員即為一個個案,或
8
點估計 計量分析一(莊文忠副教授) 2018/12/27
9
點估計的意義 利用樣本的統計量來估計母體的參數,例如以樣本 平均數估計母體平均數、以樣本標準差估計母體標 準差。設某一母體的參數值為θ,抽取n個隨機樣本 (X1,X2,…,Xn)所得之樣本統計量 基本上,要利用觀察少數樣本所得結果直接命中全 體的現象,幾乎是不可能的事,估計值僅能儘量貼 近母體參數的真實數值。
10
點估計的限制 每一次抽樣可能得到不同的樣本,樣本統計量自然 會不一樣,因而推論出不一樣的母體參數值。
以一次抽樣的結果來估計母體參數值,不但無法得 知該估計值是否等於母體參數的真值,亦無法得知 誤差的大小。
11
樣本(sample) 樣本數大小的決定因素: 1.所欲研究之變數在母體內的同質性程度。同質性愈高, 所需樣本數愈少。
2.研究變數的類別多寡。變數的類別愈多,需要愈多的 樣本,才能針對各類別進行較為深入的分析。 3.分析的精確性(accuracy)。亦即研究者所能接受的抽樣 誤差愈小,需要愈多的樣本。 4.成本的考量。研究的經費愈充裕,愈能支付大樣本調 查所需之成本。 5.研究時間的考量。研究期間愈長,愈能執行大樣本的 調查。
12
點估計的步驟 抽樣代表性的樣本—涉及隨機抽樣的設計。
選擇較佳的樣本統計量作為估計式(estimator)— 如以樣本平均數、中位數或眾數估計母體的平 均數,以樣本的標準差估計母體的標準差。 計算樣本統計量的值(estimate)。 以樣本統計量的值推論母體參數的值並作決策。 例:估計失業率、預測候選人的得票率、評估大 學生的國文程度、…。
13
估計好壞的判斷 計量分析一(莊文忠副教授) 2018/12/27
14
誤差大小的判斷依據 平均估計誤差:由於樣本統計量會隨著樣本的不同 而不同,相對地,估計誤差亦會隨著樣本的不同而 不同,故以平均估計誤差來衡量估計誤差的大小, 平均估計誤差愈小愈好。即 平均平方誤差(mean squares error, MSE):為消除正負 誤差相抵的情形,以平方誤差來衡量誤差的大小, 又稱為「損失函數」。同樣地,由於平方誤差會隨 著樣本的不同而不同,故以平均平方誤差來衡量誤 差的大小,平均平方誤差愈小愈好。即
15
估計式好壞的判斷標準 不偏性(unbiasedness) 有效性(efficiency)
最小變異不偏性(minimum variance unbiasedness) 漸近不偏性(asymptotic unbiasedness) 一致性(consistency) 充分性(sufficiency)
16
不偏性(unbiasedness) 樣本統計量的期望值等於母體參數,即為不偏估計 式(unbiased estimator),亦即
17
不偏性估計
18
有效性(efficiency) 意義:因為不偏估計式可能有很多個, 若僅以不偏性作為判斷的標準,難以決 定何者是較佳的估計式,有效性是輔助 判斷的標準之一。 有效性是以估計式的平均平方誤差(MSE) 來衡量,平均平方誤差愈小,代表估計 式的有效性愈高。
19
有效性的標準 絕對有效性(absolute efficiency):估計式的 平均平方誤差為所有估計式中最小者, 即
相對有效性(relative efficiency):估計式的平均平方誤 差相對於的平均平方誤差較小者,即
20
平均數與中位數估計的有效性
21
最小變異不偏性 若估計式的變異數是所有不偏估計式中 最小的一個,則稱之為最小變異不偏估 計式。
22
漸近不偏性 有些估計式雖然在小樣本情況下為有偏 估計式,但當樣本數增加時,平均估計 誤差會愈來愈小而趨近於0,此一特性為 極限性質(limiting property),又稱之為大樣 本性質。即
23
一致性(consistency) 當樣本數增加時,估計式會趨近於母體參數真值的可 能性極高(即機率趨近於1),則此估計式為θ的一致性估 計式。即 此稱之為機率極限(probability limit)或機率收斂 (convergency in probability)。 由此一定理可知,若一個估計式的期望值等於或趨於 母體參數值,且其變異數趨於0,則該估計式為一致性 估計式。
24
估計的收斂
25
充分性(sufficiency) 指估計式在估計θ時,充分利用樣本資料 的訊息,則稱為θ的充分估計式。如樣本 平均數即為母體平均數μ的充分估計式, 因為它充分利用樣本中的每一個資料; 樣本的中位數或眾數則不是μ的充分估計 式。
26
區間估計 計量分析一(莊文忠副教授) 2018/12/27
27
區間估計(interval estimate)
意義:利用樣本資料的兩個數值構(樣本平均數和抽樣 誤差)成一個上下限的區間,來概括母體的參數,並指 出此一區間含括母體參數的可靠性(信賴度)。 區間估計取決於二個條件: 1.樣本平均數的標準差大小—標準差愈大,區間的上下 限愈寬; 2.區間的信賴水準(confidence level)的高低—所要求的信賴 水準愈高,區間的上下限愈寬。信賴水準以1-α表示之, α代表錯誤的機率,統計學上常見的信賴水準為90%、 95%和99%(即α分別為0.1、0.05和0.001)。
28
信賴水準和信賴區間的關係 信賴區間是指樣本統計量離母群體參數的距離有多遠; 或利用樣本統計值推估母體參數可能落在哪一個範圍 之內。信心水準是指若重複行無限多次的抽樣調查, 有多少百分比的母體參數會落在信賴區間的範圍之內。 信賴區間愈大,信心水準就會愈高;反之亦然。以常 態分布為例,在±1個標準差的信賴區間下,信心水準為 68%左右;在±2個標準差的信賴區間下,信心水準為 95%左右;在±3個標準差的信賴區間下,信心水準為 99%左右。 在信心水準固定的前提下,若樣本數愈大,則信賴區 間愈小;反之亦然。
29
母體平均數(μ)的區間估計 大樣本(n≧30) 1.母體變異數σ2已知 2.母體變異數σ2未知 小樣本(n<30)
1.母體為常態分配且變異數σ2已知 2.母體為常態分配但變異數σ2未知 3.母體分配未知但變異數σ2已知 4.母體分配未知且變異數σ2未知
30
大樣本且母體變異數已知 區間估計的步驟: 1.選擇較佳的點估計式和點估計值--根據不偏性、有效性、 最小變異有效性、漸近不偏性等標準選擇較佳的點估 計式,並求取樣本資料的點估計值。 2.取得樣本統計量的抽樣分配—由於母體的平均數是未 知,是以無法計算在沒有非抽樣誤差的假設下,樣本 平均數和母體平均數的抽樣誤差有多大,只能經由樣 本平均數的抽樣分配來推論誤差的大小。根據中央極 限定理,在大樣本的情況下,不論母體的分配為何, 樣本平均數呈常態分配,在1-α的信賴水準下,
31
大樣本且母體變異數已知 區間估計的步驟: 3.導出母體參數的信賴區間—因母體的平均數為 未知,而樣本的平均數為已知,故可進一步導 出母體平均數的信賴區間,即 4.求出母體參數的信賴區間值並做統計推論—將 樣本平均數和母體變異數值代入即可求出母體 平均數的信賴區間。
32
常見的信賴水準與信賴區間上下限 信賴水準(1-α) α α/2 Zα/2 信賴區間 90% 0.10 0.05 1.645 95%
0.025 1.96 99% 0.01 0.005 2.575
33
影響信賴區間的因素 點估計式的抽樣分配—抽樣分配的標準差愈大,區 間寬度愈大。舉例言之 若以樣本平均數為點估計式,區間寬度為
若以樣本中位數為點估計式,區間寬度為 因此,在其他條件固定下,樣本平均數所求出的區 間寬度較小。
34
影響信賴區間的因素 樣本數—樣本數會影響抽樣分配的標準差,當 樣本數愈大時,標準差愈小,則區間寬度自然 愈小。
信賴水準的決定—所要求的信賴水準愈高時, 如由95%提高到99%,則區間寬度愈大。 機率區間上下限的取法—在常態分配中,使區 間寬度為最小的作法是以平均數為中心點,左 右各取一半,即在平均數的抽樣分配左右兩端 各取α/2的機率。
35
大樣本且母體變異數σ2未知 以樣本的標準差代替母體的標準差的估計式,即 但 不是標準常態分配,而是一個自由度為 n-1的t分配,即
當樣本數大於30時,可以Z值來代替t值,母體平均數的 信賴區間為
36
小樣本且母體為常態分配且σ2已知 在母體為常態分配的情況下,根據常態 分配的加法定理,樣本平均數的抽樣分 配亦為常態分配,即 ,可根據Z分 配求得母體平均數的信賴區間,即
37
小樣本且母體為常態分配但σ2未知 以樣本的標準差作為母體標準差的估計式,在小樣 本的情況下,樣本平均數的標準誤為一自由度為n- 1的t分配,當母體為常態配時,可利用t分配導出樣 本平均數的信賴區間,即
38
t分配 計量分析一(莊文忠副教授) 2018/12/27
39
t分配的意義 意義: 設X~N(μ,σ2), , 即U是自由度為v的卡方隨 機變數,且X與U相互獨立,則
40
t分配的性質 是一個以平均數0為中心的對稱分配,不同的自由 度v有不同的t分配,v為t分配唯一的參數。
t分配不與橫軸相交,即t值的範圍介於(-∞,∞)之間。 T分配的曲線比標準常態分配為平坦,亦即t分配曲 線的高度較低,分散程度較大。 t分配的平均數為0,變異數為v/v-2。當自由度v趨 近於無限大(v>30)時,t分配的變異數趨近於1(當 v≦2時,變異數不存在)。 自由度趨近於無限大時(v≧30),t分配趨近於標準常 態分配,可以標準常態分配取代之。
41
t分配與常態分配
42
自由度(degree of freedom, df)
指統計量中以自由變動的參數數量。例如 可自由變動的隨機變量為n-1個,因為式中的樣本平均 數必須滿足限制式 因此,(X1,X2,…,Xn)的n個變量中只有前n個可以自由變動, 最後一個無法自由變動,即會失去一個自由度。 t分配的臨界值會因為自由度而有所不同,可根據自由 度和機率值查表得知。當自由度趨近於無限大時(v≧30), t分配趨近於標準常態分配,可以Z值取代t值。
43
t分配的母體平均數信賴區間 在1-α的信賴水準下,
44
(1-α)下的母體平均數信賴區間
45
母體比例的區間估計 計量分析一(莊文忠副教授) 2018/12/27
46
母體比例(p)的區間估計 大樣本(n≧30) 1.在大樣本的情況下,根據中央極限定理可知,樣 本比例的抽樣分配為一常態分配,即
根據常態分配法則可知,在1-α的信賴水準下,
47
母體比例(p)的區間估計 大樣本(n≧30) 2.在母體比例未知的情況下,樣本比例為母體比例的不 偏估計式,即 3.抽樣誤差的估計
但在p,q未知的情況下,為避免低估抽樣誤差,採取保守 估計的方式來估計其抽樣誤差,取p=q=0.5,即
48
母體比例(p)的區間估計 小樣本(n<30) 1.無限母體 2.有限母體
無論是二項分配或超幾何分配,無法求出常態分配 的簡單公式,可利用統計軟體計算信賴區間。
49
樣本數的決定 計量分析一(莊文忠副教授) 2018/12/27
50
樣本數(n)的決定 從抽樣誤差的角度,樣本數愈多,抽樣誤差愈 小,信賴區間亦愈小;但從調查成本的角度, 樣本數愈大,成本愈高,所需花費的時間亦愈 長。到底應該選擇多少樣本數才適當呢?並不 是一件容易決定的事。 由區間估計的公式可以得知,抽樣誤差的大小 主要是取決於信賴水準、變異數和樣本數。吾 人可以事先設定可忍受的誤差值,在此條件下, 根據信賴水準、變異數的大小來決定樣本數的 多寡。
51
樣本數(n)的決定—數字資料 估計母體平均數—設樣本平均數為常態分配,且母 體變異數已知,先利用Z分配求出估計誤差,並令 估計誤差不大於d值,即 兩邊取得平方得 若母體變異數未知,則以樣本變異數估計之,即
52
樣本數n的決定—類別資料 估計母體比例—設樣本比例為常態分配,且母體比例 已知,先利用Z分配求出估計誤差,並令估計誤差不大 於d值,即
若母體比例未知,則有兩種選擇: 1.以樣本比例替代之,即 2.採取保守估計的p=0.5和q=0.5替代之,即
53
提問與心得分享 計量分析一(莊文忠副教授) 2018/12/27
Similar presentations