Presentation is loading. Please wait.

Presentation is loading. Please wait.

統計學 : 應用與進階 第 11 章 : 點估計.  點估計  類比原則  最大概似法  不偏性  有效性  一致性.

Similar presentations


Presentation on theme: "統計學 : 應用與進階 第 11 章 : 點估計.  點估計  類比原則  最大概似法  不偏性  有效性  一致性."— Presentation transcript:

1 統計學 : 應用與進階 第 11 章 : 點估計

2  點估計  類比原則  最大概似法  不偏性  有效性  一致性

3 定義重要觀念  估計式 (estimator)  估計值 (estimate)  參數空間 (parameter space)  假設隨機樣本 X 1, X 2,..., X n 係抽樣自機率密度函 數為 f (x; θ) 的母體, 其中 為我們所關心的母體未知 參數

4 參數空間 (parameter space)  所謂的參數空間係指一個參數所有可能數值所形 成的集合。我們以大寫的希臘字母 ( 同樣讀作 theta) 來表示這個集合  舉例來說, 如果給定一個指數分配為  根據之前所學, 我們知道 E(X) = θ ( 平均等候時間 ), 因此, 所有可能的 值不會小於零  則其參數空間 為 θ ≡ { θ : 0 < θ < ∞}

5 估計式與估計值  如果我們以 代表估計母體參數 θ 的一個估計式, 則估計式 (estimator) 就是以隨機樣本 X 1, X 2,..., X n 所形成的函數  換句話說, 就是利用隨機樣本 X 1, X 2,..., X n 所形 成的一個統計量 (statistic): = t(X 1, X 2,..., X n )  如果我們將隨機樣本的實現值 x 1, x 2,..., x n 帶入 t(·), 則 t(x 1, x 2,..., x n ) 就被稱作估計值 (estimate) 統 計

6 估計式與估計值  習慣上, 我們在 θ 上面戴一頂小帽子 (hat), 以 ( 讀 作 theta hat) 代表 θ 的估計式 母體參數 θ 估計式 種類固定常數隨機變數 已知否一般而言未知樣本抽出前未知 樣本抽出後已知 例子 μ, σ²

7 估計方式  接下來, 我們將會介紹兩種重要的估計方式 :  類比原則 ( 動差法 ) ‚ 最大概似法

8 類比原則 (analogy principle)  這是最具直覺的一種估計方法  原則為 : 你對於母體的任何特徵有興趣 ( 例如母體 平均數, 母體變異數, 母體各階動差等 ), 我們就用 樣本相對應的特徵 ( 樣本平均數, 樣本變異數, 樣本 各階動差等 ) 來估計  透過類比原則所得到的估計式, 就稱作類比估計式 (analog estimator)

9 類比原則的應用  利用樣本動差估計母體動差  譬如說, 我們用樣本平均數 估計母體均數 μ ( 一階動差 )  以樣本變異數 估計母體變異數 σ²( 二階中央動差 )

10 類比原則的應用  對於母體動差的函數則以相對應樣本動差的函數 來估計。譬如說, 以 來估計  欲估計機率 P(X < c), 就用樣本中具備 X < c 性質的 比例予以估計。譬如說, 想知道任選一名台大學生, 其身高低於 166 公分的機率。我們可以隨機抽樣 100 名台大學生, 計算樣本中, 身高低於 166 公分的 學生佔樣本多大的比例, 然後就用此比例估計 P(X < 166)  樣本中位數估計母體中位數  樣本極大值 ( 極小值 ) 估計母體極大值 ( 極小值 )

11 最大概似法 (method of maximum likelihood)  當我們應用類比估計法時, 並不需要知道母體分配 。在本節中, 我們介紹另一種假設母體分配已知的 估計法 : 最大概似法

12 最大概似法  假設 為來自母體分配 f (x, θ) 的隨機樣本, 其中函數 f (·) 已知, 但 θ 為未知的母體參數  由於 X 1,..., X n 為隨機樣本, 其聯合機率分配可以 寫成 : ( 為什麼 ?)

13 最大概似法  對於上式, 我們過去習慣解讀成給定 下,x 1,..., x n 的函數  然而, 我們也可以解讀為給定 x 1,..., x n 下, 的函數

14 最大概似法  在第二種解讀下, 我們把這樣的函數稱作的概似函 數 (likelihood function): 亦即這組隨機樣本出現的可能性

15 最大概似估計式 (maximum likelihood estimator, MLE)  最大概似估計式就是要找到一個參數值 使得概似 函數 極大 :  其中, 為參數空間  用白話解釋就是說, 我們要找出一個參數值 = 使得該組樣本出現的可能性最大。

16 最大概似估計式  亦即, 給定某組樣本, 如果參數值 相對於 能夠讓我們更有可能 (more likely) 觀察到這組樣本, 則毫無疑問地 會是一個 優於 的估計式  而最大概似法就是要在參數空間中找出能夠讓我 們最有可能 (most likely) 觀察到這組樣本的參數。

17 例子  一個箱子裏放置五顆球, 分別為藍球與綠球。令 p 代表箱中藍球比例, 而 p 為一未知參數, 亦即, 我們 不知道箱子裏藍球與綠球的確切個數  為了估計 p, 我們以抽出放回的方式隨機選取 10 顆 球。亦即, 我們得到一組隨機樣本 {X 1, X 2,...,X 10 }  令 抽出藍球, 抽出綠球.

18 例子  根據這個例子, 我們知道 Xi ∼ Bernoulli(p), 而 p 就是 箱中藍球比例  同時, 我們令 代表 10 顆球中, 藍球 的個數, 則 ∼ Binomial(10, p)  討論以下兩組可能的樣本

19 概似函數

20 最大概似估計式  以上兩組樣本是已實現的樣本值, 對於未實現的隨 機樣本, 如果 是可微的, 則 MLE 就是以下方程 式之解 :  由於任何極大化 的參數值 θ 也同時極大化對 數概似函數 ln, 因此, 為了計算上的方便, 我們 有時會轉而求取 的極大值

21 例子  假設 為來自母體分配 Bernoulli(p) 的隨機樣 本, 試找出 p 的 MLE  由於 概似函數為  則對數概似函數為

22  FOC 因此,  當然我們可以用 SOC 驗證該極值確實為極大值

23 點估計式的評價準則  不偏性 (unbiased) ‚ 有效性 (efficient) ƒ 一致性 (consistent)

24 不偏性  一個估計式 的期望值等於母體參數 θ 我們稱該估計式 為一不偏估計式  簡單地說, 就是當你用 來猜 θ, “ 平均而言 ” 會猜 對

25 偏誤  如果一個估計式沒有具備不偏性, 則其偏誤 (bias) 可以定義成 :

26 偏誤  若 令  ‚ ƒ  則  ‚ ƒ

27  亦即, 與 分別為 與 的不偏估計式 ; 則 為 的偏誤估計式

28 幾點想法  我們一再強調估計式是一個由隨機樣本組成的公 式, 是一個統計量, 同時也是一個隨機變數  因此, 每個估計式會有其抽樣分配, 也就能算出期 望值 E( ), 變異數 Var ( ).... 等等。而估計式的性質 就是立基在其分配之上  估計式的性質都是在樣本實現 (realize) 之前才有意 義, 也就是說, 這些好性質都是事前的 (exante)

29 幾點想法  然而, 一旦我們抽出某特定樣本 ( 樣本實現之後 ), 所 得到的就不再是估計式, 而是估計值。估計值本身 是一個常數, 並無任何隨機性質可以討論  假設我們抽樣 100 個台大學生並算出樣本平均身高 = 166 。此時, E(166) 不一定等於母體平均 μ: 當你運氣好, μ = 166 時,E(166) = 166 = μ; 當你運氣 不好, μ ≠ 166 時,E(166) = 166 ≠ μ

30 幾點想法  Question: 照這麼說, 一旦樣本實現之後, 166 這個值 本身不就沒有任何意義了 ?  Answer: 166 這個值有沒有意義, 值不值得作為參考, 端視將 166 這個值「製造出來」的估計式有沒有 具備良好性質  想像估計式為一部機器的製造過程, 而估計值為這 部機器所製造出來的產品。假設我們無法判斷製 造出來的產品品質優劣, 但重要的是, 如果我們知 道製造該產品的製造過程具有良好品質, 自然較能 肯定產品具有良好品質

31 有效性  我們之所以認為不偏性是估計式一個好的性質, 就 在於不偏估計式給我們一個「平均而言猜得準」 的估計公式  然而, 一如之前所述, 估計式有其自己的抽樣分配, 我們不但關心估計式的期望值, 也應該要關心其變 異程度 ( 亦即其精確度 )

32 有效性  舉例來說, 估計台大學生的平均身高 μ 的估計式 樣本平均身高 任選兩個樣本點 X 1, X 100 算出另一個估計式  與 都是不偏估計式  但是 亦即, 當 n > 2 時, 的變異數大於 的變異數, 其 精確度自然不及

33 有效性  如果兩個估計式都具不偏性, 我們把變異數較小的 不偏估計式稱作有效估計式 相對有效性 (relative efficiency) 絕對有效性 (absolute efficiency)

34 相對有效性  兩個不偏估計式中, 具有較小變異者, 較有效率  相對有效性可用以下指標衡量 : 有效性

35 絕對有效性  為所有不偏估計式中, 變異數最小的不偏估計 式, 則我們稱 具絕對有效性  亦即, 當 就是一個絕對有效估計式

36  我們以上所介紹的「有效性」的概念, 是應用在比 較兩個不偏估計式  如果我有兩個估計式, 一個是不偏估計式, 另一個 則是偏誤的估計式, 試問, 我該如何比較這兩個估 計式 ?  把「有效性」的概念從「較小變異」推廣到「較 小均方誤」

37 什麼是均方誤 (mean squared error)  均方誤 (mean squared error) 一般簡稱為 MSE, 其定義 為  均方誤就是將估計式與母體參數之間的差距 ( 估計 誤差 ) 取平方後, 再取期望值, 也就是以平方衡量的 平均估計誤差   具有較小均方誤的估計式就是一個較有效的估計 式, 無論該估計式為偏誤或是不偏

38 均方誤的有效性  均方誤的有效性立基於估計式的變異數與偏誤, 因此, 變異數越小, 或是偏誤越小的估計式越具備 有效性 ‚ 如果兩個估計式均為不偏, 則均方誤的第二項都 為零, 比較哪個估計式的均方誤較小, 就等同於比 較哪個估計式的變異數較小

39 例子  假設  令 以及  我們可計算出  亦即, 相對於 而言, 有較小的均方誤, 換句話 說, 比 有效

40 一致性 (consistent)  以上討論的估計式性質 ( 不偏性與有效性 ) 均為固 定樣本數 n 下所具備的性質, 因此, 又被稱作小樣 本性質  在本小節, 我們將進一步討論估計式的大樣本性質, 或是說, 估計式的極限性質  在某些情況下, 即使估計式在小樣本時, 不具備不 偏或有效等良好性質, 如果當樣本數 n 增加時, 該 估計式具有優良的大樣本性質, 我們仍然會將之視 為一個不錯的估計式  一個重要的大樣本性質就是一致性

41 一致性  在此, 我們將會把估計式 寫成 用以提醒讀者 估計式為樣本 n 所決定, 而 n 會變動, 不再是固定常 數  如果 則稱 為 的一致估計式  換句話說, 如果 為 的一致估計式, 則 機率收 斂到, 亦即, 當樣本數越來越大時, 點估計式的值 與母體參數靠近的可能性越來越大, 其機率值趨近 於一

42 例子  若 則 為母體均數 μ 的一致估計式 (by WLLN) 與 均為 的一致估計式 (by WLLN and CMT)

43 一致性  一般來說, 要證明一致性有以下幾種方法 : 如果估計式具樣本均數之形式 ( 滿足 WLLN 所需條件 ), 或是其函數, 則可利用 WLLN 以及 CMT 如之前兩個例子 所示。 從機率收斂的定義著手。  然而, 由機率收斂的定義去做有時相當複雜。在此, 我們介紹幾個定理幫助大家能夠較為簡單地證明 估計式的一致性  介紹兩個新觀念 : MSE 一致性 (MSE consistent), 與 漸近不偏性 (asymptotically unbiased)

44 MSE 一致性  當 我們稱 為 的一個 MSE 一致估計式, 並以  如下符號表示

45 漸近不偏  當  則 為漸近不偏  若 為不偏, 則 亦為漸近不偏

46 MSE 一致性的充要條件  若且唯若 (if and only if) 且

47 一致性的充分條件  若 則  亦即, 估計式為一致的充分條件為 MSE 一致  根據以上定理, 簡單地說, 驗証一致性的條件為 : 以及 只要以上兩個條件均符合, 則 就是 的一致估 計式

48 總結 : 驗証一致性的方法  WLLN 與 CMT  機率收斂定義  MSE 一致性

49 例子 : WLLN 的另一種證明  我們知道 為 μ 的不偏估計式 E( ) = μ, 則 亦為 μ 的漸近不偏估計式  此外, 則  因此 為 MSE 一致, 是故 為一致估 計式,


Download ppt "統計學 : 應用與進階 第 11 章 : 點估計.  點估計  類比原則  最大概似法  不偏性  有效性  一致性."

Similar presentations


Ads by Google