統計學 : 應用與進階 第 11 章 : 點估計
點估計 類比原則 最大概似法 不偏性 有效性 一致性
定義重要觀念 估計式 (estimator) 估計值 (estimate) 參數空間 (parameter space) 假設隨機樣本 X 1, X 2,..., X n 係抽樣自機率密度函 數為 f (x; θ) 的母體, 其中 為我們所關心的母體未知 參數
參數空間 (parameter space) 所謂的參數空間係指一個參數所有可能數值所形 成的集合。我們以大寫的希臘字母 ( 同樣讀作 theta) 來表示這個集合 舉例來說, 如果給定一個指數分配為 根據之前所學, 我們知道 E(X) = θ ( 平均等候時間 ), 因此, 所有可能的 值不會小於零 則其參數空間 為 θ ≡ { θ : 0 < θ < ∞}
估計式與估計值 如果我們以 代表估計母體參數 θ 的一個估計式, 則估計式 (estimator) 就是以隨機樣本 X 1, X 2,..., X n 所形成的函數 換句話說, 就是利用隨機樣本 X 1, X 2,..., X n 所形 成的一個統計量 (statistic): = t(X 1, X 2,..., X n ) 如果我們將隨機樣本的實現值 x 1, x 2,..., x n 帶入 t(·), 則 t(x 1, x 2,..., x n ) 就被稱作估計值 (estimate) 統 計
估計式與估計值 習慣上, 我們在 θ 上面戴一頂小帽子 (hat), 以 ( 讀 作 theta hat) 代表 θ 的估計式 母體參數 θ 估計式 種類固定常數隨機變數 已知否一般而言未知樣本抽出前未知 樣本抽出後已知 例子 μ, σ²
估計方式 接下來, 我們將會介紹兩種重要的估計方式 : 類比原則 ( 動差法 ) 最大概似法
類比原則 (analogy principle) 這是最具直覺的一種估計方法 原則為 : 你對於母體的任何特徵有興趣 ( 例如母體 平均數, 母體變異數, 母體各階動差等 ), 我們就用 樣本相對應的特徵 ( 樣本平均數, 樣本變異數, 樣本 各階動差等 ) 來估計 透過類比原則所得到的估計式, 就稱作類比估計式 (analog estimator)
類比原則的應用 利用樣本動差估計母體動差 譬如說, 我們用樣本平均數 估計母體均數 μ ( 一階動差 ) 以樣本變異數 估計母體變異數 σ²( 二階中央動差 )
類比原則的應用 對於母體動差的函數則以相對應樣本動差的函數 來估計。譬如說, 以 來估計 欲估計機率 P(X < c), 就用樣本中具備 X < c 性質的 比例予以估計。譬如說, 想知道任選一名台大學生, 其身高低於 166 公分的機率。我們可以隨機抽樣 100 名台大學生, 計算樣本中, 身高低於 166 公分的 學生佔樣本多大的比例, 然後就用此比例估計 P(X < 166) 樣本中位數估計母體中位數 樣本極大值 ( 極小值 ) 估計母體極大值 ( 極小值 )
最大概似法 (method of maximum likelihood) 當我們應用類比估計法時, 並不需要知道母體分配 。在本節中, 我們介紹另一種假設母體分配已知的 估計法 : 最大概似法
最大概似法 假設 為來自母體分配 f (x, θ) 的隨機樣本, 其中函數 f (·) 已知, 但 θ 為未知的母體參數 由於 X 1,..., X n 為隨機樣本, 其聯合機率分配可以 寫成 : ( 為什麼 ?)
最大概似法 對於上式, 我們過去習慣解讀成給定 下,x 1,..., x n 的函數 然而, 我們也可以解讀為給定 x 1,..., x n 下, 的函數
最大概似法 在第二種解讀下, 我們把這樣的函數稱作的概似函 數 (likelihood function): 亦即這組隨機樣本出現的可能性
最大概似估計式 (maximum likelihood estimator, MLE) 最大概似估計式就是要找到一個參數值 使得概似 函數 極大 : 其中, 為參數空間 用白話解釋就是說, 我們要找出一個參數值 = 使得該組樣本出現的可能性最大。
最大概似估計式 亦即, 給定某組樣本, 如果參數值 相對於 能夠讓我們更有可能 (more likely) 觀察到這組樣本, 則毫無疑問地 會是一個 優於 的估計式 而最大概似法就是要在參數空間中找出能夠讓我 們最有可能 (most likely) 觀察到這組樣本的參數。
例子 一個箱子裏放置五顆球, 分別為藍球與綠球。令 p 代表箱中藍球比例, 而 p 為一未知參數, 亦即, 我們 不知道箱子裏藍球與綠球的確切個數 為了估計 p, 我們以抽出放回的方式隨機選取 10 顆 球。亦即, 我們得到一組隨機樣本 {X 1, X 2,...,X 10 } 令 抽出藍球, 抽出綠球.
例子 根據這個例子, 我們知道 Xi ∼ Bernoulli(p), 而 p 就是 箱中藍球比例 同時, 我們令 代表 10 顆球中, 藍球 的個數, 則 ∼ Binomial(10, p) 討論以下兩組可能的樣本
概似函數
最大概似估計式 以上兩組樣本是已實現的樣本值, 對於未實現的隨 機樣本, 如果 是可微的, 則 MLE 就是以下方程 式之解 : 由於任何極大化 的參數值 θ 也同時極大化對 數概似函數 ln, 因此, 為了計算上的方便, 我們 有時會轉而求取 的極大值
例子 假設 為來自母體分配 Bernoulli(p) 的隨機樣 本, 試找出 p 的 MLE 由於 概似函數為 則對數概似函數為
FOC 因此, 當然我們可以用 SOC 驗證該極值確實為極大值
點估計式的評價準則 不偏性 (unbiased) 有效性 (efficient) 一致性 (consistent)
不偏性 一個估計式 的期望值等於母體參數 θ 我們稱該估計式 為一不偏估計式 簡單地說, 就是當你用 來猜 θ, “ 平均而言 ” 會猜 對
偏誤 如果一個估計式沒有具備不偏性, 則其偏誤 (bias) 可以定義成 :
偏誤 若 令 則
亦即, 與 分別為 與 的不偏估計式 ; 則 為 的偏誤估計式
幾點想法 我們一再強調估計式是一個由隨機樣本組成的公 式, 是一個統計量, 同時也是一個隨機變數 因此, 每個估計式會有其抽樣分配, 也就能算出期 望值 E( ), 變異數 Var ( ).... 等等。而估計式的性質 就是立基在其分配之上 估計式的性質都是在樣本實現 (realize) 之前才有意 義, 也就是說, 這些好性質都是事前的 (exante)
幾點想法 然而, 一旦我們抽出某特定樣本 ( 樣本實現之後 ), 所 得到的就不再是估計式, 而是估計值。估計值本身 是一個常數, 並無任何隨機性質可以討論 假設我們抽樣 100 個台大學生並算出樣本平均身高 = 166 。此時, E(166) 不一定等於母體平均 μ: 當你運氣好, μ = 166 時,E(166) = 166 = μ; 當你運氣 不好, μ ≠ 166 時,E(166) = 166 ≠ μ
幾點想法 Question: 照這麼說, 一旦樣本實現之後, 166 這個值 本身不就沒有任何意義了 ? Answer: 166 這個值有沒有意義, 值不值得作為參考, 端視將 166 這個值「製造出來」的估計式有沒有 具備良好性質 想像估計式為一部機器的製造過程, 而估計值為這 部機器所製造出來的產品。假設我們無法判斷製 造出來的產品品質優劣, 但重要的是, 如果我們知 道製造該產品的製造過程具有良好品質, 自然較能 肯定產品具有良好品質
有效性 我們之所以認為不偏性是估計式一個好的性質, 就 在於不偏估計式給我們一個「平均而言猜得準」 的估計公式 然而, 一如之前所述, 估計式有其自己的抽樣分配, 我們不但關心估計式的期望值, 也應該要關心其變 異程度 ( 亦即其精確度 )
有效性 舉例來說, 估計台大學生的平均身高 μ 的估計式 樣本平均身高 任選兩個樣本點 X 1, X 100 算出另一個估計式 與 都是不偏估計式 但是 亦即, 當 n > 2 時, 的變異數大於 的變異數, 其 精確度自然不及
有效性 如果兩個估計式都具不偏性, 我們把變異數較小的 不偏估計式稱作有效估計式 相對有效性 (relative efficiency) 絕對有效性 (absolute efficiency)
相對有效性 兩個不偏估計式中, 具有較小變異者, 較有效率 相對有效性可用以下指標衡量 : 有效性
絕對有效性 為所有不偏估計式中, 變異數最小的不偏估計 式, 則我們稱 具絕對有效性 亦即, 當 就是一個絕對有效估計式
我們以上所介紹的「有效性」的概念, 是應用在比 較兩個不偏估計式 如果我有兩個估計式, 一個是不偏估計式, 另一個 則是偏誤的估計式, 試問, 我該如何比較這兩個估 計式 ? 把「有效性」的概念從「較小變異」推廣到「較 小均方誤」
什麼是均方誤 (mean squared error) 均方誤 (mean squared error) 一般簡稱為 MSE, 其定義 為 均方誤就是將估計式與母體參數之間的差距 ( 估計 誤差 ) 取平方後, 再取期望值, 也就是以平方衡量的 平均估計誤差 具有較小均方誤的估計式就是一個較有效的估計 式, 無論該估計式為偏誤或是不偏
均方誤的有效性 均方誤的有效性立基於估計式的變異數與偏誤, 因此, 變異數越小, 或是偏誤越小的估計式越具備 有效性 如果兩個估計式均為不偏, 則均方誤的第二項都 為零, 比較哪個估計式的均方誤較小, 就等同於比 較哪個估計式的變異數較小
例子 假設 令 以及 我們可計算出 亦即, 相對於 而言, 有較小的均方誤, 換句話 說, 比 有效
一致性 (consistent) 以上討論的估計式性質 ( 不偏性與有效性 ) 均為固 定樣本數 n 下所具備的性質, 因此, 又被稱作小樣 本性質 在本小節, 我們將進一步討論估計式的大樣本性質, 或是說, 估計式的極限性質 在某些情況下, 即使估計式在小樣本時, 不具備不 偏或有效等良好性質, 如果當樣本數 n 增加時, 該 估計式具有優良的大樣本性質, 我們仍然會將之視 為一個不錯的估計式 一個重要的大樣本性質就是一致性
一致性 在此, 我們將會把估計式 寫成 用以提醒讀者 估計式為樣本 n 所決定, 而 n 會變動, 不再是固定常 數 如果 則稱 為 的一致估計式 換句話說, 如果 為 的一致估計式, 則 機率收 斂到, 亦即, 當樣本數越來越大時, 點估計式的值 與母體參數靠近的可能性越來越大, 其機率值趨近 於一
例子 若 則 為母體均數 μ 的一致估計式 (by WLLN) 與 均為 的一致估計式 (by WLLN and CMT)
一致性 一般來說, 要證明一致性有以下幾種方法 : 如果估計式具樣本均數之形式 ( 滿足 WLLN 所需條件 ), 或是其函數, 則可利用 WLLN 以及 CMT 如之前兩個例子 所示。 從機率收斂的定義著手。 然而, 由機率收斂的定義去做有時相當複雜。在此, 我們介紹幾個定理幫助大家能夠較為簡單地證明 估計式的一致性 介紹兩個新觀念 : MSE 一致性 (MSE consistent), 與 漸近不偏性 (asymptotically unbiased)
MSE 一致性 當 我們稱 為 的一個 MSE 一致估計式, 並以 如下符號表示
漸近不偏 當 則 為漸近不偏 若 為不偏, 則 亦為漸近不偏
MSE 一致性的充要條件 若且唯若 (if and only if) 且
一致性的充分條件 若 則 亦即, 估計式為一致的充分條件為 MSE 一致 根據以上定理, 簡單地說, 驗証一致性的條件為 : 以及 只要以上兩個條件均符合, 則 就是 的一致估 計式
總結 : 驗証一致性的方法 WLLN 與 CMT 機率收斂定義 MSE 一致性
例子 : WLLN 的另一種證明 我們知道 為 μ 的不偏估計式 E( ) = μ, 則 亦為 μ 的漸近不偏估計式 此外, 則 因此 為 MSE 一致, 是故 為一致估 計式,