<信賴區間與信心水準的解讀>.

Slides:



Advertisements
Similar presentations
工職數學 第四冊 第一章 導 數 1 - 1 函數的極限與連續 1 - 2 導數及其基本性質 1 - 3 微分公式 1 - 4 高階導函數.
Advertisements

©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
信賴區間與信心水準 內容說明: 以信賴區間與信心水準的定義來解讀 調查數據.
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
期望值 變異數 共變異數與相關係數 變異數與共變異數之性質 柴比雪夫不等氏 動差與動差生成函數
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
石牌金頭腦 概數篇(可複選)加油哦!.
第 6 章 連續機率分配.
1.1.2 四 种 命 题.
抽樣與抽樣分配 7.1 抽樣問題 7.2 簡單隨機抽樣 7.3 點估計 7.4 抽樣分配簡介 7.5 的抽樣分配 7.6 的抽樣分配
17 類別資料的分析  學習目的.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
第五章 機率分配 授課教師: 更新.
5.1 自然對數函數:微分 5.2 自然對數函數:積分 5.3 反函數 5.4 指數函數:微分與積分 5.5 一般底數的指數函數和應用 5.6 反三角函數:微分 5.7 反三角函數:積分 5.8 雙曲函數.
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
Sampling Theory and Some Important Sampling Distributions
第3章 資料的整理與表現- 統計表與統計圖.
第 7 章 抽樣與抽樣分配.
教學演示教材: 〈信賴區間與信心水準的解讀〉
The Runs Test : A Test for Randomness
風險值 Value at Risk (VaR) 區國強.
學科中心 < 信 賴 區 間 試 題 探 討 >.
估計(estimation) 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2018/12/27.
下列敘述正確的打「○」,錯誤的打「×」。 ( )兩個等腰直角三角形一定相似。 ( )兩個梯形一定相似。 ( )兩個正六邊形一定相似。
單一分配 Uniform distribution
1.3 在整除性問題之應用 附加例題 3 © 文達出版 (香港 )有限公司.
第一章 直角坐標系 1-1 數系的發展.
第8章 估計 點估計 區間估計與信賴區間.
第二章 機率概論 2.1 相對次數與機率 樣本空間、事件與隨機變數 抽樣與樣本空間 22
111 第六章 常態分配 陳順宇 教授 成功大學統計系 陳順宇作.
統計學 指導老師: 郭燿禎 Date: 2/14/12.
信心水準與信賴區間的解讀.
搭配頁數 P.35 比例式 1.比的前項、後項與比值:    .
第一章 直角坐標系 1-3 函數圖形.
第十章補充 允收抽樣.
數學 近似值 有效數值.
估計與假設檢定.
大綱:加減法的化簡 乘除法的化簡 去括號法則 蘇奕君 台灣數位學習科技股份有限公司
7-2 抽樣分配(sampling distribution)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
做做看。 5 算出塗色部分周長及面積。 1 (2+4)×2=12 2×4=8 12+8=20.
實用數學 長度單位的認識與換算.
Some Important Probability Distributions
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
二項分配-Binomial 伯努利試驗(Bernoulli Trial) 每一次試驗皆僅有兩種可能結果,不是成功(S),就是失敗(F)。
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
( )下列何者正確? (A) 7< <8 (B) 72< <82 (C) 7< <8 (D) 72< <82 C 答 錯 對.
1-4 和角公式與差角公式 差角公式與和角公式 1 倍角公式 2 半角公式 和角公式與差角公式 page.1/23.
第一章 直角坐標系 1-3 函數及其圖形.
第三章 指數與對數 3-1 指數 3-2 指數函數及其圖形 3-3 對數 3-4 對數函數及其圖形 3-5 常用對數 回總目次.
1 試求下列三角形的面積: 在△ABC中,若 , ,且∠B=45° 在△PQR中,若 , ,且∠R=150° (1) △ABC面積 。
4-1 變數與函數 第4章 一次函數及其圖形.
2.1 一元一次不等式 定 義 設a、b為兩個實數。.
在△ABC 與△DEF 中,∠B=∠E=65°,∠A=57°,∠F=58°,請問兩個三角形是否相似?為什麼?
第四組 停車場搜尋系統 第四組 溫允中 陳欣暉 蕭積遠 李雅俐.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
11621 : Small Factors ★★☆☆☆ 題組:Problem Set Archive with Online Judge
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
ABC ( )已知 ,則下列哪些是x6-7x5-8x4 的因 式?(複選) (A) x+1 (B) 2x+2 (C) x3(x+1)
第十七講 重積分 應用統計資訊學系 網路教學課程 第十七講.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

<信賴區間與信心水準的解讀>

一、從常態分配談起 為何成績單只要有個人成績加上平均數、 標準差,就足夠估計學生大約的名次? 例:A 生成績(全班 40 人) 個標準差。 由 68-95-99.7 的法則可知,A 生的百分等級約為 68+(100-68)/2=84,全班排名約為 40(100-84)%≒ 6 名 國文 英文 數學 物理 化學 生物 平均 A 生 85 97 61 74 72 76.8 班平均 63.4 74.0 63.0 61.9 71.7 70.8 67.5 標準差 11.0 14.9 13.1 11.6 14.3 10.1 9.2

為何可以如此估算? 我們假設全班成績分佈為一常態分佈

設常態分配的期望值為m、變異數為s 2,則常態分配的機率分配函數是

標準常態分配 zp p 標準常態分配累積機率表 上面的標準常態累積機率表,是由平均值為 0、標準差為 1 的標準常態分配機率密度函數(上圖中的 f (x)),計算從-∞到 zp 曲線下的面積而得,通常記作F(zp),因此上表可以寫成 F(zp) = p。

以 z = 1.96 為例, F(1.96)≒0.975, 所以在平均值前後 1.96 個標準差的機率為0.975−0.025 = 0.95。 標準常態分配累積機率表 1.96 0.975 0.025 1.96 -1.96 0.95

大學聯考的統計資料  已知 X≒54.63 s ≒13.73

某生國文成績為 24.7 分 這個分數距離平均值 個 標準差。 利用常態分配表推知他的百分等級是 2.5%, 但由大考中心資料得知他實際的百分等級是 4% 上述兩個例子是用常態分配去近似班級考試分配及大學指考分配,但只是近似,顯然不可能完全正確推算名次。

二、信賴區間的簡介 某次民意調查發表之記者會特安排在十月四日「世界動物日」當天,以凸顯對解決流浪狗問題的迫切性,在 1111 份回收問卷中,其中的一個問題為: 您願不願意以實際行動來照顧住家附近的流浪狗/貓? 願意 140 (12.6%) 不願意 971 (87.3%) 以樣本比例 來代表母體的真正比例 p 合理嗎? 願意照顧流浪動物的民眾真的是 12.6% 嗎?

區間估計 92年7月19日,某報就『成年人對公立大學學費是否太貴』的議題進行調查,於20日報導:『成功訪問了871位成年人。在百分之九十五的信心水準下,有46% 民眾認為學費太貴,抽樣誤差在正負 3.3% 之內』,而該調查是以台灣地區住宅電話為母體作尾數兩位隨機抽樣。 這並不代表「認為公立大學學費太貴的民眾比例在(0.427,0.493)這個區間範圍內」 我們每次做抽樣調查時都可以做出一個區間估計,而每次做出區間會涵蓋實際比例的機率為95%。 但是,這些區間與 95% 如何求出?

信賴區間的實驗 老師為全班每個同學各準備一籤筒,事先不讓學生知道籤筒裡放了幾支籤,內含若干有獎籤,然後做一次實驗:每個同學在籤筒內抽取一支籤,記錄是否為有獎籤後放回,連續抽取 20 次。記錄內容必為下列表格其中一列:

區間公式對照表(n =20)區間半徑 = 舉例:若一學生抽 20 次得到 9 次有獎籤,則中籤比例為 9/20 = 0.45,區間半徑為 數 中籤比例 區間 半徑 左 端點 右 10 0.50 0.219 0.281 0.719 0.00 0.000 11 0.55 0.218 0.332 0.768 1 0.05 0.096 0.146 12 0.60 0.215 0.385 0.815 2 0.10 0.131 0.231 13 0.65 0.209 0.441 0.859 3 0.15 0.156 0.306 14 0.70 0.201 0.499 0.901 4 0.20 0.175 0.025 0.375 15 0.75 0.190 0.560 0.940 5 0.25 0.060 0.440 16 0.80 0.625 0.975 6 0.30 0.099 0.501 17 0.85 0.694 1.000 7 0.35 0.141 0.559 18 0.90 0.769 8 0.40 0.185 0.615 19 0.95 0.854 9 0.45 0.232 0.668 20 1.00 舉例:若一學生抽 20 次得到 9 次有獎籤,則中籤比例為 9/20 = 0.45,區間半徑為 區間為[ 0.45-0.218, 0.45+0.218 ],即 [ 0.232, 0.668 ]

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

信賴區間圖 右圖中,全班 40 個學生每個人都得到一個區間,如果老師事先知道 p = 0.6,那麼從圖中可知,有 35 個區間包含真實的 p 值。 全班 40 個學生包含 p 值區間個數的期望值為 40  0.95 = 38 個 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

的公式是如何得來的? 首先, 1.96 的由來是因為在平均值前後1.96 個標準差所佔比例約為 95%。 單獨一次抽籤的標準差是 , 首先, 1.96 的由來是因為在平均值前後1.96 個標準差所佔比例約為 95%。 單獨一次抽籤的標準差是 , 平均 n 次抽籤的標準差是 。 所以 是指「在 p 前後 1.96 個標準差的範圍」 。

以真實中獎機率 0. 6 為例,20 次抽籤抽中有獎籤的比率必為 0, 0. 05, 0. 1, …, 1 以真實中獎機率 0.6 為例,20 次抽籤抽中有獎籤的比率必為 0, 0.05, 0.1, …, 1.0 其中之一,舉例:抽中 9 次的中獎比率為 0.45,此事件發生機率為 ≒ 0.071。(上圖左邊第二條綠色長條) 上圖將每一種中獎比率與其發生機率作成直方圖,而綠色區域是 0.6 前後 1.96 個標準差的區域。

現在用常態分配去近似二項分配,每個同學 20 次抽籤的結果,抽中有獎籤的比率必為圖中 x 坐標之一,且此比率落在綠色區域的機率為 0.95。 每個同學 20 次抽籤抽中有獎籤比率的結果好比是在擲一枚出現正面機率是 0.95 的銅板,成功擲出正面(抽中有獎籤比率落在綠色區域)的機率是 0.95。

樣本平均 落在 區間的樣本點, 也就是期望值 p 會落在 區間的樣本點。

區間公式對照表(n =50)區間半徑 = 中籤 數 中籤比例 區間 半徑 左 端點 右 0.00 0.000 12 0.24 0.118 0.122 0.358 1 0.02 0.039 0.059 13 0.26 0.138 0.382 2 0.04 0.054 0.094 14 0.28 0.124 0.156 0.404 3 0.06 0.066 0.126 15 0.30 0.127 0.173 0.427 4 0.08 0.075 0.005 0.155 16 0.32 0.129 0.191 0.449 5 0.10 0.083 0.017 0.183 17 0.34 0.131 0.209 0.471 6 0.12 0.090 0.030 0.210 18 0.36 0.133 0.227 0.493 7 0.14 0.096 0.044 0.236 19 0.38 0.135 0.245 0.515 8 0.16 0.102 0.058 0.262 20 0.40 0.136 0.264 0.536 9 0.18 0.106 0.074 0.286 21 0.42 0.137 0.283 0.557 10 0.20 0.111 0.089 0.311 22 0.44 0.302 0.578 11 0.22 0.115 0.105 0.335 23 0.46 0.322 0.598

中籤 數 中籤比例 區間 半徑 左 端點 右 37 0.74 0.122 0.618 0.862 24 0.48 0.138 0.342 38 0.76 0.118 0.642 0.878 25 0.50 0.139 0.361 0.639 39 0.78 0.115 0.665 0.895 26 0.52 0.382 0.658 40 0.80 0.111 0.689 0.911 27 0.54 0.402 0.678 41 0.82 0.106 0.714 0.926 28 0.56 0.422 0.698 42 0.84 0.102 0.738 0.942 29 0.58 0.137 0.443 0.717 43 0.86 0.096 0.764 0.956 30 0.60 0.136 0.464 0.736 44 0.88 0.090 0.790 0.970 31 0.62 0.135 0.485 0.755 45 0.90 0.083 0.817 0.983 32 0.64 0.133 0.507 0.773 46 0.92 0.075 0.845 0.995 33 0.66 0.131 0.529 0.791 47 0.94 0.066 0.874 1.000 34 0.68 0.129 0.551 0.809 48 0.96 0.054 0.906 35 0.70 0.127 0.573 0.827 49 0.98 0.039 0.941 36 0.72 0.124 0.596 0.844 50 1.00 0.000

信賴區間圖 右圖中,全班 40 個學生每個人都得到一個區間,如果老師事先知道 p = 0.6,那麼從圖中可 區間個數的期望值為 40  0.95 = 38 個 n = 50 時,區間半徑成為 因此區間長度變短了。 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

區間比較圖 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 n =20 n = 50

信賴區間的解讀 全班依照這樣的區間公式求出的 40 個區間,不論 n =20 或 n = 50 的模擬實驗結果,可以發現並非一定有 95% 的區間會涵蓋實際值 p。 全班執行這個實驗,正如 40 個學生每人都在擲一枚出現正面機率為 0.95 的硬幣,我們只知道此實驗出現正面個數的期望值為 40  0.95 = 38 個,並不能保證一定出現 38 個正面。 每個學生做出的區間,只可能有兩種情形:包含真實 p 值,或不包含真實 p 值。因此一旦做出區間後,並不能說「真實 p 值在此區間的機率為 95%」

n = 20 與 n = 50 的區間估計的差異 因區間半徑等於 , 所以較大的 n 值具有較小的區間半徑,也意味著有較佳區間估計的效果。 因區間半徑等於 , 所以較大的 n 值具有較小的區間半徑,也意味著有較佳區間估計的效果。 較大的 n 值會導致此抽樣分配會較近似常態分配。

休息一下 做個例題

某校 1000 人一起做實驗,每個人均從已知籤筒(內有 5 支籤,其中 2 支是有獎籤)抽籤 n 次,每次取出一支籤,取出後須放回。下面第一圖是 n = 50 時,每人抽中有獎籤比率與人數的分佈圖,第二圖則是 n =100 的分佈圖。試以此兩圖回答下面三題:

下列敘述何者正確: (1)在 n = 50 的實驗裡,一學生抽中有獎籤比率正好是 0.4 的機率為 。 答:(○)一學生抽中有獎籤比率正好是 0.4 是指他抽 50 次籤中得有獎籤 20 次,因此這個事件的機率為 。

(2) 比較 n = 50 與 n = 100 的實驗,發現抽中有獎籤比率在 0. 28~0 (2) 比較 n = 50 與 n = 100 的實驗,發現抽中有獎籤比率在 0.28~0.52(含此兩值)之間的學生人數,在 n = 100的實驗裡學生人數較多。 答:(○) n = 50 的實驗裡,抽中有獎籤比率小於 0.28 的學生數為 15+8+3+1+1 = 28,大於 0.52 的學生數為 15+8+4+2+1 = 30,因此在 0.28~0.52 之間的學生人數為1000-28-30 = 948。同理, n = 100 的實驗裡,在 0.28~0.52 之間的學生人數為1000-2-1-1-3-1-1 = 991。

(3) 在 n = 50 的實驗裡抽中有獎籤比率在0.38~0.42(含此兩值)之間的學生人數較 n = 100 的實驗裡抽中有獎籤比率在0.38~0.42(含此兩值)之間的人數多,也就是說 n = 50 的圖形較 n = 100 學生人數分佈更往 0.4 集中。 答: ( × ) n = 50 的實驗裡,抽中有獎籤比率在 0.38~0.42 之間的學生人數為111+115+109 = 335。同理, n = 100 的實驗裡,在 0.38~0.42 之間的學生人數為77+80+81+79+74 = 391,因此 n = 100 學生人數分佈更往 0.4 集中。

(4) 在 n = 100 的實驗裡,全校抽中有獎籤比率在 0.31~0.49(含此兩值)之間的學生數為 950 人。

(5) 當 n = 10000 時,我們可以預期抽中有獎籤比率在 0.31~0.49(含此兩值)之間的學生數大於 950 的機率會很大。 答:(○) n = 50 的實驗裡,抽中有獎籤比率在 0.31~0.49 之間的學生人數為1000-96-96 = 808,顯示 n 值越大時,可預期抽中有獎籤比率在 0.31~0.49 之間的學生數會越大。 提示:此實驗的標準差為

若已知信心水準 90% 的區間半徑公式是 (其中 是每人抽中有獎籤的比率),我們將 n = 50 的區間半徑列表如下:(其中區間半徑值是四捨五入至小數點後第四位的近似值) 利用下表,每個學生均可做出一個信心水準為 90% 的信賴區間,試問下列敘述何者正確?

(1) 在 n = 50 的實驗裡,抽中有獎籤比率是 0.5 的學生所做出的區間半徑一定大於其他抽中比率的學生做出的區間半徑。 中獎比率 區間半徑 0.02 0.0327 0.22 0.0967 0.42 0.1152 0.62 0.1133 0.82 0.0896 0.04 0.0457 0.24 0.0997 0.44 0.1158 0.64 0.1120 0.84 0.0855 0.06 0.0554 0.26 0.1024 0.46 0.1163 0.66 0.1105 0.86 0.0810 0.08 0.0633 0.28 0.1048 0.48 0.1166 0.68 0.1088 0.88 0.0758 0.10 0.0700 0.30 0.1069 0.50 0.1167 0.70 0.90 0.12 0.32 0.52 0.72 0.92 0.14 0.34 0.54 0.74 0.94 0.16 0.36 0.56 0.76 0.96 0.18 0.38 0.58 0.78 0.98 0.20 0.0933 0.40 0.1143 0.60 0.80 1.00 0.0000 (1) 在 n = 50 的實驗裡,抽中有獎籤比率是 0.5 的學生所做出的區間半徑一定大於其他抽中比率的學生做出的區間半徑。 答:(○)從表中即可看出或由 可看出

(2) 若有一學生抽取 50 次後抽中有獎籤比率是 0. 3,那麼 90% 的信心水準的意義是指,真實中獎機率 0 (2) 若有一學生抽取 50 次後抽中有獎籤比率是 0.3,那麼 90% 的信心水準的意義是指,真實中獎機率 0.4 落在此學生得到的信賴區間內的機率是 0.90。 答:( × )雖然該生所做出的區間為 [ 0.3-0.1069, 0.3+0.1069 ],即[ 0.1931, 0.4069 ],已經知道此區間涵蓋真實的中獎機率 0.4,因此我們不能再說「 0.4 落在此學生得到的信賴區間內的機率是 0.90 」。

(3) 90% 的信心水準的意義是指全校 1000人在 n = 50 的實驗裡,一定會有 900 人的信賴區間涵蓋真實中獎機率 0.4。

(4) 若在 n = 50 的實驗裡要求信心水準提高時,我們必須將區間半徑增大。 答:(○)要求信心水準提高是指,在期望值前後取更大的區間範圍,才能使抽中有獎籤比率落在此區間的機率變大,這也是說,我們必須將區間半徑增大。舉一例,若信心水準是 95%,區間公式須變為 。

(5)在 n = 100 的實驗裡,因區間半徑 較 n = 50 實驗的區間半徑 小,所以信心水準隨著下降。 答:( × )這是錯誤的觀念,由於這兩個公式都是指期望值前後 1.65 個標準差的範圍,此區域占全部約 90%,因此信心水準均為 90%。

從 n = 50 實驗的結果(第一圖)及區間公式表可知,這次實驗每個學生所做的信賴區間可以涵蓋真實中獎機率 0.4 的人數有 個。 答:(890 個)從區間公式表可知,抽中比率是 0.30 的區間為 [ 0.1931, 0.4069 ],抽中比率是 0.50 的區間為 [ 0.3833, 0.6167 ]。再由第一圖知,抽中比率在0.30~ 0.50 的人數為 1000-54-56 = 890

三、簡介中央極限定理 首先介紹隨機變數 X : 定義 X 的期望值 變異數 (亦即 ) 舉例:若 X 是一中獎機率為 p 的二項分配: …… xn p p1 pn 首先介紹隨機變數 X : 定義 X 的期望值 變異數 (亦即 ) 舉例:若 X 是一中獎機率為 p 的二項分配: 可得 E(X) = p1+(1-p)0 = p, Var(X) = p(1-p)2+(1-p)(0-p)2 = p(1-p)。 X 1(成功) 0 (失敗) p 1-p

中央極限定理: 設 X1, … , Xn 是獨立且具相同分配的隨機變數,其中 E(X1) = m,Var(X1) = s 2,則 也就是說隨機變數 的分配會趨近於標準常態分配

討論定理中的隨機變數 前,首先介紹兩個小引理: 討論定理中的隨機變數 前,首先介紹兩個小引理: 引理一:若 X、Y 是隨機變數且 a、b 為常數,則 E(X+Y) = E(X) + E(Y)且 E(aX+b) = a E(X) + b 引理二:若 X、Y 是獨立的隨機變數且 a、b 為常數,則 Var (X+Y) = Var (X) + Var (Y)且 Var (aX+b) = a 2 Var (X)

計算 n 次二項分配平均的期望值與標準差

比較一般的情形是:已知抽籤的真實中獎機率為 p,只要給定正數 z,則當 n → ∞ 時,p 值落在實驗所得區間 的機率會趨近於 F(z) - F(-z) 此處 Φ 是指標準常態分配的累積機率函數:

此外 F(z) - F(-z) 的值可化簡成 2 F(z) - 1: F(z) = 0.975,查下表知 z 值約為 1.96 若要求信心水準 2 F(z) - 1 = 0.90,則解出 F(z) = 0.95,查上表知 z 值約為 1.65

圖形說明由 95% 改成 90% 1.96 0.975 0.950 1.65 95 % 1.96 1.65 90 %

信心水準由 95% 改成 90% 95% 的信賴區間 90% 的信賴區間

信心水準為 1 - a 的信賴區間 現在要求信心水準 2 F(z) - 1 = 1 - a,解得F(z) = 1 – a/2 ,查表可得 z 值,用 表示 信賴區間為 其中 (通常我們會將 a 取成較小的數字) 此外,若 1 - a 越大,則區間半徑就越大; 而若固定 1 - a 的值,取樣數 n 越大則區間半徑越小。

實驗成功了嗎? n = 20 的實驗中,每個同學所擁有的區間,我們只能知道它涵蓋 p 的機率是 0.928,也就是說,每個同學的區間涵蓋 p(成功)的機率是 0.928,不涵蓋 p(失敗)的機率是 0.072。 當 40 個同學做此實驗時,計算涵蓋 p 的區間數正好是 38 個的機率為 ,經計算約為 0.236 !

n = 50 的實驗中,每個同學所擁有的區間,每個同學的區間涵蓋 p(成功)的機率是 0.941,不涵蓋 p(失敗)的機率是 0.059。 , 經計算約為 0.269 ! 就算信心水準是 0.95,要求涵蓋 p 的區間數正好是 38 個的機率機率為 , 經計算約為 0.278 !

四、信賴區間與中央極限定理 由中央極限定理可知,對獨立且有相同分佈的隨機變數,給定任意正數 z ,當 n → ∞ 時, (其中 Φ 是標準常態分配累積機率函數) 上述式子中,事件 的涵義是樣本空間中 所有滿足樣本平均 落在 區間的樣本點所成事件。

樣本平均 落在 區間的樣本點,也就是期望值 會落在 區間的樣本點。

民意調查的意義 常常在民意調查的報導中有如下的敘述:  本項調查是由XX民意調查中心在XX年X月X日進行,以隨機跳號抽樣及電腦輔助電話訪問方式,訪問台灣地區 1068 位 20 歲以上的民眾,在 95% 的信心水準下抽樣誤差為 ± 3%。 

如果這項調查的結果對於候選人A的支持度為32%,候選人B的支持度為30%,這代表候選人A支持度的95%信賴區間為[29%, 35%],候選人B支持度的95%信賴區間為[27%, 33%]。這兩個區間有很大的重疊,因此選舉結果是有可能發生逆轉,這也是在相同的信心水準下,為何信賴區間的長度(即所謂抽樣誤差)要越小越好,而上面已提供了一個方法—— 提高抽樣的樣本數 n。

如何得到民意調查的抽樣數 n = 1068? 因 ,所以區間半徑 。若要求抽樣誤差不超過 d,則 即 。 因 ,所以區間半徑 。若要求抽樣誤差不超過 d,則 即 。 以此例而言,若選擇抽樣誤差 d 等於 0.03,因 95% 的信心水準下, z0.975 ≒ 1.96,則 n  1068。

但在相同的信心水準下,若選擇抽樣誤差 d 小於 0 但在相同的信心水準下,若選擇抽樣誤差 d 小於 0.01,則 n  9604 。以成本的角度來看,為了讓抽樣誤差從 3% 減少到 1%,與其增加 9 倍的樣本,不如更謹慎的規劃及更好的抽樣方法來得有效。

Bye Bye