教材 P.264 Point Estimation To estimate the value of a population parameter, we compute a corresponding characteristic of the sample, referred to as a sample statistic. 對應 population mean μ population standard deviationσ sample mean x sample standard deviation s
教材 P.258 Definitions A population is the set of all the elements of interest in a study. A sample is a subject of the population. Numerical characteristics of a population, such as the mean and standard deviation, are called parameters. A primary purpose of statistical inference is to develop estimates and test hypotheses about population parameters using information contained in a sample.
SIMPLE RANDOM SMPLE (FINITE POPULATION) A simple random sample of size n from a finite population of size N is a sample selected such that each possible sample of size n has the same probability of being selected.
sampling without replacement A random number that previously used could not be included in the sample two or more times. sampling with replacement A random number that previously used could be included in the sample two or more times.
教材 P.262 McDonald’s, the fast-food leader, implemented a simple random sampling procedure for just such a situation. The sampling procedure was based on the fact that some customers presented discount coupons. Whenever a customer presented a discount coupon, the next customer served was asked to complete a customer profile questionnaire.
教材 P.262 Because arriving customers presented discount coupons randomly, and independently, this sampling plan ensured that customers were selected independently. Thus, the two requirements for a simple random sample from an infinite population were satisfied.
SIMPLE RANDOM SMPLE (INFINITE POPULATION) A simple random sample from an infinite population is a sample selected such that the following conditions are satisfied. 1. Each element selected comes from the population. 2. Each element is selected independently.
教材 P.265 Table 7.2 Annual salary and training program status for a simple random sample of 30 EAI managers Annual Salary($) Management Training Program Yes No Annual Salary($) Management Training Program Yes No X1=49,094.30 X2=53,263.90 X3=49,643.50 X4=49,894.90 X5=47,621.60 X6=55,924.00 X7=49,092.30 X8=51,404.40 X9=50,957.70 X10=55,109.70 X11=45,922.60 X12=57,268.40 X13=55,688.80 X14=51,564.70 X15=56,188.20 X16=51,766.00 X17=52,541.30 X18=44,980.00 X19=51,932.60 X20=52,973.00 X21=45,120.90 X22=51,753.00 X23=54,391.80 X24=50,164.20 X25=52,973.60 X26=50,241.30 X27=52,793.90 X28=50,979.40 X29=55,860.90 X30=57,309.10
教材 P.266 Table 7.3 Summary of point estimates obtained from a simple random sample of 30 EAI managers population parameter μ= population mean annual salary σ= population standard deviation for annual salary p= population proportion having completed the management training program parameter Value $51,800 $4,000 .60 point estimator x= sample mean annual salary s= sample standard deviation for annual salary p= sample proportion having completed the management training program point estimate $51,814 $3,348 .63
抽樣分配簡介 以表7.2中的30個樣本為例,樣本平均為$51,814 ,樣本比為 .63 教材 P.267 抽樣分配簡介 以表7.2中的30個樣本為例,樣本平均為$51,814 ,樣本比為 .63 重新選取30個樣本 ,得到樣本平均為$52,670 ,樣本比為 .70 注意此二值不同,是因其樣本不同所致 假設一再地選取30個樣本 ,每次選取都計算其樣本平均 與樣本比,共取得500個簡單隨機抽樣 表7.5顯示500個樣本平均的次數和相對次數分布 圖7.1顯示500個樣本平均的相對次數直方圖
抽樣分配簡介 從圖7.1我們發現分配圖形呈鐘形,500個樣本平均值大部分集中在圖形的中間,且樣本平均的平均數接近母體平均 教材 P.268 抽樣分配簡介 從圖7.1我們發現分配圖形呈鐘形,500個樣本平均值大部分集中在圖形的中間,且樣本平均的平均數接近母體平均 實務上,我們只從母體挑選一組簡單隨機樣本。在此重複抽出500組樣本,只是為了顯示不同樣本可以產生不同的樣本平均與樣本比。 某樣本統計量的機率分配稱為某樣本統計量的抽樣分配
教材 P.268 Table 7.4 Value of x and p from 500 simple random sample of 30 EAI managers Sample Number 1 2 3 4 . 500 Sample Mean (x) 51,814 52,670 51,780 51,588 . 51,752 Sample Proportion (p) .63 .70 .67 .53 . .50
教材 P.268 Table 7.5 Frequency distribution of x from 500 simple random sample of 30 EAI managers Mean Annual Salary($) 49,500.00- 49,999.99 50,000.00- 50,499.99 50,500.00- 50,999.99 51,000.00- 51,499.99 51,500.00- 51,999.99 52,000.00- 52,499.99 52,500.00- 52,999.99 53,000.00- 53,499.99 53,500.00- 53,999.99 Frequency 2 16 52 101 133 110 54 26 6 Totals 500 Relative Frequency .004 .032 .104 .202 .266 .220 .108 .052 .012 1.000
教材 P.269 Figure 7.1 Relative frequency histogram of x values from 500 simple random sample of size 30 each .30 .25 .20 Relative Frequency .15 .10 .05 50,000 51,000 52,000 53,000 54,000 Values of x
教材 P.269 Figure 7.2 Relative frequency histogram of p values from 500 simple random sample of size 30 each .40 .35 .30 .25 Relative Frequency .20 .15 .10 .05 .32 .40 .48 .56 .64 .72 .80 .88 Values of p
X的抽樣分配 X的抽樣分配(sampling distribution)為樣本平均數x的所有可能值的機率分配 X的期望值(expected value)為樣本平均數x的所有可能值的平均數
E (x)=the expected value of x (7.1) where E (x)=the expected value of x μ=the population mean
x的期望值 以上結果顯示在簡單隨機抽樣下,x的抽樣分配期望值或平均數等於母體平均數。 教材 P.270 x的期望值 以上結果顯示在簡單隨機抽樣下,x的抽樣分配期望值或平均數等於母體平均數。 如果點估計值的期望值等於母體參數,我們稱此點估計量為不偏(unbiased)。因此,式(7.1)顯示x是母體平均數μ的不偏估計量。
√ ( ) X的標準差 σ √n σ √n σx= σx= σx=X的標準差 σ =標準差 n=樣本大小 N=母體大小 教材 P.271 X的標準差 σx=X的標準差 σ =標準差 n=樣本大小 N=母體大小 我們可以證明在簡單隨機抽樣的情況下,有限母體或 無限母體所產生的 x 的標準差有所不同兩者公式如下。 X的標準差 有限母體 無限母體 √ σ √n σ √n ( ) σx= N-n N-1 σx= (7.2)
X的標準差 在許多抽樣實例中,有些有限母體很大,相 對之下的樣本則是小樣本,因此有限母體校正因 子趨近於1。此種情況下的母體不論是有限或無限 教材 P.271 X的標準差 在許多抽樣實例中,有些有限母體很大,相 對之下的樣本則是小樣本,因此有限母體校正因 子趨近於1。此種情況下的母體不論是有限或無限 ,x之標準差的差異並不明顯,因此可以忽略。
使用下列公式計算X的標準差 σ √n σx= 當 1.母體為無限,或 2.母體為有限,且樣本數小於等於母體大小 教材 P.271 使用下列公式計算X的標準差 σ √n σx= (7.3) 當 1.母體為無限,或 2.母體為有限,且樣本數小於等於母體大小 的5%,也就是n/N≤0.05。
標準誤 (standard error) 為了計算 σx ,必須知道母體的標 準差σ。為進一步強調 σ 與 σx 的差別, 教材 P.272 標準誤 (standard error) 為了計算 σx ,必須知道母體的標 準差σ。為進一步強調 σ 與 σx 的差別, 我們稱x的標準差 σx 為平均數的標準誤 (standard error)。一般而言,標準誤 一詞是指點估計量的標準差。
教材 P.272 標準誤 (standard error) 在7.1節中,我們知道年薪的母體標準差為σ=4000,這個例子的母體的N =2500的有限母體,但樣本為30。由於n/N =30/2500 =0.012, 根據式(7.3)我們可以忽略校正因子x標準誤,因此, σ √n 4000 √30 σx= = =730.3
教材 P.272 X 抽樣分配的形狀 母體為常態分配 很多情況下,我們可以合理的假設母體為常態分配。如果母體是常態分配,無論樣本大小,x 的抽樣分配也是常態分配 母體不是常態分配 如果母體不是常態分配,中央極限定理(central limit theorem)可以幫助我們決定x 抽樣分配的形狀。
中央極限定理(central limit theorem) 教材 P.272 中央極限定理(central limit theorem) 由母體的中抽出樣本大小為n的簡單隨機樣本,當樣本大小n夠大時,樣本平均數x的抽樣分配將趨近於常態分配。 圖7.3中三個母體皆不為常態分配,隨著樣本數增加,三個x抽樣分配開始呈鐘形,最後當樣本數為30時,三個x抽樣分配皆趨近常態。 樣本數大於或等於 30可視為滿足中央極限定理中所謂大樣本條件。
教材 P.273 圖7.3 以下三種母體說明中央極限定理的應用 母體Ⅰ 母體分配 母體Ⅱ 母體Ⅲ X值 X值 X值
教材 P.273 圖7.3 以下三種母體說明中央極限定理的應用 母體Ⅰ x的抽樣分配 (n=2) 母體Ⅱ 母體Ⅲ X值 X值 X值
教材 P.273 圖7.3 以下三種母體說明中央極限定理的應用 母體Ⅰ x的抽樣分配 (n=5) 母體Ⅱ X值 母體Ⅲ X值 X值
教材 P.273 圖7.3 以下三種母體說明中央極限定理的應用 母體Ⅰ x的抽樣分配 (n=30) 母體Ⅱ 母體Ⅲ X值 X值 X值
EAI問題 x 抽樣分配 在EAI問題中,已知E(x) =51800,,σx =730.3 若母體為常態分配, x的抽樣分配就是常態。 教材 P.273 EAI問題 x 抽樣分配 在EAI問題中,已知E(x) =51800,,σx =730.3 若母體為常態分配, x的抽樣分配就是常態。 若母體並非常態分配, 由於簡單隨機樣本是由30位主管構成,利用中央極限定理來假定x的抽樣分配趨近於常態分配。 無論哪種情況,皆可得到x的抽樣分配為常態分配如圖7.4所示。
x 抽樣分配的實際值 瞭解樣本平均數與母體平均數差距的機率。 抽出簡單隨機樣本,並以樣本平均數x來估計母體平均μ,我們不能期待x恰好等於μ。 教材 P.274 x 抽樣分配的實際值 瞭解樣本平均數與母體平均數差距的機率。 抽出簡單隨機樣本,並以樣本平均數x來估計母體平均μ,我們不能期待x恰好等於μ。 表7.5和7.1圖顯示,500個樣本平均數中的確有部分與母體平均數的差距大於$2000。 EAI例子中,母體平均數為$51800,到底樣本平均數落在母體平均數$51800± $ 500範圍內的機率為何?
x 抽樣分配的實際值 這個機率就是圖7.5的陰影區,由於此抽樣為常態分配,我們可以查標準常態分配表,當x=51300時, 教材 P.274 x 抽樣分配的實際值 這個機率就是圖7.5的陰影區,由於此抽樣為常態分配,我們可以查標準常態分配表,當x=51300時, 可知在z=0到 z=-0.68的面積為0.2517。同樣的,當x=52300時,z=0到 z=+0.68的面積亦為0.2517 ,因此樣本平均數介於51300到52300間的機率為0.2517+ 0.2517=0.5034。或許應考慮使用更大樣本來增加範圍內之機率。 51300-51800 730.30 z= =-0.68
教材 P.274 Figure 7.4 Sampling distribution of x for the mean annual salary of a simple random sample of 30 EAI managers Sampling Distribution of x σx =σ = 4000 =730.3 √ √̅ n 30 x 51,800 E( x )
教材 P.275 Figure 7.5 The probability of a sample mean being within $500 of the population mean Sampling Distribution of x σx =730.3 Area=.2517 Area=.2517 x 51,300 51,800 52,300
教材 P.275 樣本大小與x抽樣分配的關係 樣本平均標準誤σx =σ/√n,當樣本數增加,則標準誤σx減少。 EAI例子中,年薪的母體標準差為σ =4000,當n = 30,標準誤為730.3,而當n = 100,標準誤降為400。 n = 30與n = 100下之x 抽樣分配如圖 7.6。由於n = 100的抽樣分配有較小的標準誤,其x值的變異較小,比起n = 30, x值也比較接近母體平均數。 σx =σ/√n=4000/√ =400 100
教材 P.276 Figure 7.6 A comparison of the sampling distributions of x for simple random samples of n=30 and n=100 EAI managers With n=100, σx =400 With n=30, σx =730.3 x 51,800
EAI例子中,n =100時,樣本平均數落在母體平均數± $ 500範圍內的機率為何? 教材 P.276 EAI例子中,n =100時,樣本平均數落在母體平均數± $ 500範圍內的機率為何? 因為抽樣分配為常態,平均數為51800,標準差為400,利用標準常態分配表獲得機率值,在x=51300時(見圖7.7),得到 51300-51800 400 z= =-1.25
當樣本大小由30增為100時,樣本平均數落在51300到52300間的機率由0.5034增為0.7888。 教材 P.276 查標準常態分配表可以發現介於z=0與z=-1.25之間的機率為0.3944 ; 同樣的,在x=52300下也可以計算出介於z=0與z=1.25之間的機率為0.3944。 因此樣本平均數落在51300到52300間的機率為0.3944 + 0.3944 =0.7888。 當樣本大小由30增為100時,樣本平均數落在51300到52300間的機率由0.5034增為0.7888。 當樣本大小增加,則平均數的標準誤減少。
Sampling Distribution Figure 7.7 The probability of a sample mean being within $500 of the population mean when a simple random sample of 100 EAI managers is used Sampling Distribution of x with n=100 σ x =400 Area=.3944 Area=.3944 x 51,800 51,300 51,300
p的抽樣分配 樣本比例p是母體比例p的點估計量。 其中 x p= n 樣本比例p是隨機變數,且其機率分配稱p的抽樣分配
p的期望值 p的期望值,即所有p值的平均數,等於母體比例p。 p的期望值 其中 E (p)= p 由於E (p)= p, p是p的不偏估計量。 (7.4) E (p)= p E (p)= 隨機變數p的期望值 p=母體比例
p的標準差 有限母體 無限母體 σp=√̅√̅ σp=√̅ N-n N-1 p(1-p) n p(1-p) n (7.5) 比較式(7.5)的兩個算式,我們可以發現主要差別在有限母體的情況下多了√̅̅̅ 。 這個因子通常被稱為有限母體校正因子(finite population correction factor)。 若樣本夠大,則有限母體與無限母體的差異是可以忽略的。 當母體為有限且n/N≤0.05,使用σp= √̅̅̅ 的公式。 (N-n)/(N-1) p(1-p)/n
p的標準差 一般而言,我們使用標準誤來表示點估計量的標準差。因此,也用比例的標準誤表示p的標準差。 在EAI一例中,參加管理課程的主管比例為p=0.6,由於n/N=30/2500=0.012,故計算比例的標準誤時,可忽略有限母體校正因子,若樣本數為30人,則 σp=√̅ =√̅̅ =0.0894 p(1-p) n 0.6(1-0.6) 30
p抽樣分配的形狀 當 np≥5 n(1-p) ≥5 p的抽樣分配可以利用常態分配來近似。 在EAI一例中,有參加管理課程的主管的母體比例為p=0.6,樣本數為30,則np=30(0.6)=18且n(1-p)=30(0.4)=12,因此p抽樣分配可以趨近常態機率分配,如圖7.8所示。 np≥5 n(1-p) ≥5
Sampling Distribution Figure 7.8 Sampling Distribution of p for the proportion of EAI managers who participated in the management training program Sampling Distribution of p σ p =.0894 x .60 E (p)
p抽樣分配的實際值 當樣本比例p被用來推估母體比例p值時,會有抽樣誤差,抽樣誤差是樣本比例p值和母體比例p值差距的絕對值。 在EAI一例中,求樣本比例p值落在母體比例±0.05範圍內的機率?(參考圖7.9) 平均數為0.6,標準差σ p =0.0894,則p =0.55所對應的標準常態z值=(0.55-0.6)/0.894=-0.56,查標準常態表可知介於z=-0.56到z=0間的面積為0.2123;同樣的在p =0.65時, z=0到z=0.56間的面積為0.2123 ,因此樣本比例p值落在母體比例±0.05範圍內的機率為0.2123+0.2123=0.4246。
教材 P.282 p抽樣分配的實際值 若樣本數增為n=100,平均數為0.6,標準差σ p =0.049,則p =0.55所對應的標準常態z值=(0.55-0.6)/0.049=-1.02,查標準常態表可知介於z=-0.56到z=0間的面積為0.3461;同樣的在p =0.65時, z=0到z=0.56間的面積為0.3461 ,因此樣本比例p值落在母體比例±0.05範圍內的機率為0.3461+0.3461= 0.6922。 當樣本數由30增為100時,樣本比例p值落在母體比例±0.05範圍內的機從0.4246變為0.6922。
Sampling Distribution Figure 7.9 The probability of a sample mean being within $500 of the population mean when a simple random sample of 100 EAI managers is used Sampling Distribution of p σ p =.0894 Area=.2123 Area=.2123 p .55 .60 .65
教材 P.284 7.7點估計量的性質 良好點估計的性質有:不偏性、有效性及一致性。 θ=母體參數 θ=樣本統計量或θ的點估計量 ˆ
不偏性 ˆ 樣本統計量θ是母體參數θ的不偏估計量,如果 ˆ E(θ)=θ 其中 教材 P.285 不偏性 ˆ 樣本統計量θ是母體參數θ的不偏估計量,如果 其中 圖7.10是不偏估計量與偏誤估計量的例子。對不偏估計量而言,抽樣分配的平均數等於母體參數的值,抽樣誤差的總和為零。 以圖7.10的(b)為例, E(θ)大於θ,所以樣本統計量有較高的機率會高估母體參數值。 ˆ E(θ)=θ ˆ E(θ)=樣本統計量θ期望值。 ˆ
Figure 7.10 example of unbiased and biased point estimators Sampling distribution of θ Sampling distribution of θ ˆ ˆ bias ˆ ˆ θ θ ˆ θ θ E(θ) Parameterθis located at the mean of the sampling distribution; E(θ)=θ Panel A: unbiased estimators Parameterθis not located at the mean of the sampling distribution; E(θ)≠θ Panel B: biased estimators ˆ ˆ
有效性 使用標準差較小的點估計量,可使估計值更接近母體參數。 教材 P.286 有效性 使用標準差較小的點估計量,可使估計值更接近母體參數。 自常態母體抽樣時,樣本平均數的標準誤小於樣本中位數的標準誤,因此,樣本平均數比樣本中位數具更佳的有效性。 圖7.11是兩個不偏估計量θ1 ,θ2的抽樣分配,點估計量θ1的標準差小於點估計量θ2的標準差,所以相較於θ2 , θ1 更有效,也是更好的點估計量。
Sampling distribution Figure 7.11 Sampling distributions of two unbiased point estimators Sampling distribution of θ1 ˆ Sampling distribution of θ2 ˆ ˆ θ θ Parameter
一致性 當樣本變大,點估計量的數值更接近母體參數時,就稱點估計量是一致的。 大樣本比小樣本更能提供好的點估計值。 教材 P.287 一致性 當樣本變大,點估計量的數值更接近母體參數時,就稱點估計量是一致的。 大樣本比小樣本更能提供好的點估計值。 樣本平均數x是母體平均數μ的一致估計量;樣本比例p是母體比例p的一致估計量。
教材 P.287 7.8其他抽樣方法 分層隨機抽樣 叢式抽樣 系統抽樣 便利抽樣 判斷抽樣
分層隨機抽樣(stratified random sampling) 母體的所有元素被區隔成數群,稱為層(strata) 各資料層同質性高,變異少 由各資料層進行簡單隨機抽樣 如:部門、地理位置、產業
. . . Figure 7.12 Diagram for stratified random sampling population Stratum 1 Stratum 2 Stratum H . . .
叢式抽樣(cluster sampling) 各資料層異質性高,每個叢體都可以代表一整個母體 由所有叢體中進行簡單隨機抽樣,被抽出的叢體中之所有元素即構成樣本 如:地區抽樣
. . . Figure 7.1 Diagram for cluster sampling population Cluster 1 Cluster K . . .
系統抽樣(systematic sampling) 母體元素呈隨機排序,且母體很大 例如在5000個元素中要抽出50個當樣本,可以從每5000/50=100個元素中抽出一個元素。假設已將母體元素依序排列。先從前100個元素隨機抽出一個元素,由這個元素開始,每隔100個元素,就抽出一個,直到抽出50個元素為止。
便利抽樣(convenience sampling) 非機率抽樣,樣本是否被抽出的關鍵是便利性 樣本抽選與資料蒐集都相當簡單,但結果可能很好也可能很不好 如:野外捕捉調查、消費者調查
判斷抽樣(judgment sampling) 非機率抽樣 研究者必須非常瞭解研究對象,選出他認為最能代表母體的樣本 如:記者選出他認為最能反應全體參議員看法的3到4位參議員來採訪