Sampling Theory and Some Important Sampling Distributions 觀念 統計主要問題在於如何透過樣本的統計量來推估或檢證母體的參數(parameters)。 A parameter is a numerical quantity that describes some characteristics of a population. 參數為描述母體某些特性的數值。 如μ、σ、母體中位數等皆為參數。 社會統計(上) ©蘇國賢2000
Sampling Theory and Some Important Sampling Distributions 觀念 為了要瞭解母體的特性,我們可以對於母體中的所有單位進行普查(census),但普查有很多缺點: (一)耗時耗力,成本高。(二)無法蒐集較為深入、詳細的資訊,(三)普查錯誤機率大。 因此我們經常從母體中抽取少量的樣本,計算樣本統計量來幫我們推估母體的性質。 社會統計(上) ©蘇國賢2000
Sampling Theory and Some Important Sampling Distributions 觀念 樣本統計Sample statistics 是用來描述樣本的特性的數量,。 Sample mean x、sample variance S2, and the sample proportion ˆp 樣本統計為觀察到的樣本之函數,樣本的統計量隨著取樣的不同,會有不同的變化。因此,樣本統計量本身可以被視為是一隨機變數。 社會統計(上) ©蘇國賢2000
Introduction to Sampling Distribution 觀念 一個樣本的統計量(如樣本平均數)是樣本的函數 Sample樣本平均數 隨機變數 x354 x103 x4 Population 母體參數 x41 x49 的特定值 x31 x1005 x4 x411 x42909 社會統計(上) ©蘇國賢2000
Introduction to Sampling Distribution 觀念 用於推估母體的參數(μ)的樣本統計量(如X-bar),稱為「估計式」(an estimator)。 將實際抽樣所得到的樣本帶入估計式,得到的數值(如χ-bar)稱為估計值(estimate) 社會統計(上) ©蘇國賢2000
Estimator and Estimate 觀念 從母體中觀察到一組隨機樣本 x1, x2, …xn ,母體參數的估計式estimator為一樣本統計sample statistic ,它是一種運算規則rule,告訴我們如何運用x1, x2, …xn去計算出母體參數的估計值。 將x1, x2, …xn帶入估計式estimator所得到的數值稱為估計值estimate 。 社會統計(上) ©蘇國賢2000
Sampling distribution抽樣分配 觀念 A sample statistics is a random variable whose possible values vary from sample to sample. Thus, the sample statistics follows a probability distribution. This probability distribution is called the sampling distribution of the sample statistics. 樣本的統計量為一隨機變數,每一個特定變量出現的機率不同,因此,樣本統計量為一機率分配,稱為樣本統計的抽樣分配(sampling distribution),為多次抽樣結果的機率分佈。 社會統計(上) ©蘇國賢2000
Desirable properties of estimators 觀念 可以用來估計母體參數的樣本統計量有很多種,例如我們可以用樣本平均數X來估計母體平均值μ,也可以用樣本的中位數來估計。對於某些樣本來說,樣本平均值並不見得是母體參數的最佳估計值。 究竟一個好的估計式必須具備哪些條件?我們需要一些標準來評估各種估計式。 社會統計(上) ©蘇國賢2000
Sampling Error抽樣誤差 首先我們希望估計的誤差愈小愈好 觀念 首先我們希望估計的誤差愈小愈好 估計值與被估計的母體參數之間的差距稱為抽樣誤差。The distance between an estimate and the estimated parameter is called the sampling error. 抽樣誤差隨樣本不同而有變化,如果估計量的機率分配集中於母體的周遭,則抽樣誤差較小,反之較大。 社會統計(上) ©蘇國賢2000
Sampling Error抽樣誤差 觀念 從母體中抽取一隨機樣本的方法有很多種,如果從N中取n個元素(without replacement)做為樣本,且每個n被抽到的機率相同,則稱為簡單隨機樣本(a simple random sample)。 從N中取n共有NCn=N!/[n!(N-n)!]取法。每一個隨機樣本被選取的機率為1/ NCn。 社會統計(上) ©蘇國賢2000
Derivation of a Sampling Distribution抽樣分配 觀念 例題: 一母體中有五個元素{1,3,4,8,9},從這母體中選取n=3的簡單隨機樣本,列出所有可能樣本的機率分佈,並計算各樣本的平均數、中位數,評估何者為較優良的估計量? 社會統計(上) ©蘇國賢2000
Derivation of a Sampling Distribution抽樣分配 觀念 {1,3,4,8,9}, 母體參數μ =(1+3+4+8+9) /5 =5 N=5, 樣本個數為3的 樣本共有 C53=10 簡單隨機樣本(a simple random sample),每一個樣本出現的機率相同。 社會統計(上) ©蘇國賢2000
Derivation of a Sampling Distribution抽樣分配 觀念 中位數的的抽樣誤差 平均數的抽樣誤差 社會統計(上) ©蘇國賢2000
Derivation of a Sampling Distribution抽樣分配 觀念 Sampling distribution of sample mean Sampling distribution of sample median 樣本中位數的抽樣分配 樣本平均數的抽樣分配 社會統計(上) ©蘇國賢2000
Sampling Distribution 三個有關估計量的樣本分佈的問題 (1) 估計量的抽樣分配呈現何種型態?是否為常態分配? (2) 估計量的抽樣分配平均值為何? (3) 抽樣分配的變異數為何? 社會統計(上) ©蘇國賢2000
Sampling Distribution 樣本平均值有些大於母體平均值u ,有些小於u,如果計算所有樣本平均值的「平均」,是否與母體平均值相近? 社會統計(上) ©蘇國賢2000
Sampling Distribution 如果抽樣分配的平均值(期望值)等於欲估計的母體參數,我們稱之為母體參數的「不偏估計式」(unbiased estimator)。 一個不偏估計式的抽樣分配會集中於母體參數。The sampling distribution of an unbiased estimator is centered at the population parameter. 如果抽樣分配不集中於母體參數,則此估計量有偏誤(biased)。 社會統計(上) ©蘇國賢2000
Sampling Distribution E(A) = 則A為母體參數的不偏估計式。 如果E(A)≠ , 則稱A為的偏誤估計式 (a biased estimator of ). 偏誤量為: Bias=E(A) - 社會統計(上) ©蘇國賢2000
Calculating E(X) and E(M) 觀念 Sampling distribution of the sample mean Sampling distribution of the sample median 社會統計(上) ©蘇國賢2000
Biased and unbiased estimators Unbiased estimator of Biased estimator of Sampling distribution of B Sampling distribution of A E(A) E(B) Bias of B 社會統計(上) ©蘇國賢2000
Relative Efficiency 假設A為的不偏估計式。儘管A的抽樣分配會集中於,但並不代表A中的任何特定值皆剛好等於。一個好的估計量除了抽樣分配要集中於母體參數外,其抽樣分配的標準差要愈小愈好。 一個母體參數可以有很多個不同的不偏估計量,如隨機變數為對稱分配時,樣本平均數與樣本中位數皆為不偏估計量,但我們喜歡比較集中的估計量。 社會統計(上) ©蘇國賢2000
Relative Efficiency 假設X~N(, 2),樣本數為n,樣本平均數與樣本中位數何者為較好的估計值? 社會統計(上) ©蘇國賢2000
Relative Efficiency Let A and B be two unbiased estimators of some population parameter. The relative efficiency of A with respect to B is the ratio of their variances; that is; The estimator A is said to be more efficient than B if Var(A) < Var(B) 社會統計(上) ©蘇國賢2000
Relative Efficiency 假設X~N(, 2) μ Sampling distribution of X Sampling distribution of M μ E(X) = E(M) = 社會統計(上) ©蘇國賢2000
Minimum Variance Unbiased Estimator An estimator A is a minimum variance unbiased estimator of if A is an unbiased estimator of AND if no other unbiased estimator has a smaller variance. 社會統計(上) ©蘇國賢2000
Sampling Distribution of Sample Mean (page 300) 收入的次數分配 取樣本數n=20的樣本來計算樣本平均值 =30.47 =16.54 社會統計(上) ©蘇國賢2000
Sampling Distribution of Sample Mean E(X)=30.47 Sx=2.573 社會統計(上) ©蘇國賢2000
Sampling Distribution of Sample Mean 抽樣分配較原分配接近常態分配 E(X)=30.47 Sx=2.573 =30.47 =16.54 社會統計(上) ©蘇國賢2000
Sampling Distribution of Sample Mean X的抽樣分配其平均值等於母體平均數: 抽樣分配的標準差比母體標準差小。 社會統計(上) ©蘇國賢2000
Very simple random sample (VSRS) 觀念 A very simple random sample is a sample whose n observations x1, x2, …xn are independent. The distribution of each X is the population distribution p(x): that is P(x1) = P( x2) … = P(xn) = population distribution P(x) Then each observation has the mean μ and standard deviation σof the population. E(x) = μ, Var(X) = σ2 社會統計(上) ©蘇國賢2000
簡單隨機抽樣 簡單隨機抽樣的意義 抽取樣本時,若所有可能抽出的樣本被抽出的機率均相等,則稱該抽樣方法為簡單隨機抽樣。 ©蘇國賢2000 1-1 簡單隨機抽樣 簡單隨機抽樣的意義 抽取樣本時,若所有可能抽出的樣本被抽出的機率均相等,則稱該抽樣方法為簡單隨機抽樣。 社會統計(上) ©蘇國賢2000
Very simple random sample (VSRS) 觀念 樣本中每一個元素被抽到的機率皆相同 每一個元素的期望值為母體平均數μ 每一個元素的標準差為母體標準差σ P(x1) = P( x2) … = P(xn) = population distribution P(x) Population 母體參數 E(x) = μ, Var(X) = σ2 社會統計(上) ©蘇國賢2000
社會統計(上) ©蘇國賢2000
社會統計(上) ©蘇國賢2000
Standard Error of X-bar The typical deviation of X from its target u represent the estimate error, and so it is commonly called the standard error, or SE: 社會統計(上) ©蘇國賢2000
Small-population sampling If sampling is done without replacement from a finite population containing N elements, then the variance of X is Finite population correction factor 社會統計(上) ©蘇國賢2000
Small-population sampling 若樣本數n=N,即樣本數等於母體數,則變異數必等於零。 在正常的情況下,母體數N通常都比樣本數n要大很多,因此放回於否幾乎不造成影響: 社會統計(上) ©蘇國賢2000
Standard Error of X-bar SE的公式告訴我們: (1)母體的標準差愈小,SE愈小。 (2)樣本數愈大,SE與小。 社會統計(上) ©蘇國賢2000
例題 設x1, x2, …xn為抽取自任意母體f(x)之一組隨機樣本,證明樣本平均數及樣本變異數分別為μ及σ2的不偏估計式。 社會統計(上) ©蘇國賢2000
Variance of Discrete Random Variable 社會統計(上) ©蘇國賢2000
概念複習 母體參數 母體參數是描述母體資料特性的統計測量數,一般簡稱為參數或母數。參數是我們想要獲取的,是統計的核心。 樣本統計量 1-1 概念複習 母體參數與樣本統計量 母體參數 母體參數是描述母體資料特性的統計測量數,一般簡稱為參數或母數。參數是我們想要獲取的,是統計的核心。 樣本統計量 樣本統計量為樣本的實數函數。 社會統計(上) ©蘇國賢2000
概念複習 利用樣本的統計量去推論母體的參數時,由於母體中的各個元素本身有所不同,因此不論抽樣是否客觀公正,樣本統計量與母體參數之間總是會有一些差異,稱為估計誤差(error of estimation) 估計誤差的來源有二:抽樣誤差與非抽樣誤差。 社會統計(上) ©蘇國賢2000
估計誤差 抽樣誤差 抽樣誤差是樣本統計量與相對應的母體參數間的差異。此種差異來自抽樣過程的機遇(chance),抽樣方法及推論方法的不同。 1-1 估計誤差 抽樣誤差 抽樣誤差是樣本統計量與相對應的母體參數間的差異。此種差異來自抽樣過程的機遇(chance),抽樣方法及推論方法的不同。 非抽樣誤差 非抽樣誤差主要來自調查時的執行與事後在記錄、整理資料時所發生的錯誤。 社會統計(上) ©蘇國賢2000
圖9.4 估計誤差 社會統計(上) ©蘇國賢2000
抽樣分配 抽樣分配 樣本統計量為隨機樣本的函數,而隨機樣本是由n個隨機變數所組成的,故樣本統計量亦為一隨機變數,其機率分配稱為抽樣分配。 社會統計(上) ©蘇國賢2000
三種分配的區分 Population distribution母體分配 Sample distribution樣本分配 母體資料的分配,通常為未知 如全台灣人的統獨意向分配 Sample distribution樣本分配 樣本資料的分配 抽取2000個樣本所形成的分配 Sampling distribution (of a statistics)抽樣分配 樣本統計量的機率分配 重複抽取2000個人的樣本,其平均值所形成的分配 社會統計(上) ©蘇國賢2000
1-1 樣本平均數的抽樣分配 樣本平均數的抽樣分配 設母體為隨機變數X,其機率分配為f(x),若自母體中簡單隨機抽取n個元素為一組樣本,表為(x1,x2,…,xn),若令x-bar=Σ(xi)/n,則x-bar為樣本平均數。其機率分配表為f(x-bar),稱為樣本平均數的抽樣分配。 社會統計(上) ©蘇國賢2000
圖9.7 樣本平均數的抽樣分配 社會統計(上) ©蘇國賢2000
某公司五位展示小姐的月薪的次數分配如下: 例題說明 某公司五位展示小姐的月薪的次數分配如下: 社會統計(上) ©蘇國賢2000
接待小姐月薪的母體機率分配 社會統計(上) ©蘇國賢2000
圖9.6 展示小姐月薪的母體機率分配 社會統計(上) ©蘇國賢2000
圖9.7 樣本平均數的抽樣分配 社會統計(上) ©蘇國賢2000
表9.4 樣本平均數的機率分配 社會統計(上) ©蘇國賢2000
展示接待小姐月薪的抽樣 從母體中抽取樣本數為三的樣本 社會統計(上) ©蘇國賢2000
表9.5 展示小姐月薪的樣本平均數 社會統計(上) ©蘇國賢2000
表9.6 展示小姐的月薪的抽樣分配 社會統計(上) ©蘇國賢2000
展示小姐的月薪抽樣分配圖 社會統計(上) ©蘇國賢2000
圖9.11 秘書小姐年資的機率分配圖 社會統計(上) ©蘇國賢2000
從母體N=6當中,抽取樣本數為2的樣本,並計算樣本平均數 圖9.12 秘書小姐年資的樣本空間 從母體N=6當中,抽取樣本數為2的樣本,並計算樣本平均數 社會統計(上) ©蘇國賢2000
表9.7 秘書小姐年資的樣本平均數 社會統計(上) ©蘇國賢2000
表9.8 秘書小姐的年資的抽樣分配 社會統計(上) ©蘇國賢2000
圖9.13 秘書小姐的年資抽樣分配圖 社會統計(上) ©蘇國賢2000
圖9.14 擲骰子出現點數的機率分配圖 社會統計(上) ©蘇國賢2000
表9.9 擲骰子兩次的樣本平均數的機率分配 社會統計(上) ©蘇國賢2000
圖9.15 擲骰子兩次樣本平均數的機率分配圖 社會統計(上) ©蘇國賢2000
1-1 樣本平均數的期望值與變異數 社會統計(上) ©蘇國賢2000
1-1 抽樣分配的變異數與標準差 社會統計(上) ©蘇國賢2000
Law of large numbers n愈大,var(X-bar) 越小,分配越集中於μ 樣本平均數會收斂至到母體平均數 社會統計(上) ©蘇國賢2000
Page 314, Table 7.2 母體:A = 76, B = 78, C=79, D=81, E=86 ©蘇國賢2000 社會統計(上) ©蘇國賢2000
Page 314, Figure 7.1 社會統計(上) ©蘇國賢2000
Page 316, Figure 7.3 社會統計(上) ©蘇國賢2000
Page 316, Table 7.4 社會統計(上) ©蘇國賢2000
大數法則 社會統計(上) ©蘇國賢2000
圖9.16 大數法則 社會統計(上) ©蘇國賢2000
圖9.16 X 的機率分配與 的抽樣分配 社會統計(上) ©蘇國賢2000
The Central Limit Theorem 當母體為常態分配時,無論樣本數大小,樣本平均數的抽樣分配必為常態。 Suppose we select a random sample of n observations from any population having mean u and standard deviation . If n is sufficiently large (n=20~30), the sampling distribution of X will be: The approximation improves as the sample size increase. 社會統計(上) ©蘇國賢2000
圖9.18 中央極限定理 母體分配 母體分配 社會統計(上) ©蘇國賢2000
圖9.18 中央極限定理(續) 抽樣分配 抽樣分配 社會統計(上) ©蘇國賢2000
圖9.18 中央極限定理(續) 抽樣分配 抽樣分配 社會統計(上) ©蘇國賢2000
Page 330, Figure 7.6
表9.11 的抽樣分配 社會統計(上) ©蘇國賢2000
例題 (1) Suppose a large class in statistics has marks normally distributed around a mean of 72 with a standard deviation of 9.Find the probability that an individual student draw at random will have a mark over 80. (2) Find the probability that a random sample of 10 students will have an average mark over 80. 社會統計(上) ©蘇國賢2000
例題 用SE來表示 社會統計(上) ©蘇國賢2000
例題 假設勞委會要估計化工工程師的起薪。母體的平均數為u=$25,000,母體的標準差為$2,000。勞委會取n=100的隨機樣本,找出樣本平均數與母體平均數的差不會超過$400的機率? n=100, u=$25,000, =$2,000 因為n=100>30,套用中央極限定律: 社會統計(上) ©蘇國賢2000
例題 樣本平均數與母體平均數的差不會超過$400,即X-bar介於24,600~25,400之間。P(24,600 X-bar 25,400)=? 25000 24600 25400 社會統計(上) ©蘇國賢2000