Presentation is loading. Please wait.

Presentation is loading. Please wait.

抽樣與抽樣分配 7.1 抽樣問題 7.2 簡單隨機抽樣 7.3 點估計 7.4 抽樣分配簡介 7.5 的抽樣分配 7.6 的抽樣分配

Similar presentations


Presentation on theme: "抽樣與抽樣分配 7.1 抽樣問題 7.2 簡單隨機抽樣 7.3 點估計 7.4 抽樣分配簡介 7.5 的抽樣分配 7.6 的抽樣分配"— Presentation transcript:

1 抽樣與抽樣分配 7.1 抽樣問題 7.2 簡單隨機抽樣 7.3 點估計 7.4 抽樣分配簡介 7.5 的抽樣分配 7.6 的抽樣分配
7.1 抽樣問題 7.2 簡單隨機抽樣 7.3 點估計 7.4 抽樣分配簡介 的抽樣分配 的抽樣分配 7.7 點估計量的性質 7.8 其他抽樣方法

2 統計推論概念 母體:特定研究的所有元素所組成的集合。 樣本:母體的部分集合。 統計推論:建立估計值以及利用樣本資訊來檢定母體的假設。
透過適當的抽樣方法,抽樣結果可以提供對 母體特性的「良好」估計值。 樣本平均數提供了母體平均數的估計值, 樣本比例則提供了母體比例的估計。

3 7.1 抽樣問題 一般而言,由樣本蒐集資訊的成本遠低於自母體蒐集資訊所需的成本。特別是必須進行人員面談以蒐集資料時。
7.1 抽樣問題 一般而言,由樣本蒐集資訊的成本遠低於自母體蒐集資訊所需的成本。特別是必須進行人員面談以蒐集資料時。 Ex: EAI公司有2500位主管,有1500位完成訓練課程。 年薪的母體平均數: 年薪的母體標準差: 有完成訓練的母體比例是: 如何抽出樣本作母體估計?

4 7.2 簡單隨機抽樣 有限母體抽樣 簡單隨機樣本: 某一大小為 N 的有限母體中,抽出樣本大小為 n 的簡單隨機樣本,意指大小為 n 的每個可能樣本被抽出的機率皆相同。 由有限母體抽取簡單隨機樣本的方法之一是在母體中每次抽出一個元素,這樣一來,仍在母體中的每個元素被抽出的機率皆相同,連續抽出的 n 個元素即為自有限母體抽出的簡單隨機樣本。

5 簡單隨機抽樣:有限母體抽樣 在執行樣本挑選程序時,可利用電腦來產生亂數。
Excel有內建函數,可在工作表中產生亂數既儲存格=RAND( )。 以Excel做隨機抽樣: 方法一: 可在…\資料分析\抽樣 中抽出樣本。

6 以Excel做隨機抽樣 方法二 (以大都會評比為例,從100抽出n個) Step1. 在C2輸入 =rand() Step2. 將C2內容複製到C3:C101 Step3. 在C欄選擇任一儲存格(如C20) Step4. 選擇排序從小到大 Step5. A,B欄會依C欄從新排序,前n列既為要找的抽樣資料

7 亂數表

8 簡單隨機抽樣:有限母體抽樣 不歸還抽樣 (sampling without replacement)進行簡單隨機抽樣時,某些亂數可能重複出現。所以任何已出現過的亂數我們將忽略不計,因為這個號碼所對應的主管資料已在樣本中。 歸還抽樣 (sampling with replacement) 若在選取樣本時,允許已被抽中的主管的資料可以在樣本中出現兩次甚至更多。

9 簡單隨機抽樣 無限母體抽樣 有些情況的母體為無限,或者母體過大而必須視為無限。 從無限母體抽出一個簡單隨機樣本必須滿足下列條件:
簡單隨機抽樣 無限母體抽樣 有些情況的母體為無限,或者母體過大而必須視為無限。 從無限母體抽出一個簡單隨機樣本必須滿足下列條件: 每一個元素皆抽自相同的母體。 每一個元素皆可獨立抽出。

10 無限母體抽樣 對於無限母體而言,樣本選取的程序必須特別設計,以確保各元素是獨立抽出,避免某類型元素較易被選中的選擇偏誤。
無限母體常與持續進行的程序有關。此種狀況下,有創意的抽樣程序可確保沒有抽樣偏誤的狀況,而且樣本中的每個元素都是被獨立選出的。 例如:銀行交易、光臨商店的顧客、生產線上的零件

11 7.3 點估計 母 體 樣 本 隨機變數 抽 樣 母體參數 統計量 估計式(estimator) 估計值(estimate)
7.3 點估計 母 體 樣 本 隨機變數 抽 樣 母體參數 統計量 估計式(estimator) 估計值(estimate) 推 測(估計、檢定) 變 量

12 點估計 點估計(point estimation) 估計方法 區間估計(interval estimation)

13 點估計

14 點估計

15 點估計 EX: 在點估計中我們利用: 樣本平均數 算出樣本統計量,以作為母體平均數μ 的某一個參數的估計值。
樣本平均數 算出樣本統計量,以作為母體平均數μ 的某一個參數的估計值。 以樣本標準差 s 作為母體標準差 σ 的點估計量。 以樣本比例平均數 乃是母體比例 p 的點估計量。

16 點估計 EX: 假設隨機抽出 EAI公司30 位主管,其年薪和受訓資料詳列如表所示:

17 點估計 計算各項母體參數值及其對應的點估計值 沒有任何一項點估計值會恰好等於對應的母體參數,此項差異是意料中之事,因為我們只是應用樣本而非整個母體普查來進行點估計。更可靠的方法應是區間估計,區間估計可以讓我們瞭解點估計值與母體參數的接近程度。

18 TEST 1 想了解台北市區房屋 (20~25坪)的平均價格? (1) 抽樣:台北市區20~25坪房屋的價格(96年資料,單位:萬元)

19 TEST 1

20 TEST 1

21 7.4 抽樣分配簡介 假設我們重複同樣的抽樣程序,每次抽出 30 位主管為樣本,並計算 與 值。

22 抽樣分配簡介 500組的平均年薪的次數分配: μ=51800

23 抽樣分配簡介 由於 的各種可能值是由不同的簡單隨機樣本而來,因此 的機率分配也就稱為 的抽樣分配 (sampling distribution)

24 抽樣分配簡介 500 組 EAI 主管抽樣平均年薪的相對次數直方圖 其分配圖形呈鐘形。

25 抽樣分配簡介 500 組 EAI 主管抽樣的 相對次數直方圖

26 7.5 的抽樣分配 統計推論的過程 母體平均數 m = ? 從母體抽取 n 個元素 為一簡單隨機樣本 用樣本資料計算 樣本平均數
的抽樣分配 統計推論的過程 母體平均數 m = ? 從母體抽取 n 個元素 為一簡單隨機樣本 用樣本資料計算 樣本平均數 用 值推論 m 值

27 的抽樣分配 由各簡單隨機樣本所產生的所有 可能值之平均數,也就是 的期望值。 的期望值 μ= 母體平均數

28 的標準差 的標準差: 有限母體 無限母體 若 n/N > 0.05 則稱為有限母體
       通常被稱為有限母體校正因子(finite population correction factor)。 為平均數的標準誤 (standard error)。 樣本平均數 的變異數為

29 例題 EX: 以EAI 30 位主管為例,其母體平均年薪及年薪標準差分別為 求樣本平均數的期望值及標準誤? Sol:
(1) 樣本平均數的期望值 (2) 因為N=2500,n=30,所以n/N=0.012,因此

30 例題

31 例題(解1:由母體資料)

32 例題(解2:實際算得)

33 抽樣分配 母體為常態分配:很多情況下,我們可以合理地假設 母體為常態分配。如果母體是常態分配,無論樣本 大小, 的抽樣分配也是常態分配。

34 抽樣分配

35 中央極限定理 母體不是常態分配:如果母體不是常態分配,中央極 限定理(central limit theorem)可以幫助我們決定 抽樣
分配的形狀。

36 中央極限定理 中央極限定理 三個不同母體以中央極限定理的應用,每一欄代表一種母體。
由母體中抽出樣本大小為 n 的簡單隨機樣本,當樣本大小 n 夠大時,樣本平均數 的抽樣分配將趨近於常態分配。 三個不同母體以中央極限定理的應用,每一欄代表一種母體。

37 中央極限定理

38 中央極限定理

39 EAI問題的 抽樣分配 30位 EAI 主管的平均年薪的抽樣分配

40 抽樣分配的實際值 假設人事經理認為,如果年薪的樣本平均數落在母體平均數±$500 的範圍內,就可以接受這個估計值。然而,我們不可能保證樣本平均數必定落在母體平均數±$500 的範圍內。所以,我們必須以機率的角度來思考人事經理的要求。也就是說,該人事經理關切的問題是:樣本平均數落在母體平均數±$500 範圍內的機率為何?

41 的抽樣分配 樣本平均數落在母體平均數 ± 500的範圍內

42 抽樣分配的實際值 人事經理想知道的就是母體平均數為 51,800 的情況下,樣本平均數落在 51,300 到 52,300 間的機率。如果 值介於這個區間,則 值會落在母體平均數 ± $500的範圍內。由於這個抽樣分配是常態分配,平均數是 51,800 ,標準差為 ,我們可以查標準常態分配表得到所要的機率值。當 =51,300時,

43 抽樣分配的實際值 查標準常態分配表,可知在 z=0 到 z=-0.68 的面積為 。同樣的,當 x= 52,300 時,z=0 到 z=+0.68 的面積亦為 ,因此,樣本平均數介於 51,300 到52,300 間的機率為 +0.2517=0.5034。

44 樣本大小與 抽樣分配的關係 Concept:在 EAI 問題中,當 n=30,標準誤為 730.3,而當 n=100時,則標準誤降為 n=30 與 n=100 下之 抽樣分配如下圖。由於 n=100 的抽樣分配有較小的標準誤,因此其 值的變異較小,比起 n=30, 值也比較接近母體平均數。

45 樣本大小與 抽樣分配的關係 n=30 與 n=100 下之 抽樣分配

46 樣本大小與 抽樣分配的關係 計算在 n=100 時,100 位 EAI 主管的平均數 會落在母體平均數 ± $500範圍內的機率。因為抽樣分配為常態,且其平均數為 51,800,標準差為 400,在 =51,300時 ,我們得到 介於 z=0 與 z=-1.25 之間的機率為 ;因此樣本平均數落在 51,300 和 52,300 之間的機率為 +0.3944=0.7888。所以,當樣本大小由 30 增加為 100 時,樣本平均數落在母體平均數 ±$500 內的機率由 增為0.7888。

47 100 位 EAI 主管的平均數會落在母體平均數 ± $500範圍內的機率
樣本大小與 抽樣分配的關係 100 位 EAI 主管的平均數會落在母體平均數 ± $500範圍內的機率

48 TEST 2 p.270, 習題19. 平均數為200和標準差為50的母體,以簡單隨機抽樣抽出樣本數為100的樣本,以 估計μ。
a. 樣本平均數會落在母體平均數 5範圍內的機率為何? b. 樣本平均數會落在母體平均數 10範圍內的機率為何?

49 7.6 的抽樣分配 母體比例 統計推論的過程 母體比例 從母體抽取 n 個元素 p = ? 為一簡單隨機樣本 用 值 用樣本資料計算
的抽樣分配 母體比例 統計推論的過程 母體比例 p = ? 從母體抽取 n 個元素 為一簡單隨機樣本 用 值 推論 p 值 用樣本資料計算 母體比例

50 的抽樣分配 的抽樣分配是所有樣本比例  值的機率分配。 的期望值 p =母體比例

51 的抽樣分配 EX: EAI 母體的比例 p=0.60,此 p 值為完成管理訓練課程的主管的比例,因此 EAI 抽樣問題中, 的期望值為0.60。

52 的抽樣分配  的期望值: 無限母體( ) 有限母體 是樣本比例的標準誤

53 的抽樣分配 Ex:以EAI 為例, 30 位主管的簡單隨機樣本,求其樣本比例的標準誤。
Sol:參加管理課程的主管的比例為 p=0.60,由於 n/N = 30/2500 = 0.012,故

54 抽樣分配的形狀 當樣本數夠大時, 的抽樣分配可近似為常態分配。 以常態分配求二項分配近似值的作法,其中,樣本大小必須滿足以下2個條件 以及

55 的抽樣分配的形狀 EX:在 EAI中,有參加管理訓練課程的主管的母體比例 p=0.60,樣本大小為30,則 np=30(0.60)=18 且
因此, 抽樣分配可以趨近常態分配。

56 的抽樣分配的形狀

57 抽樣分配的實際值 EX:假設人事經理想要知道樣本比例 值落在母體比例±0.05 範圍內的機率。
Sol:已知 p 抽樣分配可以用常態分配來近似,平均數為0.60,標準誤 =0.0894,則 =0.55 所對應的標準常態 z 值=(0.55-0.60)/0.894=-0.56,查標準常態分配表可知介於 z=-0.56 到 z=0 間的面積為 ;同樣的在 =0.65 時,z=0 到 z=0.56 間的面積為 ,因此,樣本比例 值落在母體比例 p 值 ±0.05 的機率為 +0.2123=0.4246。

58 抽樣分配的實際值

59 抽樣分配的實際值 EX:如果我們增加樣本數到 n=100,則比例的標準誤為 當 =0.55 時,z=(0.55-0.60)/0.049=-1.02,查標準常態分配表得知介於 z=-1.02 到 z=0 間的面積為 ;同樣的,當 =0.65 時,介於 z=0 到 z=1.02 間的面積也為 ,因此,當樣本大小由 30 增到 100 時,樣本比例 值落在母體比例 p 值 ±0.05 的機率從 變為 +0.3461=0.6922。

60 TEST 3 p.275,習題32. 某母體比例為0.40,抽取大小為200的簡單隨機樣本,以 來估計p。
a. 樣本比例會落在母體比例 ±0.03範圍內的機率為何? b. 樣本比例會落在母體比例 ±0.05範圍內的機率為何?

61 7.7 點估計量的性質 良好點估計量應合乎下列性質: (1) (2) (3) 不偏性 有效性 一致性

62 點估計的意義與限制 不偏性 如果樣本統計量的期望值等於要估計的母體參數之期望值,則此樣本統計量就是母體參數的不偏估計量 (unbiased estimator)。

63 點估計的意義與限制 不偏性

64 點估計量的性質

65 點估計量的性質

66 點估計的意義與限制 有效性

67 點估計的意義與限制

68 點估計量的性質

69 點估計的意義與限制 一致性 良好點估計量的另一個特性是一致性(consistency)。簡單來說,當樣本變大,點估計量的數值變得更接近母體參數時,就稱點估計量是一致的。換言之,大樣本比小樣本能提供更好的點估計值。

70 評註 平均數與中位數都是集中趨勢的量數。本章只討論平均數的理由是,常態母體的母體平均數及母體中位數是相同的。而自常態母體抽樣,中位數的標準誤比平均數的標準誤大了 25%。以 EAI 問題為例,n=30,樣本平均數的標準誤是 = 730.3,中位數的標準誤則大概是 1.25(730.3) =913。因此,樣本平均數是更有效的,且有更大的機率更接近母體平均數。

71 7.8 其他抽樣方法 分層隨機抽樣 叢式抽樣 系統抽樣 便利抽樣 判斷抽樣

72 分層隨機抽樣 1.在分層隨機抽樣(stratified random sampling)中,母體的所有元素先被區隔成數群,稱為層(strata)。 2. 母體中每一個元素只歸屬在某一個資料層中。 3. 較好的區分方法是資料層內的元素愈相像愈好。

73 分層隨機抽樣 母體 資料層k 資料層1 資料層2

74 分層隨機抽樣 4. 區隔出資料層後,再由每個資料層進行簡單隨機抽樣, 利用公式可將各分層的樣本資訊整合成我們感興趣的母體 參數估計值。
5. 分層抽樣品質的好壞端視資料層內元素的同質性程度, 如果同質性高 (元素都很相近),則層內的變異將減少,只 要少量的抽樣資料就可以得到整個資料層的良好估計值。 6. 如果資料層是同質的,分層隨機抽樣的結果就和樣本數 較少的簡單隨機抽樣相同。

75 叢式抽樣 1. 在叢式抽樣 ( cluster sampling) 中,母體首先被分出幾群 ,稱為叢體(clusters) 。
2. 在理想的情況下,每一個叢體都可代表一整個母體, 就像是母體的縮小版。 3. 叢式抽樣的好壞評斷標準在於所用的叢體對母體是否有 代表性。 4. 如果每個叢體都能代表母體,則只抽出少數的叢體做 樣本就可得到母體參數的良好估計值。

76 叢式抽樣 母體 叢體k 叢體1 叢體2

77 叢式抽樣 5. 叢式抽樣主要的應用之一是地區抽樣,每一叢體可以是 城市的某個區域或其他定義清楚的地區。
6. 優點:因為已經分成幾個叢體或地區,訪問者可在同一 地區訪問 (例如,某縣市的一個里),成本反而會降低, 時間也可縮短。 7. 缺點:通常抽取的樣本數會比簡單隨機抽樣和分層隨機 抽樣來得多。

78 系統抽樣 若母體很大,簡單隨機抽樣較費時,則可考慮系統 抽樣(systematic sampling)。
EX:在 5,000 個元素的母體中我們要抽出 50 個當作樣 本,可以從每 5000/50=100 個元素中抽出一個元素。 假設我們已將母體元素依序排列。這個程序是先從前 100 個元素隨機抽出一個元素,由這個被抽中的元素 開始,每隔 100 個元素,就抽出 1 個,直到抽出 50 個 元素為止。

79 系統抽樣 2. 這樣的抽樣方法比簡單隨機抽樣還要簡單。尤其當母體 元素呈隨機排序時,由於第一個被抽出的元素是隨機決定
的,系統抽樣通常也被假設為具有簡單隨機抽樣的特性。 3. 優點:此抽樣方法比簡單隨機抽樣簡單。 EX:從電話簿中隨機抽出第一個元素後,每隔 100 個 元素,就抽出1 個。

80 便利抽樣 1. 便利抽樣 (convenience sampling) 是屬於非機率抽樣
(nonprobability sampling)方法。 2. 樣本是否被抽出的關鍵是便利性,我們無法知道樣本 中的元素被抽中的機率。 EX:教授可能以志願參與實驗的學生為樣本,因為學生 是現成的,資料取得的成本也低。 3. 優點是樣本抽選與資料蒐集都相當簡單,但不可能以 樣本的代表性來評估樣本的「適合度」(goodness) 。

81 判斷抽樣 1. 判斷抽樣 (judgment sampling) 亦是屬於非機率抽樣 方法。
2. 使用判斷抽樣這個方法的研究者必須非常瞭解研究對 象,選出他認為最能代表母體的樣本。 3. 優點:相當簡便,但不能作為適合度分析。 4. 缺點:選出的樣本品質端視研究者的判斷而定 。 EX:一名記者可能會選出他認為最能反應全體參議員 看法的 2 位或 3 位參議員來採訪。


Download ppt "抽樣與抽樣分配 7.1 抽樣問題 7.2 簡單隨機抽樣 7.3 點估計 7.4 抽樣分配簡介 7.5 的抽樣分配 7.6 的抽樣分配"

Similar presentations


Ads by Google