Presentation is loading. Please wait.

Presentation is loading. Please wait.

資商訊息顧問有限公司 中華資料採礦協會 杜長嶸

Similar presentations


Presentation on theme: "資商訊息顧問有限公司 中華資料採礦協會 杜長嶸"— Presentation transcript:

1 資商訊息顧問有限公司 中華資料採礦協會 杜長嶸
你應該知道的統計知識 資商訊息顧問有限公司 中華資料採礦協會 杜長嶸

2 何謂統計學 統計就是從數據中獲取資訊的科學 收集資料 整理資料 分析資料 導出結論 敘述統計學、推論統計學

3 統計詞彙 母體 個體 樣本 抽樣底冊 參數 統計量 變數 眾數 中位數 平均數

4 母體與樣本間的關係 母體 樣本 抽樣 推論 樣本統計量 母體參數 抽樣誤差 非抽樣誤差

5 變數 個體 樣本 觀察值

6 ? 騙人的平均數 老謝應徵工作 公司規模:老闆、經理2位、組長3位、職員5位。 老闆:公司平均月薪6萬元,受訓期間1萬五千元,很快會加薪。
不做

7 中間數:4萬 平均數:6萬 眾數:2萬

8 標準差:衡量觀察值的散佈情形偏離平均值有多遠。 偏度:描述一個分配偏離對稱性的情形 峰度:衡量觀察值偏離平均數有多快。
平均數:量測觀察值散佈情形的中間值。 標準差:衡量觀察值的散佈情形偏離平均值有多遠。 偏度:描述一個分配偏離對稱性的情形 峰度:衡量觀察值偏離平均數有多快。 變異係數:獲得相對的變異情形。 變異係數=標準差/平均數

9 某次統計學考試,甲班平均分數為80分,標準差為20,乙班平均分數為75分,標準差為5,哪一班成績較優?

10 資料衡量尺度 量化的處理工具便稱為衡量的尺度,又稱量表(Scale)。 問卷衡量尺度的設計是評估報告是否深入的關鍵。
不同的量表應用不同的統計分析,準確性才會提高。 考量的依據: 1.研究目的與問題深入的程度 2.事後資料整理時之便利性 3.各種可能選項的周延性與互斥性需兼顧 4.統計的方法

11 一、名目尺度(nominal scale)
此種量表是根據被調查對象的性質而分類,如根據消費者答案可分為「喜歡」與「不喜歡」或「是」與「否」兩類。 每類答案的數字只作為分類之用,如果將這些答案數字(1,2,3)做運算,根本沒有意義,因為這些數字在此僅屬名義而已,真正目的是在分類。 二、順序尺度(ordinal scale) 較類別量表多一特性,可以表示各類別之間的順序關係。 如要求消費者根據其心中偏好,將五種飲料品牌依最喜歡到最不喜歡的順序排列,最喜歡給5分、最不喜歡給1分,這就是一種順序量表。 不過代表順序的數字還是不能用來做運算,只能看出高低次序,卻無法確定順序之間的差異大小,例如若已知A>B>C>D>E,但並不知道A與B的差距,或C與D的差距,所以也無法得知兩種差距是否相等。

12 三、差距尺度(interval scale)
較順序量表再推進一步,不單能表示順序關係,尚能測量各順序之間的距離,可確定地指出5分與4分之差距等於4分與3分的差距。 差距量表的分數可用來做加減乘除的運算,此為其之一大優點,但是不能說明6分為3分的兩倍,因為差距量表並沒有一個真正零點(真零)。 四、比率尺度(ratio scale) 比率量表除了具有差距量表的全部特色外,再加上「真零」這個特性。 例如身高、年齡、體重等變數的測量都是用比率量表,故可說體重180磅的人比90磅的人重兩倍。 不過在態度測量方面,運用比率量表顯然有困難,消費者給一種飲料100分,另一種給50分,但卻不表示喜歡程度有兩倍的差距。因為態度測量本質上為一順序概念,顯然不宜用比率或差距量表測量。

13 適用於各類量表的統計分析方法列如下表:

14 資料處理與展示—統計圖表 定性資料 次數分配表 相對次數分配 長條圖 圓餅圖

15 資料處理與展示—統計圖表 計量資料 次數分配表 相對次數分配表 累加次數分配表 累加相對次數分配表 直方圖 次數多邊圖 枝葉圖 散佈圖

16 次數分配表

17 交叉分析表

18 交叉分析表

19 圓餅圖

20 圓餅圖 第一次購屋貸款:3人 勞工貸款:2人 公教補助貸款:4人 自有住屋 貸款中 優惠利率

21 圓餅圖 知道的民眾主要特徵(14.7%) 不知道的民眾主要特徵(85.2%) 支持國民黨 50~59歲 職業為軍公教或自營商 男性
年齡為20~29歲 職業為學生或家庭主婦 女性

22 折線圖

23 直方圖

24 直方圖

25 直方圖

26 盒形圖

27 枝葉圖 全班35位同學統計學考試分數 86,77,91,60,35,76,92,47,88,67,23,59,72,75,83,77,68,82 97,89,81,75,74,39,67,79,83,70,78,91,68,49,56,94,81

28

29 根據統計顯示,多數車禍發生在車子行駛於一般車速的時候,只有少數車禍發生在車速超過時速150公里。
開快車較安全。 研究顯示,有個城市死於心臟病的人數與口香糖的消費量同時遽增。 嚼口香糖導致心臟病。 多數人都以一般車速開車,自然多數車禍發生於一般車速。 這兩類數字的增加是因為人口快速成長的結果。

30 現在我要寄一封文件給一位我不認識的人,我先寄給最有可能認識目標者的人,再請他轉寄,如此轉寄到目標者手中,請問中間經過人數?
現場有兩人是同月同日生的機率為? 平均為5人 23人機率略高於1/2, 40人機率達到90%以上。

31 解讀民意調查 A候選人支持度31.2% B候選人支持度28.5% C候選人支持度24.9%
成功訪問1,068位受訪者,在95%的信心水準下,抽樣誤差為正負3%。

32 分配(Distribution) 包括了對位置 (location)、散佈 (spread) 及形狀 (shape) 的描述。
在描述 (呈現) 變數的分配形狀時,應了解: (1) 分配的形狀和分配的位置、散佈一樣重要 (2) 在了解分配的形狀時,以視覺化的方式來呈現比以數字來 呈現更令人一目了然 (3) 變數的分配形式決定了用哪一種統計技術來描述比較適當。

33 位置的衡量(measures of location)
平均數(Mean):平均數指的是算術平均數,也就是在分配中各觀察值的和除以觀察數。 中位數(Median):中位數是分配的中央點。在分配中有一半的觀察點低於,有一半的觀察點高於中位數。如果在分配中觀察點的數目是偶數,則中位數是兩個中間數的平均數。 眾數(Mode):眾數是出現次數最多的那個數字。

34 散佈的衡量(measures of spread)
變異數(Variance):變異數是衡量以平均數為基準的分配情況。如果所有的分數都相等,則變異數為零。分數分散的情形愈大,則變異數愈大。 標準差(Standard deviation):標準差是變異數的平方根,它免除了變異數的平方,因而增加了解釋力。 全距(Range):全距是分配中最大與最小的分數之差,全距只涉及到最大與最小的分數,因此在衡量散佈方面是相當粗糙的。

35 散佈的衡量(measures of spread)
四分位距(interquartile range, IQR):是分配中第一、第三分位之差。它也稱為中點分配 (midspread)。第1分位Q1是第25% 的那個數字;中位數或Q2是第50% 的那個數字;第3分位Q3是第75% 的那個數字。 IQR=Q3-Q1 四分位差(quartile deviation):四分位差或稱半四分位距 (semi-interquartile range) 是Q3與Q1間距離的一半。

36 形狀的衡量(measures of shape)
偏度(skewness):是描述一個分配偏離對稱性的情形,在對稱性的分配中,平均數、中位數、眾數都是在同樣的位置。偏態分為左偏態 (或負偏態) 與右偏態 (或正偏態) 二種。 峰度(kurtosis):是描述一個分配的平坦或陡直情況。峰度共有三種:常態峰 (mesokurtic)、高狹峰 (leptokurtic) 及低闊峰 (platykurtic)。

37 機率論(Probability Theory)
機率:衡量某一事件可能發生的程度(機會),並針對此一事件發生之可能性賦予一量化的數值。及用來衡量不確定性大小的工具。 機率論 隨機實驗 機率理論 事件機率 性質與運算法則 貝氏定理

38 隨機實驗(Random Experiment)
隨機實驗(Random Experiment):觀察一可產生各種可能結果(Outcome)的過程,稱為實驗;而若各種可能結果的出現(或發生)具有不確定性,則此一過程便稱為隨機實驗。 必須滿足: 1.實驗可以在相同條件下重複進行。 2.所有結果是明確可知的,且不只一個。 3.實驗後的結果為所有可能結果之一,但實驗前無法肯定會出現何種結果。

39 檢驗三件產品之樣本空間樹狀圖 樣本點(sample point):每個可能的結果 樣本空間(sample space):各種可能結果的集合
事件(event):樣本空間的部分集合 簡單事件(simple event):只包含一個樣本點 複合事件(composite event):包含二個或以上的樣本點 檢驗三件產品之樣本空間樹狀圖

40 各式樣本空間

41 機率測度的方法 古典方法: 客觀方法(相對次數法): 主觀方法: P(E)=n(E)/n(S) 限制條件:樣本空間必須是有限的樣本空間。
基本假設:樣本空間內每一樣本點出現的機會皆相同。 客觀方法(相對次數法): P(E)=lim(n/N) , N→ ∞ 重複進行此一實驗許多次,並觀察該事件出現次數的比例。 主觀方法: P(E)=(個人對事件E發生的信心)

42 機率的公理 1. 2. 為互斥 3. P(S)=1;P(Φ)=0

43 事件機率 聯合機率(joint probability) 邊際機率(marginal probability)
兩個或兩個以上事件同時發生的機率。 邊際機率(marginal probability) 在兩個或兩個以上類別的樣本空間中,若僅考慮一類別個別發生的機率稱之。 條件機率(conditional probability) 已知B事件發生下,另一事件A發生的機率,稱為在B發生條件下,A的條件機率。

44 應徵者的資料

45 事件的性質 獨立事件(Independent Event) 相依事件(Dependent Event)
係指一事件的發生不影響其他事件的發生,若A、B兩事件互為獨立,則: 相依事件(Dependent Event) 係指一事件的發生影響其他事件發生的機率。

46 互斥事件(Mutually Exclusive Event)
事件沒有共同的樣本點稱之,即當兩事件之交集為空集合時。 s A B

47 事件的運算法則 餘集合的機率 加法定理 乘法定理 分割定理 S A B

48 貝氏定理(Bayes Theorem) 事前機率 事後機率 取得新資訊 應用貝氏定理 (條件機率的形式) 事前機率 事後機率 條件機率

49 某公司計畫推出新產品,並認為經濟景氣好壞會影響新產品的銷售,公司行銷經理主觀判斷景氣好、普通、不好的機率各為0. 5、0. 2、0
某公司計畫推出新產品,並認為經濟景氣好壞會影響新產品的銷售,公司行銷經理主觀判斷景氣好、普通、不好的機率各為0.5、0.2、0.3。今公司委託專業市調公司進行市場景氣調查,但該市調公司之調查並非百分之百正確,根據過去經驗,其正確率為0.9,不正確的誤認為其他兩種是其他兩種狀況的機率各為0.05。若該市調公司調查結果為景氣好,而市場景氣真正為好的機率為多少? 主觀判斷景氣好、普通、不好的機率 事前機率 取得新資訊 事後機率 修正機率 市調公司調查結果

50

51 機率分配

52 隨機變數(Random Variable)
係以樣本空間為定義域的實數值函數,也就是隨機實驗中對應樣本點的實數值函數。 X:擲一枚銅板二次,出現正面的次數 正正 正反 反正 反反 2 1 1/4 2/4 樣本空間S 隨機變數X 機率f(x)

53 期望值(Expected Value)與變異數
間斷機率分配: 期望值: 變異數: 連續機率分配:

54 離散型機率分配 二項分配(Binomial Distribution) 幾何分配(Geometric Distribution)
超幾何分配(Hypergeometric Distribution) 波瓦松分配 ( Possion Distribution)

55 二項分配(Binomial Distribution)
伯努利試驗(Bernoulli Trial) 每一次試驗皆僅有兩種可能結果,不是成功(S),就是失敗(F)。 成功機率固定為為P(S)=p,失敗機率固定為為P(F)=1-p。 每一次試驗之間互為獨立。 進行n次的伯努利試驗,稱為二項實驗,若隨機變數X為n次試行實驗成功的次數,X的機率分配稱為二項機率分配。

56 二項機率分配函數: 0.35 0.7 0.7 0.3 0.6 0.6 0.25 0.5 0.5 0.2 0.4 0.4 0.15 0.3 0.3 0.1 0.2 0.2 0.05 0.1 0.1 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 P(X=x) n=5, p=0.5 P(X=x) n=5, p=0.3 P(X=x) n=5, p=0.9

57 超幾何分配(Hypergeometric Distribution)
超幾何實驗: 從一含有N物的有限母體中,採不放回抽樣,抽取n個隨機樣本。 N物中有S個屬成功類,另N-S個屬失敗類。 隨機變數X為n個中,成功的次數, X的機率分配稱為超幾何機率分配。 S 成功類S個 x n-x 失敗類N-S個

58 超幾何機率分配函數:

59 幾何分配(Geometric Distribution)
幾何機率分配函數:

60 波瓦松分配 ( Possion Distribution)
在一特定區間(或區域)內,觀察某特定事件發生的次數。 上午10點至11點中,每10分鐘打進公司的電話通數。 1天內停車場停車數。 高速公路每10公里路面有窪動的數目。 秘書小姐每打一頁報告出現錯誤的字數。 波瓦松實驗: 在一連續區間發生事件的次數,與另一區間發生的次數是獨立的。 在一連續區間內發生事件的的期望值(平均數)與區間大小成比例。 在一極短的區間內,僅有兩種狀況,即發生一次或不發生,而發生兩次或以上的情形不予考慮。 若一事件滿足上述三個特質,隨機變數X定義為連續區間內發生事件的次數,則X為一波瓦松隨機變數,其機率分配為波瓦松分配。

61 波瓦松分配函數: 某公司訂有消費者7天內不滿意免費退貨服務,根據過去記錄,每7天平均2件被要求退貨,問在14天內會被退5件的機率?
式中 表示在某特定區間內某事件所發生平均次數,而e= 。 某公司訂有消費者7天內不滿意免費退貨服務,根據過去記錄,每7天平均2件被要求退貨,問在14天內會被退5件的機率?

62 二項、超幾何與波瓦松分配之間關係 當n>20且np<=7時,可用波瓦松分配取代二項分配
超幾何分配 二項分配 波瓦松分配

63 連續型機率分配 均等分配(Uniform Distribution) 常態分配(Normal Distribution)
指數分配(Exponential Distribution)

64 均等分配(Uniform Distribution)
隨機變數在某區間(a,b)內發生機率皆相同時,其機率分配稱之。 機率密度函數: a b f(x)

65 某班火車抵達車站的時間在8點至8點10分之間,且在此時段中任何時點到站的可能性均相同。
1.某乘客在8點3分抵達車站,可搭上火車的機率? 2.某乘客在8點8分抵達車站,火車已開走的機率? 3.計算期望值與變異數,並解釋期望值的意義。 X表示火車在8點以後到站的時間,

66 常態分配(Normal Distribution)
又稱高斯分配(Gauss Distribution)。 重要性: 1.許多自然現象,工業生產、商業問題及社會現象均可用常態分配加以描述。 2.許多統計量的的抽樣分配在大樣本下呈常態分配。 3.常態分配可進行許多統計推論,許多統計量的的抽樣分配如t分配、卡方分配、F分配都必須假設母體為常態分配才可獲得。 4.間斷機率分配在某些條件下可利用常態分配求其近似值。

67 機率密度函數:

68 常態分配特性: 1.以平均數 為中心的對稱曲線。 2.平均樹、眾數、中位數均相等( )。
1.以平均數 為中心的對稱曲線。 2.平均樹、眾數、中位數均相等( )。 3.以 為中心,兩邊加減一個標準差之處,為常態曲線的反曲點(Inflection Point)。 4.常態曲線左右兩尾與橫軸逐漸接近,但絕不會相交。 5.以 為中心,兩邊加減一個標準差的區間,其機率(面積)為0.683,加減二個標準差的區間,其機率(面積)為0.954,加減三個標準差,其機率(面積)為0.997。

69 標準常態分配(Standard Normal Distribution):
即平均數為0,標準差為1的常態分配。 機率密度函數: 標準化(Normalized):

70 某品牌家電用品的使用壽命為平均數4.5年,標準差為1年的常態分配。若其保證期間為二年,推算其退貨的比例。
X表示該品牌家電用品使用壽命, 某公司生產高級辦公桌,其裝配時間為常態分配,平均數56分鐘,標準差4分鐘。現有一客戶要求於1個鐘頭後準時到達公司提貨,如從現在開始裝配準時完成交貨的機率為? X表示裝配一張桌子所需時間,

71 指數分配(Exponential Distribution)
與波瓦松分配相反,指數隨機變數在說明接連兩件事發生的間隔期間。

72 機率密度函數: λ x 1.指數分配曲線為非對稱性,範圍為(0,∞ )。 2.平均數μ 必大於0。

73 某一型彩色電視機其壽命時間成指數分配,且平均壽命為10年。求該電視機的壽命時間之下列機率:
1.壽命長達15年以上。 2.兩年內即發生故障而報廢。 3.壽命時間介於2年至15年。 X表示該電視機之壽命時間,

74 z P(Z<z) 標準常態分配值

75 λx 指數分配值

76 抽樣(Sampling) 抽樣誤差(Sampling Error) 非抽樣誤差(Nonsampling Error)
估計誤差(Error of Estimation) 抽樣誤差(Sampling Error) 非抽樣誤差(Nonsampling Error) 樣本統計量 母體參數 估計誤差 抽樣誤差 非抽樣誤差 1.樣本數 2.推論方法 3.抽樣方法 資料整理時的疏失

77 抽樣方法 非機率抽樣法 機率抽樣法 抽樣方法 非機率抽樣 立意抽樣法 便利抽樣法 滾雪球抽樣法 配額抽樣 機率抽樣 簡單隨機抽樣 分層抽樣
集群抽樣 系統抽樣

78 非機率抽樣法 非機率抽樣:亦即樣本不按照其機率予以抽出,而是由抽樣者之主觀抽出或自願樣本。 ◎優點:在某些調查時,有其必要性。
◎缺點:(1)難以評斷樣本之代表性。 (2)無法估計精確度。 (3)樣本偏差往往較大。 ◎非機率抽樣之種類: 1.立意樣本(Judged Sampling):調查研究人員根據自己的專長、知識、研究目的來選取代表性的樣本。如學者、專家或代表性之樣本。 2.便利樣本(Convenient Sampling):事先不預定樣本,碰到即問或自動回答者。如街頭訪問或主動打電話回答問題者。缺點:注意樣本之偏激性及兩極化。 3.滾式樣本(輻射樣本):利用樣本尋找樣本,亦即利用樣本之滾雪球方式或輻射力抽取樣本。如都市中之原住民抽樣。使用時機:可用於當樣本不易取得時,或針對特殊族群之調查。 4.配額樣本:按母體某些特性予以配置樣本,但取樣時卻由調查員任意抽取。

79 機率抽樣 機率抽樣:抽取之樣本是按照樣本之機率隨機抽出。 ◎優點: ◎機率抽樣之種類: 1.樣本較具代表性。 2.可計算估計之精確度。
3.可隨不同之抽樣設計採取不同之抽樣方法。 4.隨之不同之抽樣方法,採取相互配合之估計方法。 ◎機率抽樣之種類: 1.簡單隨機抽樣:不對母體加以任何修飾或分割,而使每一樣本均有相同之被抽中機率。 2.分層隨機抽樣:將母體按照某些特性,分成數個不重疊的組群,這些組群即稱為層,而再由各層分別抽取樣本。 3.系統抽樣:將母體之元素按順序編號後,有系統的每隔一定間隔抽取一個樣本之方法。 4.集群抽樣:將母體中相鄰近之個體排成為一集體,而以集體為抽樣單位,即每一抽樣單位為一集體之抽樣單位。 5.兩段集群抽樣:首先抽出一些樣本集體,再由樣本集體內抽出部分基本個體。 6.分層集群抽樣:將母體內之集體予以分層後,再由各層抽取樣本。

80 簡單隨機抽樣法(simple random sampling)
簡單隨機抽樣是一種最基礎且最簡便的抽樣方法。 優點是(i)當母體底冊完整時,直接由母體中抽出樣本,方法簡單;和(ii)每一單位被抽中的機率均相等,參數的估計較簡單。 限制是(i)母體底冊不易取得,或取得很費時,費力且費錢;(ii)母體內樣本單位太多時,作業不方便;(iii)樣本分配較分散,行政作業較不易;和(iv)樣本代表性恐有不足(尤其當樣本點差異大時或重要性不同時)。 使用最佳時機,便是當(i)母體內樣本單位不多,且有完備名冊,可茲編號時;(ii)母體內樣本單位間的差異不大時(對研究的目的而言);和(iii)對母體資訊無法充份獲得時。 簡單隨機抽樣法的準確度會受下列二因素的影響,即(i)母體本身的變異,和(ii)樣本的大小。

81 分層抽樣法(stratified sampling)
第一層 第二層 第K層 : 樣本 優點是(i)可增加樣本代表性;(ii)可提高估計的確度;(iii)可分別獲得各層的訊息,並做各層間的比較分析;(iv)可在各層設立行政單位,以便於執行;和(v)可視各層情形,採取不同的抽樣方法。 限制是(i)分層變數的選取(要與所欲估計的特徵值具有高度相關);(ii)層數的釐定(要適當並配合母體的分配狀況);(iii)分層標準的決定(各層不能有重疊現象);(iv)各層樣本的配置方法;和(v)分層後,樣本資料的整理及估計較複雜。 使用最佳時機,便是當(i)母體內樣本單位的差異較大時;和(ii)分層後能達到層間差異大,層內差異小的原則。原則上要使層內變異小,而層間變異大;各層不能有重疊現象。

82 系統抽樣法(systematic sampling)
…s (s+1) (s+2) …N 6 12 18 樣本 母體 K=N/n 優點是(i)在抽取樣本的過程中,很容易完成抽樣工作;(ii)通常可使樣本普遍的散佈於母體內,使樣本更具代表性;和(iii)在某些條件下,系統抽樣可取代簡單隨機抽樣。 限制是(i)對母體狀況宜略有所瞭解;(ii)避免系統樣本內的樣本單位趨於一致;(iii)不易計算估計量的變異數,和(iv)避免母體內樣本單位特徵值的週期性變動。 使用最好是當(i)母體內的樣本單位,按有興趣的特徵值而言是隨機的或按大小排列的;(ii)母體內單位數過多,而抽取的樣本又較多時;和(iii)母體內的單位數不能確定時。

83 群集抽樣法(cluster sampling)
有時母體底冊的蒐集及編造極為困難或龐大,而在調查時又希望節省成本時,則可採用群集抽樣法。舉例來說,在森林區的材積調查中,將調查區劃分多個小塊以為群集。又如在住戶調查中,以鄰或區段作為群集以進行訪查。 優點是(i)母體底冊的編造較為簡單;(ii)調查行動半徑較小,調查成本較低;(iii)行政管理較為容易;和(iv)通信調查時較易宣傳及進行。 限制是(i)群集內樣本單位的一致性太強,則易浪費樣本;和(ii)群集大小的決定。 使用最好時機是當(i)母體底冊不易獲得時;(ii)為簡省調查成本時;及(iii)群集內差異大,而群集間的變異小。 採用群集抽樣法進行樣本調查時,要注意到以下兩個原則。亦即,(i)根據經驗、試查及實際狀況以決定適當的群集;和(ii)確定群集間變異小,而群集內變異大。

84 抽樣分配 母體參數(Parameter) 樣本統計量(Statistics) 抽樣分配(Sampling Distribution)
描述母體資料特性的統計測量數,為未知但固定的數。 樣本統計量(Statistics) 為一組隨機樣本的實數值函數。 抽樣分配(Sampling Distribution) 樣本統計量為一隨機變數,其機率分配稱為抽樣分配。

85 樣本平均數的抽樣分配 自一大小為N的母體抽出一組隨機樣本, 則樣本平均數 本身亦為隨機變數, 有其機率分配。 抽自無限母體: 抽自有限母體:

86 抽樣分配的型態 母體 常態分配 非常態分配 大樣本 (n≧ 30) 小樣本 (n< 30) 中央極限定理=>
母體σ 已知=> 母體σ 未知=> 常態分配性質 t分配性質 視母體分配而定 抽樣分配的型態

87 統計估計 利用樣本統計量去推估母體參數的方法。 點估計(Point Estimation)
根據樣本資料求得一估計值,以推估未知的母體參數。 評估估計量的好壞: 不偏性(unbiasde)、有效性(efficiency) 區間估計(Interval Estimation) 根據樣本資料求得之點估計值,藉由點估計值統計量的抽樣分配性質求出兩個數值所構成的區間,並利用此一區間推估未知的母體參數範圍。

88 估計大學應屆畢業生平均薪資,若我們以 =27,200元為中心加減某個數字,譬如1,784,得到(27,200-1,784)~(27,200+1,784)元的一個區間,然後我們可以說『所有大學應屆畢業生每月的平均薪資在25,416~28,984元之間』,並說平均薪資在25,416~28,984元之間的可靠度為95%。 此一過程稱為區間估計,而此一區間稱為信賴區間(Confidence Interval),95%稱為信心水準(Confidence Level)。 μ 25,416 28,984

89 某保險公司自其投保人的母體中隨機抽出36位投保人,計算出此36位投保人的平均年齡為 =39. 58歲,已知母體標準差為σ=7
某保險公司自其投保人的母體中隨機抽出36位投保人,計算出此36位投保人的平均年齡為 =39.58歲,已知母體標準差為σ=7.2歲,試求出母體平均數μ的95%信賴區間。 樣本大小為36,故為大樣本,所以 的抽樣分配為常態分配。 信賴區間=1-α =0.95,α/2=0.025, μ 0.95 抽樣誤差

90 假設檢定(Hypothesis Testing)
是對母體參數(特性)提出假設(或主張),利用樣本的訊息,決定接受該假設或拒絕該假設的統計方法。 虛無假設 (Null Hypothesis) 對立假設 (Alternative Hypothesis) 基本精神: 除非具有足夠的證據可以否決 ,否則我們只好接受 ;但是接受 並不表示 為真,僅表示我們沒有足夠的證據可以拒絕 ;相對的,拒絕 時僅表示我們具有充分的證據可以拒絕 ,此時此檢定稱為具顯著性(Significance)。 統計假設檢定亦稱為顯著性檢定(Significant Testing)。

91 型I 誤差與型II 誤差 拒絕 接受 為真 α β 為假 拒絕域 接受域

92 假設檢定分為單尾檢定(One-tailed Test)與雙尾檢定(Two-tailed Test)。
左尾檢定 拒絕域 接受域 α 右尾檢定 拒絕域 接受域 α 拒絕域 雙尾檢定 接受域 α

93 某廠商宣稱其所開發的新合成釣魚線平均強度為8公斤,標準差為0.5公斤。茲從其中隨機抽出50條釣魚線,測試其強度結果平均為7.8公斤。請在0.01顯著水準下,檢定廠商的宣稱。
首先建立虛無假設,此為雙尾檢定,H0:μ=8 ; H1:μ≠8 => 接受域 拒絕域 拒絕域 α/2=0.005 α/2=0.005 H0成立之下, 的抽樣分配

94 真正瞭解統計顯著性的意義 樣本愈多愈容易拒絕虛無假設。
統計上的顯著度和實際上的顯著度是不一樣的。除了注意P值外,要多花點時間看看資料本身(畫圖)。 選擇顯著水準。 不要忽略沒有顯著性的結果。


Download ppt "資商訊息顧問有限公司 中華資料採礦協會 杜長嶸"

Similar presentations


Ads by Google