Download presentation
Presentation is loading. Please wait.
1
第三章 敘述統計量 陳順宇 教授 成功大學統計系
2
統計量 學習如何將資料轉變成一個(或幾個) 統計量, 如樣本平均數, 標準差s等, 但由於這種數是由樣本算出,因此也
稱為”樣本統計量”(Sample Statistic)或 簡稱統計量
3
3.1 3種不同型式的統計量 1.集中趨勢的統計量 2.位置的統計量 3.離勢的統計量
4
3.2 集中趨勢統計量 集中趨勢的統計量主要是決定資料的 “中心點”, 或是最能“代表”此組數據的數。
5
常用的統計量有 平均數(Mean), 中位數(Median), 眾數(Mode), 去頭尾平均數(Trimmed Mean),及
加權平均數(Weighted Mean)
6
樣本平均數
7
母體平均數
8
例3.1、 由某校抽樣11位同學,每人 罰球投籃10次,投中次數分別為 求樣本平均數=?
9
平均投中4次
10
平均投中比例
11
例3.2 、(例1.9 續) 抽樣50位台南市成年市民,求 (1) 50位市民樣本平均身高 (2) 男生的平均身高 (3) 女生的平均身高。
12
50位市民的平均身高
13
25位男生平均身高
14
25位女生平均身高
15
例3.3、(例2.2續) 全班50位學生統計學期中考試成績 如表2.2, 求全班成績的母體平均數
16
母體平均數
17
2.中位數 所謂中位數是資料從小排到大, 經排序後“最中間的數”, 也就是當資料有奇數個時, 中位數是排序最中間的數, 而當資料有偶數個時,
中位數為排序最中間的兩個數的平均。
18
大約有一半的數據小於或等於中位數 大約有一半的數據大於或等於中位數 中位數以Me表示
19
例3.4、(例3.1續) 求11位同學投中次數的中位數
20
中位數為3 2 3 3 3 3 3 4 4 6 6 7
21
例3.5、(例3.3續) 求全班50位學生統計學期中考試成績的中位數?
22
中位數=62 50位學生的成績排序如表2.2, 中間位置為25.5,
因此以排序25的62分與排序26的62分的平均 (62+62)/2=62 當做中位數
23
中位數
24
3.眾數(Mode) 眾數就是資料中出現頻率最多的數
25
例3.6、(例3.1續) 求11位同學投中次數的眾數
26
眾數=3 11位同學投中次數頻率 最多的是投中 “3” 次,共出現 5 次, 因此 "3"就是此組資料的眾數
27
例3.7、(例3.3續) 求50位學生統計學期中考成績的眾數
28
眾數=60 在50位學生成績中,60分的有4位, 出現的次數最多, 所以60分即為此組資料的眾數
29
4.去頭尾平均數 去頭與去尾的筆數相等 且去掉的筆數為[ ],其中n為樣本數。 例如n=32, =0.2(即80%),則
去頭及去尾的筆數各為3筆,因 [32 0.2/2]=[3.2]=3
30
例3.8、(例3.1續) 求11位同學投中次數的 80%去頭尾平均數
31
去頭與去尾的筆數分別為
33
5.加權平均數
34
國文78分、英文83分、 數學65分、理化70分 地科75分、歷史76分、 地理74分、公民94分 則以上課時數加權的學年平均成績為: (5 78+5 83+5 65+3 70+3 75 +2 76+2 74+2 94)/27 = 2053/27 =
35
3.3 位置統計量 位置的量測 百分位數(Percentile) 四分位數(Quartile)
36
p百分位數
37
例3.11、(例2.1續) (1)求全班成績的85百分位數是多少? (2)求全班成績的60百分位數是多少?
39
85百分位數
40
60百分位數
41
. 四分位數 Q1= 25百分位數 Q2= 50百分位數=中位數 Q3= 75百分位數
42
例3.12、(例3.11續) 求Q1 , Q2 , Q3
44
離勢統計量 全距、 四分位距、 平均絕對偏差、 變異數、 標準差、 變異係數
45
全距 R
46
例3.13、(例3.1續) 求11位學生投中次數的全距 R= 7- 2 =5
47
例3.14、(例3.3續) 求50位學生統計學期中考成績的全距 R=97-32 = 65
48
2. 四分位距 IQR = Q3-Q1
49
例3.15、(例3.1續) 求11位學生投中次數的四分位距 IQR = Q3 -Q1= 4 - 3 =1
50
例3.16、(例3.12續) 求50位學生統計學期中考成績的 四分位距 IQR= Q3-Q1= 74-54 = 20
51
平均絕對偏差
52
例3.17、(例3.1續 ) 求11位同學投中次數的絕對偏差
55
變異 變異(Variation)是每一筆資料與 中心點差距(稱為偏差)的平方和, 即變異為偏差平方和
56
可證明
57
樣本變異數
58
母體變異數
59
例3.18、(例3.1續) 求11位同學投中球數的變異及變異數
61
x的變異
62
例3.19、(例3.3續) 求全班50位學生統計學期中考成績的 母體變異數
65
樣本標準差
66
母體標準差
67
甲乙兩人打靶 您會收那一位為徒
68
例3.20、(例3.18續) 求11位同學投中次數的標準差
70
例3.21、(例3.2續) 求50位台南市成年市民身高的 樣本變異數 與樣本標準差
71
樣本變異數 與樣本標準差
72
例3.22、(例3.19續) 求全班50位學生統計學期中考成績的 母體標準差
74
母體標準差
75
變異係數
77
身高與體重變異係數
78
例3.23、某人想投資 甲、乙兩投資策略
80
對稱的直方圖
81
右偏的直方圖
82
左偏的直方圖
83
3.6 經驗法則與謝比雪夫不等式 一組資料,算出樣本平均數及 樣本標準差s後,
經驗法則與謝比雪夫不等式 一組資料,算出樣本平均數及 樣本標準差s後, 我們可能進一步問資料落在與平均數相差兩個標準差以內的比例會是多少? 像這類問題,經驗法則與謝比雪夫不等式(Chebyshev's Inequality)提供部份答案
84
"鐘形"的資料,經驗法則
85
謝比雪夫提供一個較"粗糙"的答案,但它對任何形態的資料分配都適用
86
例3.25、(例3.10續) 試以謝比雪夫不等式及經驗法則 求資料落在與平均數相差 1個標準差以內、 2個標準差以內、 3個標準差以內,
所佔比例並與實際結果做比較
90
3.7相關係數 1. 經理想了解產品價格與銷售量 是否有相關? 2. 教育學者想了解 IQ成績與教學成績 是有相關?
1. 經理想了解產品價格與銷售量 是否有相關? 2. 教育學者想了解 IQ成績與教學成績 是有相關? 3.醫生想了解人出生時的體重與壽命 4. 房地產公司想了解房價與物價
91
關係程度有多高? 要了解是否有相關, 最直接的方法便是畫散佈圖, 但有時除了要知道是否有相關外, 也想要知道關係程度有多高?
此即本節所要介紹的相關係數
92
樣本相關係數(簡稱相關係數 )
93
相關係數
94
例3.26、 研究某產品定價(x)(單位:元)與銷售量(y)(單位:箱)的關係, 在12個地區做實驗,
95
產品廣告費(x)與銷售量(y) 資料
96
標準化法
98
五行合計法
101
廣告費(x)與銷售量 (y)相關係數
102
例3.27、10位學生的 數學(x)、統計(y)成績
103
數學、統計偏差與偏差乘積
104
平方和
105
數學與統計相關係數
106
資料標準化
107
數學與統計相關係數
108
(1) 由定義可以看出相關係數是純量, 它的大小與單位無關 (或說相關係數是單位不變量)。
109
(2)由看出, 如果大部份 ,同向(同正或同負), 則r是正的。 反之,如果大部份反向(一正一負), 則 r是負的。
110
(3) r > 0 表 x 值增加時, y值有增加的傾向; r < 0 表 x值增加時, y 值有減少的傾向。
111
r =1
112
r = -1
113
r = 0.9
114
r = 0.5
115
r = -0.9
116
r = -0.5
117
r = 0
118
r = U形曲線相關
119
正的曲線相關
120
負的曲線相關
121
相關係數 因果關係 變數間有〝相關〞不一定有〝因果關係〞
122
例3.28、離婚率與出國人數
123
(1) 試畫出離婚率對出國人數的散佈圖; (2) 求離婚率與出國人數的相關係數; (3) 試問離婚率與出國人數是否有因果關係?
124
離婚率對出國人數的散佈圖
125
相關係數 r=0.9225
126
如離婚率是因,出國人數是果 即離婚率高低會影響出國人數, 這表示什麼? 它的意義可能是台灣地區 這幾年來離婚人數增加,
這些離婚的人(或其親朋好友) 為了散心到國外,造成出國人數的增加。
127
如出國人數是因,離婚率是果 可能解釋是國人出國後, 看見外國人很開放,也就見異思遷, 回國後就和老伴離婚了
128
事實上並非如此 過去幾年,台灣地區由於經濟的成長, 國民所得的增加、社會的開放,
造成女性同胞經濟獨立,不需要靠長期飯票,也有多餘的錢到國外旅遊,
129
所以這幾年來離婚率不斷地增加, 出國人數也不斷地增加,都是受第三者(經濟成長(GNP)等因素)的影響所造成, 離婚率與出國人數的相關是一種 間接相關
130
離婚率與GNP
131
出國人數與GNP
132
例3.29、身高與髮長
133
身高對髮長的散佈圖
134
相關係數r=-0.81
135
髮長(y)對身高(x)的散佈圖
136
頭髮長度有愈短的現象 此散佈圖仍呈現身高愈高的人, 頭髮長度有愈短的現象, 事實上頭髮長度與身高並沒有關係,
它們都是受第三個變數性別的影響, 男生頭髮較短但身高較高, 女生頭髮較長,身高較矮。
137
20位女生平均身高160.7公分, 平均髮長25.2公分; 30位男生平均身高172.4公分, 平均髮長7.5公分
138
30位男生髮長對身高的散佈圖
139
20位女生髮長對身高的散佈圖
140
髮長與身高的關係是間接的 男生的髮長對身高散佈圖,看起來很亂,表示髮長與身高無關(=-0.23), 同樣的女生的髮長與身高的
相關係數也很低(=0.11)。 所以控制性別後,髮長與身高 就沒有相關了,
141
兩組相關(或稱成對)的資料,相加後其平均數及標準差
(1)兩組資料相加的平均 = 兩組資料個別平均再相加,對否? (2)兩組資料相加的標準差是否等於兩組資料個別標準差的相加呢?對否?
142
1.統計量是由觀察資料組成 如平均數、標準差,會隨觀察(或抽樣) 資料不同而得到不同的答案, 所以統計量是“隨機變數”,
143
2.統計量與參數的差異 前者是可算的,後者是“未知的”定數,統計量可用來“估計”參數, 但估計會有誤差, 如何使誤差愈小愈好
是學習統計必須了解的。
144
3. “平均數”代表資料中心點 但有敏感性(或稱不穩健性), 會受某些大數據的影響
145
4.了解標準差的意義, 何種情況下標準差愈大愈好 (如評分、區別等問題), 何種情況下標準差愈小愈好 (如品質問題)
146
5.右偏(或稱正偏)分配時 平均數大於中位數。
147
6.做統計推論最主要的 兩個統計量是 樣本平均數與樣本變異數
148
7.資料分佈呈鐘形時, 經驗法則提供較精確的機率比例, 不知資料分佈形態時, 謝比雪夫提供較粗糙的機率不等式
149
8.量測兩個變數線性相關程度的指標為 相關係數, 但兩變數有相關一定有因果關係
Similar presentations