單元四:資料的描述(二) ㄧ、集中趨勢統計量數 二、分散程度統計量數
ㄧ、集中趨勢統計量數 所謂集中趨勢統計量數是以一個數值來描述樣本資料中,那一個數值是最具代表性,或集中在那個中心位置。 常見的集中趨勢統計量數有三種: ◎平均數(Mean) ◎中位數(Median) ◎眾數(Mode)
平均數(mean) 為所有數值總和除以所有數值的個數,當資料是屬量資料時適用。 母體平均數(μ) : 樣本平均數( ) :
例ㄧ:若全班12位學生的體重分別為38、46、43、51、54、50、40、48、39、42、54、35公斤,試求其母體平均數?若以上資料為抽自全班60位同學的樣本觀察值,則其樣本平均數為何?
解:
例二:已知樣本資料2,3,5,10,15,若其中有所誤植,15應為85才正確,問平均數有何變化? 解: 根據誤植的資料,則樣本平均數為(2+3+5+10+15)/5 =7;若將15改為85,則樣本平均值變為21,為原值的三倍。
由上例可以知道平均數對於極端值(如上例中之85)的敏感度很強,這是採用平均數作為集中趨勢統計量數應特別留意之處。為此,我們介紹中位數來克服這樣的疑慮。
中位數(median) 將資料由小到大(或由大到小)順序排列後,位於中心的數值稱之, 通常以 表示,當資料是屬量資料時適用。
計算方法 將資料由小到大排序寫成x(1), x(2), …, x(n)
例三:求例一12位學生的體重之中位數? 解: 全班12位學生的體重分別為38、46、43、51、54、50、40、48、39、42、54、35公斤。 將12位學生的體重由小到大排序如下:35,38,39,40,42,43,46,48,50,51,54,54,因為n=12為偶數,故中位數為排序第六和第七位數值的平均,即
例四:已知樣本資料2,3,5,10,15,若其中有所誤植,15應為85才正確,請討論中位數的變化情形。 解: 若是誤植資料,其中位數為5,但經訂正使用85取代15,則中位數依然為5,由此可知,中位數完全不受影響。
由上例可知,中位數可能只用資料的一個或兩個數值,故對極端值不敏感。但其數學運算卻不易操作,比如說,我們無法直接將兩組資料的個別中位數作運算而求得合併兩組資料後的中位數,因此中位數不常用來作統計推論。
眾數: 指資料中出現次數最多的數或項目名稱,通常以Mo表示。當數據或名稱各只出現一次時,眾數便不存在,但因次數可能相同,故眾數可能不只一個。 屬質資料的集中趨勢統計量數,用眾數(mode)表示最為適當。
例五:擲一公正的骰子10次,其點數分別為3、6、2、6、1、4、6、5、3、5,求其眾數? 解: 點數的出現次數分別為點數1:1次、點數2:1次、點數3:2次、點數4:1次、點數5:2次、點數6:3次,故Mo=6。
例六:某科技大學管理學院院長欲瞭解所屬各碩士班的報名情形,得知資料如下:財金系250人,企管系308人,資管系169人,保險系145人,會計系178人,休閒系134人,問那一碩士班最為熱門?
解: 各碩士班乃屬質資料,故以眾數代表最為合適,即表示眾數為企管系,報名人數最多,是為某一年度最熱門的碩士班。
※集中趨勢統計量數的比較 當資料是對稱分配時,則平均數、中位數及眾數三者皆相等。 當數據是屬量資料時,則適用平均數或中位數。 若為屬質資料時,則應以眾數為最佳選擇。 以極端值而言,平均數受其影響最為明顯,相較之下,中位數與眾數則對極端值不敏感。 平均數易於作數學運算,但中位數與眾數則不易達成某些簡單的數學運算目的。
※作業: 請從1~50中挑一個數字,你認為它會最接近全班的平均數。
二、分散程度統計量數 分散程度統計量數可用來描述資料整體之異質性或是變異之程度,兩個樣本的分配可能有同樣的集中趨勢統計量數,但卻有不同的分散程度統計量數。因此我們在描述資料時,需要同時說明集中趨勢統計量數與分散程度統計量數。 例:有二組同學的統計學成績如下 甲:80,80,80,80,80 乙:60,70,80,90,100 雖然各組的平均數相同,但是甲組的學習效果較為一致,乙組的學習效果差異較大。
常見的分散程度統計量數有二種: ◎全距(range, R) ◎變異數(variance)與標準差(standard deviation, SD)
全距(range) R = 最大值 - 最小值 ,容易受到極端值的影響。
例七:假設某公司有兩條生產線A和B,都是生產6公分長的鐵釘,測量某天A和B生產線的鐵釘各100個,得以下資料:
解: 利用已知資料可得,A生產線的全距為0.04公分,而B生產線則為0.09公分,由此可知,B生產線的產品較為參差不齊,故以A生產線的產品較符合標準。
變異數(variance)與標準差(standard deviation) 母體變異數(σ2) : 母體標準差(σ) : 樣本變異數(s2 ) : 樣本標準差( s ) :
為什麼計算變異數時,須除以N或是n-1?因為取平均可避免資料個數多寡的效應,也就是說,若不取平均,則對個數較多的一組資料是種“懲罰”,因它的離差平方和會相對地較大,若不取平均將失去比較資料間分散程度的意義。
例八:就以下列資料:3, 5, 10, 1, 6,分別視為母體和樣本資料,求變異數及標準差?
解: 若為母體資料,則μ= 5 , , 。 若為樣本資料,則 , , 。
若有兩組資料的單位不同時,我們可以計算相對分散程度統計量數,即為變異係數(coefficient of variation,簡寫成CV)來衡量資料相對的分散情形。
母體變異係數 樣本變異係數
例十一:假設取樣30位十歲兒童的平均身高為135公分,標準差10公分;平均體重為20公斤,標準差為2 例十一:假設取樣30位十歲兒童的平均身高為135公分,標準差10公分;平均體重為20公斤,標準差為2.5公斤,試問身高和體重哪一項資料分散程度較大?
解: 因身高與體重兩者的單位不同,不宜直接由標準差的大小來說明分散程度。此時可利用變異係數來回答本問題。 由此可知,十歲兒童體重的分散程度較身高來得大。
趣例 平均數(用電量) 中位數(住宿選擇) 心理作用(失而復得與得而復失)
Q & A