第3章變異量數與分佈形狀.

第3章變異量數與分佈形狀

前言只用集中量數來描述資料是不夠的。忽略了資料點的分散情形，可能會做出錯誤的判斷。
以下介紹幾種反映資料分散情形的量數，包括全距、四分位距、平均絕對離差、標準差等。除此之外，利用數字呈現資料的集中和分散情形，不如直接呈現資料的分佈圖。

第一節變異量數（1）全距/範圍（range）全距就是最大值減最小值。全距越大表示分數的離散程度越大。
Excel並沒提供函數直接計算全距。不過可利用MAX求得最大值，用MIN求得最小值，然後相減即得全距。除此之外，也可利用Excel提供的「敘述統計」內設功能，求得最大值和最小值。

第一節變異量數（2）四分位距（interquartile range）
如果將數值由小至大排列，第N個分數就是第一個四分位數（quartile），以Q1來表示；第N個分數就是第二個四分位數（Q2），Q2也就是中位數；第N個分數就是第三個四分位數（Q3）。所謂四分位距就是： Q = (Q3 - Q1)

第一節變異量數（3）平均絕對離差（mean absolute deviation）
每個分數減去平均數，叫做離均差（deviation from the mean）。離均差取絕對值後加總，再取其平均值就是平均絕對離差。即：

第一節變異量數（4）例如1, 2, 3, 4, 5等數字的平均數為3，離均差分別為-2, -1, 0, 1, 2。絕對值離均差為2, 1, 0, 1, 2。 Excel的AVEDEV函數可用以計算平均絕對離差。如鍵入「=AVEDEV(1,2,3,4,5) 」就可以得到平均絕對離差為1.2。

第一節變異量數（5）變異數（variance）
如果資料是母體，變異數就是每個分數減去母體平均數（即離均差），加以平方，然後加總，最後除以個數，即為變異數（可想成：離均差平方的平均數）。

第一節變異量數（6）例如有一公平骰子，令出現點數為X，數值分別為1, 2, 3, 4, 5, 6。則X的平均數為3.5，變異數為2.92。

第一節變異量數（7）如果是從母體抽取少數樣本時，樣本變異數（sample variance）算法為

第一節變異量數（8）例如有5個資料點為樣本，數值分別為1, 2, 3, 4, 5，則樣本平均數為3，樣本變異數為2.5。

第一節變異量數（9）標準差（standard deviation）標準差就是變異數開根號。可分為母體標準差和樣本標準差。

第一節變異量數（10） Excel的VARP和VAR兩函數分別用以計算母體變異數和樣本變異數。 STDEVP和STDEV則分別用以計算母體標準差和樣本標準差（其中P代表母體population）。「=VARP(1,2,3,4,5)」得母體變異數為2。「=VAR(1,2,3,4,5)」得樣本變異數2.5。「=STDEVP(1,2,3,4,5)」得母體標準差1.414。「=STDEV(1,2,3,4,5)」得樣本標準差1.581。

第一節變異量數（11）變異係數（coefficient of variation）標準差除以平均數就是變異係數。
由於計算變異數（或標準差）時，因為每個值都要減去平均數，因此變異數必然受到平均數的影響。為了避免變異指標受到平均數的影響，將標準差除以平均數，形成變異係數。

第一節變異量數（12）在一項實驗裡，實驗組接受了某種閱讀技巧訓練，控制組則無，每組各10人。
實驗組的標準差3.52約為控制組7.01的一半，控制組的變異係數0.14不到實驗組0.35的一半。

第二節各種變異量數的比較（1）全距的優點在於計算容易，容易理解。缺點是只利用最大和最小值，完全漠視了其他值的存在，無法精確反應所有資料的分散情形。四分位距將極端的前1/4和後1/4去除，而利用第三個與第一個四分位數的差距來表示分散情形，因此避免了全距受到極端值影響的缺點。不過，四分位距的計算顯然不如全距來得方便，因為必須將資料由小到大排序。和全距一樣，四分位距也沒使用到所有的資料點。

第二節各種變異量數的比較（2）平均絕對離差則使用了全部的資料，這是比較恰當的作法。此外，平均絕對離差也蠻容易理解。不過，由於計算平均絕對離差必須先求絕對值，因此運算並不方便。標準差和平均絕對離差的意義非常類似，因此不難理解。變異數及標準差還有方便四則運算，以及可用以推估母體參數（母體變異數、母體標準差）的好處，因此是推論統計的基石。

第二節各種變異量數的比較（3）變異數（標準差）比平均絕對離差容易受到極端值的影響，這是因為計算變異數時使用了平方的關係。
例如1, 2, 3, 4, 5的母體標準差為1.41，平均絕對離差為1.20，兩者頗為接近。如果資料是1, 2, 3, 4, 10，則兩者分別為3.16和2.40，可見標準差受到極端值的影響比平均絕對離差來得大。變異係數可以消去平均數的影響，如果要比較兩種平均數差異很大的資料的分散情形，利用變異係數比用標準差來得恰當了。

第三節柴氏不等式定理（1）柴氏不等式（Chebyshev’s Inequality）
該定理表示：數值在平均數m上下k個標準差之內的機率不小於1-1/k2。即 P[(|X – m|)  ks ]  1 – 1/ k2 柴氏不等式定理適用於任何的分佈，包括間斷機率分佈和連續機率分佈，樣本和母體的分佈。

第三節柴氏不等式定理（2）例如智商的平均數m = 100，標準差s = 15，則數值在平均數100  1s之內（即介於85到115之間）的機率不小於0（=1-1/12）。數值在平均數100  2s之內（即介於70到130之間）的機率不小於3/4（=1-1/22）。數值在平均數100  3s之內（即介於55到145之間）的機率不小於8/9（=1-1/32）。

第四節分佈形狀（1）最佳描述資料的方法就是呈現所有的資料點，包括資料的分佈形狀，配合集中量數和變異量數，將更能完整呈現資料的特性。
例如調查100位中學生每週流連網路咖啡店的時數，結果發現平均數為5.68，標準差為5.77。看到這樣的數字，我們就會以為多數人每週花在網咖的時間為5到6小時。

上圖稱為直方圖（histogram）。直方圖類似長條圖，不過直方圖中的長條沒有空隙。這是因為直方圖的X軸的變項是連續的量變項。

第四節分佈形狀（2）隨著分佈形狀的改變，集中量數，如平均數、中位數、眾數三者的關係會有所變化。
圖 (a)呈現的是所有的資料數值都是一樣的次數，例如每週去網咖的時間為0、2、4、6、8、10、12、14小時的人數都是10人。此時平均數和中位數相同，但並無眾數。這稱為均勻分佈（uniform distribution）。

第四節分佈形狀（3）如果分佈像圖 (b)所示，呈現左右對稱的單峰分佈（unimodal distribution），平均數、中位數、眾數三者相同。成年男性或女性的身高應該都是這種單峰且對稱的分佈。如果分佈如圖(c)，大部份的數值集中在右邊，成單峰分佈，則眾數大於中位數，中位數大於平均數。這種分佈又稱為左偏態分佈或負偏態分佈（negatively skewed distribution），因為左邊的尾巴很長。

第四節分佈形狀（4）如果分佈如圖(d)，大部份的數值集中在左邊，成單峰分佈，則平均數大於中位數，中位數大於眾數。這種分佈又稱為右偏態分佈或正偏態分佈（positively skewed distribution），因為右邊的尾巴很長。如果資料呈現雙峰分佈（bimodal distribution）且左右對稱，如圖(e)，則眾數會有兩個，平均數和中位數相同。如果將成年男性和成年女性的身高擺在一起，就可能形成這種雙峰且對稱的分佈。

第3章變異量數與分佈形狀.

Similar presentations

Presentation on theme: "第3章變異量數與分佈形狀."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第3章 變異量數與分佈形狀.

Similar presentations

Presentation on theme: "第3章 變異量數與分佈形狀."— Presentation transcript:

Similar presentations

About project

反馈

第3章變異量數與分佈形狀.

Presentation on theme: "第3章變異量數與分佈形狀."— Presentation transcript: