生物統計與SAS軟體課程教學(二) 單變項描述 (Descriptive Statistics) 台大衛生政策與管理研究所 江宜珍 2005.1.15
課程宗旨 著重於描述性統計,瞭解各種變項類型所適用的單變項分析方法 介紹SAS視窗及基本功能 資料管理步驟及程式語法 單變項描述之語法及報表解讀
使用目的及時機 瞭解資料的分佈情形 Check data, clean data 有許多方法可供選擇,但要選對方法!! 有助於瞭解資料的樣貌 提供選擇後續統計分析方法的依據 對重要變項做基本的描述 Check data, clean data 極端值(outlier) 除錯:不合邏輯的值 有許多方法可供選擇,但要選對方法!!
等距&比例變項 「等距」意指每個數值的間隔相等,即「1與2的差別」和「101與102的差別」相同,亦即每個單位都是一樣大小(ex.身高、體重、收入、生病次數、住院人數、溫度) 「比例變項」又稱為「等比變項」,為等距變項中,具有絕對的「0」(真正的0)的變項!(ex.身高、體重、收入、生病次數、住院人數),意即包含了「沒有」者,因此可以計算倍數 「溫度」則不是!因為0℃是武斷給予的,所以不能說0℃是「沒有溫度」,且40℃也非20℃的兩倍熱 通常此種變項所具有的訊息最豐富、最詳細 最高級的變項,亦可轉換成其他級的變項
等距變項的描述1 資料的集中趨勢 資料的離散趨勢 又稱為資料的「趨中性」、「中央趨勢」 目的是找出最具代表性的數值來代表全部個體 又稱為資料的「變異性」
等距變項的描述2 — 集中趨勢 平均值(Mean) 中位數(Median) 又稱為「中間值」 母全體 樣本 母全體 樣本 特色:每個個體的數值 均包括在內、每個個體 的數值所佔份量(對平均 值的影響)均等 缺點:易受極端值影響,若資料有許多極端值時,以平均值代表全體的集中趨勢會有問題 中位數(Median) 又稱為「中間值」 即將全部個體的數值,由最小排至最大,位於最中間的那個數值就是中位數(若為樣本數為偶數,則將中間兩個個體的數值相加÷2) 優點:不會受極端值影響,若資料有許多極端值時,以中位數較能代表全體數值的集中趨勢
等距變項的描述3 — 離散趨勢 最大值(Maximum)、最小值(Minimun) 差距(range)=最大值-最小值 ex. A組資料最大值為95、最小值為5,則差距為90 B組資料最大值為60、最小值為40,則差距為20 A組資料的變異性>B組資料的變異性 但僅以差距來描述資料的變異性並非理想,因為只以最大值及最小值兩個數值來決定,若兩個資料的差距相等,不等於變異性(離散情形)相同
等距變項的描述4 — 離散趨勢 變異數(Variance) 標準差(Standard Deviation) 母全體的變異數 樣本的變異數 母全體的變異數 樣本的變異數 即每個數值減平均值後,以平方的方式去除負值,再將全部平方值相加,除以個案數 標準差(Standard Deviation) 即變異數開平方根 因為母群的變異情形大,樣本的變異情形小,所以要調整樣本的標準差使其可代表母群
等距變項的描述5 — 離散趨勢 變異係數(Coefficient of variance,C.V.) 以「標準差」除以「平均值」,通常會以%表示 即 或 目的在比較兩種不同變項的變異情形,以此方法可以去除因變項「測量單位」不同的情形,即是比較各變項的標準差是平均值的多少%,CV值越大表示該變項的變異性(離散情形)越大 ex.想知道全班同學的「身高」變異較大還是「體重」變異較大
序位或類別變項的描述 頻率(frequency) 眾數(Mode) 每個數值的出現次數 又稱為流行值 在資料中出現頻率最多的數值,即最多個案為此數值
畫圖 次數分佈圖:通常以變項為x軸、次數(人數)為y軸 等距變項 序位或類別變項 連續性的直方圖(histogram,或稱長條圖) 需先將等距變項分組,依據每個組距中出現的次數畫圖 可檢視是否呈現「常態分佈」 可在圖中標出最大值、最小值、中位數、眾數 枝葉圖(stem-and-leaf plot) 盒狀圖(box plot) 可在圖中標出最大值、最小值、中位數、上四分位數、下四分位數、極端值(outlier) 序位或類別變項 棒狀圖(bar chart, bar graph) 因為變項非為連續變項,所以 x軸所列的變項次序可以交換,但不可將 x軸的變項連接起來
盒狀圖
枝葉圖 & 盒狀圖
常態分佈1 等距變項的分佈多呈現「常態分佈(Normal Distribution)」 越接近平均值,個案數越多or頻率越高 曲線分佈圖呈現鐘型對稱(Gausian shape, symmetric),即「>平均值」和「<平均值」的個案數各佔50% 平均值、中位數、眾數為同一數值
常態分佈2 由「平均值」決定曲線的中央位置,「標準差」來決定平均值兩旁曲線的伸展及變異情形 mean = median = mode
非常態分佈1— 偏右分佈(positively skewed) mean > median > mode
非常態分佈2— 偏左分佈(negatively skewed) mean < median < mode
非常態分佈3— 雙峰分佈(bimodal distribution)
~謝謝大家的耐心聆聽嚕~