2 基本資料分析
學習目標 敘述統計—使用者建立對資料的初步認知 等級和百分比—掌握資料全貌 母體平均數檢定—t檢定、Z檢定 母體變異數檢定—F檢定 ANOVA單因子變異數分析 迴歸分析—從簡單到複迴歸
資料分析 『分析工具箱』是EXCEL中具有統計應用及分析之強大處理功能的增益集 (add-in) ,它提供了相當完整的進階統計功能。 步驟如下 點選 按鍵, 選取『Excel選項』,則會出現一個Excel選項的對話方塊 點選左邊的『增益集』 選右邊的『分析工具箱』後按下執行,會出現增益集對話方塊,勾選『分析工具箱』即可(如圖)便會出見資料分析對話視窗
敘述統計 要能對一數據做全盤性的解讀,首先獲取的資訊即為敘述統計量,包含了平均數、標準差、中位數等統計訊息
集中趨勢 統計上常用平均數、中位數及眾數來衡量資料的集中趨勢,可顯示出整體資料集中的程度 平均數(average) 眾數(mod) 中位數(median)
差異程度 描述數據的散佈程度 最大值(Max) 最小值(Min) 全距範圍(Range) 變異數(Vairance)
分配形狀 偏態(Skewness) :判斷分配是否對稱,例如常態分配其偏態為0 峰度(Kurtosis) :測度分配的高度,常態分配的峰態係數為3,若一個分配其峰態超過3,通常被稱之為高峽峰,小於3表示低峽峰
等級和百分比 將數據按照小至大排序,並且顯示出每一個數據在整個分佈中的等級
操作範例 『上市金融類股』工作表內資料為民國94年上市金融類股公司的股本、每股盈餘(EPS)以及規模,一共有六十二家上市公司,股票交易代號從2848一直到2886,涵蓋了保險公司、信託公司、銀行以及金融控股公司。所有公司按照股本大小分成三大類:H(大)、M(中)、L(小) 在欄位『規模』 中顯示,現在為了瞭解這些金融機構的獲利能力,利用資料分析下的敘述統計功能,以觀察每股盈餘分佈情形,操作步驟如下:
操作範例 步驟一:在Excel功能表列上,點選『資料』,再點選『資料分析』,最後選取敘述統計
操作範例 步驟二:出現了敘述統計對話視窗,(如圖),將輸入範圍設為$D$1:$D$63也就是六十二家上市金融股的每股盈餘數據,並且勾選『類別標記軸是在第一列上 』輸出範圍直接以游標點選致工作表『敘述統計』內的儲存格A3,此外,在輸出選項下,至少勾選一項輸出統計量,在此勾選『摘要統計』
操作範例 步驟三:按下確定後一張完整的表格就出現在指定的範圍,在本例中為工作表『敘述統計』內的A3儲存格
等級和百分比操作 開啟分析工具箱後,選取『等級和百分比』選項,出現該對話視窗,選擇輸入範圍,勾選類別標記,並指定輸出範圍工作表『等級和百分比』中的儲存格A3,再按下『確定』按鈕
分組比較 從資料資料分析呼叫敘述統計對話視窗,並分別針對不同的資料範圍輸出統計摘要,並將報表輸出在工作表『敘述統計』中 解讀:三群不同股本規模的金融機構中,以中等規模組別(M組)的獲利能力最高,平均每家的EPS值有1元多,最差的為股本最小規模組別(L組)的金融機構,只有0.69元,而股本最大的金融機構組別(H組)獲利能力0.85,看起來比小股本組別來得高。
假設檢定 假設檢定(hypothesis testing)是統計科學的基礎,是以統計推論的方法,來判定兩種對立主張的立場之真偽,例如藥品中的某種成分是否會對人體有害?智商130的人能否視為高智商? 常用的幾種假設檢定方法,小樣本情況下,兩母體平均數是否相等的t檢定,以及在大樣本下檢定母體平均數是否相等的z檢定,兩母體變異數是否相等的F檢定。
兩母體平均數差異檢定 若M組的公司平均的EPS真的比較高,那表示它們原來的母體分配就和H組的公司不同,那麼兩群樣本勢必來自於不同的母體。於是,將回答『兩群樣本是否來自於相同母體』的問題,被轉換成解答『兩者平均數差是否為0』的問題一樣
單尾還是雙尾? 問題是『兩者平均數差是否為0』,即虛無假設為『μ1−μ2=0』那麼違反假設可能的結果有兩種,μ1−μ2大於0或者小於0,所以是雙尾的檢定 如果問題是『M組的EPS是否比H組公司高?』亦即『兩組EPS平均數差是否大於0』,則假設為『μ1−μ2不大於0』,那麼違反假設的結果只有一種,μ1−μ2大於0,所以是單尾檢定
大樣本還是小樣本? 在統計推論上,當樣本數越多,則分配可越接近常態分配,則採用Z檢定,否則使用t分配做為檢定。究竟樣本多少算『大』,一般常用三十筆為判斷,一組資料超過三十筆則採用Z分配
變異數是否相等? 萬一兩樣本群的變異數差異太大,那麼原來的檢定架構就會受到影響,於是將檢定公式進行誤差的修正,此時稱之為變異數不相等的t檢定,反之,為變異數相等的t檢定。
如何解讀檢定結果? 檢定後將呈現p值(p-value)的報導,通常以是否小於0.05做為判斷是否拒絕虛無假設,如果p值小於0.05就意味著虛無假設不成立,就是拒絕『μ1−μ2=0』的假設。
F檢定 步驟一:開啟資料分析的對話視窗,選取『F-檢定』選項。 輸入檢定的兩個組別資料位置所在,在視窗中即為『變數1的範圍』,以變異數大者為變數1的資料範圍,變異數小者為變數2的資料範圍 。
F檢定解讀 按下確定按鈕之後,便會在工作表『F檢定』中出現檢定報告。 檢定出的p值為0.00029,小於0.05的α值甚多,達到非常”顯著”水準足以拒絕『兩組的變異數是相等的』假設的成立。
t檢定 步驟一:由於資料屬性為小樣本且變異數不相等,所以開啟資料分析對話視窗後,要選取假設變異數不相等下的t檢定。 步驟二:請注意『假設的均數差(P) 』對話方塊,由本例的虛無假設為『μ1−μ2不大於0』,所以請填入0 。
t檢定解讀 檢定的結果單尾p值為0.40,高出0.05的α值很多,因此不拒絕虛無假設,也就是說,M組金融機構的獲利EPS並沒有真的高於H組的公司。
ANOVA單因子變異數分析 步驟一:在進行ANOVA分析前,要先將資料格式按照組別逐欄放置或者逐列放置。接著選取『單因子變異數分析』 。 步驟二:在輸入範圍中圈選儲存格A2至C23,『分組方式』點選逐欄,並勾選『類別軸標記是在第一列上』 。
ANOVA解讀 步驟三:按下『確定』按鈕後,可得到ANOVA的輸出報表 。 步驟四:解讀。由報表中顯示的P值顯示0.89,未達0.05以下的顯著水準,顯示沒有充分的證據,可斷言L、M、B三組公司的EPS是不同的平均水準 。 變源 SS 自由度 MS F P-值 臨界值 組間 0.979 2 0.490 0.110 0.896 3.153 組內 262.804 59 4.454 總和 263.783 61
成對t檢定 是針對相同的樣本群,觀察事件前後的差異表現,在假設檢定推論上,我們使用成對樣本t檢定(Paired t test) 本次以回答『經推薦後隔日股價是否上漲?』為例。
成對t檢定 步驟一:選取資料分析中『t檢定:成對母體平均數差檢定』按下確定。 將『變數1的範圍』設定為『推薦前最後一天收盤價(5/19日)』欄中的數據,而『變數2的範圍』 。為『推薦後第一天交易收盤價(5/22日)』欄中的數據。並且設定『假設的均數差』為0 。
成對t檢定 步驟三:兩群樣本間(變數1與變數2)相關係數高達0.995,乃因為這是同一群母體在事件前後的比較,相關係數當然很高。再者,p-value值0.418明顯高出0.05許多,表示報導前後平均每檔股價的『漲跌』並沒有大於0 。
迴歸分析 迴歸分析(Regression Analysis)討論自變數(Independent variable)對應變數(Dependent variable)的影響效果,也可以說分析二者間的線性(或非線性)效果並進行預測
迴歸分析操作 步驟一:在資料分析的對話視窗中,選取『迴歸』,按下「確定」
迴歸分析操作 步驟二:在『輸入』區輸入X變數範圍B3~B19的日經225指數報酬率,而Y變數則為儲存格範圍C3~C19的台股指數報酬率。 如果要將報表在同一章工作表內顯示,要點選「輸出範圍」;若是選擇『新工作表』,則會將報表呈現於新的工作表;若是點選『新活頁簿』,則會將報表輸出在一個新的EXCEL檔中。最後在『殘差』設定區內點選『樣本迴歸綫圖』,並且按下確定。
迴歸分析解讀 可藉由係數、t統計、p值等三個欄位得解讀自變數和應變數的迴歸關係。迴歸係數的截距為-0.796,自變數日股報酬率的係數(斜率)為0.81 。 從迴歸報表中的參數可以得知,日股和台股之間呈現正向關係,並且日股報酬率對台股報酬率變異的解釋力大致為31%,迴歸係數為0.81,表示當日股的報酬率增加1%時,台股的報酬率增加0.81% 。
樣本迴歸線圖 在迴歸方程式y=-0.79+0.81x架構下,將實際日股數據(x值)輸入,得到預測的台股報酬率(y值),即為F欄內的數據,預測Y值和實際Y值的差異即為殘差。若將預測與實際台股報酬率以散佈圖呈現
複迴歸 一個線性迴歸模型若導入一個以上的解釋變數,用以分析多項變數與被解釋變數間的複雜關聯時,即為複迴歸模型
複迴歸操作 步驟一: 步驟二: 步驟三: 步驟四: 步驟五: 在資料分析的對話是中,選取『迴歸』 在『輸入Y範圍』中,請圈選被解釋變數儲存格D24至D40 步驟三: 在『輸入X範圍』中,請圈選解釋變數儲存格B24至C40,這樣才能涵蓋日股指數報酬與美股指數報酬率兩個自變數。 步驟四: 『輸出選項』請點選『輸出範圍』,並選擇儲存格F23。 步驟五: 『殘差』部份請勾選『樣本迴歸線圖』,接著按下『確定』即可
複迴歸解讀 日股報酬率(X1變數)的係數為0.66,稍微比道瓊報酬率的係數0.76低一些,但是在顯著水準的判定上,其t值為2.09且p值接近0.05,達到顯著水準,表示日股報酬和被解釋變數台股報酬率的確呈現線性關係 。
Summary EXCEL中所提供的統計分析工具,可協助使用者對數據作系統化的解讀,如平均數、標準差、百分位數 用F檢定、Z檢定、t檢定的操作,能夠有效率的區別兩組樣本之間的差異, ANOVA單因子變異數分析工具,可對多群組樣本作出適當的描述與檢定 迴歸分析方法可清楚的刻畫出應變數和自變數之間的結構關係