2 基本資料分析.

Slides:

Advertisements

Similar presentations

©2009 陳欣得統計學 —e1 微積分基本概念 1 第 e 章微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.

Advertisements

第四週課程 1 (10/10~10/16) 如何建立資料. 原始資料範例 a1~a5 表示選擇題，輸入原始答案，如 A 、Ｂ、Ｃ、Ｄ b1~b5 表示填充題， c1~c5 表示計算題，輸入得分.

單元九：單因子變異數分析.

實驗規劃--實驗因子設定, 效標選定與受測者選定

Ch12 資料分析.

樞紐分析與資料庫蕭世斌 Nov 20, 2010.

第9章假設檢定.

應用統計理論編著：劉正夫教授 Reference：1) Wonnacott and Wonnacott. Introductory

數據分析林煜家魏韶寬陳思羽邱振源.

分析圖表的製作.

判斷步驟 Step 1 ：判斷是否為常態分配 Step 2 ：如果是常態分配，用「假設檢定」，如果不是請看 Step 3

17 類別資料的分析  學習目的.

國際金融專題亞太國家的股價和匯率之間的共整合關係林秉毅授課教師：楊奕農老師.

迴歸分析主講人：童超塵實驗室網址永久: 實驗室網址永久: 目前:

第五章　標準分數與常態分配第一節　相對地位量數第二節　常態分配第三節　偏態與峰度第四節　常態化標準分數第五節　電腦習作.

Chap3 Descriptive statistics -numerical measures Minitab & Excel

實驗計畫資料分析作業解答何正斌國立屏東科技大學工業管理系.

第零章統計學概論 0.1 統計學的定義 0.2 敘述統計學與推論統計學 0.3 測量尺度 0.4 資料、資訊與因果關係 ©2009 陳欣得

兩獨立母體成功比例差- Z檢定(大樣本)：說明

第六章平均數比較 6-1 平均數比較(各種 T Test 的應用) 6-2 Means 平均數分析 6-3 單一樣本 T 檢定

Ch7:一般線性模式 GLM.

Regression for binary outcomes

Q101 在701 SDX Linux上的標準安裝與使用程序v2

Using EXCEL for ANOVA.

REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型

課程九迴歸與相關2.

邏輯迴歸 Logistic Regression

Endnote書目資料匯入 -西文資料庫.

11.1單一母體變異數的推論前幾章中，我們以樣本變異數

單一分配 Uniform distribution

介紹SPSS SPSS 本為 Statistical Package for the Social Sciences 的簡寫，由於產品及功能不斷地擴充，目前改名成 Statistical Product and Service Solutions。

系統設定 IE8相容性檢視

第十二章單因子變異數分析.

第二次電腦實習課說明者：吳東陽 2003/10/07.

第十四章單因子變異數分析 14.1 前言 14.2 單因子變異數分析理論 14.3 功能視窗 14.4 範例

統計學指導老師: 郭燿禎 Date: 2/14/12.

第十章順序資料之假設檢定 10.1 順序資料檢定概論 10.2 符號檢定 10.3 符號秩檢定（成對樣本檢定）

由開始＞所有程式＞Microsoft Office＞點下Microsoft Office Excel2003

本院使用建教合作之輔仁大學圖書館資料庫設定方式說明

第一章直角坐標系 1-3　函數圖形.

第 7 章推論方法.

估計與假設檢定.

資料來源 2 網路過濾軟體之安裝說明資料來源 2.

有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析

小學四年級數學科 8.最大公因數.

信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.

安裝 / 操作 flashget SOP (以Win 7 作業系統為範例)

第五章估計與信賴區間 5.1 估計概論估計量的分配信賴度、信賴區間與最大容忍誤差16

第十章證券投資組合.

Review of Statistics.

Ogive plot example 說明者：吳東陽 2003/10/10.

Excel 2010 資料處理與應用大葉大學資工系黃鈴玲助教研習.

平均數檢定與變異數分析莊文忠副教授世新大學行政管理學系 SPSS統計應用分析研習(莊文忠副教授) 2019/4/27.

Chapter 4 迴歸分析. Chapter 4 迴歸分析迴歸分析原理迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式)，用這個函數代表應變數和自變數之間的關係多變量分析—管理上的應用.

Introduction to Basic Statistics

流程控制：Switch-Case 94學年度第一學期‧資訊教育東海大學物理系.

MiRanda Java Interface v1.0的使用方法

楊志強博士國立台北教育大學系教育統計學楊志強博士國立台北教育大學系

第四章統計資料的整理:統計量數.

R教學 t檢定R指令與範例羅琪老師.

第 12 章　變異數分析.

Chapter 3 相關與變異數分析. Chapter 3 相關與變異數分析變數的內涵屬量變數屬質變數當一個變數可以量化、計算，而且其值的大小可以做有意義的比較時，則稱為屬量變數當一個變數的內容是屬於敘述性的(如：快樂／憂鬱、男／女)，則即使我們可以將其量化，這些量化之後的數值不但在邏輯上不能運算，其大小的比較也沒有意義，這種變數即稱為屬質變數.

Linear Regression Analysis 5E Montgomery, Peck & Vining

參考書籍：林惠玲與陳正倉（2002），《應用統計學第二版》。台北：雙葉書廊有限公司。

Test for R Data Processing & Graphics

單元三：敘述統計內容：＊統計量的計算＊直方圖的繪製.

17.1 相關係數判定係數：迴歸平方和除以總平方和相關係數判定係數：迴歸平方和除以總平方和.

第三章比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.

Presentation transcript:

2 基本資料分析

學習目標敘述統計—使用者建立對資料的初步認知等級和百分比—掌握資料全貌母體平均數檢定—t檢定、Z檢定母體變異數檢定—F檢定 ANOVA單因子變異數分析迴歸分析—從簡單到複迴歸

資料分析『分析工具箱』是EXCEL中具有統計應用及分析之強大處理功能的增益集 (add-in) ，它提供了相當完整的進階統計功能。步驟如下點選按鍵，選取『Excel選項』，則會出現一個Excel選項的對話方塊點選左邊的『增益集』選右邊的『分析工具箱』後按下執行，會出現增益集對話方塊，勾選『分析工具箱』即可(如圖)便會出見資料分析對話視窗

敘述統計要能對一數據做全盤性的解讀，首先獲取的資訊即為敘述統計量，包含了平均數、標準差、中位數等統計訊息

集中趨勢統計上常用平均數、中位數及眾數來衡量資料的集中趨勢，可顯示出整體資料集中的程度平均數(average) 眾數(mod) 中位數(median)

差異程度描述數據的散佈程度最大值(Max) 最小值(Min) 全距範圍(Range) 變異數(Vairance)

分配形狀偏態(Skewness) :判斷分配是否對稱，例如常態分配其偏態為0 峰度(Kurtosis) :測度分配的高度，常態分配的峰態係數為3，若一個分配其峰態超過3，通常被稱之為高峽峰，小於3表示低峽峰

等級和百分比將數據按照小至大排序，並且顯示出每一個數據在整個分佈中的等級

操作範例『上市金融類股』工作表內資料為民國94年上市金融類股公司的股本、每股盈餘(EPS)以及規模，一共有六十二家上市公司，股票交易代號從2848一直到2886，涵蓋了保險公司、信託公司、銀行以及金融控股公司。所有公司按照股本大小分成三大類：H(大)、M(中)、L(小) 在欄位『規模』中顯示，現在為了瞭解這些金融機構的獲利能力，利用資料分析下的敘述統計功能，以觀察每股盈餘分佈情形，操作步驟如下:

操作範例步驟一：在Excel功能表列上，點選『資料』，再點選『資料分析』，最後選取敘述統計

操作範例步驟二：出現了敘述統計對話視窗，(如圖)，將輸入範圍設為$D$1：$D$63也就是六十二家上市金融股的每股盈餘數據，並且勾選『類別標記軸是在第一列上』輸出範圍直接以游標點選致工作表『敘述統計』內的儲存格A3，此外，在輸出選項下，至少勾選一項輸出統計量，在此勾選『摘要統計』

操作範例步驟三：按下確定後一張完整的表格就出現在指定的範圍，在本例中為工作表『敘述統計』內的A3儲存格

等級和百分比操作開啟分析工具箱後，選取『等級和百分比』選項，出現該對話視窗，選擇輸入範圍，勾選類別標記，並指定輸出範圍工作表『等級和百分比』中的儲存格A3，再按下『確定』按鈕

分組比較從資料資料分析呼叫敘述統計對話視窗，並分別針對不同的資料範圍輸出統計摘要，並將報表輸出在工作表『敘述統計』中解讀:三群不同股本規模的金融機構中，以中等規模組別(M組)的獲利能力最高，平均每家的EPS值有1元多，最差的為股本最小規模組別(L組)的金融機構，只有0.69元，而股本最大的金融機構組別(H組)獲利能力0.85，看起來比小股本組別來得高。

假設檢定假設檢定(hypothesis testing)是統計科學的基礎，是以統計推論的方法，來判定兩種對立主張的立場之真偽，例如藥品中的某種成分是否會對人體有害？智商130的人能否視為高智商？常用的幾種假設檢定方法，小樣本情況下，兩母體平均數是否相等的t檢定，以及在大樣本下檢定母體平均數是否相等的z檢定，兩母體變異數是否相等的F檢定。

兩母體平均數差異檢定若M組的公司平均的EPS真的比較高，那表示它們原來的母體分配就和H組的公司不同，那麼兩群樣本勢必來自於不同的母體。於是，將回答『兩群樣本是否來自於相同母體』的問題，被轉換成解答『兩者平均數差是否為0』的問題一樣

單尾還是雙尾？問題是『兩者平均數差是否為0』，即虛無假設為『μ1−μ2=0』那麼違反假設可能的結果有兩種，μ1−μ2大於0或者小於0，所以是雙尾的檢定如果問題是『M組的EPS是否比H組公司高？』亦即『兩組EPS平均數差是否大於0』，則假設為『μ1−μ2不大於0』，那麼違反假設的結果只有一種，μ1−μ2大於0，所以是單尾檢定

大樣本還是小樣本？在統計推論上，當樣本數越多，則分配可越接近常態分配，則採用Z檢定，否則使用t分配做為檢定。究竟樣本多少算『大』，一般常用三十筆為判斷，一組資料超過三十筆則採用Z分配

變異數是否相等？萬一兩樣本群的變異數差異太大，那麼原來的檢定架構就會受到影響，於是將檢定公式進行誤差的修正，此時稱之為變異數不相等的t檢定，反之，為變異數相等的t檢定。

如何解讀檢定結果？檢定後將呈現p值(p-value)的報導，通常以是否小於0.05做為判斷是否拒絕虛無假設，如果p值小於0.05就意味著虛無假設不成立，就是拒絕『μ1−μ2=0』的假設。

F檢定步驟一：開啟資料分析的對話視窗，選取『F-檢定』選項。輸入檢定的兩個組別資料位置所在，在視窗中即為『變數1的範圍』，以變異數大者為變數1的資料範圍，變異數小者為變數2的資料範圍。

F檢定解讀按下確定按鈕之後，便會在工作表『F檢定』中出現檢定報告。檢定出的p值為0.00029，小於0.05的α值甚多，達到非常”顯著”水準足以拒絕『兩組的變異數是相等的』假設的成立。

t檢定步驟一：由於資料屬性為小樣本且變異數不相等，所以開啟資料分析對話視窗後，要選取假設變異數不相等下的t檢定。步驟二：請注意『假設的均數差(P) 』對話方塊，由本例的虛無假設為『μ1−μ2不大於0』，所以請填入0 。

t檢定解讀檢定的結果單尾p值為0.40，高出0.05的α值很多，因此不拒絕虛無假設，也就是說，M組金融機構的獲利EPS並沒有真的高於H組的公司。

ANOVA單因子變異數分析步驟一：在進行ANOVA分析前，要先將資料格式按照組別逐欄放置或者逐列放置。接著選取『單因子變異數分析』。步驟二：在輸入範圍中圈選儲存格A2至C23，『分組方式』點選逐欄，並勾選『類別軸標記是在第一列上』。

ANOVA解讀步驟三：按下『確定』按鈕後，可得到ANOVA的輸出報表。步驟四：解讀。由報表中顯示的P值顯示0.89，未達0.05以下的顯著水準，顯示沒有充分的證據，可斷言L、M、B三組公司的EPS是不同的平均水準。變源 SS 自由度 MS F P-值臨界值組間 0.979 2 0.490 0.110 0.896 3.153 組內 262.804 59 4.454 總和 263.783 61

成對t檢定是針對相同的樣本群，觀察事件前後的差異表現，在假設檢定推論上，我們使用成對樣本t檢定(Paired t test) 本次以回答『經推薦後隔日股價是否上漲？』為例。

成對t檢定步驟一：選取資料分析中『t檢定：成對母體平均數差檢定』按下確定。將『變數1的範圍』設定為『推薦前最後一天收盤價(5/19日)』欄中的數據，而『變數2的範圍』。為『推薦後第一天交易收盤價(5/22日)』欄中的數據。並且設定『假設的均數差』為0 。

成對t檢定步驟三：兩群樣本間(變數1與變數2)相關係數高達0.995，乃因為這是同一群母體在事件前後的比較，相關係數當然很高。再者，p-value值0.418明顯高出0.05許多，表示報導前後平均每檔股價的『漲跌』並沒有大於0 。

迴歸分析迴歸分析（Regression Analysis）討論自變數(Independent variable)對應變數(Dependent variable)的影響效果，也可以說分析二者間的線性(或非線性)效果並進行預測

迴歸分析操作步驟一：在資料分析的對話視窗中，選取『迴歸』，按下「確定」

迴歸分析操作步驟二：在『輸入』區輸入X變數範圍B3~B19的日經225指數報酬率，而Y變數則為儲存格範圍C3~C19的台股指數報酬率。如果要將報表在同一章工作表內顯示，要點選「輸出範圍」；若是選擇『新工作表』，則會將報表呈現於新的工作表；若是點選『新活頁簿』，則會將報表輸出在一個新的EXCEL檔中。最後在『殘差』設定區內點選『樣本迴歸綫圖』，並且按下確定。

迴歸分析解讀可藉由係數、t統計、p值等三個欄位得解讀自變數和應變數的迴歸關係。迴歸係數的截距為-0.796，自變數日股報酬率的係數(斜率)為0.81 。從迴歸報表中的參數可以得知，日股和台股之間呈現正向關係，並且日股報酬率對台股報酬率變異的解釋力大致為31%，迴歸係數為0.81，表示當日股的報酬率增加1%時，台股的報酬率增加0.81% 。

樣本迴歸線圖在迴歸方程式y=-0.79+0.81x架構下，將實際日股數據(x值)輸入，得到預測的台股報酬率(y值)，即為F欄內的數據，預測Y值和實際Y值的差異即為殘差。若將預測與實際台股報酬率以散佈圖呈現

複迴歸一個線性迴歸模型若導入一個以上的解釋變數，用以分析多項變數與被解釋變數間的複雜關聯時，即為複迴歸模型

複迴歸操作步驟一：步驟二：步驟三：步驟四：步驟五：在資料分析的對話是中，選取『迴歸』在『輸入Y範圍』中，請圈選被解釋變數儲存格D24至D40 步驟三：在『輸入X範圍』中，請圈選解釋變數儲存格B24至C40，這樣才能涵蓋日股指數報酬與美股指數報酬率兩個自變數。步驟四：『輸出選項』請點選『輸出範圍』，並選擇儲存格F23。步驟五：『殘差』部份請勾選『樣本迴歸線圖』，接著按下『確定』即可

複迴歸解讀日股報酬率(X1變數)的係數為0.66，稍微比道瓊報酬率的係數0.76低一些，但是在顯著水準的判定上，其t值為2.09且p值接近0.05，達到顯著水準，表示日股報酬和被解釋變數台股報酬率的確呈現線性關係。

Summary EXCEL中所提供的統計分析工具，可協助使用者對數據作系統化的解讀，如平均數、標準差、百分位數用F檢定、Z檢定、t檢定的操作，能夠有效率的區別兩組樣本之間的差異， ANOVA單因子變異數分析工具，可對多群組樣本作出適當的描述與檢定迴歸分析方法可清楚的刻畫出應變數和自變數之間的結構關係