2 基本資料分析.

Slides:



Advertisements
Similar presentations
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
Advertisements

第四週課程 1 (10/10~10/16) 如何建立資料. 原始資料範例 a1~a5 表示選擇題,輸入原始答案,如 A 、B、C、D b1~b5 表示填充題, c1~c5 表示計算題,輸入得分.
單元九:單因子變異數分析.
實驗規劃--實驗因子設定, 效標選定與受測者選定
Ch12 資料分析.
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
第9章 假設檢定.
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
分析圖表的製作.
判斷步驟 Step 1 :判斷是否為常態分配 Step 2 :如果是常態分配,用「假設檢定」,如果不是請看 Step 3
17 類別資料的分析  學習目的.
國際金融專題 亞太國家的股價和匯率之間的共整合關係 林秉毅 授課教師 :楊奕農老師.
迴歸分析 主講人:童超塵 實驗室網址 永久: 實驗室網址 永久: 目前:
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
Chap3 Descriptive statistics -numerical measures Minitab & Excel
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
第零章 統計學概論 0.1 統計學的定義 0.2 敘述統計學與推論統計學 0.3 測量尺度 0.4 資料、資訊與因果關係 ©2009 陳欣得
兩獨立母體成功比例差- Z檢定(大樣本):說明
第六章 平均數比較 6-1 平均數比較(各種 T Test 的應用) 6-2 Means 平均數分析 6-3 單一樣本 T 檢定
Ch7:一般線性模式 GLM.
Regression for binary outcomes
Q101 在701 SDX Linux上的標準安裝與使用程序v2
Using EXCEL for ANOVA.
REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
Endnote書目資料匯入 -西文資料庫.
11.1單一母體變異數的推論 前幾章中,我們以樣本變異數
單一分配 Uniform distribution
介紹SPSS SPSS 本為 Statistical Package for the Social Sciences 的簡寫,由於產品及功能不斷地擴充,目前改名成 Statistical Product and Service Solutions。
系統設定 IE8相容性檢視
第十二章 單因子變異數分析.
第二次電腦實習課 說明者:吳東陽 2003/10/07.
第十四章 單因子變異數分析 14.1 前言 14.2 單因子變異數分析理論 14.3 功能視窗 14.4 範例
統計學 指導老師: 郭燿禎 Date: 2/14/12.
第十章 順序資料之假設檢定 10.1 順序資料檢定概論 10.2 符號檢定 10.3 符號秩檢定(成對樣本檢定)
由開始>所有程式>Microsoft Office> 點下Microsoft Office Excel2003
本院使用建教合作之輔仁大學 圖書館資料庫 設定方式說明
第一章 直角坐標系 1-3 函數圖形.
第 7 章 推論方法.
估計與假設檢定.
資料來源 2 網路過濾軟體之安裝說明 資料來源 2.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
小學四年級數學科 8.最大公因數.
信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.
安裝 / 操作 flashget SOP (以Win 7 作業系統為範例)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
第十章 證券投資組合.
Review of Statistics.
Ogive plot example 說明者:吳東陽 2003/10/10.
Excel 2010 資料處理與應用 大葉大學資工系黃鈴玲 助教研習.
平均數檢定與變異數分析 莊文忠 副教授 世新大學行政管理學系 SPSS統計應用分析研習(莊文忠副教授) 2019/4/27.
第一章.
Chapter 4 迴歸分析. Chapter 4 迴歸分析 迴歸分析原理 迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式),用這個函數代表應變數和自變數之間的關係 多變量分析—管理上的應用.
Introduction to Basic Statistics
流程控制:Switch-Case 94學年度第一學期‧資訊教育 東海大學物理系.
MiRanda Java Interface v1.0的使用方法
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
程式移植.
第四章 統計資料的整理:統計量數.
R教學 t檢定R指令與範例 羅琪老師.
第 12 章  變異數分析.
Chapter 3 相關與變異數分析. Chapter 3 相關與變異數分析 變數的內涵 屬量變數 屬質變數 當一個變數可以量化、計算,而且其值的大小可以做有意義的比較時,則稱為屬量變數 當一個變數的內容是屬於敘述性的(如:快樂/憂鬱、男/女),則即使我們可以將其量化,這些量化之後的數值不但在邏輯上不能運算,其大小的比較也沒有意義,這種變數即稱為屬質變數.
Linear Regression Analysis 5E Montgomery, Peck & Vining
參考書籍:林惠玲與陳正倉(2002),《應用統計學第二版》。台北:雙葉書廊有限公司。
Test for R Data Processing & Graphics
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

2 基本資料分析

學習目標 敘述統計—使用者建立對資料的初步認知 等級和百分比—掌握資料全貌 母體平均數檢定—t檢定、Z檢定 母體變異數檢定—F檢定 ANOVA單因子變異數分析 迴歸分析—從簡單到複迴歸

資料分析 『分析工具箱』是EXCEL中具有統計應用及分析之強大處理功能的增益集 (add-in) ,它提供了相當完整的進階統計功能。 步驟如下 點選 按鍵, 選取『Excel選項』,則會出現一個Excel選項的對話方塊 點選左邊的『增益集』 選右邊的『分析工具箱』後按下執行,會出現增益集對話方塊,勾選『分析工具箱』即可(如圖)便會出見資料分析對話視窗

敘述統計 要能對一數據做全盤性的解讀,首先獲取的資訊即為敘述統計量,包含了平均數、標準差、中位數等統計訊息

集中趨勢 統計上常用平均數、中位數及眾數來衡量資料的集中趨勢,可顯示出整體資料集中的程度 平均數(average) 眾數(mod) 中位數(median)

差異程度 描述數據的散佈程度 最大值(Max) 最小值(Min) 全距範圍(Range) 變異數(Vairance)

分配形狀 偏態(Skewness) :判斷分配是否對稱,例如常態分配其偏態為0 峰度(Kurtosis) :測度分配的高度,常態分配的峰態係數為3,若一個分配其峰態超過3,通常被稱之為高峽峰,小於3表示低峽峰

等級和百分比 將數據按照小至大排序,並且顯示出每一個數據在整個分佈中的等級

操作範例 『上市金融類股』工作表內資料為民國94年上市金融類股公司的股本、每股盈餘(EPS)以及規模,一共有六十二家上市公司,股票交易代號從2848一直到2886,涵蓋了保險公司、信託公司、銀行以及金融控股公司。所有公司按照股本大小分成三大類:H(大)、M(中)、L(小) 在欄位『規模』 中顯示,現在為了瞭解這些金融機構的獲利能力,利用資料分析下的敘述統計功能,以觀察每股盈餘分佈情形,操作步驟如下:

操作範例 步驟一:在Excel功能表列上,點選『資料』,再點選『資料分析』,最後選取敘述統計

操作範例 步驟二:出現了敘述統計對話視窗,(如圖),將輸入範圍設為$D$1:$D$63也就是六十二家上市金融股的每股盈餘數據,並且勾選『類別標記軸是在第一列上 』輸出範圍直接以游標點選致工作表『敘述統計』內的儲存格A3,此外,在輸出選項下,至少勾選一項輸出統計量,在此勾選『摘要統計』

操作範例 步驟三:按下確定後一張完整的表格就出現在指定的範圍,在本例中為工作表『敘述統計』內的A3儲存格

等級和百分比操作 開啟分析工具箱後,選取『等級和百分比』選項,出現該對話視窗,選擇輸入範圍,勾選類別標記,並指定輸出範圍工作表『等級和百分比』中的儲存格A3,再按下『確定』按鈕

分組比較 從資料資料分析呼叫敘述統計對話視窗,並分別針對不同的資料範圍輸出統計摘要,並將報表輸出在工作表『敘述統計』中 解讀:三群不同股本規模的金融機構中,以中等規模組別(M組)的獲利能力最高,平均每家的EPS值有1元多,最差的為股本最小規模組別(L組)的金融機構,只有0.69元,而股本最大的金融機構組別(H組)獲利能力0.85,看起來比小股本組別來得高。

假設檢定 假設檢定(hypothesis testing)是統計科學的基礎,是以統計推論的方法,來判定兩種對立主張的立場之真偽,例如藥品中的某種成分是否會對人體有害?智商130的人能否視為高智商? 常用的幾種假設檢定方法,小樣本情況下,兩母體平均數是否相等的t檢定,以及在大樣本下檢定母體平均數是否相等的z檢定,兩母體變異數是否相等的F檢定。

兩母體平均數差異檢定 若M組的公司平均的EPS真的比較高,那表示它們原來的母體分配就和H組的公司不同,那麼兩群樣本勢必來自於不同的母體。於是,將回答『兩群樣本是否來自於相同母體』的問題,被轉換成解答『兩者平均數差是否為0』的問題一樣

單尾還是雙尾? 問題是『兩者平均數差是否為0』,即虛無假設為『μ1−μ2=0』那麼違反假設可能的結果有兩種,μ1−μ2大於0或者小於0,所以是雙尾的檢定 如果問題是『M組的EPS是否比H組公司高?』亦即『兩組EPS平均數差是否大於0』,則假設為『μ1−μ2不大於0』,那麼違反假設的結果只有一種,μ1−μ2大於0,所以是單尾檢定

大樣本還是小樣本? 在統計推論上,當樣本數越多,則分配可越接近常態分配,則採用Z檢定,否則使用t分配做為檢定。究竟樣本多少算『大』,一般常用三十筆為判斷,一組資料超過三十筆則採用Z分配

變異數是否相等? 萬一兩樣本群的變異數差異太大,那麼原來的檢定架構就會受到影響,於是將檢定公式進行誤差的修正,此時稱之為變異數不相等的t檢定,反之,為變異數相等的t檢定。

如何解讀檢定結果? 檢定後將呈現p值(p-value)的報導,通常以是否小於0.05做為判斷是否拒絕虛無假設,如果p值小於0.05就意味著虛無假設不成立,就是拒絕『μ1−μ2=0』的假設。

F檢定 步驟一:開啟資料分析的對話視窗,選取『F-檢定』選項。 輸入檢定的兩個組別資料位置所在,在視窗中即為『變數1的範圍』,以變異數大者為變數1的資料範圍,變異數小者為變數2的資料範圍 。

F檢定解讀 按下確定按鈕之後,便會在工作表『F檢定』中出現檢定報告。 檢定出的p值為0.00029,小於0.05的α值甚多,達到非常”顯著”水準足以拒絕『兩組的變異數是相等的』假設的成立。

t檢定 步驟一:由於資料屬性為小樣本且變異數不相等,所以開啟資料分析對話視窗後,要選取假設變異數不相等下的t檢定。 步驟二:請注意『假設的均數差(P) 』對話方塊,由本例的虛無假設為『μ1−μ2不大於0』,所以請填入0 。

t檢定解讀 檢定的結果單尾p值為0.40,高出0.05的α值很多,因此不拒絕虛無假設,也就是說,M組金融機構的獲利EPS並沒有真的高於H組的公司。

ANOVA單因子變異數分析 步驟一:在進行ANOVA分析前,要先將資料格式按照組別逐欄放置或者逐列放置。接著選取『單因子變異數分析』 。 步驟二:在輸入範圍中圈選儲存格A2至C23,『分組方式』點選逐欄,並勾選『類別軸標記是在第一列上』 。

ANOVA解讀 步驟三:按下『確定』按鈕後,可得到ANOVA的輸出報表 。 步驟四:解讀。由報表中顯示的P值顯示0.89,未達0.05以下的顯著水準,顯示沒有充分的證據,可斷言L、M、B三組公司的EPS是不同的平均水準 。 變源 SS 自由度 MS F P-值 臨界值 組間 0.979 2 0.490 0.110 0.896 3.153 組內 262.804 59 4.454 總和 263.783 61

成對t檢定 是針對相同的樣本群,觀察事件前後的差異表現,在假設檢定推論上,我們使用成對樣本t檢定(Paired t test) 本次以回答『經推薦後隔日股價是否上漲?』為例。

成對t檢定 步驟一:選取資料分析中『t檢定:成對母體平均數差檢定』按下確定。 將『變數1的範圍』設定為『推薦前最後一天收盤價(5/19日)』欄中的數據,而『變數2的範圍』 。為『推薦後第一天交易收盤價(5/22日)』欄中的數據。並且設定『假設的均數差』為0 。

成對t檢定 步驟三:兩群樣本間(變數1與變數2)相關係數高達0.995,乃因為這是同一群母體在事件前後的比較,相關係數當然很高。再者,p-value值0.418明顯高出0.05許多,表示報導前後平均每檔股價的『漲跌』並沒有大於0 。

迴歸分析 迴歸分析(Regression Analysis)討論自變數(Independent variable)對應變數(Dependent variable)的影響效果,也可以說分析二者間的線性(或非線性)效果並進行預測

迴歸分析操作 步驟一:在資料分析的對話視窗中,選取『迴歸』,按下「確定」

迴歸分析操作 步驟二:在『輸入』區輸入X變數範圍B3~B19的日經225指數報酬率,而Y變數則為儲存格範圍C3~C19的台股指數報酬率。 如果要將報表在同一章工作表內顯示,要點選「輸出範圍」;若是選擇『新工作表』,則會將報表呈現於新的工作表;若是點選『新活頁簿』,則會將報表輸出在一個新的EXCEL檔中。最後在『殘差』設定區內點選『樣本迴歸綫圖』,並且按下確定。

迴歸分析解讀 可藉由係數、t統計、p值等三個欄位得解讀自變數和應變數的迴歸關係。迴歸係數的截距為-0.796,自變數日股報酬率的係數(斜率)為0.81 。 從迴歸報表中的參數可以得知,日股和台股之間呈現正向關係,並且日股報酬率對台股報酬率變異的解釋力大致為31%,迴歸係數為0.81,表示當日股的報酬率增加1%時,台股的報酬率增加0.81% 。

樣本迴歸線圖 在迴歸方程式y=-0.79+0.81x架構下,將實際日股數據(x值)輸入,得到預測的台股報酬率(y值),即為F欄內的數據,預測Y值和實際Y值的差異即為殘差。若將預測與實際台股報酬率以散佈圖呈現

複迴歸 一個線性迴歸模型若導入一個以上的解釋變數,用以分析多項變數與被解釋變數間的複雜關聯時,即為複迴歸模型

複迴歸操作 步驟一: 步驟二: 步驟三: 步驟四: 步驟五: 在資料分析的對話是中,選取『迴歸』 在『輸入Y範圍』中,請圈選被解釋變數儲存格D24至D40 步驟三: 在『輸入X範圍』中,請圈選解釋變數儲存格B24至C40,這樣才能涵蓋日股指數報酬與美股指數報酬率兩個自變數。 步驟四: 『輸出選項』請點選『輸出範圍』,並選擇儲存格F23。 步驟五: 『殘差』部份請勾選『樣本迴歸線圖』,接著按下『確定』即可

複迴歸解讀 日股報酬率(X1變數)的係數為0.66,稍微比道瓊報酬率的係數0.76低一些,但是在顯著水準的判定上,其t值為2.09且p值接近0.05,達到顯著水準,表示日股報酬和被解釋變數台股報酬率的確呈現線性關係 。

Summary EXCEL中所提供的統計分析工具,可協助使用者對數據作系統化的解讀,如平均數、標準差、百分位數 用F檢定、Z檢定、t檢定的操作,能夠有效率的區別兩組樣本之間的差異, ANOVA單因子變異數分析工具,可對多群組樣本作出適當的描述與檢定 迴歸分析方法可清楚的刻畫出應變數和自變數之間的結構關係