Download presentation
Presentation is loading. Please wait.
1
統計軟體工作坊 輕鬆學會統計軟體R 2013/05/16
2
R簡介 可進行資料處理、統計分析、科學計算與圖形繪製 適用各種作業系統:Windows, Unix, Linix, MacOS
開放原始碼的自由軟體(open source) 免費:可由the Comprehensive R Archive Network (CRAN)下載 藉由套件(package)可不斷增加其功能 可與其他程式(C, Matlab, WinBugs,…)連結使用 超過27個國家,66個連結點
3
R的歷史 S1 1976–1980 Honeywell GCOS, FORTRAN-based S2 1980–1988 1981–1986
1984– Unix: macros, interface language QPE (Quantitative programming environment) general outside licensing, books S3 1988–1993 C-based, S functions & objects S4 Programming with data R 1993 First binary copies of R on Statlib 2000 R released Kurt Hornik (2008) “The Past, Present, and Future of the R Project” John Chambers (2006) “A History of S and R”
4
下載R軟體 Go to this web page
5
下載R軟體 點選CRAN,接著選擇下載點
6
下載R軟體 根據作業系統選擇下載的版本 選擇“base”
7
下載R軟體 下載並安裝 安裝之後在桌面會出現捷徑
8
R視窗說明 停止運算 載入工作頁面 複製及貼上 Toolbar R Console 主要視窗
9
定義新物件 定義一個新的變數叫temp,並且指定其值為24 紅字是輸入,藍字是輸出 大小寫代表不同物件 箭頭(<-)可用“=”代替
物件名稱必須為字母開頭,其餘位置可以是數字或 點 c, q, t, C, D, F, I, T; diff, df, pt, pi, …不可以是物件名稱
10
R as a calculator 可以直接輸入數值計算 若物件屬性與維度相同, 可以進行四則運算
常用的數學函數,如log, exp, sin,..可直接計算 若不能計算,會回傳NaN (not a number)
11
輸入向量 c(…) 可以是數值 可以是字串 還可以把每一個元素取名字
12
Practice Weight: 50, 62, 47, 48, 72, 81, 45, 58, 65, 55 Height: 1.58, 1.77, 1.43, 1.52, 1.84, 1.72, 1.45, 1.62, 1.70, 1.55 請計算每個人的BMI及平均BMI
13
查詢、移除已定義物件 ls() rm(“A”) rm(list=ls())
14
利用R的記事本寫指令 開啟記事本 儲存記事本
15
更改工作目錄 改變檔案及資料的存放位置
16
下載R套件 練習:請下載R Commander套件 “Rcmdr”
17
載入R套件 可在R Console視窗中輸入library(“Rcmdr”) 或者由選單中點選
18
學生生活型態調查 班級 ( class): (1)統資系 (2)財數系 (3)其他 性別 (sex): (1) 女生 (2)男生
身高 (high) 體重 (weight) 血型 (blood): (1)A (2)B (3)O (4) AB 住宿地 (location): (1)宿舍 (2)學校附近 (3)東海別墅附近 (4)家裡 (5) 其他 住宿費用 (rent):(1) 3000以下 (2) 3000~4000 (3)4000~ (4)5000~6000 (5)6000~ (6)其他 上學方式 (way): (1)走路 (2)騎機車 (3)搭校車 (4)搭公車 (5) 其他
19
資料輸入 輸入新資料 按一下var1,會出現變數編輯器,輸入變數名稱後,再按Enter即可。 輸入資料後關閉視窗即可
20
資料輸入 匯入資料
21
練習 請讀入EXCEL檔案“class-demo”,並將其命名為 data2 請更改data2中,變數class、sex為character
22
資料型態 類別資料 序位資料 等級化資料 離散型資料 連續型資料 可以用數字代表類別,但數字本 身沒有意義
男生=1,女生=0 序位資料 類別的大小次序有意義,但順序 的運算無意義 原位癌=0,癌症第一期=1,癌症第 二期=2,第三期=3,第四期=4 等級化資料 根據不同類別的觀察值排序,給 予類別不同的名次 象、牛、熊、獅 離散型資料 數值為真正測量值而非 代號 每學期進圖書館次數 連續型資料 數值為真正觀測值,測 量值不限定為整數 每星期唸書的時間
23
資料的整理 初步的組織、歸納觀察到的資料 統計表:製表是整理資料最簡單且最常用的方 法 統計圖
次數分配表(frequency table)、相對次數分配表 (relative frequency table)、累積相對次數分配表 (cumulative relative frequency table) 統計圖 長條圖(bar chart)、直方圖(histogram)、次數多邊圖 (frequency polygon)、散佈圖(scatter plot)、盒形圖 (box plot)、線圖(line graph)
24
統計表 次數分配表:記錄每個組 別中觀察到的個體數 相對次數分配表:記錄每 一組別人數/總觀察人數 NOTE:一個個體只會分屬於一個類別
1. 處理離散型或連續型資料為次數分配表時,需將資料區分為一系列沒有重疊且明確的組別。 2. 分組之前要先定組限與組距,每組組距不一定要相同。 NOTE:一個個體只會分屬於一個類別
25
統計表 累積相對次數分配表:低於或等於該組上限的 人數/總人數
26
統計表
27
長條圖(Bar charts) 常用來表示類別或序位資料 高度代表組別分佈的次數或相對次數
28
高度代表組別分佈的次數或相對次數,寬度代表組距
直方圖(Histogram) 用來描述離散或連續型的資料分佈 可以觀察資料的分佈狀況與集中趨勢 高度代表組別分佈的次數或相對次數,寬度代表組距 資料是否對稱?左偏?右偏?
29
散佈圖(scatter plot) 描述兩個不同的連續資料的關係 肺活量與FEV的關係?
30
盒型圖(box plot) 利用樣本產生之統計量(最小值minimum、第一四 分位數first quartile、中位數median、第三四分位 數third quartile、最大值maximum)來描繪資料的 分佈。 第一四分位數(25%分位數):數值高於或等於全部 觀察值的25%,低於或等於全部觀察值的75% 中位數(50%分位數):位於資料50%的數值 第三四分位數(75%分位數):數值高於或等於全部 觀察值的25%,低於或等於全部觀察值的75%
31
四分位數(Quartiles) 25th 百分位數 (之前的資料個數大約有25%的資料 總個數&之後個數75%):
例:100/4=25 (第25名+第26名)/2;第25名 例:50/4=12.5 (第12名+第13名)/2; 例:67/4=16.75 (第16名+第17名)/2; 50th 百分位數 (前後各約二分之一的個數): 例:100/2=50 (第50名+第51名)/2;第50名 例:50/2=25 (第25名+第26名)/2;第25名 例:67/2=33.5 (第33名+第34名)/2; 例:40/2=20 (第20名+第21名)/2;第20名
32
四分位數(Quartiles) 75th 百分位數 (前約四分之三、後約四分之一的 個數):
例:100/4*3=75 (第75名+第76名)/2;第75名 例:50/4*3=37.5 (第37名+第38名)/2; 例:67/4*3=50.25 (第50名+第51名)/2; 例:40/4*3=30 (第30名+第31名)/2;第30名 四分位距(Inter-quartile range, IQR):第三四分位數 減第一四分位數
33
Box Plot Elements of a Box Plot * o Q1 Q3 Inner Fence Outer Q1-3(IQR)
Median Q1 Q3 Inner Fence Outer Interquartile Range Smallest data point not below inner fence Largest data point not exceeding inner fence Suspected outlier Outlier Q1-3(IQR) Q1-1.5(IQR) Q3+1.5(IQR) Q3+3(IQR)
34
統計圖 這裡可以選要畫的圖形
35
練習 請計算data2中居住地區之次數分配表 請data2中畫出身高與體重之散布圖
36
資料摘要(data summary) 利用數字描述資料作量的描述
測量資料的集中趨勢 (measure of central tendency) 平均值(mean)、中位數(median)、眾數(mode) 測量資料的變異情況 (measure of dispersion) 全距(range)、四分位距(IQR)、變異數(variance)和標準 差(standard deviation)
37
資料摘要(data summary)
38
練習 請計算data2中體重之平均數、標準差、中位數、 第一四分位數及第三四分位數
Similar presentations