R 基础培训 Mango - Solutions ShangHai China.

Slides:



Advertisements
Similar presentations
國立成功大學工程科學系 Department of Engineering Science -National Cheng Kung University 控制與訊號處理實驗室 Control & Signal Processing Lab MATLAB/Simulink 教學.
Advertisements

Java 技术与应用 数据库应用 ( 第 14 章 ) 西安交大 卫颜俊 2008 年 12 月 电子信箱: QQ: 网站 : /java.
《公路纵断面设计》 —— 纵断面设计的要求 道桥系 二○○七年五月. 纵断面设计的一般要求 1 .纵坡设计必须满足《公路工程技术标准》中的各项规定。 2 .为保证汽车能以一定的车速安全舒顺地行驶,纵坡应具有 — 定 的平顺性,起伏不宜过大及过于频繁。尽量避免采用极限纵坡 值.缓和坡段应自然地配合地形设置,在连续采用极限长度的.
自然產與剖腹產比較 江幸達、江俊億、何奇軒 李奇軒 、 莊程勛 、 葉 姵 君 黃雅靖、劉品妤、羅彩瑄 坪內由里佳 1 第十組:
Matlab 教學 Speaker :陳珮妮 Date : 2013/03/14 1. Outline  MATLAB 簡介  算術邏輯運算  Matlab 陣列  Matlab 矩陣 2.
103 年新北市環保知識擂台賽培育計畫 新北市政府環境保護局 大 綱 計畫緣起 計畫期程及內容 計畫分工及配合事項 討論 Q&A 2.
应用软件Excel 对外经济贸易大学信息学院.
SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo
統 計 程 式 語 言.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
统计之都五周年系列活动 漫谈统计分析与 R 语言 刘思喆 2011 年 5 月 24 日
癌症防治法教育訓練 癌症防治中心鄭錦翔主任
第二课 战国时期的 百家争鸣 呼伦贝尔学院附属中学:司顺英.
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
DOE & EXCEL, SPSS application
Introduction to Matlab
R语言初步 彭司华 上海海洋大学
Matlab教學 Speaker:林昱志 Date:2012/10/18.
上課囉 職場甘苦談 小資男孩向錢衝 育碁數位科技 呂宗益/副理.
高雄市立瑞祥高中105年科技部第二期程高瞻計畫 「107課綱探究與實作暨實驗模組推廣」工作坊
1012 MATLAB 教學 彭奕翔 2013/02/27.
温江区行政事业单位 资产管理信息系统培训 2010年10月28日.
92-90數學課程綱要比較 -- 不含數與計算 台北市立師範學院 數學資訊教育系副教授 李源順.
十二生肖的故事.
Matlab及其应用 鲍文 哈尔滨工业大学 先进动力控制与可靠性研究所
MATLAB介紹.
Basis基本操作、使用者 管理與權限設定
張智星 清大資工系 補充內容:方煒 台大生機系 小幅修改:吳俊仲 長庚機械系
第五讲 数据的分组、合并与转换.
R教學 安裝R 羅琪老師.
統計套裝軟體 輔大統計資訊系 黃孝雲.
SQL Server 2000 数据库入门.
數學與電腦 的初相識 汪群超 個人網址: 變有不可者三,有不可不變者三: 能力未至不可變也、 學識未敷不得變也、 功侯未到不能變也。
Application of Matlab Language
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
University of Electronic Science and Technology, China
Lesson 10.
Vector and Matrix(向量與矩陣) 羅琪老師
R財務分析與互動式介面 教學實務經驗分享 明新科技大學教師社群 田慧君 于昌永 靜宜大學財務與計算數學系
R语言简介 来源 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用 来进行数据挖掘、统计分析、作图的解释型语言。最初S语言的实 现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言, 并由MathSoft公司的统计科学部进一步完善。 1995年由新西兰Auckland大学统计系的Robert.
SPSS-概述與資料處理 輔大統計資訊系 黃孝雲.
Introduction to Bioinformatics
引 言.
Introduction to MATLAB
保險業數據何處尋? Where can we find insurance data?
MATLAB及其应用 第三讲 数据处理 授课人:鲍文 在此幻灯片插入公司的徽标 从“插入”菜单 选择图片 找到徽标文件 单击“确定”
授課教授:張寶基 助教:梁凱雯 郭千豪 音視訊處理實驗室 2014 / 9 / 30
Peking University SAS Club
数学建模 江西财经大学 数学与管理决策系 制作:华长生 华长生制作.
1 在平面上畫出角度分別是-45°,210°,675°的角。 (1) (2) (3)
龙星课程—肿瘤生物信息学上机课程 曹莎
第18章 SQL結構化查詢語言 18-1 SQL語言的基礎 18-2 SQL的查詢指令 18-3 SQL子查詢與合併查詢.
第二单元 第2课 Matlab程序控制结构 1.顺序结构 2.选择结构 3.循环结构.
MATLAB 程式設計入門篇 初探MATLAB
3. SQL语言的应用 3.1 SQL历史和优点 3.2 数据查询 3.3 数据操纵.
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
实验教学 MATLAB在行列式和矩阵中的应用 授课教师:杨梦云.
R與資料探勘(data mining)簡介
第一单元 第1课 Matlab概述 1.MATLAB 2.工具箱 3.高效数值计算功能 4.完备的计算结果和编程可视化功能
第7章 基本统计分析 2019/5/14.
An Quick Introduction to R and its Application for Bioinformatics
第7章 MATLAB工程计算.
MATLAB 实用教程.
Multiple Regression: Estimation and Hypothesis Testing
线性分类 方匡南 教授 博士生导师 耶鲁大学博士后 厦门大学数据挖掘研究中心 副主任 厦门大学经济学院统计系 中华数据挖掘协会(台湾) 顾问
并行计算 Parallel Computing 方匡南 厦门大学教授 博士生导师.
三角比的恆等式 .
生命科学学院 生物信息学实验室 冯聪 03/18, 2019 Hangzhou
数据处理过程中的质量控制 寇长贵(副教授) Tel: Mail:
三角 三角 三角 函数 已知三角函数值求角.
Presentation transcript:

R 基础培训 Mango - Solutions ShangHai China

Outline 共五章 R背景&运行环境 R的数据类型 数据操作函数 编写R程序 统计相关的函数 示例 R背景, R VS SAS, R资源, R版本控制与更新,R帮助 R安装, R界面, R的命令行,基本语法,R对象,R工作空间,R的基础包,脚本窗口,帮助系统 R的数据类型 vector,matrix,data frame,array,list, ... 数据操作函数 函数调用,数值函数,字符函数,逻辑函数,缺失值函数,data frame函数, apply函数,输入输出函数 编写R程序 控制流,函数argument, 返回对象,创建函数 统计相关的函数 抽样, 分布函数,常用统计分析函数 示例

R? Huh? Where can we get it? Background: http://cran.r-project.org/ Developed from S language (AT&T Bell Lab) Freeware developed by statisticians and programmers (Ross Ihaka and Robert Gentleman) Platform designed for analysis of data Data manipulation, statistical analysis, plots, etc. Like Splus, SAS, Matlab, Stata, SPSS, … Where can we get it? http://cran.r-project.org/ Note: install on your computer even if you are not admin.

R与SAS R 与 SAS 的比较

R的安装和更新 R的版本 R的更新(每三个月更新一次) Linux Macos X Windows update.packages(checkBuilt = TRUE, ask = FALSE) 1 # or install.packages(.packages(all = TRUE))

R帮助系统 Help system Session setting and saving objects help(topic), ??topic, help.search(‘topic’), apropos('topic'), help.start(), RSiteSearch('topic') Session setting and saving objects File-”Change dir”, File-”Load/Save Workspace”, File-”Load/Save History”

R 在window下面的操作界面

R 包 显示本地所有安装的R包 Other packages .packages(TRUE) library() http://cran.r-project.org/

R 数据类型 基本数据类型: 高级数据类型: 特殊值: 数字,字符,布尔,因子,日期,… NA, NaN, Inf 矩阵,数据框,列表,… vector.n <- c(1,4,7,9) vector.c <- c("a","a","b","d","c","a","b","b") vector.f <- factor(vector.c) levels(vector.f) 高级数据类型: 矩阵,数据框,列表,… matrix.a <- matrix(100, ncol=10, byrow=TRUE) data.df <- data.frame(x=1:3, y=c("a", "b", "c")) list.a <- list(x=c(1, 2, 3), y=c("a", "b", "c"), z=data.df ) 特殊值: 缺失值(missing value)和无限值 (infinite value) NA, NaN, Inf

R 数据的简单操作 对象属性: 查看对象内容 查看缺失值(missing value)和无限值 (infinite value) attributes(),data.class (),length () 改变对象属性 as.character(), as.numeric(), as.factor(), as.POSIXct(), as.Date 查看对象内容 vector.c[1], vector.c[c(1,3)], data.df[1, 2], data.df[2, ], data.df[, 2] 查看缺失值(missing value)和无限值 (infinite value) is.na(), is.nan(), is.finite(x), is.infinite(x)

R 字符数据的操作 字符操作 字符合并 字符取长度 字符取子集 字符代替 字符分离 “abcbc” <> paste("abc", "bc", sep="") 字符取长度 nchar("abcccc") 字符取子集 substr("abcdef", 2, 3) substring("abcdef", 3) 字符代替 gsub("abc", "", c("abc", "abcc", "abcbc")) 字符分离 split(“abcd”, “c”, fixed=T)

R data frame的操作 矩阵、数据框的操作 列或者行合并:cbind(), rbind() 通过公有列合并数据:merge() 数据形状转化:reshape() cbind(A,B) rbind(A,B) A A B B A reshape(A) merge(A,B) A A^B A-B B-A wide long

R 特别的apply函数 行、列或者代替循环的操作函数 Sapply, apply, lappy, tapply, aggregate, by, with

read.table() and write.table() 数据的输入输出 数据与外部设备的交互 数据读入:read.table, read.csv, read.xls, scan, load,… 数据输出: write.table, WriteXLS, write, save, … read.table() and write.table() example.csv Category,Value Group.1,0.575652002 Group.1,0.127900842 ...and so forth... >df .data <- read.table(paste(DataDir,”example.csv”, sep=""), header = TRUE, sep = ",", as.is = T) After processing this data… >write.table(df.summary, file=paste(ResultDir, “Summary Result.csv",sep=""), sep=",", row.names=FALSE) df.summary Category,Mean,... Group.1,0.634002,... Group.2,0.911242,... Group.3,0.138726,... ...and so forth...

R 常用的函数汇总 基础函数 加减乘除 逻辑运算 数学函数 常用的函数 常用的统计函数 矩阵运算函数 +,-, *,ˆ, /,%%,%/% < >, <= ,>=, ==,!=, &, | 数学函数 abs, sqrt, round, log, exp, sin, cos, tan, asin, acos, atan 常用的函数 setwd, getwd, setClass c, seq, rep, cut, table, is.element, %in% unique, order, sort, duplicated, replace, setdiff, intersect, union, names, colnames, row.names dir, list.files, dir.create 常用的统计函数 max, min, range, diff sum, mean, median, IQR, quantile, sd, var, cumsum, mod 矩阵运算函数 colSums, colMeans, rowSums, rowMeans, t, diag, %*%, solve(a,b), eigen(x), dist(x)

写自己的R程序 Mango - Solutions ShangHai China

控制流 if (test) { ...true statements... } else { ...false statements... for (var in seq) exp, while (could) exp, repeat exp, break, next, ifelse

控制流示例 ## try if x <- 10 if(x>10) { print("x = 10") } else print("x <> 10") ## try for sumx <- 0 for (x in 1:10) { sumx <- sumx+x } sumx

创建函数 “函数名” <- function(a, b, c, …) { exp(a, b, c) }

创建函数示例 "myfunction" <- function(x, y, z) { if(!is.numeric(x)|!is.numeric(y)|!is.numeric(z)) stop("parameter must be numeric ") x.list <- c(sum(c(x,y,z), na.rm=T), mean(c(x,y,z), na.rm=T), sd(c(x,y,z), na.rm=T)) x.list }

统计相关的函数 Mango - Solutions ShangHai China

抽样 sample(x, n, replace = T, prob = p) 以概率p,放回的从x中抽出n项

怎么求正态分布的密度,分为点,概率,产生随机数? 分布相关 怎么求正态分布的密度,分为点,概率,产生随机数?

均值, 标准差,中位数, 众数, IQR, 分位数 基本的统计量 均值, 标准差,中位数, 众数, IQR, 分位数 均值 PK 中位数 x <- rnorm(50, 4, 2) hist(x) mean(x);median(x) x[10] <- 200 mean(x);median(x);

T检验 例:患有某种肿瘤的大白鼠接受不同的实验处理后(对照组:未服药,服抗癌A 药),比较2周后体内平均存活的肿瘤细胞数是否有差异? 比较两个样本的均值是否相等: 例:患有某种肿瘤的大白鼠接受不同的实验处理后(对照组:未服药,服抗癌A 药),比较2周后体内平均存活的肿瘤细胞数是否有差异? T-test的前提条件: 两样本独立,并且服从正态分布, 须先做同方差检验 R中的实现: t.test()

方差分析 比较多个样本的均值是否相等: 例:患有某种肿瘤的大白鼠接受不同的实验处理后(对照组:未服药,服抗癌A 药,服抗癌B药, 服抗癌C药),比较2周后体内平均存活的肿瘤细胞数是否有差异? 方差分析的前提条件: 样本独立,并且服从正态分布, 等方差 R中的实现: anova() 检验: m0=ma=mb=mc ??

两样本方差分析 PK T检验 在等方差的条件下,两者等同

线性相关 例:生长发育中的身高和年龄的关系? 描述两变量之间的线性相关程度 线性相关的前提条件: X,Y 服从正态分布 R中的实现: cor.test() 检验: r=0 ?? r 为相关系数

一元线性回归 例:生长发育中的身高和年龄的关系? 描述变量之间的线性相关程度 y=a+bx+ε 线性相关的前提条件: 随机误差值相互独立,且同方差,随机误差~N(0, σ2) R中的实现: lm() 检验: slope=0 ??

线性相关 PK 一元线性回归 两者等同 检验相关系数:r=0 ?? 检验: slope=0 ??

? 多元线性回归 例:生长发育中的身高与年龄和体重的关系? 描述一个因变量跟多个自变量之间的线性关系 y=b0+b1x1+b2x2+ε 线性相关的前提条件: Y服从独立等方差正态分布, x1, x2…..独立 R中的实现: lm(y~x1+x2+….) 检验: model成立?? ?

Q&A

Thanks