Presentation is loading. Please wait.

Presentation is loading. Please wait.

Introduction to Bioinformatics

Similar presentations


Presentation on theme: "Introduction to Bioinformatics"— Presentation transcript:

1 Introduction to Bioinformatics

2 Introduction to Bioinformatics
R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业 软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。 1995年由新西兰Auckland大学统计系的Robert Gentleman和Ross Ihaka,编写了一种能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言。 R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计绘图的优秀工具。

3 The Comprehensive R Archive Network简称CRAN,提供下载安装程序和相应软件包。
Introduction to Bioinformatics R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能;可以与其它语言相互调用 。 R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的,在那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得,涵盖了基础统计学、社会学、经济学、生态学、地理学、医学统计学、生物信息学等诸多方面。 The Comprehensive R Archive Network简称CRAN,提供下载安装程序和相应软件包。 R主页

4

5 Introduction to Bioinformatics
菜单栏 快捷按钮 控制台 命令行 R登陆界面(Windows版)

6 Introduction to Bioinformatics
数据类型 (基础类型) 数值型 Numeric 如 100, 0, 复数型 Complex 如 1+2i 字符型 Character 如 “China” 逻辑型 Logical 如TRUE, FALSE 数据类型(结构化数据) 向量(vector) 一系列元素的组合。 数组(array) 数组是k维的数据表。 矩阵(matrix) 矩阵是数组的一个特例,维数k = 2。 因子(factor) 因子是一个分类变量,如“a”,”a”,”a”,”a”,”b”,”b”,”b”,”c”,”c” 数据框(dataframe) 是由一个或几个向量和(或)因子构成,它们必须是等长的,但可以是不同的数据类型。 列表(list) 列表可以包含任何类型的对象。

7 Introduction to Bioinformatics
基本的命令由表达式或者赋值语句组成。如果一个表达式被作为一条命令给出,它将被求值、打印而表达式的值并不被保存。一个赋值语句同样对表达式求值之后把表达式的值传给一个变量,不过并不会自动的被打印出来。

8 R的函数 Introduction to Bioinformatics R是一种解释性语言,不需要先编译成.exe文件,输入后可直接运行。
函数形式 function(对象,选项= ) 每一个函数执行特定的功能,后面紧跟括号,函数名+()并将对象放入括号中,例如: 平均值 mean() 求和 sum() 绘图 plot() 排序 sort() 除了基本的运算之外,R的函数又分为高级和低级函数,高级函数内部嵌套了复杂的低级函数,例如plot()是高级绘图函数,函数本身会根据数据的类型,经过程序内部的函数判别之后,绘制相应类型的图形,并有大量的参数可选择。

9 查看帮助文件 1 help("t.test") 2 ?t.test 3 help.search("t.test")
Introduction to Bioinformatics 查看帮助文件 1 help("t.test") 2 ?t.test 3 help.search("t.test") 4 apropos("t.test") 5 RGui>Help>Html help 6 查看R包pdf手册

10 向量的创建 Introduction to Bioinformatics
字符型 character<-c("China", "Korea", "Japan", "UK", "USA", "France", "India", "Russia") 数值型 numeric<-c(1, 3, 6, 7, 3, 8, 6, 4) 逻辑型 logical<-c(T, F, T, F, T, F, F, T) rep(2,times=4) seq(from=3, to=21, by=3 ) 通过与向量的组合,产生更为复杂的向量。 rep(1:2,c(10,15)) 随机数的生成 runif(10, min = 0, max= 1) rnorm(10, mean = 0, sd = 1)

11 矩阵的创建 Introduction to Bioinformatics dim()和matrix() >x <- 1:12
>dim(x) <- c(3,4) [,1] [,2] [,3] [,4] [1,] [2,] [3,] >matrix.x <- matrix(1:12,nrow=3,byrow=T) >t(x) #转置 为行或列添加名称: row.names() col.names()

12 数据框的创建 Introduction to Bioinformatics cbind() # 按列组合成数据框
country.data<-cbind(character,numeric,logical) rbind() # 按行组合成数据框 data.frame() #生成数据框 d <- data.frame(character,numeric,logical) head(d) #访问数据的前6行: 例子: st<-data.frame(Name=c("John","James","Ming"), Age=c(13,12,13), sex=c("F","M","F") )

13 Introduction to Bioinformatics

14 Introduction to Bioinformatics

15 绘图函数 plot() 绘制散点图等多种图形 hist() 直方图 boxplot() 箱线图 stripchart() 点图
Introduction to Bioinformatics 绘图函数 plot() 绘制散点图等多种图形 hist() 直方图 boxplot() 箱线图 stripchart() 点图 barplot() 条形图 dotplot() 点图 piechart() 饼图 interaction.plot() matplot() Heatmap() ……

16 工作空间 ls() 列出工作空间中的对象 rm() 删除工作空间中的对象 rm(list=ls()) 删除空间中所有对象
Introduction to Bioinformatics 工作空间 ls() 列出工作空间中的对象 rm() 删除工作空间中的对象 rm(list=ls()) 删除空间中所有对象 save.image() 保存工作镜像 sink() 将运行结果保存到指定文件中 getwd() 显示当前工作文件夹 setwd() 设定工作文件夹

17 练习:了解工作路径 1 查看当前R工作的空间目录 getwd() 2 将R工作的路径设置为 d:\R setwd(“d:\\R”)
Introduction to Bioinformatics 练习:了解工作路径 1 查看当前R工作的空间目录 getwd() 2 将R工作的路径设置为 d:\R setwd(“d:\\R”) setwd(“d:/R”)

18 外部数据读取 Introduction to Bioinformatics
最为常用的数据读取方式是用read.table() 函数或read.csv()函数读取外部txt或csv格式的文件 (txt文件,制表符间隔;csv文件,逗号间隔)。同样有write.table()和write.csv()。 一些R程序包(如foreign)也提供了直接读取Excel, SAS, dbf, Matlab, spss, systat, Minitab文件的函数。 read.table(file=“….”, header = FALSE, sep = "", …) write.table(d, file = “d:/R/xx.txt", row.names = F, sep="\t")  # tab 分隔的文件

19 实例:表达谱数据绘图 下载http://bis.zju.edu.cn/download/R/expressiondata.txt
getwd() setwd("D:/") exp=read.table("expressiondata.txt") class(exp) ?heatmap exp1=as.matrix(exp) heatmap(exp1)

20 R程序包 为什么要安装程序包? 特定的分析功能,需要用相应的程序包实现。
Introduction to Bioinformatics R程序包 为什么要安装程序包? 特定的分析功能,需要用相应的程序包实现。 例如:系统发育分析,往往要用到ape程序包,群落生态学vegan包等等。 程序包是什么? R程序包是多个函数的集合,具有详细的说明和示例。 Window下的R程序包是已经编译好的zip包。 每个程序包包含R函数、数据、帮助文件、描述文件等。

21 常用R程序包 Introduction to Bioinformatics base- R 基础功能包 stats- R统计学包
Graphics 绘图 lattice 栅格图 ape 系统发育与进化分析 seqinr DNA序列分析 ade 利用欧几里得方法进行生态学数据分析 cluster 聚类分析 ecodist 生态学数据相异性分析 mgcv 广义加性模型相关 mvpart 多变量分解 nlme 线性及非线性混合效应模型 ouch 系统发育比较 BiodiversityR 基于Rcmdr的生物多样性数据分析 vegan 植物与植物群落的排序,生物多样性计算 ……

22 Introduction to Bioinformatics
Bioconductor就是一个基于R语言的、面向基因组信息分析的应用软件集合。 Bioconductor的应用功能是以包的集成形式呈现在用户面前,它提供的软件包中包括各种基因组数据分析和注释工具。 1104个软件包

23

24

25


Download ppt "Introduction to Bioinformatics"

Similar presentations


Ads by Google