Introduction to Bioinformatics

Slides:



Advertisements
Similar presentations
RESSET 金融研究数据库 RESSET/DB 操作指南 经济金融研究数据专业平台 北京聚源锐思数据科技有限公司.
Advertisements

第 3 章 统计整理 统计学. 【学习目标】 1. 理解统计整理的作用、原则及分类; 2. 掌握分配数列的分类及其编制方法; 3. 掌握统计图表的绘制方法。 第3章第3章.
公職人員財產申報 查詢窗口單一化及 無紙化作業規劃. 2 大 綱 壹、作業原則 貳、作業方式 參、提供資料內容 肆、配合事項.
国务院批准城市用地实施方案备案系统培训提纲国土资源部信息中心 2007 年 12 月 2007 年 12 月.
《公路纵断面设计》 —— 纵断面设计的要求 道桥系 二○○七年五月. 纵断面设计的一般要求 1 .纵坡设计必须满足《公路工程技术标准》中的各项规定。 2 .为保证汽车能以一定的车速安全舒顺地行驶,纵坡应具有 — 定 的平顺性,起伏不宜过大及过于频繁。尽量避免采用极限纵坡 值.缓和坡段应自然地配合地形设置,在连续采用极限长度的.
中国宏观经济数据库 ( 国泰安研究服务中心 ). 一、数据库简介  “ 国泰安研究服务中心 ” ( )是 中国经济、金融、会计研究的门户网站,主要从事 股票市场、上市公司、基金市场、期货市场、债券 市场、货币市场等经济数据的采集和研究服务。  国泰安研究服务中心由数据服务、研究服务与学者.
RESSET 金融研究数据库RESSET/DB 操作指南
RESSET 金融研究数据库RESSET/DB 操作指南
中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报 华中师范大学 中国旅游研究院武汉分院 二〇一一年十二月.
国家科技计划体系暨 国家重点新产品计划 申报简介
永豐奇狐全球版 公測說明會 主辦單位:永豐期貨股份有限公司 2013/01/29.
第七讲 第3章 Office 2000_Excel 2000(二)
統 計 程 式 語 言.
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
智学网账号登录 1、打开网页,在地址栏里输入 2、点击登录,输入用户名和密码,即可登录:
探討某醫院志工 中華醫事科技大學 參與服務動機影響因子 指導老師: 趙 海 倫 老 師 班 級: 四 醫 管 四 A
R语言与回归分析 R简介 R语言分析一个简单的线性模型 总结与展望 作业.
发展生产、满足消费
九十四年度社區腎臟保健推廣 成果報告 財團法人彰化基督教醫院 楊郁 醫師.
发行人短信服务与名册优化介绍 China Securities Depository
第十一章:思路与谋篇 教学内容: 1、思路及有关概念; 2、谋篇(结构)的原则; 3、谋篇的方法(层次段落安排, 过度与照应,开头与结尾).
DOE & EXCEL, SPSS application
按按按高互動遙控教學系統.
計算機概論 使用Excel製作試算表.
R语言初步 彭司华 上海海洋大学
定风波.
教育訓練.
第6章 字符串、数组、簇和矩阵.
权力的行使:需要监督 北京市京源学校 冯 悦.
武汉市武昌区疾病预防控制中心 全永霞 副主任医师
資料轉換.
远程教育站点管理 及齐鲁先锋平台的使用 平阴县党员干部现代远程教育中心.
Microsoft Excel 2000 試算表初階 中央大學 計算機中心 周小慧.
Moodle試用報告 林俊卿.
传媒学院2013年度团委工作 总结分析报告
捷安特&僑光科大 校外實習說明會 蘇聖雄 捷安特經營本部
R 基础培训 Mango - Solutions ShangHai China.
Ming Chen’s Group of Bioinformatics
R教學 安裝R 羅琪老師.
和諧社區資訊服務推廣計畫 -軟體雲端社區 資訊研習營
數學與電腦 的初相識 汪群超 個人網址: 變有不可者三,有不可不變者三: 能力未至不可變也、 學識未敷不得變也、 功侯未到不能變也。
R財務分析與互動式介面 教學實務經驗分享 明新科技大學教師社群 田慧君 于昌永 靜宜大學財務與計算數學系
R语言简介 来源 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用 来进行数据挖掘、统计分析、作图的解释型语言。最初S语言的实 现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言, 并由MathSoft公司的统计科学部进一步完善。 1995年由新西兰Auckland大学统计系的Robert.
和諧社區資訊服務推廣計畫 -軟體雲端社區 資訊研習營
Introduction to MATLAB
授課教授:張寶基 助教:梁凱雯 郭千豪 音視訊處理實驗室 2014 / 9 / 30
網路遊戲版 幸福農場168號.
实验二 中文版Windows XP基本操作1 2019/4/4.
RESSET 数据库 RESSET/DB 操作指南
Quiz3 繳交期限: 10/26(四) 23:59前.
数学建模 江西财经大学 数学与管理决策系 制作:华长生 华长生制作.
龙星课程—肿瘤生物信息学上机课程 曹莎
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
地方科技基础条件资源调查管理信息系统 (标准化器)操作培训 2017年7月 呼和浩特
遊戲設計 Homework3 – 小朋友下樓梯.
攜物型自走車 專題報告.
数数据的基本操作 电子工业出版社.
企業籌資更便捷 大眾投資更穩當 新版公開資訊觀測站操作介紹 2013年10月.
臺北市99學年度 輔導分發選習國民中學技藝教育學程 就讀高中職實用技能學程宣導說明會
參考書籍:林惠玲與陳正倉(2002),應用統計學(第二版)。台北:雙葉書廊有限公司。
集中保管有價證券 提存帳簿劃撥作業介紹 (發行人版)
第一章 概說.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
第6章 字符串、数组、簇和矩阵.
并行计算 Parallel Computing 方匡南 厦门大学教授 博士生导师.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
第二章生物體的組成 南一版.
生命科学学院 生物信息学实验室 冯聪 03/18, 2019 Hangzhou
認識 Excel 與SPSS.
全國高級中等學校專業群科 食品群專題組之專題製作 經驗分享 報告者:北門農工 (劉軒如).
Presentation transcript:

Introduction to Bioinformatics

Introduction to Bioinformatics R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业 软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。 1995年由新西兰Auckland大学统计系的Robert Gentleman和Ross Ihaka,编写了一种能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言。 R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计绘图的优秀工具。

The Comprehensive R Archive Network简称CRAN,提供下载安装程序和相应软件包。 Introduction to Bioinformatics R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能;可以与其它语言相互调用 。 R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的,在那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得,涵盖了基础统计学、社会学、经济学、生态学、地理学、医学统计学、生物信息学等诸多方面。 The Comprehensive R Archive Network简称CRAN,提供下载安装程序和相应软件包。 R主页 http://www.r-project.org/

http://www.r-project.org/ http://bis.zju.edu.cn/download/R/

Introduction to Bioinformatics 菜单栏 快捷按钮 控制台 命令行 R登陆界面(Windows版)

Introduction to Bioinformatics 数据类型 (基础类型) 数值型 Numeric 如 100, 0, -4.335 复数型 Complex 如 1+2i 字符型 Character 如 “China” 逻辑型 Logical 如TRUE, FALSE 数据类型(结构化数据) 向量(vector) 一系列元素的组合。 数组(array) 数组是k维的数据表。 矩阵(matrix) 矩阵是数组的一个特例,维数k = 2。 因子(factor) 因子是一个分类变量,如“a”,”a”,”a”,”a”,”b”,”b”,”b”,”c”,”c” 数据框(dataframe) 是由一个或几个向量和(或)因子构成,它们必须是等长的,但可以是不同的数据类型。 列表(list) 列表可以包含任何类型的对象。

Introduction to Bioinformatics 基本的命令由表达式或者赋值语句组成。如果一个表达式被作为一条命令给出,它将被求值、打印而表达式的值并不被保存。一个赋值语句同样对表达式求值之后把表达式的值传给一个变量,不过并不会自动的被打印出来。

R的函数 Introduction to Bioinformatics R是一种解释性语言,不需要先编译成.exe文件,输入后可直接运行。 函数形式 function(对象,选项= ) 每一个函数执行特定的功能,后面紧跟括号,函数名+()并将对象放入括号中,例如: 平均值 mean() 求和 sum() 绘图 plot() 排序 sort() 除了基本的运算之外,R的函数又分为高级和低级函数,高级函数内部嵌套了复杂的低级函数,例如plot()是高级绘图函数,函数本身会根据数据的类型,经过程序内部的函数判别之后,绘制相应类型的图形,并有大量的参数可选择。

查看帮助文件 1 help("t.test") 2 ?t.test 3 help.search("t.test") Introduction to Bioinformatics 查看帮助文件 1 help("t.test") 2 ?t.test 3 help.search("t.test") 4 apropos("t.test") 5 RGui>Help>Html help 6 查看R包pdf手册

向量的创建 Introduction to Bioinformatics 字符型 character<-c("China", "Korea", "Japan", "UK", "USA", "France", "India", "Russia") 数值型 numeric<-c(1, 3, 6, 7, 3, 8, 6, 4) 逻辑型 logical<-c(T, F, T, F, T, F, F, T) rep(2,times=4) seq(from=3, to=21, by=3 ) 通过与向量的组合,产生更为复杂的向量。 rep(1:2,c(10,15)) 随机数的生成 runif(10, min = 0, max= 1) rnorm(10, mean = 0, sd = 1)

矩阵的创建 Introduction to Bioinformatics dim()和matrix() >x <- 1:12 >dim(x) <- c(3,4) [,1] [,2] [,3] [,4] [1,] 1 4 7 10 [2,] 2 5 8 11 [3,] 3 6 9 12 >matrix.x <- matrix(1:12,nrow=3,byrow=T) >t(x) #转置 为行或列添加名称: row.names() col.names()

数据框的创建 Introduction to Bioinformatics cbind() # 按列组合成数据框 country.data<-cbind(character,numeric,logical) rbind() # 按行组合成数据框 data.frame() #生成数据框 d <- data.frame(character,numeric,logical) head(d) #访问数据的前6行: 例子: st<-data.frame(Name=c("John","James","Ming"), Age=c(13,12,13), sex=c("F","M","F") )

Introduction to Bioinformatics

Introduction to Bioinformatics

绘图函数 plot() 绘制散点图等多种图形 hist() 直方图 boxplot() 箱线图 stripchart() 点图 Introduction to Bioinformatics 绘图函数 plot() 绘制散点图等多种图形 hist() 直方图 boxplot() 箱线图 stripchart() 点图 barplot() 条形图 dotplot() 点图 piechart() 饼图 interaction.plot() matplot() Heatmap() ……

工作空间 ls() 列出工作空间中的对象 rm() 删除工作空间中的对象 rm(list=ls()) 删除空间中所有对象 Introduction to Bioinformatics 工作空间 ls() 列出工作空间中的对象 rm() 删除工作空间中的对象 rm(list=ls()) 删除空间中所有对象 save.image() 保存工作镜像 sink() 将运行结果保存到指定文件中 getwd() 显示当前工作文件夹 setwd() 设定工作文件夹

练习:了解工作路径 1 查看当前R工作的空间目录 getwd() 2 将R工作的路径设置为 d:\R setwd(“d:\\R”) Introduction to Bioinformatics 练习:了解工作路径 1 查看当前R工作的空间目录 getwd() 2 将R工作的路径设置为 d:\R setwd(“d:\\R”) setwd(“d:/R”)

外部数据读取 Introduction to Bioinformatics 最为常用的数据读取方式是用read.table() 函数或read.csv()函数读取外部txt或csv格式的文件 (txt文件,制表符间隔;csv文件,逗号间隔)。同样有write.table()和write.csv()。 一些R程序包(如foreign)也提供了直接读取Excel, SAS, dbf, Matlab, spss, systat, Minitab文件的函数。 read.table(file=“….”, header = FALSE, sep = "", …) write.table(d, file = “d:/R/xx.txt", row.names = F, sep="\t")  # tab 分隔的文件

实例:表达谱数据绘图 下载http://bis.zju.edu.cn/download/R/expressiondata.txt getwd() setwd("D:/") exp=read.table("expressiondata.txt") class(exp) ?heatmap exp1=as.matrix(exp) heatmap(exp1)

R程序包 为什么要安装程序包? 特定的分析功能,需要用相应的程序包实现。 Introduction to Bioinformatics R程序包 为什么要安装程序包? 特定的分析功能,需要用相应的程序包实现。 例如:系统发育分析,往往要用到ape程序包,群落生态学vegan包等等。 程序包是什么? R程序包是多个函数的集合,具有详细的说明和示例。 Window下的R程序包是已经编译好的zip包。 每个程序包包含R函数、数据、帮助文件、描述文件等。

常用R程序包 Introduction to Bioinformatics base- R 基础功能包 stats- R统计学包 Graphics- 绘图 lattice- 栅格图 ape- 系统发育与进化分析 seqinr- DNA序列分析 ade4- 利用欧几里得方法进行生态学数据分析 cluster- 聚类分析 ecodist- 生态学数据相异性分析 mgcv- 广义加性模型相关 mvpart- 多变量分解 nlme- 线性及非线性混合效应模型 ouch- 系统发育比较 BiodiversityR - 基于Rcmdr的生物多样性数据分析 vegan- 植物与植物群落的排序,生物多样性计算 ……

Introduction to Bioinformatics Bioconductor就是一个基于R语言的、面向基因组信息分析的应用软件集合。 Bioconductor的应用功能是以包的集成形式呈现在用户面前,它提供的软件包中包括各种基因组数据分析和注释工具。 1104个软件包