龙星课程—肿瘤生物信息学上机课程 曹莎 Email:scaorobin@sina.com.

Slides:



Advertisements
Similar presentations
第四节 细胞中的糖类和脂质 沫若中学 刘建英.
Advertisements

統 計 程 式 語 言.
龙星课程—肿瘤生物信息学上机课程 曹莎
第六章 细胞的生命历程 第六章 细胞的生命历程 第3节 细胞的衰老和凋亡. 第六章 细胞的生命历程 第六章 细胞的生命历程 第3节 细胞的衰老和凋亡.
第一章 資料結構導論 1-1 資料結構簡介 1-2 認識程式設計 1-3 演算法效能分析 1-4 物件導向程式設計與Java.
Performance Evaluation
資料庫設計 Database Design.
Introduction to Matlab
R语言初步 彭司华 上海海洋大学
Matlab教學 Speaker:林昱志 Date:2012/10/18.
1012 MATLAB 教學 彭奕翔 2013/02/27.
妇女心理保健讲座 硕放街道社区教育中心 丁惠芬.
13-14学年度生物学科教研室总结计划 2014年2月.
必修1 分子与细胞 第二章 第三节 细 细胞溶胶 内质网 胞 核糖体 质 高尔基体 线粒体 第一课时 浙江省定海第一中学 黄晓芬.
第三章 隨機變數.
System Administration Practice Homework 2: Shell Programming
Euler’s method of construction of the Exponential function
3.2细胞器的结构与功能.
R 基础培训 Mango - Solutions ShangHai China.
張智星 清大資工系 補充內容:方煒 台大生機系 小幅修改:吳俊仲 長庚機械系
張智星 清大資工系 補充內容:方煒 台大生機系
第七章 SPSS的非参数检验.
C 程式設計— 語言簡介 台大資訊工程學系 資訊系統訓練班.
中国散裂中子源小角谱仪 的实验数据格式与处理算法 报告人:张晟恺 中国科学院高能物理研究所 SCE 年8月18日
Transact-SQL 語言設計教學.
1 巨集 2 資料型態 3 物件、屬性、方法與事件 4 陳述式與副函式 5 其他注意事項 6 範例
Matlab M檔案 方煒 台大生機系.
Sampling Theory and Some Important Sampling Distributions
Homework 4.
數學與電腦 的初相識 汪群超 個人網址: 變有不可者三,有不可不變者三: 能力未至不可變也、 學識未敷不得變也、 功侯未到不能變也。
创建型设计模式.
C++ 程式設計— 語言簡介 台大資訊工程學系 資訊系統訓練班.
第3章 變數、常數與資料型態 3-1 C語言的識別字 3-2 變數的宣告與初值 3-3 指定敘述 3-4 C語言的資料型態
Vector and Matrix(向量與矩陣) 羅琪老師
Chapter 2 Basic Elements of Fortran
第3章 變數、資料型別與運算子 3-1 變數與資料型別的基礎 3-2 變數的命名與宣告 3-3 資料型別 3-4 運算式與運算子
第三章 项目设定.
R语言简介 来源 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用 来进行数据挖掘、统计分析、作图的解释型语言。最初S语言的实 现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言, 并由MathSoft公司的统计科学部进一步完善。 1995年由新西兰Auckland大学统计系的Robert.
2.1 定义及其抽选方法 2.2 总体均值、总量、比例的估计 2.3 样本量的确定 2.4 逆抽样与设计效应
邏輯設計 Logic Design 顧叔財, Room 9703, (037)381864,
Introduction to Bioinformatics
Chapter 5 Recursion.
Metabolic biomarker signature to differentiate pancreatic ductal adenocarcinoma from chronic pancreatitis Gut, 2017, Jan (IF=14.921) 汇报人:王宁 IMI CONFIDENTIAL.
计算机问题求解 – 论题3-2 - 贪心算法 2018年09月18日.
線性代數 Chap 1 (1) 線性方程式及向量 授課教師 任才俊.
中国科学技术大学计算机系 陈香兰 2013Fall 第七讲 存储器管理 中国科学技术大学计算机系 陈香兰 2013Fall.
虚 拟 仪 器 virtual instrument
MATLAB 程式設計入門篇 初探MATLAB
Computational Thinking & Programming
從 ER 到 Logical Schema ──兼談Schema Integration
Inheritance -II.
计算机问题求解 – 论题1-5 - 数据与数据结构 2018年10月16日.
第7章 基本统计分析 2019/5/14.
主講 / Alice Lee 李麗貞 2006 主題二 叫我第一名 主講 / Alice Lee 李麗貞
SLIQ:一种快速可伸缩分类器 Manish Mehta, Rakesh Agrawal, Jorma Rissanen IBM Almaden Research Center, 1996 报告人:郭新涛
Ch07. 函式.
统计软件应用 2 主讲人 陶育纯 SPSS 统计软件应用 2 主讲人 陶育纯 教案.
Introduction to Matlab
神秘方塊.
2012 程式設計比賽 Openfind 天使帝國 v2.0 (蓋亞的紋章).
何正斌 博士 國立屏東科技大學工業管理研究所 教授
2 Number Systems, Operations, and Codes
怎樣把同一評估 給與在不同班級的學生 How to administer the Same assessment to students from Different classes and groups.
Arguments to the main Function and Final Project
并行计算 Parallel Computing 方匡南 厦门大学教授 博士生导师.
MATLAB 結構化財務程式之撰寫 MATLAB財務程式實作應用研習 主題五 資管所 陳竑廷
生命科学学院 生物信息学实验室 冯聪 03/18, 2019 Hangzhou
Gaussian Process Ruohua Shi Meeting
SAS 統計程序實作 PROC MEANS (一個母體)
Presentation transcript:

龙星课程—肿瘤生物信息学上机课程 曹莎 Email:scaorobin@sina.com

课程安排 各类数据类型的介绍,简单的R入门; 基因表达数据和蛋白表达数据的相关性; 差异性表达的检验, 假阳性检验(FDR), 批次效应(batch effect); 基因突变数据以及表达通路的富集分析 基因表达数据的相关性以及双聚类分析 各类数据的整合 基因表达数据和metabolic profiling的数据;基因表达数据和表观遗传数据的整合

数据类型的介绍—基因表达数据 Microarray 如何获取? 这些数据有何信息? 高通量测量几万个探针 精度较低 GEO Dataset, array-express, TCGA 这些数据有何信息?

使用microarray数据须知 Organism Experimental design Sample list (Sample distribution, sample size) Platform Important!!!!

数据类型的介绍—基因表达数据 RNA-seq 如何获取? TCGA, SRA 这些数据测有何信息?

Data levels and data types https://tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp

数据类型的介绍—基因组数据 Somatic point mutation 如何获取? 这些数据测的是什么?有何信息? TCGA, GEO SRA 这些数据测的是什么?有何信息?

数据类型的介绍—表观遗传数据 DNA甲基化数据 如何获取? TCGA, GEO Dataset 这些数据测的是什么,有何信息?

数据类型的介绍—表观遗传数据 Histone modification数据 如何获取? 这些数据测的是什么,有何信息? Very limited 这些数据测的是什么,有何信息?

数据类型的介绍—蛋白质组学数据 Protein array 如何获取? 这些数据测的是什么?有何信息? TCGA, literature search 这些数据测的是什么?有何信息?

数据类型的介绍—代谢组学数据 Metabolic profiling 如何获取? 这些数据测的是什么?有何信息? literature search 这些数据测的是什么?有何信息?

简单的R入门 简单的数据处理 统计检验 统计建模(回归,矩阵分解等) 可视化

Print print(matrix(c(1,2,3,4), 2, 2)) print(list("a","b","c"))

Basis functions ls() rm() c() #creating a vector, c() is a function mode() # class() # mean(x) median(x) sd(x) var(x) cor(x, y) # cov(x, y)

Creating Sequences 1:5 5:1 seq(from=0, to=20, by=5) 1.1:10.1 1.1:10.3 a<-rep(0,3) rep(c(1,2,a),2)

Basic calculations + - * / %% ^ %*% #matrix multiply log(x) sin(x) exp() e Pi Inf NA

Data mode: Physical Type mode(3.1415) # Mode of a number [1] "numeric" > mode(c(2.7182, 3.1415)) # Mode of a vector of numbers > mode("Moe") # Mode of a character string [1] "character"

Data Class: Abstract type scalar array (vector) matrix From array to matrix factor (looks like a vector, but has special properties, for Categorical variables or grouping) data.frame

data.frame matrix Same data mode in each column Unique Row/column names (rownames, colnames) One row of a data.frame is a data.frame as.data.frame(****) Same data mode in the whole matrix Can have repeated Row/column names One row of matrix is an array (vector) as.matrix(****)

这门课处理的数据类型 Clinical data-> data.frame Experimental data-> data.frame or matrix Microarray data RNA seq data Somatic mutation data Protein array DNA methylation data

Data combining cbind rbind Eg. Combine data by column Combine data by row Eg. a<-matrix(0,2,2) b<-matrix(1,2,2) cbind(a,b) rbind(a,b)

length a<-c(1:5) length(a)

apply Apply Functions Over Array Margins apply(DATA, MARGIN, FUNCTION, ...) MARGIN= 1 for rows; 2 for columns Eg. m <- matrix(c(1:10, 11:20), nrow = 10, ncol = 2) apply(m, 1, mean) apply(m, 2, mean)

Pattern寻找 Which command which(****),**** should be a logical operation which(****), return the index of TRUE elements in the logical operation Eg x<- floor(10*runif(10)) x which(x<5) x[which(x<5)]

For loop For loop: http://en.wikipedia.org/wiki/For_loop In computer science a for loop is a programming language statement which allows code to be repeatedly executed Question: Calculate the sum of all the values in the vector x<- floor(10*runif(10))

For loop Real computer program! Eg. for(i in 1:100){ print("Hello world!") print(i*i) }

For loop for(*** in ***){} for(VARIABLE in TARGETSET){} for(i in 1:100){} x <-floor(10*runif(10)) total_x<-0 for(i in 1:length(x)) { print(i) print(x[i]) total_x<-total_x+x[i] }

Working directory getwd() setwd(“****”) list.files() load(“****”) save.image(“****”)

实例 摘出colon cancer的clinical information中所有二期和三期的样本

步骤 将数据load进来 找到数据中所有的期的信息 用for循环将所有的一期,二期的样本摘出来,并且合并所有的数据