转录组学 01/15, 2017 ventson@zju.edu.cn Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组学 01/15, 2017 ventson@zju.edu.cn
前言 基因组学 转录组学 蛋白质组学 中心法则:遗传信息传递 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 前言 基因组学 转录组学 蛋白质组学 from en.wikipedia 中心法则:遗传信息传递
技术发展 NGS 转录组学研究技术革新 SAGE CAGE MPSS Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 技术发展 Experiment-based Northern blot RT-PCR Hybridization-based Microarray Sequencing-based SAGE CAGE MPSS Advanced seq NGS 3GS Single cell 转录组学研究技术革新
差异表达 可变剪切 共表达 转录调控 应用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 应用 差异表达 可变剪切 共表达 转录调控
RNA测序(RNA-sequencing) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University RNA测序(RNA-sequencing) from GATC Biotech 1.试验设计 2.测序流程 3.数据分析 4.验证实验
试验设计 问题导向型 数据导向型 生物学重复(3-5个) 样本提取(分类和保存) 数据异质性(平台、个体差异) 确定分析流程 分析工具选用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 试验设计 问题导向型 生物学重复(3-5个) 样本提取(分类和保存) 测序深度(简单基因表达分析需5M以上reads,小RNA至少30M) 文库构建(链特异性非特异性) 测序策略(单端和双末端) 测序平台(读长、通量和准确率等) 数据导向型 数据异质性(平台、个体差异) 确定分析流程 分析工具选用
测序流程 Ming Chen’s Group of Bioinformatics mRNA:Poly A富集 ncRNA:rRNA移除 @College of Life Science, Zhejiang University 测序流程 mRNA:Poly A富集 ncRNA:rRNA移除 Griffith, M. (2015) PLoS computational biology
数据分析流程 RNA-seq数据分析常规流程 系统配置 数据获取 质量控制 比对组装 表达定量 差异表达 聚类分析 功能富集 共表达网络 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据分析流程 系统配置 数据获取 质量控制 比对组装 表达定量 差异表达 聚类分析 功能富集 共表达网络 RNA-seq数据分析常规流程
系统配置 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 系统配置
数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress 公共数据库 测序公司 Fastq文件格式: Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress fastq-dump (SRAToolkit) 公共数据库 测序公司 Fastq文件格式:
质量控制 FastQC—测序质量评估 FASTX-Toolkit,Trimmomatic—质量控制 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 质量控制 去接头;过滤低质量reads FastQC—测序质量评估 FASTX-Toolkit,Trimmomatic—质量控制
比对(reads mapping) 非剪接比对—Bowtie,BWA (不考虑可变剪切) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对(reads mapping) 非剪接比对—Bowtie,BWA (不考虑可变剪切) 剪接比对—TopHat,STAR,HISAT/GSNAP,MapSplice(SNP) TopHat工作原理 Trapnell, C. (2009) Bioinformatics
比对结果 比对结果文件—SAM(SAMtools) 比对结果可视化—IGV (local) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对结果 比对结果文件—SAM(SAMtools) 比对结果可视化—IGV (local) 比对结果评估—Qualimap (summary)
表达定量 Reads counting Normalization Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 表达定量 Reads counting 只保留唯一匹配reads —HTSeq-count,featureCounts 保留多重匹配reads —Cufflinks,StringTie,RSEM Normalization RPKM,FPKM,TPM —校正测序深度、基因长度 DESeq/edgeR(TMM) —校正异常高表达基因
比对组装策略选择 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对组装策略选择 Conesa, A. (2016) Genome Biology
差异表达分析 选取样本:样本相关性,大样本降维(主成分分析) 模型选择:高斯分布(正态),泊松分布(v=μ),负二项分布(v=μ+αμ2) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异表达分析 选取样本:样本相关性,大样本降维(主成分分析) 模型选择:高斯分布(正态),泊松分布(v=μ),负二项分布(v=μ+αμ2) 差异检验:组间差异(处理差异)— 组内差异(个体差异)?= 0 筛选条件:p value(多重检验校正) & FoldChange(差异倍数) 工具 版本 标准化方式 模型假设 统计检验 edgeR 3.18.1 TMM/Upper quartile/RLE 负二项分布 Exact test DESeq2 1.16.1 DESeq sizeFactors Wald test/LRT baySeq 2.10.0 quantile/TMM/total empirical Bayesian NOIseq 2.20.0 RPKM/TMM/Upper quartile 非参数 Condition vs. null Limma 3.32.10 TMM voom 转换 Empirical Bayes Cuffdiff2 2.2.1 Geometric/quartile/FPKM β负二项分布 t-test EBSeq 1.16.0 DESeq median normalization 常用差异表达分析工具比较
聚类分析 基因表达聚类结果(pheatmap) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 聚类分析 单基因分析 vs. 基因模块分析 常用聚类方法:K-means(K均值),层次聚类,SOM(自组织映射),FCM(模糊C均值) 基因表达聚类结果(pheatmap)
富集分析 基因集 功能集 常用工具:DAVID,agriGO,GSEA,IPA,clusterProfiler GSEA原理 超几何分布 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 富集分析 GO/KEGG 基因集 功能集 常用工具:DAVID,agriGO,GSEA,IPA,clusterProfiler GSEA原理 Subramanian, A. (2005) PNAS 表达量-样本相关性排序,功能基因集分布,计算富集得分 超几何分布 特定功能集S 不属于功能集S 总基因数 目标基因 x k-x k 背景基因 M N-M N Fisher精确检验
共表达网络 基因集 基因网络 不同样本表达模式相似的基因功能应该也类似 根据表达量计算相关性矩阵,构建共表达网络 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 共表达网络 基因集 基因网络 不同样本表达模式相似的基因功能应该也类似 相互作用 根据表达量计算相关性矩阵,构建共表达网络 Interaction,相关性系数:Pearson,Spearman 无标度网络 WGCNA权重基因共表达网络分析 核心基因(Hub genes) MCODE网络模块挖掘(子网络) CytoScape网络可视化
验证试验 PCR,凝胶电泳 相关性 因果关系 基因敲除,敲减,过表达 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 验证试验 PCR,凝胶电泳 相关性 因果关系 基因敲除,敲减,过表达
拓展 全长转录本(三代测序) 技术革新 单细胞测序(single cell) 整合应用 多组学整合:基因组,表观组,蛋白组,代谢组,表型组 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 拓展 全长转录本(三代测序) 技术革新 单细胞测序(single cell) 多组学整合:基因组,表观组,蛋白组,代谢组,表型组 非编码:lncRNA,circRNA 表观转录组:m6A修饰 整合应用
操作实践 核心分析 转录组核心数据分析在linux系统中完成(内存、时间),具体步骤可参考《生物信息学》第3版书籍及视频教程 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践 转录组核心数据分析在linux系统中完成(内存、时间),具体步骤可参考《生物信息学》第3版书籍及视频教程 核心分析 表达量矩阵:基因X样本
操作实践 统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践 统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集
软件安装 CRAN #从cran安装pheatmap,ggplot2 chooseCRANmirror() Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 软件安装 http://www.bioconductor.org/ DESeq2(差异表达分析) ggplot2(作图) pheatmap(聚类可视化) CRAN #从cran安装pheatmap,ggplot2 chooseCRANmirror() install.packages(“pheatmap”) library(pheatmap) install.packages(“ggplot2”) library(ggplot2) #从bioconductor安装DESeq2 chooseBioCmirror() #China Anhui source("http://www.bioconductor.org/biocLite.R") biocLite("DESeq2") library(DESeq2)
差异分析 #数据预处理 setwd(“F:/rnaseq/data”) #设置工作目录(根据自己存放数据的目录修改) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #数据预处理 setwd(“F:/rnaseq/data”) #设置工作目录(根据自己存放数据的目录修改) library(DESeq2) #载入DESeq2包 #reads计数数据表操作 countTable <- read.table("count.txt", sep = "\t", header = FALSE) #读入reads计数矩阵 tail(countTable) #查看数据表最后的“小尾巴” countTable <- countTable[- c(33611:33615), ] #去除描述行 rownames(countTable) <- countTable$V1 #将基因ID设置为行名 countTable <- countTable[, - 1] #删除基因ID列 colnames(countTable) <- c("SRR3418005", "SRR3418006", "SRR3418019", "SRR3418020") #更改数据表列名 countTable <- countTable[- which(rowSums(countTable) < 4), ] #过滤count总数小于4的基因 nrow(countTable) #查看数据表行数(基因个数) tail(countable) #查看修改后的数据表末尾六行 #设置样本处理信息(实验 vs. 对照) colData <- data.frame(row.names = colnames(countTable), condition = c("ABA", "mock", "ABA", "mock"))
差异分析 #DESeq2操作 #生成DESeqDataSet数据集 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #DESeq2操作 #生成DESeqDataSet数据集 dds <- DESeqDataSetFromMatrix(countData = countTable, colData = colData, design = ~ condition) dds #查看数据集 dds$condition #查看样本处理信息 dds$condition <- relevel(dds$condition, "mock") #更改mock水平(使DESeq计算FoldChange时mock组作为分母) dds$condition #查看更改水平后的样本处理信息 dds <- DESeq(dds) #差异表达计算 res <- results(dds) #生成差异表达结果 summary(res) #查看总结信息(表达上调,下调等) resOrdered <- res[order(res$padj), ] #按照校准后p值排序 write.csv(resOrdered, "DESeq2_results_all.csv") #将差异表达分析结果输出到csv文件 deg <- subset(resOrdered, padj <= 0.01 & abs(log2FoldChange) >= 2) #筛选显著差异表达基因(padj小于0.01且FoldChange绝对值大于4) summary(deg) #查看筛选后的总结信息 write.csv(deg, "DESeq2_results_significant.csv") #将差异表达显著的结果输出到csv文件
差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2) volcano_data <- read.csv("DESeq2_results_all.csv", row.names = "X") #读入差异表达结果 volcano_data <- na.omit(volcano_data) #删除含NA的行 significant <- as.factor(abs(volcano_data$log2FoldChange) >=2 & volcano_data$padj <= 0.01) #设置显著性阈值 ggplot(volcano_data, aes(x = log2FoldChange, y = - log10(padj))) + geom_point(aes(shape = significant, color = significant)) + xlim(c(-10, 10)) + labs(x = “log2FoldChange”, y = “-log10 padj”) + scale_y_continuous(limits = c(0, 20), expand = c(0, 0)) + scale_shape_discrete(labels =c (“no”, “yes”)) + scale_color_discrete(labels = c(“no”, “yes”)) #ggplot2命令
聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap) deseq_results_significant <- read.csv("DESeq2_results_significant.csv", row.names = "X") #读入显著差异表达结果 significant_genes <- rownames(deseq_results_significant) #提取显著差异基因 fpkm_gtf <- read.table("fpkm.gtf") #读入FPKM注释文件 fpkm_gtf <- fpkm_gtf[-which(fpkm_gtf$V2 == "-" | fpkm_gtf$V2 == "."), ] #删除Gene ID未知的行 rownames(fpkm_gtf) <- fpkm_gtf$V2 #将Gene ID设置为行名 fpkm_significant_genes <- fpkm_gtf[significant_genes, 9:12] #提取显著差异基因的FPKM值 colnames(fpkm_significant_genes) <- c("SRR3418005", "SRR3418006", "SRR3418019", "SRR3418020") #设置列名 fpkm_significant_genes <- na.omit(fpkm_significant_genes) #删除含NA值的行 pheatmap(log2(t(fpkm_significant_genes + 1)), show_colnames = FALSE) #所有差异基因热图 pheatmap(log2(t(fpkm_significant_genes[1:30, ] + 1))) #差异基因top30热图
功能富集 DAVID agriGO WEGO clusterProfiler MetaScape 物种覆盖较全;数据更新慢 植物基因富集专用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 功能富集 DAVID 物种覆盖较全;数据更新慢 agriGO 植物基因富集专用 WEGO 富集结果可视化 clusterProfiler 实时抓取;富集方法全面;R语言 MetaScape 操作简单;可视化效果好;物种较少
DAVID使用 Ming Chen’s Group of Bioinformatics 点击开始分析 @College of Life Science, Zhejiang University DAVID使用 点击开始分析
DAVID使用 第一步:导入基因列表/文件 第四步:提交运行 第二步:选择ID类型 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University DAVID使用 第一步:导入基因列表/文件 第三步:基因列表/背景 示例文件 第四步:提交运行 第二步:选择ID类型
DAVID使用 功能分析 Ming Chen’s Group of Bioinformatics 选择功能类型(GO,KEGG) @College of Life Science, Zhejiang University DAVID使用 选择功能类型(GO,KEGG) 功能分析
DAVID使用 功能聚类集 富集结果列表 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University DAVID使用 功能聚类集 富集结果列表
MetaScape使用 提交运行 选择物种 上传基因 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University MetaScape使用 上传基因 选择物种 提交运行
什么是转录组学? RNA-seq的研究内容? 如何分析RNA-seq数据? 总结 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 总结 什么是转录组学? RNA-seq的研究内容? 如何分析RNA-seq数据?
谢谢! 转录组分析 浙江大学生命科学学院 生物信息学实验室 http://bis.zju.edu.cn Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组分析 谢谢! 浙江大学生命科学学院 生物信息学实验室 http://bis.zju.edu.cn