Ming Chen’s Group of Bioinformatics

转录组学 01/15, 2017 ventson@zju.edu.cn
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组学 01/15, 2017

前言基因组学转录组学蛋白质组学中心法则：遗传信息传递 Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University 前言基因组学转录组学蛋白质组学 from en.wikipedia 中心法则：遗传信息传递

技术发展 NGS 转录组学研究技术革新 SAGE CAGE MPSS Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University 技术发展 Experiment-based Northern blot RT-PCR Hybridization-based Microarray Sequencing-based SAGE CAGE MPSS Advanced seq NGS 3GS Single cell 转录组学研究技术革新

差异表达可变剪切共表达转录调控应用 Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University 应用差异表达可变剪切共表达转录调控

RNA测序（RNA-sequencing）
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University RNA测序（RNA-sequencing） from GATC Biotech 1.试验设计 2.测序流程 3.数据分析 4.验证实验

试验设计问题导向型数据导向型生物学重复（3-5个）样本提取（分类和保存）数据异质性（平台、个体差异）确定分析流程分析工具选用
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 试验设计问题导向型生物学重复（3-5个）样本提取（分类和保存）测序深度（简单基因表达分析需5M以上reads，小RNA至少30M）文库构建（链特异性非特异性）测序策略（单端和双末端）测序平台（读长、通量和准确率等）数据导向型数据异质性（平台、个体差异）确定分析流程分析工具选用

测序流程 Ming Chen’s Group of Bioinformatics mRNA：Poly A富集 ncRNA：rRNA移除
@College of Life Science, Zhejiang University 测序流程 mRNA：Poly A富集 ncRNA：rRNA移除 Griffith, M. (2015) PLoS computational biology

数据分析流程 RNA-seq数据分析常规流程系统配置数据获取质量控制比对组装表达定量差异表达聚类分析功能富集共表达网络
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据分析流程系统配置数据获取质量控制比对组装表达定量差异表达聚类分析功能富集共表达网络 RNA-seq数据分析常规流程

系统配置 Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University 系统配置

数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress 公共数据库测序公司 Fastq文件格式：
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress fastq-dump (SRAToolkit) 公共数据库测序公司 Fastq文件格式：

质量控制 FastQC—测序质量评估 FASTX-Toolkit，Trimmomatic—质量控制
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 质量控制去接头；过滤低质量reads FastQC—测序质量评估 FASTX-Toolkit，Trimmomatic—质量控制

比对（reads mapping）非剪接比对—Bowtie，BWA （不考虑可变剪切）
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对（reads mapping）非剪接比对—Bowtie，BWA （不考虑可变剪切）剪接比对—TopHat，STAR，HISAT/GSNAP，MapSplice(SNP) TopHat工作原理 Trapnell, C. (2009) Bioinformatics

比对结果比对结果文件—SAM（SAMtools）比对结果可视化—IGV (local)
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对结果比对结果文件—SAM（SAMtools）比对结果可视化—IGV (local) 比对结果评估—Qualimap (summary)

表达定量 Reads counting Normalization Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University 表达定量 Reads counting 只保留唯一匹配reads —HTSeq-count，featureCounts 保留多重匹配reads —Cufflinks，StringTie，RSEM Normalization RPKM，FPKM，TPM —校正测序深度、基因长度 DESeq/edgeR(TMM) —校正异常高表达基因

比对组装策略选择 Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University 比对组装策略选择 Conesa, A. (2016) Genome Biology

差异表达分析选取样本：样本相关性，大样本降维（主成分分析）模型选择：高斯分布（正态），泊松分布（v=μ），负二项分布（v=μ+αμ2）
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异表达分析选取样本：样本相关性，大样本降维（主成分分析）模型选择：高斯分布（正态），泊松分布（v=μ），负二项分布（v=μ+αμ2）差异检验：组间差异（处理差异）— 组内差异（个体差异）?= 0 筛选条件：p value（多重检验校正） & FoldChange（差异倍数）工具版本标准化方式模型假设统计检验 edgeR 3.18.1 TMM/Upper quartile/RLE 负二项分布 Exact test DESeq2 1.16.1 DESeq sizeFactors Wald test/LRT baySeq 2.10.0 quantile/TMM/total empirical Bayesian NOIseq 2.20.0 RPKM/TMM/Upper quartile 非参数 Condition vs. null Limma TMM voom 转换 Empirical Bayes Cuffdiff2 2.2.1 Geometric/quartile/FPKM β负二项分布 t-test EBSeq 1.16.0 DESeq median normalization 常用差异表达分析工具比较

聚类分析基因表达聚类结果（pheatmap） Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University 聚类分析单基因分析 vs. 基因模块分析常用聚类方法：K-means（K均值），层次聚类，SOM（自组织映射），FCM（模糊C均值）基因表达聚类结果（pheatmap）

富集分析基因集功能集常用工具：DAVID，agriGO，GSEA，IPA，clusterProfiler GSEA原理 超几何分布
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 富集分析 GO/KEGG 基因集功能集常用工具：DAVID，agriGO，GSEA，IPA，clusterProfiler GSEA原理 Subramanian, A. (2005) PNAS 表达量-样本相关性排序，功能基因集分布，计算富集得分 超几何分布特定功能集S 不属于功能集S 总基因数目标基因 x k-x k 背景基因 M N-M N Fisher精确检验

共表达网络基因集基因网络不同样本表达模式相似的基因功能应该也类似根据表达量计算相关性矩阵，构建共表达网络
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 共表达网络基因集基因网络不同样本表达模式相似的基因功能应该也类似相互作用根据表达量计算相关性矩阵，构建共表达网络 Interaction，相关性系数：Pearson，Spearman 无标度网络  WGCNA权重基因共表达网络分析 核心基因（Hub genes） MCODE网络模块挖掘（子网络） CytoScape网络可视化

验证试验 PCR，凝胶电泳相关性因果关系基因敲除，敲减，过表达 Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University 验证试验 PCR，凝胶电泳相关性因果关系基因敲除，敲减，过表达

拓展全长转录本（三代测序）技术革新单细胞测序（single cell）整合应用多组学整合：基因组，表观组，蛋白组，代谢组，表型组
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 拓展全长转录本（三代测序）技术革新单细胞测序（single cell）多组学整合：基因组，表观组，蛋白组，代谢组，表型组非编码：lncRNA，circRNA 表观转录组：m6A修饰整合应用

操作实践核心分析转录组核心数据分析在linux系统中完成（内存、时间），具体步骤可参考《生物信息学》第3版书籍及视频教程
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践转录组核心数据分析在linux系统中完成（内存、时间），具体步骤可参考《生物信息学》第3版书籍及视频教程核心分析表达量矩阵：基因X样本

操作实践统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集

软件安装 CRAN #从cran安装pheatmap，ggplot2 chooseCRANmirror()
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 软件安装 DESeq2（差异表达分析） ggplot2（作图） pheatmap（聚类可视化） CRAN #从cran安装pheatmap，ggplot2 chooseCRANmirror() install.packages(“pheatmap”) library(pheatmap) install.packages(“ggplot2”) library(ggplot2) #从bioconductor安装DESeq2 chooseBioCmirror() #China Anhui source(" biocLite("DESeq2") library(DESeq2)

差异分析 #数据预处理 setwd(“F:/rnaseq/data”) #设置工作目录（根据自己存放数据的目录修改）
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #数据预处理 setwd(“F:/rnaseq/data”) #设置工作目录（根据自己存放数据的目录修改） library(DESeq2) #载入DESeq2包 #reads计数数据表操作 countTable <- read.table("count.txt", sep = "\t", header = FALSE) #读入reads计数矩阵 tail(countTable) #查看数据表最后的“小尾巴” countTable <- countTable[- c(33611:33615), ] #去除描述行 rownames(countTable) <- countTable$V1 #将基因ID设置为行名 countTable <- countTable[, - 1] #删除基因ID列 colnames(countTable) <- c("SRR ", "SRR ", "SRR ", "SRR ") #更改数据表列名 countTable <- countTable[- which(rowSums(countTable) < 4), ] #过滤count总数小于4的基因 nrow(countTable) #查看数据表行数（基因个数） tail(countable) #查看修改后的数据表末尾六行 #设置样本处理信息（实验 vs. 对照） colData <- data.frame(row.names = colnames(countTable), condition = c("ABA", "mock", "ABA", "mock"))

差异分析 #DESeq2操作 #生成DESeqDataSet数据集
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #DESeq2操作 #生成DESeqDataSet数据集 dds <- DESeqDataSetFromMatrix(countData = countTable, colData = colData, design = ~ condition) dds #查看数据集 dds$condition #查看样本处理信息 dds$condition <- relevel(dds$condition, "mock") #更改mock水平（使DESeq计算FoldChange时mock组作为分母） dds$condition #查看更改水平后的样本处理信息 dds <- DESeq(dds) #差异表达计算 res <- results(dds) #生成差异表达结果 summary(res) #查看总结信息（表达上调，下调等） resOrdered <- res[order(res$padj), ] #按照校准后p值排序 write.csv(resOrdered, "DESeq2_results_all.csv") #将差异表达分析结果输出到csv文件 deg <- subset(resOrdered, padj <= 0.01 & abs(log2FoldChange) >= 2) #筛选显著差异表达基因（padj小于0.01且FoldChange绝对值大于4） summary(deg) #查看筛选后的总结信息 write.csv(deg, "DESeq2_results_significant.csv") #将差异表达显著的结果输出到csv文件

差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2)
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2) volcano_data <- read.csv("DESeq2_results_all.csv", row.names = "X") #读入差异表达结果 volcano_data <- na.omit(volcano_data) #删除含NA的行 significant <- as.factor(abs(volcano_data$log2FoldChange) >=2 & volcano_data$padj <= 0.01) #设置显著性阈值 ggplot(volcano_data, aes(x = log2FoldChange, y = - log10(padj))) + geom_point(aes(shape = significant, color = significant)) + xlim(c(-10, 10)) + labs(x = “log2FoldChange”, y = “-log10 padj”) + scale_y_continuous(limits = c(0, 20), expand = c(0, 0)) + scale_shape_discrete(labels =c (“no”, “yes”)) + scale_color_discrete(labels = c(“no”, “yes”)) #ggplot2命令

聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap)
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap) deseq_results_significant <- read.csv("DESeq2_results_significant.csv", row.names = "X") #读入显著差异表达结果 significant_genes <- rownames(deseq_results_significant) #提取显著差异基因 fpkm_gtf <- read.table("fpkm.gtf") #读入FPKM注释文件 fpkm_gtf <- fpkm_gtf[-which(fpkm_gtf$V2 == "-" | fpkm_gtf$V2 == "."), ] #删除Gene ID未知的行 rownames(fpkm_gtf) <- fpkm_gtf$V2 #将Gene ID设置为行名 fpkm_significant_genes <- fpkm_gtf[significant_genes, 9:12] #提取显著差异基因的FPKM值 colnames(fpkm_significant_genes) <- c("SRR ", "SRR ", "SRR ", "SRR ") #设置列名 fpkm_significant_genes <- na.omit(fpkm_significant_genes) #删除含NA值的行 pheatmap(log2(t(fpkm_significant_genes + 1)), show_colnames = FALSE) #所有差异基因热图 pheatmap(log2(t(fpkm_significant_genes[1:30, ] + 1))) #差异基因top30热图

功能富集 DAVID agriGO WEGO clusterProfiler MetaScape 物种覆盖较全；数据更新慢植物基因富集专用
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 功能富集 DAVID 物种覆盖较全；数据更新慢 agriGO 植物基因富集专用 WEGO 富集结果可视化 clusterProfiler 实时抓取；富集方法全面；R语言 MetaScape 操作简单；可视化效果好；物种较少

DAVID使用 Ming Chen’s Group of Bioinformatics 点击开始分析
@College of Life Science, Zhejiang University DAVID使用点击开始分析

DAVID使用第一步：导入基因列表/文件第四步：提交运行第二步：选择ID类型
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University DAVID使用第一步：导入基因列表/文件第三步：基因列表/背景示例文件第四步：提交运行第二步：选择ID类型

DAVID使用功能分析 Ming Chen’s Group of Bioinformatics 选择功能类型（GO，KEGG）
@College of Life Science, Zhejiang University DAVID使用选择功能类型（GO，KEGG）功能分析

DAVID使用功能聚类集富集结果列表 Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University DAVID使用功能聚类集富集结果列表

MetaScape使用提交运行选择物种上传基因 Ming Chen’s Group of Bioinformatics
@College of Life Science, Zhejiang University MetaScape使用上传基因选择物种提交运行

什么是转录组学？ RNA-seq的研究内容？如何分析RNA-seq数据？总结
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 总结什么是转录组学？ RNA-seq的研究内容？如何分析RNA-seq数据？

谢谢！转录组分析浙江大学生命科学学院生物信息学实验室 http://bis.zju.edu.cn
Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组分析谢谢！浙江大学生命科学学院生物信息学实验室

Ming Chen’s Group of Bioinformatics

Similar presentations

Presentation on theme: "Ming Chen’s Group of Bioinformatics"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

Ming Chen’s Group of Bioinformatics

Similar presentations

Presentation on theme: "Ming Chen’s Group of Bioinformatics"— Presentation transcript:

Similar presentations

About project

反馈