Ming Chen’s Group of Bioinformatics

Slides:

Advertisements

Similar presentations

苏教版八（上）第七单元第 19 章第二节拒绝毒品. 虞美人罂粟花你知道每年的 6 月 26 日什么是什么日子吗？国际禁毒日 Yes to life No to drug.

Advertisements

如何科学认识风水主讲嘉宾孙百川揭开神秘的面纱揭开神秘的面纱破除迷信的枷锁破除迷信的枷锁还易经本来面目还易经本来面目学易用易不迷易学易用易不迷易.

魏晉南北朝的胡漢融和概況. 北朝的漢胡融和 1) 北朝漢胡融和的概況 2) 北魏孝文帝推行的漢化措施及影響北邊民族徙居中原，由來已久。自曹魏招用胡兵始，沿邊胡族內徙日繁。不少胡族君主更傾心嚮慕漢族文化，大力促成胡漢的融和。北魏推行的漢化措施，影響尤為深遠。

IT 服务与业务发展融合王维航北京华胜天成科技股份有限公司十分钟的悲剧.

蕭文生中正大學法律系教授兼法學院院長.  壹、前言  貳、司法院釋字第六八四號解釋  參、大學生之受教權  肆、大學自治之範疇  伍、大學生之其他基本權利  陸、救濟管道之改善  柒、結語.

大陸學歷採認相關問題楊景堯淡江大學中國大陸研究所. 學歷採認的定義與範圍廣義的定義 — 承認學歷狹義的定義 — 具備任職, 任教, 考試資格範圍 — 高等教育為主台灣人取得大陸學歷的採認大陸人取得大陸學歷的採認外國人取得大陸學歷的採認.

手动换页域外风情系列儿子去美国留学，毕业后定居美国。还给我找了个洋媳妇苏珊。如今，小孙子托比已经 3 岁了。今年夏天，儿子为我申请了探亲签证。在美国待了三个月，洋媳妇苏珊教育孩子的方法，令我这个中国婆婆大开眼界。

提昇餐廳供餐品質及服務滿意度標竿學習主題標竿學習計劃排定進度分析客戶對餐廳供餐滿意度偏低原因：

第八課謝天. 第八課謝天作者主旨文章作法民國陳之藩謙卑感恩，功成不居以「謝天」的傳統觀念為中心，經由疑惑、思索、領悟三個層次的敘述，賦予新的意義 ★題目含義：表示對很多「人」的感謝。

99學年度第1學期導師輔導工作座談會全校性共同必修服務學習課程報告單位：學務處領導知能與服務學習中心.

台灣首府大學樂齡大學講座系列財務規劃與財產繼承主講人:李錦智.

如何做個稱職的父母財團法人雲林縣雲萱婦幼文教基金會王招萍.

对应用型本科建设中若干问题的认识张家钰

愛的勝利 (羅馬書 8:31-39).

李韶山教授、博士生导师华南师范大学生命科学学院

報告人方萱玉 100上學期教學組業務報告.

老子《道德經》明代張路老子騎牛圖.

校园信息管理系统河北科技大学网络中心 2000/4/10.

何处安放我们的青春？透视大学毕业生 “族化”生存现象.

成長的腳印記敘文課文朗讀.

李白杜甫詩中的"月"和"風" --電腦如何用於古典詩詞鑒賞

99年成語200題庫(21-40).

安徽水利水电职业技术学院简介.

分子生物学任课教师：宋方洲马永平易发平刘智敏卜友泉基础医学院生物化学与分子生物学教研室.

語文強化系列～修辭大觀～創意文句‧生動鮮明康軒6上語文特寫.

TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design

系統分析與設計系級：資管三B 姓名：朱秋儒學號：

課程：諮商概論指導老師：李秀玉老師閱讀書籍：傷癒—低估自我的醫治（一）（P.60～69）

课程改革：培养学生的独立人格 ——中学校长《课程改革与校长担当》论坛的讲话郭振有

香港普通話研習社科技創意小學周順強老師.

徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之

绪论　珍惜大学生活开拓新的境界.

医学分子生物学 Medical Molecular Biology

讲义大家好！根据局领导的指示，在局会计科和各业务科室的安排下，我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽，便于我们为预算单位提供更优质的服务。下面我主要从三方面介绍集中支付业务，一是网上支付系统，二是集中支付业务流程及规定等，

课程改革与教师成长泰安市岱岳区教研室程同森.

甲型H1N1流感防制 ——卫生部技术指南成都市疾病预防控制中心传染病防制科

结直肠癌肝转移负相关基因：SPARCL1的发现与功能研究

一言之辩强于九鼎之宝三寸之舌胜于百万雄师

中国人民公安大学经费管理办法（试行）第一章总则第四条：“一支笔” “一支笔”--仅指单位主要负责人。负责对本单位的经费进行审核审批。

視覺藝術的媒材與技巧蘇虹融湯詩婷指導老師：李建緯老師.

时代发展趋势：科学人文交融华中科技大学杨叔子 2010年2月修改.

第十四章基因诊断和基因治疗表型的改变是由基因异常造成的表型的改变是由基因异常造成的.

2013级研究生年级大会南京理工大学设计艺术与传媒学院

生物資訊 bioinformatics 林育慶.

生物信息学第三章基因组学与序列分析张高川生物信息学教研室 (Department of Bioinformatics)

生物資訊 (Bioinformatics)

Hybridization of Nucleic Acids

國立陽明大學臨床醫學研究所簡報 2005 報告人臨床醫學研究所所長吳肇卿教授.

Analysis of microarray data

R语言简介来源 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据挖掘、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件，它基于S语言，并由MathSoft公司的统计科学部进一步完善。 1995年由新西兰Auckland大学统计系的Robert.

Introduction to Bioinformatics

C2-10 SNP Genotyping 服務 Primer 設計-快速入門

第十一章动物基因组学（Animal Genomics）.

普通高等教育 “十三五”规划教材生物信息学 Bioinformatics 非编码RNA 01/29, 2019 邵朝纲、陈铭.

转录组学数据分析 Ming Chen’s Group of Bioinformatics 冯聪

相關統計觀念復習 Review II.

钢铁塑成的花朵宋美龄，1897年3月5日出生于中国上海，广东文昌县人（今海南省），与宋蔼龄、宋庆龄并称为宋氏三姐妹，父亲为富商宋嘉澍。

選擇勞退新制，終身免煩惱勞工退休金新制說明會.

微信商城系统操作说明色卡会智能门店.

狀態愛擁有個別差異平均準則主觀意欲非物質生活客觀標準物質生活. 狀態愛擁有個別差異平均準則主觀意欲非物質生活客觀標準物質生活.

聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝.

用SQSamples样品管理系统工作更简单

設計者：台中市重慶國小張祐榕.楊晟汶.張儷齡

大綱一.受試者之禮券/禮品所得稅規範二.範例介紹三.自主管理四.財務室提醒.

生命科学学院生物信息学实验室冯聪 03/18, 2019 Hangzhou

台灣房價指數台灣房屋中央大學 2011年7月29日.

績優教師分享美容保健科林品瑄教師.

Presentation transcript:

转录组学 01/15, 2017 ventson@zju.edu.cn Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组学 01/15, 2017 ventson@zju.edu.cn

前言基因组学转录组学蛋白质组学中心法则：遗传信息传递 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 前言基因组学转录组学蛋白质组学 from en.wikipedia 中心法则：遗传信息传递

技术发展 NGS 转录组学研究技术革新 SAGE CAGE MPSS Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 技术发展 Experiment-based Northern blot RT-PCR Hybridization-based Microarray Sequencing-based SAGE CAGE MPSS Advanced seq NGS 3GS Single cell 转录组学研究技术革新

差异表达可变剪切共表达转录调控应用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 应用差异表达可变剪切共表达转录调控

RNA测序（RNA-sequencing） Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University RNA测序（RNA-sequencing） from GATC Biotech 1.试验设计 2.测序流程 3.数据分析 4.验证实验

试验设计问题导向型数据导向型生物学重复（3-5个）样本提取（分类和保存）数据异质性（平台、个体差异）确定分析流程分析工具选用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 试验设计问题导向型生物学重复（3-5个）样本提取（分类和保存）测序深度（简单基因表达分析需5M以上reads，小RNA至少30M）文库构建（链特异性非特异性）测序策略（单端和双末端）测序平台（读长、通量和准确率等）数据导向型数据异质性（平台、个体差异）确定分析流程分析工具选用

测序流程 Ming Chen’s Group of Bioinformatics mRNA：Poly A富集 ncRNA：rRNA移除 @College of Life Science, Zhejiang University 测序流程 mRNA：Poly A富集 ncRNA：rRNA移除 Griffith, M. (2015) PLoS computational biology

数据分析流程 RNA-seq数据分析常规流程系统配置数据获取质量控制比对组装表达定量差异表达聚类分析功能富集共表达网络 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据分析流程系统配置数据获取质量控制比对组装表达定量差异表达聚类分析功能富集共表达网络 RNA-seq数据分析常规流程

系统配置 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 系统配置

数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress 公共数据库测序公司 Fastq文件格式： Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress fastq-dump (SRAToolkit) 公共数据库测序公司 Fastq文件格式：

质量控制 FastQC—测序质量评估 FASTX-Toolkit，Trimmomatic—质量控制 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 质量控制去接头；过滤低质量reads FastQC—测序质量评估 FASTX-Toolkit，Trimmomatic—质量控制

比对（reads mapping）非剪接比对—Bowtie，BWA （不考虑可变剪切） Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对（reads mapping）非剪接比对—Bowtie，BWA （不考虑可变剪切）剪接比对—TopHat，STAR，HISAT/GSNAP，MapSplice(SNP) TopHat工作原理 Trapnell, C. (2009) Bioinformatics

比对结果比对结果文件—SAM（SAMtools）比对结果可视化—IGV (local) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对结果比对结果文件—SAM（SAMtools）比对结果可视化—IGV (local) 比对结果评估—Qualimap (summary)

表达定量 Reads counting Normalization Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 表达定量 Reads counting 只保留唯一匹配reads —HTSeq-count，featureCounts 保留多重匹配reads —Cufflinks，StringTie，RSEM Normalization RPKM，FPKM，TPM —校正测序深度、基因长度 DESeq/edgeR(TMM) —校正异常高表达基因

比对组装策略选择 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对组装策略选择 Conesa, A. (2016) Genome Biology

差异表达分析选取样本：样本相关性，大样本降维（主成分分析）模型选择：高斯分布（正态），泊松分布（v=μ），负二项分布（v=μ+αμ2） Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异表达分析选取样本：样本相关性，大样本降维（主成分分析）模型选择：高斯分布（正态），泊松分布（v=μ），负二项分布（v=μ+αμ2）差异检验：组间差异（处理差异）— 组内差异（个体差异）?= 0 筛选条件：p value（多重检验校正） & FoldChange（差异倍数）工具版本标准化方式模型假设统计检验 edgeR 3.18.1 TMM/Upper quartile/RLE 负二项分布 Exact test DESeq2 1.16.1 DESeq sizeFactors Wald test/LRT baySeq 2.10.0 quantile/TMM/total empirical Bayesian NOIseq 2.20.0 RPKM/TMM/Upper quartile 非参数 Condition vs. null Limma 3.32.10 TMM voom 转换 Empirical Bayes Cuffdiff2 2.2.1 Geometric/quartile/FPKM β负二项分布 t-test EBSeq 1.16.0 DESeq median normalization 常用差异表达分析工具比较

聚类分析基因表达聚类结果（pheatmap） Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 聚类分析单基因分析 vs. 基因模块分析常用聚类方法：K-means（K均值），层次聚类，SOM（自组织映射），FCM（模糊C均值）基因表达聚类结果（pheatmap）

富集分析基因集功能集常用工具：DAVID，agriGO，GSEA，IPA，clusterProfiler GSEA原理 超几何分布 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 富集分析 GO/KEGG 基因集功能集常用工具：DAVID，agriGO，GSEA，IPA，clusterProfiler GSEA原理 Subramanian, A. (2005) PNAS 表达量-样本相关性排序，功能基因集分布，计算富集得分 超几何分布特定功能集S 不属于功能集S 总基因数目标基因 x k-x k 背景基因 M N-M N Fisher精确检验

共表达网络基因集基因网络不同样本表达模式相似的基因功能应该也类似根据表达量计算相关性矩阵，构建共表达网络 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 共表达网络基因集基因网络不同样本表达模式相似的基因功能应该也类似相互作用根据表达量计算相关性矩阵，构建共表达网络 Interaction，相关性系数：Pearson，Spearman 无标度网络  WGCNA权重基因共表达网络分析 核心基因（Hub genes） MCODE网络模块挖掘（子网络） CytoScape网络可视化

验证试验 PCR，凝胶电泳相关性因果关系基因敲除，敲减，过表达 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 验证试验 PCR，凝胶电泳相关性因果关系基因敲除，敲减，过表达

拓展全长转录本（三代测序）技术革新单细胞测序（single cell）整合应用多组学整合：基因组，表观组，蛋白组，代谢组，表型组 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 拓展全长转录本（三代测序）技术革新单细胞测序（single cell）多组学整合：基因组，表观组，蛋白组，代谢组，表型组非编码：lncRNA，circRNA 表观转录组：m6A修饰整合应用

操作实践核心分析转录组核心数据分析在linux系统中完成（内存、时间），具体步骤可参考《生物信息学》第3版书籍及视频教程 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践转录组核心数据分析在linux系统中完成（内存、时间），具体步骤可参考《生物信息学》第3版书籍及视频教程核心分析表达量矩阵：基因X样本

操作实践统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集

软件安装 CRAN #从cran安装pheatmap，ggplot2 chooseCRANmirror() Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 软件安装 http://www.bioconductor.org/ DESeq2（差异表达分析） ggplot2（作图） pheatmap（聚类可视化） CRAN #从cran安装pheatmap，ggplot2 chooseCRANmirror() install.packages(“pheatmap”) library(pheatmap) install.packages(“ggplot2”) library(ggplot2) #从bioconductor安装DESeq2 chooseBioCmirror() #China Anhui source("http://www.bioconductor.org/biocLite.R") biocLite("DESeq2") library(DESeq2)

差异分析 #数据预处理 setwd(“F:/rnaseq/data”) #设置工作目录（根据自己存放数据的目录修改） Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #数据预处理 setwd(“F:/rnaseq/data”) #设置工作目录（根据自己存放数据的目录修改） library(DESeq2) #载入DESeq2包 #reads计数数据表操作 countTable <- read.table("count.txt", sep = "\t", header = FALSE) #读入reads计数矩阵 tail(countTable) #查看数据表最后的“小尾巴” countTable <- countTable[- c(33611:33615), ] #去除描述行 rownames(countTable) <- countTable$V1 #将基因ID设置为行名 countTable <- countTable[, - 1] #删除基因ID列 colnames(countTable) <- c("SRR3418005", "SRR3418006", "SRR3418019", "SRR3418020") #更改数据表列名 countTable <- countTable[- which(rowSums(countTable) < 4), ] #过滤count总数小于4的基因 nrow(countTable) #查看数据表行数（基因个数） tail(countable) #查看修改后的数据表末尾六行 #设置样本处理信息（实验 vs. 对照） colData <- data.frame(row.names = colnames(countTable), condition = c("ABA", "mock", "ABA", "mock"))

差异分析 #DESeq2操作 #生成DESeqDataSet数据集 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #DESeq2操作 #生成DESeqDataSet数据集 dds <- DESeqDataSetFromMatrix(countData = countTable, colData = colData, design = ~ condition) dds #查看数据集 dds$condition #查看样本处理信息 dds$condition <- relevel(dds$condition, "mock") #更改mock水平（使DESeq计算FoldChange时mock组作为分母） dds$condition #查看更改水平后的样本处理信息 dds <- DESeq(dds) #差异表达计算 res <- results(dds) #生成差异表达结果 summary(res) #查看总结信息（表达上调，下调等） resOrdered <- res[order(res$padj), ] #按照校准后p值排序 write.csv(resOrdered, "DESeq2_results_all.csv") #将差异表达分析结果输出到csv文件 deg <- subset(resOrdered, padj <= 0.01 & abs(log2FoldChange) >= 2) #筛选显著差异表达基因（padj小于0.01且FoldChange绝对值大于4） summary(deg) #查看筛选后的总结信息 write.csv(deg, "DESeq2_results_significant.csv") #将差异表达显著的结果输出到csv文件

差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2) volcano_data <- read.csv("DESeq2_results_all.csv", row.names = "X") #读入差异表达结果 volcano_data <- na.omit(volcano_data) #删除含NA的行 significant <- as.factor(abs(volcano_data$log2FoldChange) >=2 & volcano_data$padj <= 0.01) #设置显著性阈值 ggplot(volcano_data, aes(x = log2FoldChange, y = - log10(padj))) + geom_point(aes(shape = significant, color = significant)) + xlim(c(-10, 10)) + labs(x = “log2FoldChange”, y = “-log10 padj”) + scale_y_continuous(limits = c(0, 20), expand = c(0, 0)) + scale_shape_discrete(labels =c (“no”, “yes”)) + scale_color_discrete(labels = c(“no”, “yes”)) #ggplot2命令

聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap) deseq_results_significant <- read.csv("DESeq2_results_significant.csv", row.names = "X") #读入显著差异表达结果 significant_genes <- rownames(deseq_results_significant) #提取显著差异基因 fpkm_gtf <- read.table("fpkm.gtf") #读入FPKM注释文件 fpkm_gtf <- fpkm_gtf[-which(fpkm_gtf$V2 == "-" | fpkm_gtf$V2 == "."), ] #删除Gene ID未知的行 rownames(fpkm_gtf) <- fpkm_gtf$V2 #将Gene ID设置为行名 fpkm_significant_genes <- fpkm_gtf[significant_genes, 9:12] #提取显著差异基因的FPKM值 colnames(fpkm_significant_genes) <- c("SRR3418005", "SRR3418006", "SRR3418019", "SRR3418020") #设置列名 fpkm_significant_genes <- na.omit(fpkm_significant_genes) #删除含NA值的行 pheatmap(log2(t(fpkm_significant_genes + 1)), show_colnames = FALSE) #所有差异基因热图 pheatmap(log2(t(fpkm_significant_genes[1:30, ] + 1))) #差异基因top30热图

功能富集 DAVID agriGO WEGO clusterProfiler MetaScape 物种覆盖较全；数据更新慢植物基因富集专用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 功能富集 DAVID 物种覆盖较全；数据更新慢 agriGO 植物基因富集专用 WEGO 富集结果可视化 clusterProfiler 实时抓取；富集方法全面；R语言 MetaScape 操作简单；可视化效果好；物种较少

DAVID使用 Ming Chen’s Group of Bioinformatics 点击开始分析 @College of Life Science, Zhejiang University DAVID使用点击开始分析

DAVID使用第一步：导入基因列表/文件第四步：提交运行第二步：选择ID类型 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University DAVID使用第一步：导入基因列表/文件第三步：基因列表/背景示例文件第四步：提交运行第二步：选择ID类型

DAVID使用功能分析 Ming Chen’s Group of Bioinformatics 选择功能类型（GO，KEGG） @College of Life Science, Zhejiang University DAVID使用选择功能类型（GO，KEGG）功能分析

DAVID使用功能聚类集富集结果列表 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University DAVID使用功能聚类集富集结果列表

MetaScape使用提交运行选择物种上传基因 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University MetaScape使用上传基因选择物种提交运行

什么是转录组学？ RNA-seq的研究内容？如何分析RNA-seq数据？总结 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 总结什么是转录组学？ RNA-seq的研究内容？如何分析RNA-seq数据？

谢谢！转录组分析浙江大学生命科学学院生物信息学实验室 http://bis.zju.edu.cn Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组分析谢谢！浙江大学生命科学学院生物信息学实验室 http://bis.zju.edu.cn