Ming Chen’s Group of Bioinformatics

Slides:



Advertisements
Similar presentations
苏教版 八(上) 第七单元 第 19 章 第二节 拒绝毒品. 虞美人罂粟花 你知道每年的 6 月 26 日 什么 是什么日子吗? 国际禁毒日 Yes to life No to drug.
Advertisements

如何科学认识风水 主讲嘉宾孙百川 揭开神秘的面纱 揭开神秘的面纱 破除迷信的枷锁 破除迷信的枷锁 还易经本来面目 还易经本来面目 学易用易不迷易 学易用易不迷易.
魏晉南北朝的胡漢融和概況. 北朝的漢胡融和 1) 北朝漢胡 融和的概 況 2) 北魏孝文 帝推行的 漢化措施 及影響 北邊民族徙居中原,由 來已久。自曹魏招用胡 兵始,沿邊胡族內徙日 繁。不少胡族君主更傾 心嚮慕漢族文化,大力 促成胡漢的融和。北魏 推行的漢化措施,影響 尤為深遠。
IT 服务与业务发展融合 王维航 北京华胜天成科技股份有限公司 十分钟的悲剧.
蕭文生 中正大學法律系教授兼法學院院長.  壹、前言  貳、司法院釋字第六八四號解釋  參、大學生之受教權  肆、大學自治之範疇  伍、大學生之其他基本權利  陸、救濟管道之改善  柒、結語.
大陸學歷採認相關問題 楊景堯 淡江大學中國大陸研究所. 學歷採認的定義與範圍 廣義的定義 — 承認學歷 狹義的定義 — 具備任職, 任教, 考試資格 範圍 — 高等教育為主 台灣人取得大陸學歷的採認 大陸人取得大陸學歷的採認 外國人取得大陸學歷的採認.
手动换页 域外风情系列 儿子去美国留学,毕业后定居美国。还给我找了 个洋媳妇苏珊。如今,小孙子托比已经 3 岁了。 今年夏天,儿子为我申请了探亲签证。在美国待 了三个月,洋媳妇苏珊教育孩子的方法,令我这 个中国婆婆大开眼界。
提昇餐廳供餐品質 及服務滿意度 標竿學習主題 標竿學習計劃排定進度 分析客戶對餐廳供餐滿意度偏低原因:
第八課 謝 天. 第八課 謝 天 作者主旨文章作法 民國 陳之藩 謙卑感 恩,功 成不居 以「謝天」的傳統觀念 為中心,經由疑惑、思 索、領悟三個層次的敘 述,賦予新的意義 ★題目含義:表示對很多「人」的感謝。
99學年度第1學期導師輔導工作座談會 全校性共同必修服務學習課程 報告單位:學務處領導知能與服務學習中心.
台灣首府大學 樂齡大學講座系列 財務規劃與財產繼承 主講人:李錦智.
如何做個稱職的父母 財團法人雲林縣雲萱婦幼文教基金會 王招萍.
对应用型本科建设中若干问题的认识 张家钰
愛的勝利 (羅馬書 8:31-39).
李韶山 教授、博士生导师 华南师范大学 生命科学学院
報告人 方萱玉 100上學期教學組業務報告.
老 子 《道德經》 明代張路 老子騎牛圖.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
何处安放 我们的青春? 透视 大学毕业生 “族化”生存现象.
成長的腳印 記敘文 課文朗讀.
李白杜甫詩中的"月"和"風" --電腦如何用於古典詩詞鑒賞
99年成語200題庫(21-40).
安徽水利水电职业技术学院 简介.
分 子 生 物 学 任课教师:宋方洲 马永平 易发平 刘智敏 卜友泉 基础医学院生物化学与分子生物学教研室.
語文強化系列 ~修辭大觀~ 創意文句‧生動鮮明 康軒6上語文特寫.
TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design
系統分析與設計 系級:資管三B 姓名:朱秋儒 學號:
課程:諮商概論 指導老師:李秀玉老師 閱讀書籍:傷癒—低估自我的醫治(一) (P.60~69)
课程改革:培养学 生的独立人格 ——中学校长《课程改革 与校长担当》论坛的讲话 郭振有
香港普通話研習社科技創意小學 周順強老師.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
绪 论  珍惜大学生活 开拓新的境界.
医学分子生物学 Medical Molecular Biology
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
课程改革与教师成长 泰安市岱岳区教研室 程同森.
甲型H1N1流感防制 ——卫生部技术指南 成都市疾病预防控制中心 传染病防制科
结直肠癌肝转移负相关基因:SPARCL1的发现与功能研究
一言之辩强于九鼎之宝 三寸之舌胜于百万雄师
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
視覺藝術的媒材與技巧 蘇虹融 湯詩婷 指導老師:李建緯老師.
时代发展趋势: 科学人文交融 华中科技大学 杨叔子 2010年2月修改.
第十四章 基因诊断和基因治疗 表型的改变是由基因异常造成的 表型的改变是由基因异常造成的.
2013级研究生年级大会 南京理工大学设计艺术与传媒学院
生物資訊 bioinformatics 林育慶.
生物信息学 第三章 基因组学与序列分析 张高川 生物信息学教研室 (Department of Bioinformatics)
生物資訊 (Bioinformatics)
Hybridization of Nucleic Acids
國立陽明大學 臨床醫學研究所 簡報 2005 報告人 臨床醫學研究所所長 吳肇卿 教授.
Analysis of microarray data
R语言简介 来源 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用 来进行数据挖掘、统计分析、作图的解释型语言。最初S语言的实 现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言, 并由MathSoft公司的统计科学部进一步完善。 1995年由新西兰Auckland大学统计系的Robert.
Introduction to Bioinformatics
C2-10 SNP Genotyping 服務 Primer 設計-快速入門
第十一章 动物基因组学 (Animal Genomics).
普通高等教育 “十三五”规划教材 生物信息学 Bioinformatics 非编码RNA 01/29, 2019 邵朝纲、陈铭.
转录组学数据分析 Ming Chen’s Group of Bioinformatics 冯聪
贈與契約.
相關統計觀念復習 Review II.
钢铁塑成的花朵 宋美龄,1897年3月5日出生于中国上海,广东文昌县人(今海南省),与宋蔼龄、宋庆龄并称为宋氏三姐妹,父亲为富商宋嘉澍。
教學原理.
選擇勞退新制,終身免煩惱 勞工退休金新制 說明會.
微信商城系统操作说明 色卡会智能门店.
狀態 愛 擁有 個別差異 平均準則 主觀意欲 非 物質 生活 客觀標準 物質生活. 狀態 愛 擁有 個別差異 平均準則 主觀意欲 非 物質 生活 客觀標準 物質生活.
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
用SQSamples样品管理系统 工作更简单
設計者:台中市重慶國小 張祐榕.楊晟汶.張儷齡
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
生命科学学院 生物信息学实验室 冯聪 03/18, 2019 Hangzhou
台灣房價指數 台灣房屋 中央大學 2011年7月29日.
績優教師分享 美容保健科 林品瑄 教師.
Presentation transcript:

转录组学 01/15, 2017 ventson@zju.edu.cn Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组学 01/15, 2017 ventson@zju.edu.cn

前言 基因组学 转录组学 蛋白质组学 中心法则:遗传信息传递 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 前言 基因组学 转录组学 蛋白质组学 from en.wikipedia 中心法则:遗传信息传递

技术发展 NGS 转录组学研究技术革新 SAGE CAGE MPSS Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 技术发展 Experiment-based Northern blot RT-PCR Hybridization-based Microarray Sequencing-based SAGE CAGE MPSS Advanced seq NGS 3GS Single cell 转录组学研究技术革新

差异表达 可变剪切 共表达 转录调控 应用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 应用 差异表达 可变剪切 共表达 转录调控

RNA测序(RNA-sequencing) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University RNA测序(RNA-sequencing) from GATC Biotech 1.试验设计 2.测序流程 3.数据分析 4.验证实验

试验设计 问题导向型 数据导向型 生物学重复(3-5个) 样本提取(分类和保存) 数据异质性(平台、个体差异) 确定分析流程 分析工具选用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 试验设计 问题导向型 生物学重复(3-5个) 样本提取(分类和保存) 测序深度(简单基因表达分析需5M以上reads,小RNA至少30M) 文库构建(链特异性非特异性) 测序策略(单端和双末端) 测序平台(读长、通量和准确率等) 数据导向型 数据异质性(平台、个体差异) 确定分析流程 分析工具选用

测序流程 Ming Chen’s Group of Bioinformatics mRNA:Poly A富集 ncRNA:rRNA移除 @College of Life Science, Zhejiang University 测序流程 mRNA:Poly A富集 ncRNA:rRNA移除 Griffith, M. (2015) PLoS computational biology

数据分析流程 RNA-seq数据分析常规流程 系统配置 数据获取 质量控制 比对组装 表达定量 差异表达 聚类分析 功能富集 共表达网络 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据分析流程 系统配置 数据获取 质量控制 比对组装 表达定量 差异表达 聚类分析 功能富集 共表达网络 RNA-seq数据分析常规流程

系统配置 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 系统配置

数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress 公共数据库 测序公司 Fastq文件格式: Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress fastq-dump (SRAToolkit) 公共数据库 测序公司 Fastq文件格式:

质量控制 FastQC—测序质量评估 FASTX-Toolkit,Trimmomatic—质量控制 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 质量控制 去接头;过滤低质量reads FastQC—测序质量评估 FASTX-Toolkit,Trimmomatic—质量控制

比对(reads mapping) 非剪接比对—Bowtie,BWA (不考虑可变剪切) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对(reads mapping) 非剪接比对—Bowtie,BWA (不考虑可变剪切) 剪接比对—TopHat,STAR,HISAT/GSNAP,MapSplice(SNP) TopHat工作原理 Trapnell, C. (2009) Bioinformatics

比对结果 比对结果文件—SAM(SAMtools) 比对结果可视化—IGV (local) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对结果 比对结果文件—SAM(SAMtools) 比对结果可视化—IGV (local) 比对结果评估—Qualimap (summary)

表达定量 Reads counting Normalization Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 表达定量 Reads counting 只保留唯一匹配reads —HTSeq-count,featureCounts 保留多重匹配reads —Cufflinks,StringTie,RSEM Normalization RPKM,FPKM,TPM —校正测序深度、基因长度 DESeq/edgeR(TMM) —校正异常高表达基因

比对组装策略选择 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对组装策略选择 Conesa, A. (2016) Genome Biology

差异表达分析 选取样本:样本相关性,大样本降维(主成分分析) 模型选择:高斯分布(正态),泊松分布(v=μ),负二项分布(v=μ+αμ2) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异表达分析 选取样本:样本相关性,大样本降维(主成分分析) 模型选择:高斯分布(正态),泊松分布(v=μ),负二项分布(v=μ+αμ2) 差异检验:组间差异(处理差异)— 组内差异(个体差异)?= 0 筛选条件:p value(多重检验校正) & FoldChange(差异倍数) 工具 版本 标准化方式 模型假设 统计检验 edgeR 3.18.1 TMM/Upper quartile/RLE 负二项分布 Exact test DESeq2 1.16.1 DESeq sizeFactors Wald test/LRT baySeq 2.10.0 quantile/TMM/total empirical Bayesian NOIseq 2.20.0 RPKM/TMM/Upper quartile 非参数 Condition vs. null Limma 3.32.10 TMM voom 转换 Empirical Bayes Cuffdiff2 2.2.1 Geometric/quartile/FPKM β负二项分布 t-test EBSeq 1.16.0 DESeq median normalization 常用差异表达分析工具比较

聚类分析 基因表达聚类结果(pheatmap) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 聚类分析 单基因分析 vs. 基因模块分析 常用聚类方法:K-means(K均值),层次聚类,SOM(自组织映射),FCM(模糊C均值) 基因表达聚类结果(pheatmap)

富集分析 基因集 功能集 常用工具:DAVID,agriGO,GSEA,IPA,clusterProfiler GSEA原理 超几何分布 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 富集分析 GO/KEGG 基因集 功能集 常用工具:DAVID,agriGO,GSEA,IPA,clusterProfiler GSEA原理 Subramanian, A. (2005) PNAS 表达量-样本相关性排序,功能基因集分布,计算富集得分 超几何分布 特定功能集S 不属于功能集S 总基因数 目标基因 x k-x k 背景基因 M N-M N Fisher精确检验

共表达网络 基因集 基因网络 不同样本表达模式相似的基因功能应该也类似 根据表达量计算相关性矩阵,构建共表达网络 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 共表达网络 基因集 基因网络 不同样本表达模式相似的基因功能应该也类似 相互作用 根据表达量计算相关性矩阵,构建共表达网络 Interaction,相关性系数:Pearson,Spearman 无标度网络  WGCNA权重基因共表达网络分析 核心基因(Hub genes) MCODE网络模块挖掘(子网络) CytoScape网络可视化

验证试验 PCR,凝胶电泳 相关性 因果关系 基因敲除,敲减,过表达 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 验证试验 PCR,凝胶电泳 相关性 因果关系 基因敲除,敲减,过表达

拓展 全长转录本(三代测序) 技术革新 单细胞测序(single cell) 整合应用 多组学整合:基因组,表观组,蛋白组,代谢组,表型组 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 拓展 全长转录本(三代测序) 技术革新 单细胞测序(single cell) 多组学整合:基因组,表观组,蛋白组,代谢组,表型组 非编码:lncRNA,circRNA 表观转录组:m6A修饰 整合应用

操作实践 核心分析 转录组核心数据分析在linux系统中完成(内存、时间),具体步骤可参考《生物信息学》第3版书籍及视频教程 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践 转录组核心数据分析在linux系统中完成(内存、时间),具体步骤可参考《生物信息学》第3版书籍及视频教程 核心分析 表达量矩阵:基因X样本

操作实践 统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践 统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集

软件安装 CRAN #从cran安装pheatmap,ggplot2 chooseCRANmirror() Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 软件安装 http://www.bioconductor.org/ DESeq2(差异表达分析) ggplot2(作图) pheatmap(聚类可视化) CRAN #从cran安装pheatmap,ggplot2 chooseCRANmirror() install.packages(“pheatmap”) library(pheatmap) install.packages(“ggplot2”) library(ggplot2) #从bioconductor安装DESeq2 chooseBioCmirror() #China Anhui source("http://www.bioconductor.org/biocLite.R") biocLite("DESeq2") library(DESeq2)

差异分析 #数据预处理 setwd(“F:/rnaseq/data”) #设置工作目录(根据自己存放数据的目录修改) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #数据预处理 setwd(“F:/rnaseq/data”) #设置工作目录(根据自己存放数据的目录修改) library(DESeq2) #载入DESeq2包 #reads计数数据表操作 countTable <- read.table("count.txt", sep = "\t", header = FALSE) #读入reads计数矩阵 tail(countTable) #查看数据表最后的“小尾巴” countTable <- countTable[- c(33611:33615), ] #去除描述行 rownames(countTable) <- countTable$V1 #将基因ID设置为行名 countTable <- countTable[, - 1] #删除基因ID列 colnames(countTable) <- c("SRR3418005", "SRR3418006", "SRR3418019", "SRR3418020") #更改数据表列名 countTable <- countTable[- which(rowSums(countTable) < 4), ] #过滤count总数小于4的基因 nrow(countTable) #查看数据表行数(基因个数) tail(countable) #查看修改后的数据表末尾六行 #设置样本处理信息(实验 vs. 对照) colData <- data.frame(row.names = colnames(countTable), condition = c("ABA", "mock", "ABA", "mock"))

差异分析 #DESeq2操作 #生成DESeqDataSet数据集 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #DESeq2操作 #生成DESeqDataSet数据集 dds <- DESeqDataSetFromMatrix(countData = countTable, colData = colData, design = ~ condition) dds #查看数据集 dds$condition #查看样本处理信息 dds$condition <- relevel(dds$condition, "mock") #更改mock水平(使DESeq计算FoldChange时mock组作为分母) dds$condition #查看更改水平后的样本处理信息 dds <- DESeq(dds) #差异表达计算 res <- results(dds) #生成差异表达结果 summary(res) #查看总结信息(表达上调,下调等) resOrdered <- res[order(res$padj), ] #按照校准后p值排序 write.csv(resOrdered, "DESeq2_results_all.csv") #将差异表达分析结果输出到csv文件 deg <- subset(resOrdered, padj <= 0.01 & abs(log2FoldChange) >= 2) #筛选显著差异表达基因(padj小于0.01且FoldChange绝对值大于4) summary(deg) #查看筛选后的总结信息 write.csv(deg, "DESeq2_results_significant.csv") #将差异表达显著的结果输出到csv文件

差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2) volcano_data <- read.csv("DESeq2_results_all.csv", row.names = "X") #读入差异表达结果 volcano_data <- na.omit(volcano_data) #删除含NA的行 significant <- as.factor(abs(volcano_data$log2FoldChange) >=2 & volcano_data$padj <= 0.01) #设置显著性阈值 ggplot(volcano_data, aes(x = log2FoldChange, y = - log10(padj))) + geom_point(aes(shape = significant, color = significant)) + xlim(c(-10, 10)) + labs(x = “log2FoldChange”, y = “-log10 padj”) + scale_y_continuous(limits = c(0, 20), expand = c(0, 0)) + scale_shape_discrete(labels =c (“no”, “yes”)) + scale_color_discrete(labels = c(“no”, “yes”)) #ggplot2命令

聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap) deseq_results_significant <- read.csv("DESeq2_results_significant.csv", row.names = "X") #读入显著差异表达结果 significant_genes <- rownames(deseq_results_significant) #提取显著差异基因 fpkm_gtf <- read.table("fpkm.gtf") #读入FPKM注释文件 fpkm_gtf <- fpkm_gtf[-which(fpkm_gtf$V2 == "-" | fpkm_gtf$V2 == "."), ] #删除Gene ID未知的行 rownames(fpkm_gtf) <- fpkm_gtf$V2 #将Gene ID设置为行名 fpkm_significant_genes <- fpkm_gtf[significant_genes, 9:12] #提取显著差异基因的FPKM值 colnames(fpkm_significant_genes) <- c("SRR3418005", "SRR3418006", "SRR3418019", "SRR3418020") #设置列名 fpkm_significant_genes <- na.omit(fpkm_significant_genes) #删除含NA值的行 pheatmap(log2(t(fpkm_significant_genes + 1)), show_colnames = FALSE) #所有差异基因热图 pheatmap(log2(t(fpkm_significant_genes[1:30, ] + 1))) #差异基因top30热图

功能富集 DAVID agriGO WEGO clusterProfiler MetaScape 物种覆盖较全;数据更新慢 植物基因富集专用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 功能富集 DAVID 物种覆盖较全;数据更新慢 agriGO 植物基因富集专用 WEGO 富集结果可视化 clusterProfiler 实时抓取;富集方法全面;R语言 MetaScape 操作简单;可视化效果好;物种较少

DAVID使用 Ming Chen’s Group of Bioinformatics 点击开始分析 @College of Life Science, Zhejiang University DAVID使用 点击开始分析

DAVID使用 第一步:导入基因列表/文件 第四步:提交运行 第二步:选择ID类型 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University DAVID使用 第一步:导入基因列表/文件 第三步:基因列表/背景 示例文件 第四步:提交运行 第二步:选择ID类型

DAVID使用 功能分析 Ming Chen’s Group of Bioinformatics 选择功能类型(GO,KEGG) @College of Life Science, Zhejiang University DAVID使用 选择功能类型(GO,KEGG) 功能分析

DAVID使用 功能聚类集 富集结果列表 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University DAVID使用 功能聚类集 富集结果列表

MetaScape使用 提交运行 选择物种 上传基因 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University MetaScape使用 上传基因 选择物种 提交运行

什么是转录组学? RNA-seq的研究内容? 如何分析RNA-seq数据? 总结 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 总结 什么是转录组学? RNA-seq的研究内容? 如何分析RNA-seq数据?

谢谢! 转录组分析 浙江大学生命科学学院 生物信息学实验室 http://bis.zju.edu.cn Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组分析 谢谢! 浙江大学生命科学学院 生物信息学实验室 http://bis.zju.edu.cn