转录组学数据分析 Ming Chen’s Group of Bioinformatics 冯聪

Slides:



Advertisements
Similar presentations
陋室銘 劉禹錫 立人國中小丹老師編製 劉禹錫二三事 司空見慣 劉禹錫才氣縱橫,卻恃才傲物,一生落拓時候 多,當他貶為蘇州刺史時,司空李紳請他喝酒, 並請了一個貌美清秀的歌妓獻唱,他大為心動 寫了一首詩:「高髻雲鬢新樣妝,春風一曲杜 韋娘,司空見慣渾閒事,斷盡蘇州刺史腸。」 李紳明白其中寓意,便將歌妓送給他。而「司.
Advertisements

苏教版 八(上) 第七单元 第 19 章 第二节 拒绝毒品. 虞美人罂粟花 你知道每年的 6 月 26 日 什么 是什么日子吗? 国际禁毒日 Yes to life No to drug.
國立台中高農 畜產保健科 畜產保健科 小論文 小論文 犬瘟熱( Canine Distemper )探討報告 犬瘟熱( Canine Distemper )探討報告 班級:畜保三甲 班級:畜保三甲 指導老師:陳婷婷 指導老師:陳婷婷 學生:高慈旻 11 〈 〉 學生:高慈旻 11 〈
2011 年 2 月 网站管理员. 第一步、进入管理界面 输入网址,点击 “ 管理 ” ,进入身份认证界面, 输入用户密码后进入工具箱.
台灣首府大學 樂齡大學講座系列 財務規劃與財產繼承 主講人:李錦智.
类别资料分析 Categorical Data Analysis 王德育 (T. Y
兒童崇拜的牧養 在教會中帶領兒童敬拜的是誰?這些敬拜帶領者(當中的你)有受過訓練嗎?你對敬拜有何理念?
前列腺癌特异性分子标志物 尿液PCA3 检测.
(RNA interference,RNAi)
DR.CHIP BIOTECHNOLOG INCORPORATION 晶宇生物科技有限公司
第十七章 基因组学与医学 GENOMICS AND MEDICINE 刘新文 北京大学医学部生化与分子生物学系.
对应用型本科建设中若干问题的认识 张家钰
Welcome Each of You to My Molecular Biology Class
iPSeq technology Cloud base - NGS data analysis and Storage
DNA测序技术 DNA Sequencing
核酸序列分析与DNA计算 朱德裕 2013年11月8日.
关于中文字体辨识度的探究实验 让你看清楚PPT 钱翔、王洋、冒星阳、张芸、刘娜、郭艾利.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
何处安放 我们的青春? 透视 大学毕业生 “族化”生存现象.
“炝虾”食用安全性的 初步研究 上海市吴淞中学生物与环境社团 责任者:李 胤 吴蓓莉 指导老师:张 治 许 沁.
第十一章 基因诊断与基因治疗 刘智敏 基础医学院生物化学与分子生物学教研室.
高等院校计算机教材系列 数据库原理与应用(第2版) 任课教师:刘雅莉
分 子 生 物 学 任课教师:宋方洲 马永平 易发平 刘智敏 卜友泉 基础医学院生物化学与分子生物学教研室.
TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design
課程:諮商概論 指導老師:李秀玉老師 閱讀書籍:傷癒—低估自我的醫治(一) (P.60~69)
典型案例---医院.
2014年度企业所得税业务培训 蚌埠市地方税务局所得税科.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
企业所得税年度纳税申报表(2014年版)培训 国家税务总局所得税司 2014年12月.
绪 论  珍惜大学生活 开拓新的境界.
医学分子生物学 Medical Molecular Biology
企业所得税年度纳税申报表(2014年版)培训 国家税务总局公告2014年第63号
視覺藝術的媒材與技巧 蘇虹融 湯詩婷 指導老師:李建緯老師.
时代发展趋势: 科学人文交融 华中科技大学 杨叔子 2010年2月修改.
第十四章 基因诊断和基因治疗 表型的改变是由基因异常造成的 表型的改变是由基因异常造成的.
2013级研究生年级大会 南京理工大学设计艺术与传媒学院
生物信息学 Bioinformatics.
Integrative Genomics Viewer介紹
生物資訊 bioinformatics 林育慶.
生物信息学 第三章 基因组学与序列分析 张高川 生物信息学教研室 (Department of Bioinformatics)
Department of Computer Science & Information Engineering
中央研究院 環境教育終身學習網 成果登入說明 整批上傳學員(未開班).
生物資訊 (Bioinformatics)
Ming Chen’s Group of Bioinformatics
Hybridization of Nucleic Acids
学 院 生命科学学院 专业班级 2007级生物技术4班 学生姓名 徐 志 超 指导教师 高 玉 千
第二天 计算机基础技能培训 (一)linux基础知识
功能基因组学 中英联合实验室.
國立陽明大學 臨床醫學研究所 簡報 2005 報告人 臨床醫學研究所所長 吳肇卿 教授.
Analysis of microarray data
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
Nature Publishing Group Nature Geoscience
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
R语言简介 来源 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用 来进行数据挖掘、统计分析、作图的解释型语言。最初S语言的实 现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言, 并由MathSoft公司的统计科学部进一步完善。 1995年由新西兰Auckland大学统计系的Robert.
Introduction to Bioinformatics
基于基因集富集分析的畜禽复杂性状GWAS分析平台及其应用
C2-10 SNP Genotyping 服務 Primer 設計-快速入門
第十一章 动物基因组学 (Animal Genomics).
普通高等教育 “十三五”规划教材 生物信息学 Bioinformatics 非编码RNA 01/29, 2019 邵朝纲、陈铭.
贈與契約.
相關統計觀念復習 Review II.
微信商城系统操作说明 色卡会智能门店.
課稅負擔的歸屬.
狀態 愛 擁有 個別差異 平均準則 主觀意欲 非 物質 生活 客觀標準 物質生活. 狀態 愛 擁有 個別差異 平均準則 主觀意欲 非 物質 生活 客觀標準 物質生活.
第九章 人類基因體學與展望.
遗传信息的流动.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
資料庫應用與實作 一到六章重點、習題.
生命科学学院 生物信息学实验室 冯聪 03/18, 2019 Hangzhou
Pattle Pun. Professor of Biology emeritus, Wheaton College, IL
Presentation transcript:

转录组学数据分析 Ming Chen’s Group of Bioinformatics 冯聪 ventson@zju.edu.cn @College of Life Science, Zhejiang University 转录组学数据分析 冯聪 ventson@zju.edu.cn 12/24, 2018

前言 基因组学 转录组学 蛋白质组学 中心法则:遗传信息传递 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 前言 基因组学 转录组学 蛋白质组学 from en.wikipedia 中心法则:遗传信息传递

转录组概述 Protein-coding RNAs (mRNAs) Structural RNAs: rRNAs/tRNAs Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组概述 Transcriptome Protein-coding RNAs (mRNAs) Non-coding RNAs (ncRNAs) Structural RNAs: rRNAs/tRNAs Catalytic RNAs: ribozymes (e.g. RNase P and snRNP) Small ncRNAs microRNAs siRNAs Exogenous Endogenous Virus Transgenic induction natsiRNAs tasiRNAs casiRNAs Long ncRNAs circRNA

转录本测定技术发展 NGS 转录组学研究技术革新 SAGE CAGE MPSS Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录本测定技术发展 Experiment-based Northern blot RT-PCR Hybridization-based Microarray Sequencing-based SAGE CAGE MPSS Advanced seq NGS 3GS Single cell 转录组学研究技术革新

RNA-seq与基因芯片比较(WikiPedia) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录本测定技术比较 RNA-seq与基因芯片比较(WikiPedia)   通量 最低RNA含量 参考基因组 定量精确度 灵敏度 动态范围 基因芯片 较高 约1μg 必需 约90% 10-3 >105 依赖于荧光信号 RNA-seq 高 约1 ng 非必要 10-6 103-104 依赖于测序深度

差异表达 可变剪切 共表达 转录调控 应用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 应用 差异表达 可变剪切 共表达 转录调控

RNA测序(RNA-sequencing) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University RNA测序(RNA-sequencing) from GATC Biotech 1.试验设计 2.测序流程 3.数据分析 4.验证实验

试验设计 问题导向型 数据导向型 生物学重复(3-5个) 样本提取(分类和保存) 数据异质性(平台、个体差异) 确定分析流程 分析工具选用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 试验设计 问题导向型 生物学重复(3-5个) 样本提取(分类和保存) 测序深度(简单基因表达分析需5M以上reads,小RNA至少30M) 文库构建(链特异性非特异性) 测序策略(单端和双末端) 测序平台(读长、通量和准确率等) 数据导向型 数据异质性(平台、个体差异) 确定分析流程 分析工具选用

测序平台比较 测序平台 发布时间 测序读长 (bp) 单次最大通量(Gbp) read准确率 NCBI SRA run数量(2016) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 测序平台比较 测序平台 发布时间 测序读长 (bp) 单次最大通量(Gbp) read准确率 NCBI SRA run数量(2016) 454 2005 700 0.7 99.9% 3548 Illumina 2006 50-300 900 362903 SOLiD 2008 50 320 7032 Ion Torrent 2010 400 30 98% 1953 PacBio 2011 10000 2 87% 160

测序流程 Ming Chen’s Group of Bioinformatics mRNA:Poly A富集 ncRNA:rRNA移除 @College of Life Science, Zhejiang University 测序流程 mRNA:Poly A富集 ncRNA:rRNA移除 Griffith, M. (2015) PLoS computational biology

数据分析流程 RNA-seq数据分析常规流程 系统配置 数据获取 质量控制 比对组装 表达定量 差异表达 聚类分析 功能富集 共表达网络 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据分析流程 系统配置 数据获取 质量控制 比对组装 表达定量 差异表达 聚类分析 功能富集 共表达网络 RNA-seq数据分析常规流程

系统配置 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 系统配置

数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress 公共数据库 测序公司 Fastq文件格式: Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据获取 NCBI SRA TCGA/GDC(cancer) EBI ArrayExpress fastq-dump (SRAToolkit) 公共数据库 测序公司 Fastq文件格式:

质量控制 FastQC—测序质量评估 FASTX-Toolkit,Trimmomatic—质量控制 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 质量控制 去接头;过滤低质量reads FastQC—测序质量评估 FASTX-Toolkit,Trimmomatic—质量控制

比对(reads mapping) 非剪接比对—Bowtie,BWA (不考虑可变剪切) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对(reads mapping) 非剪接比对—Bowtie,BWA (不考虑可变剪切) 剪接比对—TopHat,STAR,HISAT/GSNAP,MapSplice(SNP) TopHat工作原理 Trapnell, C. (2009) Bioinformatics

比对结果 比对结果文件—SAM(SAMtools) 比对结果可视化—IGV (local) 比对结果评估—Qualimap Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对结果 比对结果文件—SAM(SAMtools) 比对结果可视化—IGV (local) 比对结果评估—Qualimap

表达定量 Reads counting Normalization Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 表达定量 Reads counting 只保留唯一匹配reads —HTSeq-count,featureCounts 保留多重匹配reads —Cufflinks,StringTie,RSEM Normalization RPKM,FPKM,TPM —校正测序深度、基因长度 DESeq/edgeR(TMM) —校正异常高表达基因

比对组装策略选择 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对组装策略选择 Conesa, A. (2016) Genome Biology

差异表达分析 选取样本:样本相关性,大样本降维(主成分分析) 模型选择:高斯分布(正态),泊松分布(v=μ),负二项分布(v=μ+αμ2) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异表达分析 选取样本:样本相关性,大样本降维(主成分分析) 模型选择:高斯分布(正态),泊松分布(v=μ),负二项分布(v=μ+αμ2) 差异检验:组间差异(处理差异)— 组内差异(个体差异)?= 0 筛选条件:p value(多重检验校正) & FoldChange(差异倍数) 工具 版本 标准化方式 模型假设 统计检验 edgeR 3.18.1 TMM/Upper quartile/RLE 负二项分布 Exact test DESeq2 1.16.1 DESeq sizeFactors Wald test/LRT baySeq 2.10.0 quantile/TMM/total empirical Bayesian NOIseq 2.20.0 RPKM/TMM/Upper quartile 非参数 Condition vs. null Limma 3.32.10 TMM voom 转换 Empirical Bayes Cuffdiff2 2.2.1 Geometric/quartile/FPKM β负二项分布 t-test EBSeq 1.16.0 DESeq median normalization 常用差异表达分析工具比较

聚类分析 基因表达聚类结果(pheatmap) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 聚类分析 单基因分析 vs. 基因模块分析 常用聚类方法:K-means(K均值),层次聚类,SOM(自组织映射),FCM(模糊C均值) 基因表达聚类结果(pheatmap)

富集分析 基因集 功能集 常用工具:DAVID,agriGO,GSEA,IPA,clusterProfiler GSEA原理 超几何分布 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 富集分析 GO/KEGG 基因集 功能集 常用工具:DAVID,agriGO,GSEA,IPA,clusterProfiler GSEA原理 Subramanian, A. (2005) PNAS 表达量-样本相关性排序,功能基因集分布,计算富集得分 超几何分布 特定功能集S 不属于功能集S 总基因数 目标基因 x k-x k 背景基因 M N-M N Fisher精确检验

共表达网络 基因集 基因网络 不同样本表达模式相似的基因功能应该也类似 根据表达量计算相关性矩阵,构建共表达网络 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 共表达网络 基因集 基因网络 不同样本表达模式相似的基因功能应该也类似 相互作用 根据表达量计算相关性矩阵,构建共表达网络 Interaction,相关性系数:Pearson,Spearman 无标度网络  WGCNA权重基因共表达网络分析 核心基因(Hub genes) MCODE网络模块挖掘(子网络) CytoScape网络可视化

验证试验 PCR,凝胶电泳 相关性 因果关系 基因敲除,敲减,过表达 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 验证试验 PCR,凝胶电泳 相关性 因果关系 基因敲除,敲减,过表达

拓展 全长转录本(三代测序) 技术革新 单细胞测序(single cell) 整合应用 多组学整合:基因组,表观组,蛋白组,代谢组,表型组 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 拓展 全长转录本(三代测序) 技术革新 单细胞测序(single cell) 多组学整合:基因组,表观组,蛋白组,代谢组,表型组 非编码:lncRNA,circRNA 表观转录组:m6A修饰 整合应用

Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践-核心分析 系统配置:Linux服务器(IP:10.71.115.8,账号student1-10,已预装软件),Windows(IGV,Qualimap,R等) 数据获取:GSE80565(脱落酸处理8小时拟南芥幼苗&对照),基因组序列、注释来自TAIR数据库 核心分析 组别 实验处理 生物学重复 SRA编号 文件大小(GB) 实验组 ABA,8h 2 SRR3418005 1.8 SRR3418019 1.7 对照组 EtOH,8h SRR3418006 1.6 SRR3418020 质量控制 预处理 质量评估 reads比对 比对 可视化 转录本拼接 拼接整合 注释比较 计算表达 FPKM Counts 表达量矩阵:基因X样本

数据预处理 ##创建工作目录,存放SRA文件 $ mkdir rnaseq $ cd rnaseq/ $ mkdir data Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 数据预处理 ##创建工作目录,存放SRA文件 $ mkdir rnaseq $ cd rnaseq/ $ mkdir data $ cd data/ $ mkdir sra rnaseq data sra genome index fastqc_results fastx_results alignment assembly abundance count rpkm ##使用fastq-dump将SRA文件转为fastq格式 $ fastq-dump -h $ fastq-dump SRR3418005.sra & $ fastq-dump SRR3418006.sra & $ fastq-dump SRR3418019.sra & $ fastq-dump SRR3418020.sra & $ ll -h #查看文件大小 $ df -h #查看系统硬盘使用情况 $ rm *.sra #删除原始文件,节省空间

质量评估 ##使用FastQC检测原始测序数据质量 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 质量评估 ##使用FastQC检测原始测序数据质量 $ fastqc -o ../fastqc_results -f fastq SRR3418005.fastq SRR3418006.fastq SRR3418019.fastq SRR3418020.fastq & #参数说明:-o输出路径,-f输入数据格式 #输出文件为HTML报告和压缩包

质量控制 ##使用fastx_trimmer截去reads前12位碱基(以SRR3418005为例,下同) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 质量控制 ##使用fastx_trimmer截去reads前12位碱基(以SRR3418005为例,下同) $ fastx_trimmer -Q 33 -f 12 -i SRR3418005.fastq -o fastx_results/ SRR3418005_trimmed.fastq & #参数说明:-Q为Illumina编码转换,-f截取起始位置,-i输入文件,-o输出文件 ##使用fastq_quality_filter过滤低质量reads $ fastq_quality_filter -Q 33 -q 20 -p 80 -i SRR3418005_trimmed.fastq -o SRR3418005_filtered.fastq & #参数说明:-Q同上,-q保留结果所需达到的最低得分,-p每个reads中达到-q得分的最小百分数 ##重新使用FastQC检测数据质量 $ fastqc -o ../fastqc_results -f fastq SRR3418005_filtered.fastq & #参数说明:-o输出路径,-f输入数据格式 #输出文件为HTML报告和压缩包

质量控制前后结果比较 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 质量控制前后结果比较

Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University Reads比对 ##建立基因组索引 $ hisat2_extract_splice_sites.py tair10.gtf >tair10.ss & $ hisat2_extract_exons.py tair10.gtf >tair10.exon & $ hisat2-build --ss ../gff/tair10.ss --exon ../gff/tair10.exon ../genome/fasta/tair10.fasta tair10 & #参数说明:使用--ss和--exon会消耗大量内存(拟南芥基因组索引可能需要12G以上内存,故本案例实际使用时未添加--ss和--exon),tair10为索引文件前缀 ##使用HISAT2进行reads比对 $ hisat2 -p 2 --dta -x ../data/index/tair10 -U ../data/fastx_results/SRR3418005_filtered.fastq -S SRR3418005.sam & #参数说明:-p线程数,--dta用于转录本拼接,-x为index库文件前缀,-U为单端测序文件(双端测序使用 -1,-2),-S输出文件

比对文件处理及可视化 ##使用samtools对SAM文件排序并转换为BAM文件 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对文件处理及可视化 ##使用samtools对SAM文件排序并转换为BAM文件 $ samtools sort -@ 2 -m 200M -o SRR3418005.bam SRR3418005.sam & #参数说明:-@额外线程数,-m每个线程最大占用内存(根据实际系统内存调整,防止系统崩溃),-o输出文件 ##使用IGV工具(Integrative Genomics Viewer)展示比对结果 ##使用samtools建立索引 $ samtools index SRR3418005.bam SRR3418005.bai &

比对结果质量评估 ##使用Qualimap检测评估比对结果质量(Qualimap运行依赖Java和R,需提前安装) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 比对结果质量评估 ##使用Qualimap检测评估比对结果质量(Qualimap运行依赖Java和R,需提前安装)

转录本拼接、整合 ##使用StringTie进行转录本拼接 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录本拼接、整合 ##使用StringTie进行转录本拼接 $ stringtie -p 2 -G ../data/genome/gff/tair10.gtf -o SRR3418005.gtf -l SRR3418005 ../alignment/SRR3418005.bam & #参数说明:-p线程数,-G参考基因组注释,-o输出文件,-l转录本命名前缀 ##将4个样本的gtf文件路径写入文件gtflist.txt,使--merge整合四个gtf文件 $ stringtie --merge -p 2 -G ../data/genome/gff/tair10.gtf -o stringtie_merged.gtf gtflist.txt & #参数说明:-p线程数,-G参考基因组注释信息,-o输出文件 ##使用gffcompare对整合后转录本注释与参考注释比较,获得可能的新转录本信息 $ gffcompare -r ../../data/genome/gff/tair10.gtf -G –o merged ../stringtie_merged.gtf & #参数说明:-r参考基因组注释信息,-o输出文件前缀 #需要注意基因组注释文件中的Gene ID不能有重复,否则会报错

计算表达丰度 ##使用StringTie计算基因和转录本的FPKM Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 计算表达丰度 ##使用StringTie计算基因和转录本的FPKM $ stringtie -e -p 2 -G ../../assembly/stringtie_merged.gtf -A SRR3418005_genes.gtf –o SRR3418005_transcripts.gtf ../../alignment/SRR3418005.bam & #参数说明:-G注释文件(不关注新转录本可以直接使用参考注释文件),-e只列出已知转录本丰度,-p线程数,-A输出基因水平表达丰度文件,-o输出转录本水平表达丰度文件 ##使用HTSeq-count从比对结果中提取所有基因匹配的reads count $ htseq-count -q -f bam -s no -i gene_name ../../alignment/SRR3418005.bam ../../data/genome/gff/tair10.gtf > SRR3418005.count & #参数说明:-q不显示进程报告,-f比对文件格式(sam/bam),-s是否考虑链特异性,-i提取属性名

操作实践-功能分析 统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 操作实践-功能分析 统计分析及可视化 1.软件安装 2.差异分析 3.聚类分析 4.功能富集

软件安装 CRAN #从cran安装pheatmap,ggplot2,ggfortify chooseCRANmirror() Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 软件安装 http://www.bioconductor.org/ DESeq2(差异表达分析) ggplot2(作图) pheatmap(聚类可视化) CRAN #从cran安装pheatmap,ggplot2,ggfortify chooseCRANmirror() install.packages("pheatmap") library(pheatmap) install.packages("ggplot2") library(ggplot2) install.packages("ggfortify") #从bioconductor安装DESeq2 chooseBioCmirror() #China Anhui source("http://www.bioconductor.org/biocLite.R") biocLite("DESeq2") library(DESeq2)

PCA分析 setwd("F:/rnaseq/data") #设置工作目录(根据自己存放数据的目录修改) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University PCA分析 setwd("F:/rnaseq/data") #设置工作目录(根据自己存放数据的目录修改) library(ggfortify) #载入ggfortify包 #载入数据 fpkm_pca <- read.table("fpkm_pca.txt", sep = "\t", header = TRUE) #读入fpkm矩阵 head(fpkm_pca) #查看数据 fpkm_pca <- as.data.frame(t(fpkm_pca[, 2:29])) #选取表达量数据 data <- data.frame(fpkm_pca, group = as.character(t(as.data.frame(strsplit(as.character(rownames(fpkm_pca)), "_")))[, 1])) #样本分组信息 autoplot(prcomp(fpkm_pca), data = data, colour = "group") #PCA作图

差异分析 #数据预处理 setwd("F:/rnaseq/data") #设置工作目录(根据自己存放数据的目录修改) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #数据预处理 setwd("F:/rnaseq/data") #设置工作目录(根据自己存放数据的目录修改) library(DESeq2) #载入DESeq2包 #reads计数数据表操作 countTable <- read.table("count.txt", sep = "\t", header = FALSE) #读入reads计数矩阵 tail(countTable) #查看数据表最后的"小尾巴" countTable <- countTable[- c(33611:33615), ] #去除描述行 rownames(countTable) <- countTable$V1 #将基因ID设置为行名 countTable <- countTable[, - 1] #删除基因ID列 colnames(countTable) <- c("SRR3418005", "SRR3418006", "SRR3418019", "SRR3418020") #更改数据表列名 countTable <- countTable[- which(rowSums(countTable) < 4), ] #过滤count总数小于4的基因 nrow(countTable) #查看数据表行数(基因个数) tail(countTable) #查看修改后的数据表末尾六行 #设置样本处理信息(实验 vs. 对照) colData <- data.frame(row.names = colnames(countTable), condition = c("ABA", "mock", "ABA", "mock"))

差异分析 #DESeq2操作 #生成DESeqDataSet数据集 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #DESeq2操作 #生成DESeqDataSet数据集 dds <- DESeqDataSetFromMatrix(countData = countTable, colData = colData, design = ~ condition) dds #查看数据集 dds$condition #查看样本处理信息 dds$condition <- relevel(dds$condition, "mock") #更改mock水平(使DESeq计算FoldChange时mock组作为分母) dds$condition #查看更改水平后的样本处理信息 dds <- DESeq(dds) #差异表达计算 res <- results(dds) #生成差异表达结果 summary(res) #查看总结信息(表达上调,下调等) resOrdered <- res[order(res$padj), ] #按照校准后p值排序 write.csv(resOrdered, "DESeq2_results_all.csv") #将差异表达分析结果输出到csv文件 deg <- subset(resOrdered, padj <= 0.01 & abs(log2FoldChange) >= 2) #筛选显著差异表达基因(padj小于0.01且FoldChange绝对值大于4) summary(deg) #查看筛选后的总结信息 write.csv(deg, "DESeq2_results_significant.csv") #将差异表达显著的结果输出到csv文件

差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 差异分析 #volcano plot火山图 setwd("F:/rnaseq/data") library(ggplot2) volcano_data <- read.csv("DESeq2_results_all.csv", row.names = "X") #读入差异表达结果 volcano_data <- na.omit(volcano_data) #删除含NA的行 significant <- as.factor(abs(volcano_data$log2FoldChange) >=2 & volcano_data$padj <= 0.01) #设置显著性阈值 ggplot(volcano_data, aes(x = log2FoldChange, y = - log10(padj))) + geom_point(aes(shape = significant, color = significant)) + xlim(c(-10, 10)) + labs(x = "log2FoldChange", y = "-log10 padj") + scale_y_continuous(limits = c(0, 20), expand = c(0, 0)) + scale_shape_discrete(labels =c ("no", "yes")) + scale_color_discrete(labels = c("no", "yes")) #ggplot2命令

聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap) Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 聚类分析 #heatmap聚类热图 setwd("F:/rnaseq/data") library(pheatmap) deseq_results_significant <- read.csv("DESeq2_results_significant.csv", row.names = "X") #读入显著差异表达结果 significant_genes <- rownames(deseq_results_significant) #提取显著差异基因 fpkm_gtf <- read.table("fpkm.gtf") #读入FPKM注释文件 fpkm_gtf <- fpkm_gtf[-which(fpkm_gtf$V2 == "-" | fpkm_gtf$V2 == "."), ] #删除Gene ID未知的行 rownames(fpkm_gtf) <- fpkm_gtf$V2 #将Gene ID设置为行名 fpkm_significant_genes <- fpkm_gtf[significant_genes, 9:12] #提取显著差异基因的FPKM值 colnames(fpkm_significant_genes) <- c("SRR3418005", "SRR3418006", "SRR3418019", "SRR3418020") #设置列名 fpkm_significant_genes <- na.omit(fpkm_significant_genes) #删除含NA值的行 pheatmap(log2(t(fpkm_significant_genes + 1)), show_colnames = FALSE) #所有差异基因热图 pheatmap(log2(t(fpkm_significant_genes[1:30, ] + 1))) #差异基因top30热图

功能富集 DAVID agriGO WEGO clusterProfiler MetaScape 物种覆盖较全;数据更新慢 植物基因富集专用 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 功能富集 DAVID 物种覆盖较全;数据更新慢 agriGO 植物基因富集专用 WEGO 富集结果可视化 clusterProfiler 实时抓取;富集方法全面;R语言 MetaScape 操作简单;可视化效果好;物种较少

DAVID使用 Ming Chen’s Group of Bioinformatics 点击开始分析 @College of Life Science, Zhejiang University DAVID使用 点击开始分析

DAVID使用 第一步:导入基因列表/文件 第四步:提交运行 第二步:选择ID类型 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University DAVID使用 第一步:导入基因列表/文件 第三步:基因列表/背景 示例文件 第四步:提交运行 第二步:选择ID类型

DAVID使用 功能分析 Ming Chen’s Group of Bioinformatics 选择功能类型(GO,KEGG) @College of Life Science, Zhejiang University DAVID使用 选择功能类型(GO,KEGG) 功能分析

DAVID使用 功能聚类集 富集结果列表 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University DAVID使用 功能聚类集 富集结果列表

MetaScape使用 提交运行 选择物种 上传基因 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University MetaScape使用 上传基因 选择物种 提交运行

什么是转录组学? RNA-seq的研究内容? 如何分析RNA-seq数据? 总结 Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 总结 什么是转录组学? RNA-seq的研究内容? 如何分析RNA-seq数据?

谢谢! 转录组分析 浙江大学生命科学学院 生物信息学实验室 http://bis.zju.edu.cn 网站资源: Ming Chen’s Group of Bioinformatics @College of Life Science, Zhejiang University 转录组分析 网站资源: http://www.cls.zju.edu.cn/binfo/textbook http://bis.zju.edu.cn/download/RNA-seq 生物信息学(第三版)陈铭主编 谢谢! 浙江大学生命科学学院 生物信息学实验室 http://bis.zju.edu.cn