第十一讲 生物测序技术概述 转录组测序.

Slides:



Advertisements
Similar presentations
第四章 核苷酸和蛋白质序列为 基础的数据库检索 (I) 生物信息学. 检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene.
Advertisements

第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
分子生物学部分开发实验 植物遗传亲缘关系研究.
第十七章 基因组学与医学 GENOMICS AND MEDICINE 刘新文 北京大学医学部生化与分子生物学系.
一次数据库的查寻.
DNA测序技术 DNA Sequencing
龙星课程—肿瘤生物信息学上机课程 曹莎
分 子 生 物 学 任课教师:宋方洲 马永平 易发平 刘智敏 卜友泉 基础医学院生物化学与分子生物学教研室.
分子生物学软件介绍 刘吉平讲师
第10章 生物信息学基础.
人类基因组学 朱德裕.
生物信息学数据库.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
生物信息学 艾对元: QQ:
1.转录组 2.高通量测序 3.转录组数据分析 4.差异表达基因分析 5.趋势性上调和下调基因分析 6.基因集功能富集分析.
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
生物資訊 bioinformatics 林育慶.
Lots of tools for cloning:
生物信息学 第二章 数 据 库(III).
Hadoop I/O By ShiChaojie.
5、利用EST数据库发现新基因 EST (expressed sequence tags),是从基因表达的短的序列,携带着完整基因某些片断的信息,称为表达序列标签 获得一个EST的途径有三种:1 大规模测序;2 比较同源性;3 差异显示或基因芯片法获得与某一性状相关的EST 电脑克隆 第一步,找到与待克隆基因相关的EST;第二步.
生物信息学常用软件 李蔚 Co-head, Bioinformatics Department
电 子 克 隆.
功能基因组学 中英联合实验室.
Basic Local Alignment Search Tool
普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第五章:真核生物基因组的注释.
SOA – Experiment 3: Web Services Composition Challenge
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
数 控 技 术 华中科技大学机械科学与工程学院.
高通量测序 高通量测序的应用 朱伟珊 高通量测序 朱伟珊 东盛生物.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第17章 网站发布.
数据挖掘工具性能比较.
生物信息学 第六章 基因预测和基因结构分析 (II).
生物信息学 第六章 基因预测和基因结构分析 (I).
第十一章 动物基因组学 (Animal Genomics).
胚胎原位杂交检测基因的时空表达模式.
Metabolic biomarker signature to differentiate pancreatic ductal adenocarcinoma from chronic pancreatitis Gut, 2017, Jan (IF=14.921) 汇报人:王宁 IMI CONFIDENTIAL.
转录组学数据分析 Ming Chen’s Group of Bioinformatics 冯聪
C语言程序设计 主讲教师:陆幼利.
模型分类问题 Presented by 刘婷婷 苏琬琳.
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
VB与Access数据库的连接.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
超越自然还是带来毁灭 “人造生命”令全世界不安
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
实体描述呈现方法的研究 实验评估 2019/5/1.
Web安全基础教程
Interactome data and databases: different types of protein interaction
第4章 Excel电子表格制作软件 4.4 函数(一).
代谢组学技术及应用新策略简介 代谢组学平台 刘慧颖.
iSIGHT 基本培训 使用 Excel的栅栏问题
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
第九章 人類基因體學與展望.
Visual Basic程序设计 第13章 访问数据库
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Delphi 7.0开发示例.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
生物数据库.
基于列存储的RDF数据管理 朱敏
基因信息的传递.
VB与Access数据库的连接.
第三节 转录后修饰.
本节内容 进程 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
第十七讲 密码执行(1).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

第十一讲 生物测序技术概述 转录组测序

转录本 All transcripts All mRNAs 指一个细胞内基因组DNA转录得到的所有转录产物以及转录物在细胞特定发育时期或特定生理条件下的表达水平 转录本主要包括mRNA,small RNA,non-coding RNA 2

一、转录组测序简介

转录组 转录组概念由Velculescu等在1995年首次提出。 转录组:广义上指一个细胞内基因组DNA转录得到的 所有转录产物以及转录物在细胞特定发育时期或特定 生理条件下的表达水平,包括编码RNA(mRNA)和非 编码RNA(如tRNA、rRNA、snRNA、miRNA等),狭义 上指所有mRNA的集合。 转录组研究是基因功能及结构研究的基础和出发点 ,是解读基因组功能原件和揭示细胞及组织分子组 成所必需的。

什么是转录组测序 RNA测序又称转录组测序,就是把 mRNA,smallRNA和 non-coding RNA (ncRNA)全部或者其中一些用高通量测序技术进行测序分析的技术。

什么是转录组测序 RNA_Seq的重要分支 转录组分析 表达谱分析 小RNA分析 降解组测序 针对mRNA的测序 转录组测序是针对特定样品特定时期的转录mRNA的测序技术,重点在对翻译蛋白的mRNA的测序研究。

The Central Dogma of Molecular Biology DNA-seq RNA-seq The Central Dogma of Molecular Biology The genome is only a source of information. In order to function, it must be expressed. The transcription of genes to produce RNA is the first stage of gene expression . The transcriptome is the complete set of RNA transcripts produced by the genome at any one time. 7

转录组测序兴起的背景 生物信息学的大发展 自从人类基因组测序完成,宣布后基因组时代的研究到来,基于测序的生物信息学发展空前爆发。

转录组测序的特点 应用对象灵活广泛 研究范围多样化 研究深度多样化 针对不同物种,不同个体,不同时期,都可以在mRNA水平准确的分析性状或功能差异,结构变异等信息。 研究范围多样化 从未知基因组物种,到研究成熟的人体病变组织,小鼠组织等特异组织,均可通过转录组分析进行研究。 研究深度多样化 从大规模功能转录本发掘到特定基因的可变剪接的不同功能分析,都可以定位研究。

二、基因注释和注释库简介

基因功能注释简介 同源序列比对探寻基因功能 基因功能注释数据库 比对工具blast nr、nt、Uniprot COG、interproscan、Kegg、GO

BLAST Basic Local Alignment Search Tool (BLAST) 局部比对软件 结合了动态规划算法和间接的启发式算法的优点,同时把数据库检索建立在严格的统计学基础之上,是目前最常用的同源检索工具。 局部比对软件 比对比较精确细致 用来做同源序列比对,进行基因功能注释 耗时较长

BLAST简介 命令及参数简介 建库命令(formatdb) 比对类型,5种不同的比对程序 程序名 查询序列类型 查询数据库类型 应用 blastp 蛋白质 使用取代矩阵寻找较远 关系 blastn 核酸 寻找较高分值的匹配, 对较远关系不太适用 blastx 核酸(翻译) 用于分析新的cDNA序列 或EST tblastn 用于寻找数据库中没有 标注的编码区 tblastx 用于更进一步的分析EST

BLAST结果简介 BLAST比对结果详解 14 E-value告诉你产生这个Result多大程度上是因为随机性造成的。E-value越小越好。专业一点说就是,E值越小,结果越显著。 14

nr&nt nr(Non-redundant protein sequences) nt(Nucleotide collection) 包含GenBank所有编码序列,以及PDB,swissprot,PIR,PRF数据库的所有编码序列的一个非冗余数据库,数据库完整度高,氨基酸序列数据库。 nt(Nucleotide collection) 包含GenBank和PDB中(不包含EST,STS,GSS)的所有核苷酸序列信息,存在冗余的数据库,数据库完整度高。

NR&NT比对结果 nr&nt注释结果

Uniprot Uniprot(Universal Protein Resource) 整合三大数据库:Swissprot、TrEMBL、PIR(Protein Information Resource)。 数据库组成:UniprotKB(知识库)、Uniprotarc(归档)、Uniref(参考资料库)。

UNIPROT简介 Uniprot数据库的最重要组成部分 UniprotKB(Uniprot knowledgebase) Protein knowledgebase, consists of two sections: Swiss-Prot, which is manually annotated and reviewed. TrEMBL, which is automatically annotated and is not reviewed. Includes complete and reference proteome sets. UniRef Sequence clusters, used to speed up sequence similarity searches. UniParc Sequence archive, used to keep track of sequences and their identifiers.

UniProtKB/Swiss-Prot 主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。这些注释都是由专业的生物学家给出的,准确性无需置疑。 注释结果全面翔实,注释包括对蛋白质功能、酶学特性、剪接异构体、相关疾病信息的注释等等。 注释结果无冗余。 http://web.expasy.org/docs/relnotes/relstat.html 手动注释;实验验证;或者与已有家族的基因经过同源相似比对的序列。

UniprotKB/TrEMBL UniprotKB/TrEMBL 主要收录的则是高质量的经计算机分析后进行自动注释和分类的序列。 由于大规模测序产生的海量数据无法通过Swissprot的严谨注释思路来进行注释。TrEMBL存储了比较全面完整的物种编码序列信息。 存在冗余。 http://www.ebi.ac.uk/uniprot/TrEMBLstats/

UNIPROT注释途径 网页提交序列 本地BLAST http://www.uniprot.org/

COG Clusters of Orthologous Groups of proteins (COGs) 蛋白质直系同源数据库。 通过对菌类,藻类和真核生物等66个完整基因组的编码蛋白,根据系统进化关系构建而成。 对于预测单个蛋白的功能和整个基因组中蛋白质的功能具有重要的作用。 http://www.ncbi.nlm.nih.gov/COG/

COG

KEGG注释途径 网络提交任务 blast http://www.genome.jp/tools/blast/

KEGG注释结果 BLAST比对结果 根据比对结果提取代谢通路图 根据基因对应的KO号 可以从KEGG官网得到对应的PATHWAY图片

KEGG注释结果 氯烷烃和氯烯烃降解途径

Interproscan Interproscan InterPro是一个关于蛋白家族(protein families)、功能保守区域(domains)和功能位点 (funtional sites)的数据库。 该数据库包括了PROSITE, PRINTS, Pfam , ProDom等知名蛋白结构和功能位点及保守域的数据库。

Interproscan http://www.ebi.ac.uk/Tools/pfa/iprscan/

三、转录组测序技术方法及数据分析

三、转录组测序技术方法 转录组测序技术主要包括表达序列标签(EST)技术 、表达系列分析(SAGE)技术、大规模平行测序技术 (MPSS)、基因芯片和高通量测序技术。

表达序列标签(EST)

表达序列标签(EST) 一、表达序列标签简介 二、EST数据分析

(2) 什么是表达序列标签? (EXPRESSED SEQUENCE TAG, EST) 1、表达序列与表达序列标签概念 (1) 什么是表达序列? 基因组表达为RNA的序列: mRNA和功能RNA (2) 什么是表达序列标签? (EXPRESSED SEQUENCE TAG, EST) 从已建好的cDNA库中随机取出一个克隆,从5′末端或3′末端进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。

EST的获得途径

2、EST的用途 基因组物理图谱的绘制 基因识别的验证 基因表达谱的构建 发现新基因 电子PCR克隆 SNP(single nucleotide polymorphism)发现

(1) ESTs与基因图谱的绘制 基因组物理图谱的构建: 借助序列标签位点(sequence-tagged sites,STS) ● EST是一种STS ●1995发表的人类基因组物理图谱含有15086个STS,其中大多数为EST,平均密度为1个标记/199kb

(2) ESTs与基因预测的验证 某一个物种的基因组测序完成之后,首要任务是对基因组所包含的全部基因进行预测,而现有基因预测软件不能百分之百准确预测全部基因,此时需要对预测基因进行验证,每一条EST代表特定基因的部分序列,因此将预测基因同物种所有的EST进行比对,有助于基因预测的验证。

(3) ESTs与基因预测( Blast数据库搜索) 在同一物种中搜寻基因家族的新成员(paralogs) 在不同物种间搜寻功能相同的基因(orthologs) 已知基因的不同剪切模式的搜寻

(4) ESTs与SNP位点预测 来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。 应注意区别真正的SNPs和由于测序错误而引起的本身不存在的SNPs。解决这一问题可以通过: ● 提高ESTs分析的准确性 ● 对所发现的SNPs进行实验验证

(5) ESTs与基因表达谱的构建 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片 EST分析 …. Clone 反转录(可选) 读取光密度 聚类分析(非同源功能注释) 标记 杂交 反转录 EST分析 …………. Gene Chip 0.1 0.06 0.05 0.04 … 0 0 0.07 0.01 … 表达量 矩阵 G1,G3,G5 G2,G4 G6,G9 … 利用EST,SAGE分析结果制作芯片(研究已发现的基因) 连接, 转化 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片 原位合成                                                                   

(6) EST数据的不足 ESTs很短,没有给出完整的表达序列; 低丰度表达基因不易获得(SAGE可以解决); 由于只是一轮测序结果,出错率达2%~5%; 有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染; 有时出现镶嵌克隆; 序列的冗余,导致所需要处理的数据量很大。

表达序列标签(EST) 一、表达序列标签简介 二、EST数据分析

1、cDNA文库的构建与EST数据的实验获取 适用于表达谱研究 测序成本较高 标准化 cDNA文库的构建(杂交方法如扣除杂交) 检测低丰度表达基因 不能用于表达谱研究 cDNA逆转录引物 Oligo T引物 随机引物

EST技术流程 体内:翻译 体外研究:反转录 连接,转化 文库构建技术已经成熟 大数据量分析理念已经形成

2、EST数据库 1993年前:EST收录于GenBank, EBI和DDBJ 1993年 NCBI 建立dbEST

常用的EST数据库 数据库名称 网址 说明 dbEST http://www.ncbi.nlm.nih.gov/dbEST/ 综合 UniGene http://www.ncbi.nlm.nih.gov/unigene Gene Indices http://compbio.dfci.harvard.edu/tgi/

(1)dbEST(database of EST) 描述: Genbank的一部分 63,236,621条数据(20091016) 向dbEST提交数据 按格式编辑数据 通过E-mail提交 更新数据

dbEST数据格式 Publication文件:文献文件,文献发表信息 Library文件:文库文件,实验信息 Contact文件:联系人文件,联系信息 EST文件:EST数据文件,核心数据

在dbEST中检索数据 利用Entrez检索系统 登录NCBI FTP下载: ftp.ncbi.nih.gov /repository/dbEST 例:在Entrez中检索人类血红蛋白EST数据

1). 检索栏内输入关键词,如“HBB Human”

2). 检索结果 访问号 数据描述 Gi号/数据库来源

3). 检索结果的解读 数据记录的编号:DN991377 数据记录的描述:…… 数据记录的格式:Genbank格式、EST格式 数据记录的下载:下载FASTA格式序列、下载Genbank格式的文本文件

(2)UniGene数据库 简介 Genbank的一部分 一条纪录为一个gene cluster 查询UniGene 通过NCBI Ftp 下载:ftp://ftp.ncbi.nih.gov/repository/UniGene/ 使用dbEST数据库检索 例:检索人类血红蛋白β亚基的UniGene数据

1). 检索栏内输入关键词“HBB Human”

2). 获得检索结果页面

3). 检索结果解读 数据名称:…… 数据描述:…… 数据格式(主要字段): SELECTED PROTEIN SIMILARITIES:基因类中相似蛋白质集合 GENE EXPRESSTION:基因表达信息 SEQUECNES:与基因类相关的序列,如mRNA、EST等等

(3)Gene Indices数据库 简介 The Institute of Genomic Research Database (TIGR)中的一个子库 http://compbio.dfci.harvard.edu/tgi/ 数据构成 42类动物 47类植物 15类原生生物 10类真菌

3、EST数据分析方法 随机挑取克隆进行5′或3′端测序 序列前处理 聚类和拼接 基因注释及功能分类

(1)序列前处理 去除低质量的序列(如使用Phred) 应用BLAST、RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列(artifactual sequences) ● 载体序列(ftp://ncbi.nlm.nih.gov/repository/vector) ●重复序列(RepBase,http://www.girinst.org) ● 污染序列 (如核糖体RNA、细菌或其他物种的基因组DNA等) 去除其中的嵌合克隆 最后去除长度小于100bp的序列

(2)ESTs的聚类 聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(over-lapping) 的ESTs整合至单一的簇(cluster)中 聚类作用: ● 产生较长的一致性序列(contigs) ,用于注释 ● 降低数据的冗余,纠正错误数据。 ● 可以用于检测选择性剪切。 ESTs聚类的数据库主要有三个: ● UniGene (http://www.ncbi.nlm.nih.gov/UniGene) ● TIGR Gene Indices (http://www.tigr.org/tdb/tgi/ ) ● STACK (http://www.sanbi.ac.za/Dbases.html )

(3)ESTs序列聚类拼接的主要软件 Phrap CAP3 TIGR Assembler Staden Package

4种ESTs聚类和拼接软件比较 Phrap CAP3 TIGR Assembler Staden Package 应用平台 Unix Unix/Windows 可获得性 学术用户取得认证后可免费下载使用 需要联系作者获取 免费下载 输入数据 海量数据,长短reads皆可 大量数据 用户界面 命令行 命令行/图形界面 主要应用 基因组、EST EST

(4)序列注释和分析 一级序列同源性比对:使用BLAST等工具 蛋白质结构域和功能位点搜索 基因功能分类:Gene Ontology 表达量比较分析:不同组织或发育阶段基因表达量比较 通路分析 可变剪切分析

基因表达系列分析(SAGE)

一、SAGE技术原理简介 简介 基因表达系列分析(Serial Analysis of Gene Expression,SAGE): 1995,Velculescu 高通量、平行性检测 三个基本要点 9-14bp的短核苷酸序列“标签”(Tag)可以特异确定一个转录本 串联体(多聚体)分子批量分析mRNA 各转录本的表达水平可以用特定标签被测得的次数定量

SAGE技术原理

二、SAGE技术方案 构建SAGE文库 多聚体分子的克隆与测序 标签序列的提取

由于采样量大大提高,可对低表达基因进行分析: 反转录 酶切 连接 测序 单条测序相当于对30-40条EST测序 分析 由于采样量大大提高,可对低表达基因进行分析: 基因表达量分析、寻找新基因等等 实验步骤较长要求较高 SAGE技术方案

三、SAGE技术应用前景 全基因组表达谱分析与比较 深入认识基因调控网络

四、SAGE数据库与分析软件 (一)SAGE数据库 1. NCBI SAGE数据库 (GEO) 2. SAGEnet 3. The Mouse SAGE Site 4. 其他SAGE数据库

1. NCBI SAGE数据库:GEO GEO简介 Gene Expression Omnibus,2000,NCBI GEO数据库四个基本实体 1)提交者,2)平台,3)样本,4)系列

GEO数据库查询:在EntreZ中查询 ● 查询所有的实验注解 Entrez GEO数据集 ● 查询所有的实验注解 ● http://www.ncbi.nlm.nih.gov/sites/entrez?db=gds Entrez GEO表达谱 ●查询样品和系列纪录 ● http://www.ncbi.nlm.nih.gov/sites/entrez?db=geo

GEO数据库查询: 在GEO主页查询 http://www.ncbi.nlm.nih.gov/geo/

例:查询GDS325数据集的结果

数据记录的相关信息 Expression Profiles:表达谱数据 Data Analysis Tools:分析工具 Sample subsets:样本子集

表达谱信息 分析 工具 样本 子集

GEO数据分析 Find genes 工具:快速寻找指定基因 Cluster heatmap工具:样本层次聚类图 Query Group A versus B 工具:子集比较查询 Experiment design and Value distribution:数据集的数值分布 GEO BLAST :使用BLAST搜索感兴趣序列的表达谱数据 Subset effects:子集效应,提供不同子集之间的差异信号

Find genes Cluster heatmap

Experiment design and Value distribution

GEO数据提交与更新 创建GEO账号: ● GEO主页点击“Create a new account” 选择提交方式 ● Direct Deposit/Update:直接提交 ● Web Deposit/Update:Web交互方式提交 准备数据,执行提交

2. SAGEnet SAGEnet是一个关于SAGE技术方法、文档、资讯以及收录SAGE数据的网络资源库 http://www.sagenet.org/ 主要内容: FINDNGS:SAGE技术介绍 RESOURCES:资料及数据下载 PUBLICATIONS:SAGE出版物 CONFERENCES:相关会议信息 CONTACS US:联系获取SAGE资料

http://www.sagenet.org/

3. The MOUSE SAGE Site 4. 其他SAGE数据库 GutSAGE: 小鼠SGAE数据库,由捷克科学院分子遗传研究所构建 http://mouse.img.cas.cz/sage/ 4. 其他SAGE数据库 GutSAGE: http://genome.dfci.harvard.edu/GutSAGE/ StormSAGE: http://genome.dfci.harvard.edu/StomSAGE/ GermSAGE: http://germsage.nichd.nih.gov/germsage/home.html

(二)SAGE分析软件 对SAGE数据分析主要包括从原始的序列中得到标签列表,比较来自不同组织细胞或不同生理状态乃至不同物种的标签及其出现频率,在相应数据库中搜索匹配序列,进行基因功能的分析或发现新的基因等。

SAGE300 与sagenet实验方案配套使用 http://www.sagenet.org/protocol/index.htm WEBSAGE 对SAGE数据进行统计分析,鉴别差异表达的标签,绘制分析结果的散点图等。 http://www2.mnhn.fr/websage/

ATCG 从标签序列来构建基因表达图谱 http://retina.med.harvard.edu/ACTG/ 接受10bp的短SAGE标签、17bp的长SAGE标签、13bp的MPSS标签、16bp的MPSS或SBS标签 POWER-SAGE 对不同大小的样本和不同使用频率的标签的组合进行“虚拟”的SAGE实验分析,用以确定最好的实验方案 邮件获取:michale.man@pfizer.com

使用ATCG进行在线的SAGE标签数据分析

新一代高通量测序技术(RNA-seq)

高通量测序技术(High-throughput sequencing)是 指能够一次并行对几十万到几百万条DNA分子进行序 列测定,每一次序列测定的读长一般较短的测序技术 。 高通量测序技术是对传统测序一次革命性的改变,一 次对几十万到几百万条DNA分子进行序列测定,因此 在有些文献中称其为下一代测序技术(next generation sequencing),足见其划时代的改变。同 时高通量测序使得对一个物种的转录组和基因组进行 细致全貌的分析成为可能,所以又被称为深度测序 (deep sequencing)。

新一代测序技术(Next Generation Sequencing ) 测序通量高(测序数据产出量); 测序成本低(时间和价格); 代表 有454,Solexa,Hiseq 2000等;

高通量转录组测序的优势 高通量转录组测序优势 主要的测序类型 测序通量高; 测序成本低; 454转录组测序(读长较长,通量低,成本高); Illumina Solexa高通量测序(读长短,通量高,覆盖度更高,定量更准确,测序成本低);

现有主要高通量测序仪 测序仪品牌 技术原理 开发商 Roche 454 焦磷酸测序 Roche Illumina Solexa 边合成边测序 ABI SOLiD 基于磁珠的大规模并行连接测序 ABI Helicos 单分子荧光测序 Ion Torrent 半导体测序 SMRT 单分子实时测序 Pacific Bio 现在应用的比较多的是前三种机子

转录组实验与测序原理 mRNA的提取 反转录为cDNA 双端测序 通过成熟mRNA的polyA结构提取组织样品的表达mRNA。 将mRNA随机打断,通过利用反转录酶合成对应mRNA的cDNA 双端测序 将cDNA片段采用高通量测序仪进行Pair-End测序。

双端测序 cDNA片段化 Solexa双端测序 产生数据类型 成对Reads

测序一般流程(SOLEXA)

Illumina Solexa原理 桥式PCR 边合成边测序Sequencing by Synthesis 可逆终止物 HiSeq 2000

ILLUMINA SOLEXA 测序流程

文库制备:将基因组DNA打成几百个碱基(或更短)的小片段,并在两个末端加上接头(adapter)。 a、Solexa 测序专用的测序芯片(flow cell)表面连接有一层单链引物(Primer),单链状态的 DNA片断与芯片表面的引物通过碱基互补被一端固定在芯片上; b、通过扩增反应使得单链 DNA成为双链 DNA;

c、双链再次变性后成为单链,其一端固定在测序芯片上,另外一端(5’或 3’)随机和附近的另外一个引物互补,被固定住,形成“桥“(bridge); d、在测序芯片上同时有上千万 DNA 单分子发生以上的反应; e、c 中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形成双链;

f、双链经变性成单链,再次形成桥,成为下一轮扩增的模板继续扩增反应; g、在反复进行 30 多轮扩增,每个单分子得到了 1000 倍扩增,成为单克隆“DNA簇群”; h、“DNA簇群”在Genome Analyzer IIx测序仪上进行序列分析;

Illumina Solexa Base Calling T G C T A C G A T … 1 2 3 7 8 9 4 5 6 T T T T T T T G T …

RNA-SEQ技术路线 文库制备 测序 短序列定位 计数

转录组数据分析流程 Solexa原始数据 转录组分析流程 分析结果

转录组分析的两种策略 左边是先比对,再通过 表达量和junction信息 得到转录本,这种方法 能够检测到低表达量的 转录本; 右边是对mRNA-seq的 reads直接进行de novo 组装,得到转录本,但 对于低表达量的转录本 不易发现。 此图片来自Nature文献

转录组分析的两种策略 有Reference的转录组分析 无Reference的转录组分析 以比对为基础,分析有基因组的样品的可变剪接信息,以及预测可变剪接带来的功能差异,同时定量不同样品的mRNA表达丰度进行差异基因的相关分析。 无Reference的转录组分析 通过测序数据组装大规模发掘对应物种的转录本信息,对组装得到转录本做功能注释分析,同时定量转录本的不同丰度进行差异分析。

TopHat+Cufflinks的可变剪接分析 两种分析思路 有参考基因组 无参考基因组 原始数据 Reference基因组 Gff基因结构注释 测序数据组装 TopHat+Cufflinks的可变剪接分析 差异基因分析及功能注释分析 聚类得到Unigene Unigene的差异表达及功能注释分析 可变剪接作图 可变剪接结果 差异基因功能注释 差异基因聚类分析 结构预测分析 差异基因功能注释 差异基因聚类分析

TopHat+Cufflinks的可变剪接分析 有参考基因组分析 原始数据 Reference基因组 Gff基因结构注释 TopHat+Cufflinks的可变剪接分析 可变剪接 根据软件对基因可变剪接结果做预测 结合相关基因的功能进行深入的研究(性状相关..)

可变剪接简介 一个基因在转录过程中经过 不同的剪接处理得到不同的 mRNA从而产生不同的蛋白, 是生物性状多样化的重要原 因。

可变剪接类型 保守剪接类型 外显子跳过 内含子滞留 互斥外显子 可变5’剪接 可变3’剪接

可变剪接分析软件 TopHat IGV Cufflinks 针对高通量RNA_Seq的序列剪接检测软件,采用短序列比对软件Bowtie进行序列比对和剪接检测。 IGV Integrative Genomics Viewer,图形化浏览结果。 Cufflinks 利用Tophat的检测结果和测序Reads的比对情况组装构建转录本并进行表达丰度分析的软件。

可变剪接分析软件

TopHat TopHat 使用Bowtie软件比对,速度快; 输出结果为sam格式,便于查看浏览(IGV)以及后续分析。 官方网站http://tophat.cbcb.umd.edu/ 参考文献http://bioinformatics.oxfordjournals.org/cgi/content/abstract/btp120

TOPHAT简介 命令及参数 bowtie-build Ref.fa Ref.fa 比对建库命令 bowtie-build Ref.fa Ref.fa TopHat命令 tophat -r 0 -G Ref.gff -o Sam1_tophat Ref.fa Sam1_1.fq Sam1_2.fq

TOPHAT结果 结果目录 samtools view accepted_hits.bam | less –S samtools index accepted_hits.bam accepted_hits.bam.bai junctions.bed剪接结果列表 insertions.bed插入结果列表 deletions.bed缺失结果列表

IGV 基因组综合浏览器

IGV http://www.broadinstitute.org/igv/

Cufflinks Cufflinks 用来组装转录本,估计它们的丰度,并且检测RNA-Seq样品中的差异表达和调控。 官方网站http://cufflinks.cbcb.umd.edu/ 参考文献http://www.nature.com/nbt/journal/v28/n5/full/nbt.1621.html

CUFFLINKS简介 Cufflinks cufflinks -G Ref.gff accepted_hits.bam 命令及参数 cufflinks -G Ref.gff accepted_hits.bam 输出结果 transcripts.gtf 组装转录本的gtf格式结果 genes.fpkm_tracking 基因表达丰度的评估 isoforms.fpkm_tracking 转录本表达丰度的评估

新基因的发现 新的编码区域的定位 新基因的功能注释分析 通过比对结果发现原本无基因注释的区域出现了编码mRNA的序列 对新基因的序列做功能注释

结构预测分析(SSR、Orf及编码序列) 无参考基因组分析 原始数据 数据的组装 Orf预测 SSR分析 通过BLAST做基因功能 注释分析 测序数据组装 聚类得到Unigene 结构预测分析(SSR、Orf及编码序列)

测序数据组装 组装基本原理 组装软件简介 基于测序reads之间的overlap进行的序列组装 Trinity Transabyss SOAP-Trans

TRINITY简介 Trinity http://trinityrnaseq.sourceforge.net/ Trinity是一个组装构建无Reference全长转录本的组装软件,专门针对高通量RNA测序设计的,组装效果较好。 官方网站及引用文献 http://trinityrnaseq.sourceforge.net/ http://www.nature.com/nbt/journal/vaop/ncurrent/abs/nbt.1883.html

TRINITY原理介绍 Trinity 右图是Trinity软件组装的简单原理。 a 组装Contig b 构建组件信息 c 结合Reads信息构建全长转录本