Presentation is loading. Please wait.

Presentation is loading. Please wait.

第十一讲 生物测序技术概述 转录组测序.

Similar presentations


Presentation on theme: "第十一讲 生物测序技术概述 转录组测序."— Presentation transcript:

1 第十一讲 生物测序技术概述 转录组测序

2 转录本 All transcripts All mRNAs
指一个细胞内基因组DNA转录得到的所有转录产物以及转录物在细胞特定发育时期或特定生理条件下的表达水平 转录本主要包括mRNA,small RNA,non-coding RNA 2

3 一、转录组测序简介

4 转录组 转录组概念由Velculescu等在1995年首次提出。
转录组:广义上指一个细胞内基因组DNA转录得到的 所有转录产物以及转录物在细胞特定发育时期或特定 生理条件下的表达水平,包括编码RNA(mRNA)和非 编码RNA(如tRNA、rRNA、snRNA、miRNA等),狭义 上指所有mRNA的集合。 转录组研究是基因功能及结构研究的基础和出发点 ,是解读基因组功能原件和揭示细胞及组织分子组 成所必需的。

5 什么是转录组测序 RNA测序又称转录组测序,就是把 mRNA,smallRNA和 non-coding RNA
(ncRNA)全部或者其中一些用高通量测序技术进行测序分析的技术。

6 什么是转录组测序 RNA_Seq的重要分支 转录组分析 表达谱分析 小RNA分析 降解组测序 针对mRNA的测序
转录组测序是针对特定样品特定时期的转录mRNA的测序技术,重点在对翻译蛋白的mRNA的测序研究。

7 The Central Dogma of Molecular Biology
DNA-seq RNA-seq The Central Dogma of Molecular Biology The genome is only a source of information. In order to function, it must be expressed. The transcription of genes to produce RNA is the first stage of gene expression . The transcriptome is the complete set of RNA transcripts produced by the genome at any one time. 7

8 转录组测序兴起的背景 生物信息学的大发展 自从人类基因组测序完成,宣布后基因组时代的研究到来,基于测序的生物信息学发展空前爆发。

9 转录组测序的特点 应用对象灵活广泛 研究范围多样化 研究深度多样化
针对不同物种,不同个体,不同时期,都可以在mRNA水平准确的分析性状或功能差异,结构变异等信息。 研究范围多样化 从未知基因组物种,到研究成熟的人体病变组织,小鼠组织等特异组织,均可通过转录组分析进行研究。 研究深度多样化 从大规模功能转录本发掘到特定基因的可变剪接的不同功能分析,都可以定位研究。

10 二、基因注释和注释库简介

11 基因功能注释简介 同源序列比对探寻基因功能 基因功能注释数据库 比对工具blast nr、nt、Uniprot
COG、interproscan、Kegg、GO

12 BLAST Basic Local Alignment Search Tool (BLAST) 局部比对软件
结合了动态规划算法和间接的启发式算法的优点,同时把数据库检索建立在严格的统计学基础之上,是目前最常用的同源检索工具。 局部比对软件 比对比较精确细致 用来做同源序列比对,进行基因功能注释 耗时较长

13 BLAST简介 命令及参数简介 建库命令(formatdb) 比对类型,5种不同的比对程序 程序名 查询序列类型 查询数据库类型 应用
blastp 蛋白质 使用取代矩阵寻找较远 关系 blastn 核酸 寻找较高分值的匹配, 对较远关系不太适用 blastx 核酸(翻译) 用于分析新的cDNA序列 或EST tblastn 用于寻找数据库中没有 标注的编码区 tblastx 用于更进一步的分析EST

14 BLAST结果简介 BLAST比对结果详解 14
E-value告诉你产生这个Result多大程度上是因为随机性造成的。E-value越小越好。专业一点说就是,E值越小,结果越显著。 14

15 nr&nt nr(Non-redundant protein sequences) nt(Nucleotide collection)
包含GenBank所有编码序列,以及PDB,swissprot,PIR,PRF数据库的所有编码序列的一个非冗余数据库,数据库完整度高,氨基酸序列数据库。 nt(Nucleotide collection) 包含GenBank和PDB中(不包含EST,STS,GSS)的所有核苷酸序列信息,存在冗余的数据库,数据库完整度高。

16 NR&NT比对结果 nr&nt注释结果

17 Uniprot Uniprot(Universal Protein Resource)
整合三大数据库:Swissprot、TrEMBL、PIR(Protein Information Resource)。 数据库组成:UniprotKB(知识库)、Uniprotarc(归档)、Uniref(参考资料库)。

18 UNIPROT简介 Uniprot数据库的最重要组成部分 UniprotKB(Uniprot knowledgebase)
Protein knowledgebase, consists of two sections: Swiss-Prot, which is manually annotated and reviewed. TrEMBL, which is automatically annotated and is not reviewed. Includes complete and reference proteome sets. UniRef Sequence clusters, used to speed up sequence similarity searches. UniParc Sequence archive, used to keep track of sequences and their identifiers.

19 UniProtKB/Swiss-Prot
主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。这些注释都是由专业的生物学家给出的,准确性无需置疑。 注释结果全面翔实,注释包括对蛋白质功能、酶学特性、剪接异构体、相关疾病信息的注释等等。 注释结果无冗余。 手动注释;实验验证;或者与已有家族的基因经过同源相似比对的序列。

20 UniprotKB/TrEMBL UniprotKB/TrEMBL 主要收录的则是高质量的经计算机分析后进行自动注释和分类的序列。
由于大规模测序产生的海量数据无法通过Swissprot的严谨注释思路来进行注释。TrEMBL存储了比较全面完整的物种编码序列信息。 存在冗余。

21 UNIPROT注释途径 网页提交序列 本地BLAST

22 COG Clusters of Orthologous Groups of proteins (COGs) 蛋白质直系同源数据库。
通过对菌类,藻类和真核生物等66个完整基因组的编码蛋白,根据系统进化关系构建而成。 对于预测单个蛋白的功能和整个基因组中蛋白质的功能具有重要的作用。

23 COG

24 KEGG注释途径 网络提交任务 blast

25 KEGG注释结果 BLAST比对结果 根据比对结果提取代谢通路图 根据基因对应的KO号 可以从KEGG官网得到对应的PATHWAY图片

26 KEGG注释结果 氯烷烃和氯烯烃降解途径

27 Interproscan Interproscan
InterPro是一个关于蛋白家族(protein families)、功能保守区域(domains)和功能位点 (funtional sites)的数据库。 该数据库包括了PROSITE, PRINTS, Pfam , ProDom等知名蛋白结构和功能位点及保守域的数据库。

28 Interproscan

29 三、转录组测序技术方法及数据分析

30 三、转录组测序技术方法 转录组测序技术主要包括表达序列标签(EST)技术 、表达系列分析(SAGE)技术、大规模平行测序技术 (MPSS)、基因芯片和高通量测序技术。

31 表达序列标签(EST)

32 表达序列标签(EST) 一、表达序列标签简介 二、EST数据分析

33 (2) 什么是表达序列标签? (EXPRESSED SEQUENCE TAG, EST)
1、表达序列与表达序列标签概念 (1) 什么是表达序列? 基因组表达为RNA的序列: mRNA和功能RNA (2) 什么是表达序列标签? (EXPRESSED SEQUENCE TAG, EST) 从已建好的cDNA库中随机取出一个克隆,从5′末端或3′末端进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。

34 EST的获得途径

35 2、EST的用途 基因组物理图谱的绘制 基因识别的验证 基因表达谱的构建 发现新基因 电子PCR克隆
SNP(single nucleotide polymorphism)发现

36 (1) ESTs与基因图谱的绘制 基因组物理图谱的构建: 借助序列标签位点(sequence-tagged sites,STS)
● EST是一种STS ●1995发表的人类基因组物理图谱含有15086个STS,其中大多数为EST,平均密度为1个标记/199kb

37 (2) ESTs与基因预测的验证 某一个物种的基因组测序完成之后,首要任务是对基因组所包含的全部基因进行预测,而现有基因预测软件不能百分之百准确预测全部基因,此时需要对预测基因进行验证,每一条EST代表特定基因的部分序列,因此将预测基因同物种所有的EST进行比对,有助于基因预测的验证。

38 (3) ESTs与基因预测( Blast数据库搜索)
在同一物种中搜寻基因家族的新成员(paralogs) 在不同物种间搜寻功能相同的基因(orthologs) 已知基因的不同剪切模式的搜寻

39 (4) ESTs与SNP位点预测 来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。
应注意区别真正的SNPs和由于测序错误而引起的本身不存在的SNPs。解决这一问题可以通过: ● 提高ESTs分析的准确性 ● 对所发现的SNPs进行实验验证

40 (5) ESTs与基因表达谱的构建 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片 EST分析
…. Clone 反转录(可选) 读取光密度 聚类分析(非同源功能注释) 标记 杂交 反转录 EST分析 …………. Gene Chip 表达量 矩阵 G1,G3,G5 G2,G4 G6,G9 利用EST,SAGE分析结果制作芯片(研究已发现的基因) 连接, 转化 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片 原位合成                                                                   

41 (6) EST数据的不足 ESTs很短,没有给出完整的表达序列; 低丰度表达基因不易获得(SAGE可以解决);
由于只是一轮测序结果,出错率达2%~5%; 有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染; 有时出现镶嵌克隆; 序列的冗余,导致所需要处理的数据量很大。

42 表达序列标签(EST) 一、表达序列标签简介 二、EST数据分析

43 1、cDNA文库的构建与EST数据的实验获取
适用于表达谱研究 测序成本较高 标准化 cDNA文库的构建(杂交方法如扣除杂交) 检测低丰度表达基因 不能用于表达谱研究 cDNA逆转录引物 Oligo T引物 随机引物

44 EST技术流程 体内:翻译 体外研究:反转录 连接,转化 文库构建技术已经成熟 大数据量分析理念已经形成

45 2、EST数据库 1993年前:EST收录于GenBank, EBI和DDBJ 1993年 NCBI 建立dbEST

46 常用的EST数据库 数据库名称 网址 说明 dbEST http://www.ncbi.nlm.nih.gov/dbEST/ 综合
UniGene Gene Indices

47 (1)dbEST(database of EST)
描述: Genbank的一部分 63,236,621条数据( ) 向dbEST提交数据 按格式编辑数据 通过 提交 更新数据

48 dbEST数据格式 Publication文件:文献文件,文献发表信息 Library文件:文库文件,实验信息 Contact文件:联系人文件,联系信息 EST文件:EST数据文件,核心数据

49 在dbEST中检索数据 利用Entrez检索系统 登录NCBI FTP下载: ftp.ncbi.nih.gov /repository/dbEST 例:在Entrez中检索人类血红蛋白EST数据

50 1). 检索栏内输入关键词,如“HBB Human”

51 2). 检索结果 访问号 数据描述 Gi号/数据库来源

52 3). 检索结果的解读 数据记录的编号:DN991377 数据记录的描述:…… 数据记录的格式:Genbank格式、EST格式 数据记录的下载:下载FASTA格式序列、下载Genbank格式的文本文件

53 (2)UniGene数据库 简介 Genbank的一部分 一条纪录为一个gene cluster 查询UniGene 通过NCBI Ftp 下载:ftp://ftp.ncbi.nih.gov/repository/UniGene/ 使用dbEST数据库检索 例:检索人类血红蛋白β亚基的UniGene数据

54 1). 检索栏内输入关键词“HBB Human”

55 2). 获得检索结果页面

56 3). 检索结果解读 数据名称:…… 数据描述:…… 数据格式(主要字段): SELECTED PROTEIN SIMILARITIES:基因类中相似蛋白质集合 GENE EXPRESSTION:基因表达信息 SEQUECNES:与基因类相关的序列,如mRNA、EST等等

57 (3)Gene Indices数据库 简介 The Institute of Genomic Research Database (TIGR)中的一个子库 数据构成 42类动物 47类植物 15类原生生物 10类真菌

58 3、EST数据分析方法 随机挑取克隆进行5′或3′端测序 序列前处理 聚类和拼接 基因注释及功能分类

59 (1)序列前处理 去除低质量的序列(如使用Phred)
应用BLAST、RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列(artifactual sequences) ● 载体序列(ftp://ncbi.nlm.nih.gov/repository/vector) ●重复序列(RepBase, ● 污染序列 (如核糖体RNA、细菌或其他物种的基因组DNA等) 去除其中的嵌合克隆 最后去除长度小于100bp的序列

60 (2)ESTs的聚类 聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(over-lapping) 的ESTs整合至单一的簇(cluster)中 聚类作用: ● 产生较长的一致性序列(contigs) ,用于注释 ● 降低数据的冗余,纠正错误数据。 ● 可以用于检测选择性剪切。 ESTs聚类的数据库主要有三个: ● UniGene ( ● TIGR Gene Indices ( ) ● STACK ( )

61 (3)ESTs序列聚类拼接的主要软件 Phrap CAP3 TIGR Assembler Staden Package

62 4种ESTs聚类和拼接软件比较 Phrap CAP3 TIGR Assembler Staden Package 应用平台 Unix
Unix/Windows 可获得性 学术用户取得认证后可免费下载使用 需要联系作者获取 免费下载 输入数据 海量数据,长短reads皆可 大量数据 用户界面 命令行 命令行/图形界面 主要应用 基因组、EST EST

63 (4)序列注释和分析 一级序列同源性比对:使用BLAST等工具 蛋白质结构域和功能位点搜索 基因功能分类:Gene Ontology 表达量比较分析:不同组织或发育阶段基因表达量比较 通路分析 可变剪切分析

64 基因表达系列分析(SAGE)

65 一、SAGE技术原理简介 简介 基因表达系列分析(Serial Analysis of Gene Expression,SAGE): 1995,Velculescu 高通量、平行性检测 三个基本要点 9-14bp的短核苷酸序列“标签”(Tag)可以特异确定一个转录本 串联体(多聚体)分子批量分析mRNA 各转录本的表达水平可以用特定标签被测得的次数定量

66 SAGE技术原理

67 二、SAGE技术方案 构建SAGE文库 多聚体分子的克隆与测序 标签序列的提取

68 由于采样量大大提高,可对低表达基因进行分析:
反转录 酶切 连接 测序 单条测序相当于对30-40条EST测序 分析 由于采样量大大提高,可对低表达基因进行分析: 基因表达量分析、寻找新基因等等 实验步骤较长要求较高 SAGE技术方案

69 三、SAGE技术应用前景 全基因组表达谱分析与比较 深入认识基因调控网络

70 四、SAGE数据库与分析软件 (一)SAGE数据库 1. NCBI SAGE数据库 (GEO) 2. SAGEnet
3. The Mouse SAGE Site 4. 其他SAGE数据库

71 1. NCBI SAGE数据库:GEO GEO简介 Gene Expression Omnibus,2000,NCBI GEO数据库四个基本实体 1)提交者,2)平台,3)样本,4)系列

72 GEO数据库查询:在EntreZ中查询 ● 查询所有的实验注解
Entrez GEO数据集 ● 查询所有的实验注解 Entrez GEO表达谱 ●查询样品和系列纪录

73 GEO数据库查询: 在GEO主页查询

74 例:查询GDS325数据集的结果

75 数据记录的相关信息 Expression Profiles:表达谱数据 Data Analysis Tools:分析工具 Sample subsets:样本子集

76 表达谱信息 分析 工具 样本 子集

77 GEO数据分析 Find genes 工具:快速寻找指定基因 Cluster heatmap工具:样本层次聚类图
Query Group A versus B 工具:子集比较查询 Experiment design and Value distribution:数据集的数值分布 GEO BLAST :使用BLAST搜索感兴趣序列的表达谱数据 Subset effects:子集效应,提供不同子集之间的差异信号

78 Find genes Cluster heatmap

79 Experiment design and Value distribution

80 GEO数据提交与更新 创建GEO账号: ● GEO主页点击“Create a new account” 选择提交方式 ● Direct Deposit/Update:直接提交 ● Web Deposit/Update:Web交互方式提交 准备数据,执行提交

81 2. SAGEnet SAGEnet是一个关于SAGE技术方法、文档、资讯以及收录SAGE数据的网络资源库
主要内容: FINDNGS:SAGE技术介绍 RESOURCES:资料及数据下载 PUBLICATIONS:SAGE出版物 CONFERENCES:相关会议信息 CONTACS US:联系获取SAGE资料

82

83 3. The MOUSE SAGE Site 4. 其他SAGE数据库 GutSAGE:
小鼠SGAE数据库,由捷克科学院分子遗传研究所构建 4. 其他SAGE数据库 GutSAGE: StormSAGE: GermSAGE:

84 (二)SAGE分析软件 对SAGE数据分析主要包括从原始的序列中得到标签列表,比较来自不同组织细胞或不同生理状态乃至不同物种的标签及其出现频率,在相应数据库中搜索匹配序列,进行基因功能的分析或发现新的基因等。

85 SAGE300 与sagenet实验方案配套使用 WEBSAGE 对SAGE数据进行统计分析,鉴别差异表达的标签,绘制分析结果的散点图等。

86 ATCG 从标签序列来构建基因表达图谱 接受10bp的短SAGE标签、17bp的长SAGE标签、13bp的MPSS标签、16bp的MPSS或SBS标签 POWER-SAGE 对不同大小的样本和不同使用频率的标签的组合进行“虚拟”的SAGE实验分析,用以确定最好的实验方案

87 使用ATCG进行在线的SAGE标签数据分析

88 新一代高通量测序技术(RNA-seq)

89 高通量测序技术(High-throughput sequencing)是 指能够一次并行对几十万到几百万条DNA分子进行序 列测定,每一次序列测定的读长一般较短的测序技术 。
高通量测序技术是对传统测序一次革命性的改变,一 次对几十万到几百万条DNA分子进行序列测定,因此 在有些文献中称其为下一代测序技术(next generation sequencing),足见其划时代的改变。同 时高通量测序使得对一个物种的转录组和基因组进行 细致全貌的分析成为可能,所以又被称为深度测序 (deep sequencing)。

90 新一代测序技术(Next Generation Sequencing )
测序通量高(测序数据产出量); 测序成本低(时间和价格); 代表 有454,Solexa,Hiseq 2000等;

91 高通量转录组测序的优势 高通量转录组测序优势 主要的测序类型 测序通量高; 测序成本低; 454转录组测序(读长较长,通量低,成本高);
Illumina Solexa高通量测序(读长短,通量高,覆盖度更高,定量更准确,测序成本低);

92 现有主要高通量测序仪 测序仪品牌 技术原理 开发商 Roche 454 焦磷酸测序 Roche Illumina Solexa 边合成边测序
ABI SOLiD 基于磁珠的大规模并行连接测序 ABI Helicos 单分子荧光测序 Ion Torrent 半导体测序 SMRT 单分子实时测序 Pacific Bio 现在应用的比较多的是前三种机子

93 转录组实验与测序原理 mRNA的提取 反转录为cDNA 双端测序 通过成熟mRNA的polyA结构提取组织样品的表达mRNA。
将mRNA随机打断,通过利用反转录酶合成对应mRNA的cDNA 双端测序 将cDNA片段采用高通量测序仪进行Pair-End测序。

94 双端测序 cDNA片段化 Solexa双端测序 产生数据类型 成对Reads

95 测序一般流程(SOLEXA)

96 Illumina Solexa原理 桥式PCR 边合成边测序Sequencing by Synthesis 可逆终止物 HiSeq 2000

97 ILLUMINA SOLEXA 测序流程

98 文库制备:将基因组DNA打成几百个碱基(或更短)的小片段,并在两个末端加上接头(adapter)。
a、Solexa 测序专用的测序芯片(flow cell)表面连接有一层单链引物(Primer),单链状态的 DNA片断与芯片表面的引物通过碱基互补被一端固定在芯片上; b、通过扩增反应使得单链 DNA成为双链 DNA;

99 c、双链再次变性后成为单链,其一端固定在测序芯片上,另外一端(5’或 3’)随机和附近的另外一个引物互补,被固定住,形成“桥“(bridge);
d、在测序芯片上同时有上千万 DNA 单分子发生以上的反应; e、c 中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形成双链;

100 f、双链经变性成单链,再次形成桥,成为下一轮扩增的模板继续扩增反应;
g、在反复进行 30 多轮扩增,每个单分子得到了 1000 倍扩增,成为单克隆“DNA簇群”; h、“DNA簇群”在Genome Analyzer IIx测序仪上进行序列分析;

101

102 Illumina Solexa Base Calling
T G C T A C G A T … 1 2 3 7 8 9 4 5 6 T T T T T T T G T …

103 RNA-SEQ技术路线 文库制备 测序 短序列定位 计数

104 转录组数据分析流程 Solexa原始数据 转录组分析流程 分析结果

105 转录组分析的两种策略 左边是先比对,再通过 表达量和junction信息 得到转录本,这种方法 能够检测到低表达量的 转录本;
右边是对mRNA-seq的 reads直接进行de novo 组装,得到转录本,但 对于低表达量的转录本 不易发现。 此图片来自Nature文献

106 转录组分析的两种策略 有Reference的转录组分析 无Reference的转录组分析
以比对为基础,分析有基因组的样品的可变剪接信息,以及预测可变剪接带来的功能差异,同时定量不同样品的mRNA表达丰度进行差异基因的相关分析。 无Reference的转录组分析 通过测序数据组装大规模发掘对应物种的转录本信息,对组装得到转录本做功能注释分析,同时定量转录本的不同丰度进行差异分析。

107 TopHat+Cufflinks的可变剪接分析
两种分析思路 有参考基因组 无参考基因组 原始数据 Reference基因组 Gff基因结构注释 测序数据组装 TopHat+Cufflinks的可变剪接分析 差异基因分析及功能注释分析 聚类得到Unigene Unigene的差异表达及功能注释分析 可变剪接作图 可变剪接结果 差异基因功能注释 差异基因聚类分析 结构预测分析 差异基因功能注释 差异基因聚类分析

108 TopHat+Cufflinks的可变剪接分析
有参考基因组分析 原始数据 Reference基因组 Gff基因结构注释 TopHat+Cufflinks的可变剪接分析 可变剪接 根据软件对基因可变剪接结果做预测 结合相关基因的功能进行深入的研究(性状相关..)

109 可变剪接简介 一个基因在转录过程中经过 不同的剪接处理得到不同的 mRNA从而产生不同的蛋白, 是生物性状多样化的重要原 因。

110 可变剪接类型 保守剪接类型 外显子跳过 内含子滞留 互斥外显子 可变5’剪接 可变3’剪接

111 可变剪接分析软件 TopHat IGV Cufflinks
针对高通量RNA_Seq的序列剪接检测软件,采用短序列比对软件Bowtie进行序列比对和剪接检测。 IGV Integrative Genomics Viewer,图形化浏览结果。 Cufflinks 利用Tophat的检测结果和测序Reads的比对情况组装构建转录本并进行表达丰度分析的软件。

112 可变剪接分析软件

113 TopHat TopHat 使用Bowtie软件比对,速度快; 输出结果为sam格式,便于查看浏览(IGV)以及后续分析。
官方网站 参考文献

114 TOPHAT简介 命令及参数 bowtie-build Ref.fa Ref.fa
比对建库命令 bowtie-build Ref.fa Ref.fa TopHat命令 tophat -r 0 -G Ref.gff -o Sam1_tophat Ref.fa Sam1_1.fq Sam1_2.fq

115 TOPHAT结果 结果目录 samtools view accepted_hits.bam | less –S
samtools index accepted_hits.bam accepted_hits.bam.bai junctions.bed剪接结果列表 insertions.bed插入结果列表 deletions.bed缺失结果列表

116 IGV 基因组综合浏览器

117 IGV

118 Cufflinks Cufflinks 用来组装转录本,估计它们的丰度,并且检测RNA-Seq样品中的差异表达和调控。
官方网站 参考文献

119 CUFFLINKS简介 Cufflinks cufflinks -G Ref.gff accepted_hits.bam
命令及参数 cufflinks -G Ref.gff accepted_hits.bam 输出结果 transcripts.gtf 组装转录本的gtf格式结果 genes.fpkm_tracking 基因表达丰度的评估 isoforms.fpkm_tracking 转录本表达丰度的评估

120 新基因的发现 新的编码区域的定位 新基因的功能注释分析 通过比对结果发现原本无基因注释的区域出现了编码mRNA的序列
对新基因的序列做功能注释

121 结构预测分析(SSR、Orf及编码序列)
无参考基因组分析 原始数据 数据的组装 Orf预测 SSR分析 通过BLAST做基因功能 注释分析 测序数据组装 聚类得到Unigene 结构预测分析(SSR、Orf及编码序列)

122 测序数据组装 组装基本原理 组装软件简介 基于测序reads之间的overlap进行的序列组装 Trinity Transabyss
SOAP-Trans

123 TRINITY简介 Trinity http://trinityrnaseq.sourceforge.net/
Trinity是一个组装构建无Reference全长转录本的组装软件,专门针对高通量RNA测序设计的,组装效果较好。 官方网站及引用文献

124 TRINITY原理介绍 Trinity 右图是Trinity软件组装的简单原理。 a 组装Contig b 构建组件信息
c 结合Reads信息构建全长转录本


Download ppt "第十一讲 生物测序技术概述 转录组测序."

Similar presentations


Ads by Google