Presentation is loading. Please wait.

Presentation is loading. Please wait.

真核生物基因结构的预测分析.

Similar presentations


Presentation on theme: "真核生物基因结构的预测分析."— Presentation transcript:

1 真核生物基因结构的预测分析

2 课程内容 基因组学 系统生物学 转录物组学 蛋白质组学 实习一 基因组数据注释和功能分析 实习二 真核生物基因结构的预测分析 实习三
芯片的基本数据处理和分析 实习四 蛋白质结构与功能分析 实习五 蛋白质组学数据分析 实习六 系统生物学软件实习 基因组学 系统生物学 转录物组学 蛋白质组学

3 基因组功能分析 蛋白质序列 基因组序列cDNA序列 编码区预测 序列比对 功能注释 KEGG GO 系统发育树 蛋白质理化性质 二级结构预测
翻译 蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测 基因组序列cDNA序列 编码区预测 Codon bias GC Content 限制性酶切位点 基因结构分析 选择性剪切 转录调控因子 序列比对 功能注释 KEGG GO 系统发育树 3

4 真核生物基因的主要结构

5 基因结构分析常用软件 基因结构分析 开放读码框 GENSCAN GENOMESCAN CpG岛 CpGPlot 转录终止信号 POLYAH
启动子/转录起始位点 PromoterScan DBTSS database mRNA剪切位点 NETGENE2 Spidey 选择性剪切 ASTD

6 开放读码框的识别 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列

7 基因开放阅读框/基因结构分析识别工具 ORF Finder
NCBI 通用 BestORF Softberry 真核 GENSCAN MIT 脊椎、拟南芥、玉米 Gene Finder Zhang lab 人、小鼠、拟南芥、酵母 FGENESH 真核(基因结构) GeneMark GIT 原核 GLIMMER Maryland Fgenes 人(基因结构) FgeneSV 病毒 Generation ORNL FGENESB 细菌(基因结构) GenomeScan GeneWise2 EBI GRAIL 人、小鼠、拟南芥、果蝇 1.原核,简单的基因结构 2.真核 3.微生物,原核生物基因组 7

8 ORF识别:GENSCAN http://genes.mit.edu/GENSCAN.html 选择物种类型 是否显示非最优外显子
序列名称(可选) 显示氨基酸或CDS序列 提交序列文件 提交序列 结果返回到邮箱(可选) 运行GENSCAN

9 GENSCAN输出结果:文本 9

10 GENSCAN输出结果:图形 10

11 ORF识别: GenomeScan http://genes.mit.edu/genomescan.html 提交待分析序列
提交同源蛋白质序列 运行GenomeScan

12 GenomeScan输出结果:文本 预测外显子位置、可信度等信息 同源比对信息 预测结果的氨基酸序列

13 GenomeScan输出结果:图形

14 课堂练习 1使用GENESCAN预测序列中可能的ORF。 2使用GENOMESCAN预测序列中可能的ORF。
练习用的序列文件在c:\zcni\shixi2文件下,名字为clone.fasta,使用写字板打开查看。

15 转录调控序列分析

16 启动子区结构 启动子(Promoter) 位于结构基因5’端上游,能活化RNA聚合酶,使之与模板DNA结合并具有转录起始的特异性。
转录起始位点(Transcription start site, TSS) PYCAPY(嘧啶) 核心启动子元件(Core promoter element) TATA box,Pribnow box (TATAA) 上游启动子元件(Upstream promoter element,UPE) CAAT box,GC box,SP1,Otc 增强子(Enhancer) 16

17 原核和真核生物基因转录起始位点上游区结构
原核生物 TTGACA TATAAT A mRNA +1 -10 -35 真核生物 PyAPy TATAAT GC区 CAAT区 mRNA +1 -40 -25 -110 增强子 上游启动子元件,UPE 核心启动子元件 转录起始位点

18 Neural Network Promoter Prediction Softberry: BPROM, TSSP, TSSG, TSSW
启动子结合位点分析常用软件 PromoterScan Web Promoser Neural Network Promoter Prediction Softberry: BPROM, TSSP, TSSG, TSSW MatInspector RSAT Cister

19 启动子预测:PromoterScan 提交序列

20 PromoterScan输出结果 找到的TATA box和转录起始位点 预测可能的转录因子 转录因子在提交序列中的位置

21 转录起始位点数据库数据库:DBTSS

22 DBTSS搜索工具条 限定物种“H. sapiens” 最新数据库版本加入Solexa测序新数据支持 限定搜索“基因名称”
搜索基因“FXYD5” 限定至少需要多少条cDNA序列覆盖

23 DBTSS搜索结果

24 FXYD5基因的启动子区域显示 SNP位点 覆盖的cDNA序列数目 转录起始位点TSS DBTSS图例说明

25 ALB基因的启动子区域显示 TF:转录因子结合位点 转录起始位点TSS 覆盖的cDNA序列数目

26 下载启动子序列 下载启动子区序列 设置下载序列的起点、终点 需选择转录起始位点 下载全长cDNA(包括启动子区)序列

27 课堂练习 1 使用PromoterScan 预测clone.fasta里面的潜在外显子。
2 利用DBTSS数据库搜索基因的转录起始位点和可能的上游调控序列。

28 CpG岛的预测 CpG岛 常位于真核生物基因转录起始位点,GC含>50% ,长度>200bp CpG Island 分析
Web CpGPlot CpG finder CpGi130 web CpGproD

29 CpG岛的预测:CpGPlot 参数选项 提交序列 提交序列文件
提交序列文件 提交序列 参数选项

30 GENESCAN 预测结果 起始为532bp 终止于51783bp

31 转录终止信号 上游作用元件:AAUAAA 下游作用元件:GC rich二重对称区、UUUUUU AAUAAA CAAAAAAAAAAAAA
成熟mRNA 5’ 3’ CA GU mRNA前体 下游作用元件:GC rich二重对称区、UUUUUU C-G G-C U-A UUUUUUUUU RNA 5’ 3’

32 转录终止信号polyA预测:POLYAH
提交序列 提交序列文件

33 POLYAH输出结果 polyA位置 GENESCAN预测结果 PolyA位点52398bp

34 课堂练习 使用CpG plot预测clone.fasta中的CpG岛。 使用POLYAH预测clone.fasta中的POLYA剪切位点。

35 内含子/外显子剪切位点识别 如何分析mRNA/cDNA的外显子组成?
通过对特征序列(GT-AG)的分析进行直接的预测基因预测软件(NetGene2) 与相应的基因组序列比对,分析比对片段的分布位置(Spidey)

36

37 剪切位点识别:NetGene2 选择物种 提交序列

38 NetGene2输出结果 相位 可信度 供体位点 受体位点

39

40 mRNA剪切位点识别:Spidey NCBI开发的在线预测程序 用于mRNA序列同基因组序列比对分析
NCBI开发的在线预测程序 用于mRNA序列同基因组序列比对分析

41 Spidey同源序列的获得:序列比对 通过BLAST进行序列比对,找到可能同源的相似性好的一系列mRNA序列。

42 Spidey序列提交页面 输入基因组序列或序列数据库号 输入相似性序列 判断用于分析的序列间的差异,并调整比对参数 不受默认内含子长度限制,
默认长度:内部内含子 为35kb, 末端内含子为100kb 比对阈值 选择物种 输出格式选择

43 Spidey输出结果 第一条蓝色序列为基因组序列,橘黄色为外显子 外显子对应于 基因组上的 mRNA/cDNA上的 起始/结束位置
供体、受体位点 外显子 长度 一致性 百分比 错配和gap 序号 序列联配结果

44 GENSCAN与Spidey结果比较 可能的选择性剪切体

45 课堂练习 练习两种预测剪切位点的软件的使用,NetGene2和Spidey。
Spidey的同源序列文件保存在c:\zcni\shixi2文件下,名字为Spidey.txt,使用写字板打开查看。

46 选择性剪切(Alternative splicing)分析
选择性剪接是调控基因表达的重要机制 了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制

47 选择性剪接的类型 选择性剪切的五种类型: 内含子保留. 5‘端选择性剪切位点. 3’端选择性剪切位点. 外显子遗漏. 互斥外显子.

48 查询选择性剪切相关的网站 从已知基因的功能推测剪切机制 综合 人 线虫 拟南芥
综合 线虫 拟南芥 :人,果蝇,拟南芥 48

49 选择性剪切查询:ASTD数据库 输入基因名称 选择物种类型

50 ASTD数据库检索结果:基因描述信息 导出序列文件

51 ASTD数据库检索结果:选择性剪切的mRNA
十一种选择性剪切产物

52 ASTD数据库检索结果:表达的组织特异性
十一种不同的选择性剪切产物 在不同组织中各种选择性剪切体 的表达差异

53 Thanks!


Download ppt "真核生物基因结构的预测分析."

Similar presentations


Ads by Google