生物信息学第六章基因预测和基因结构分析（I）.

生物信息学第六章基因预测和基因结构分析（I）

基因组测序策略

Genome sequencing: QUICKER, SMALLER, CHEAPER
Nature Biotechnology 26, (2008) 13 years $3 billion 1 day $1000

Applications of sequencing
Nature Biotechnology 26, (2008) identifying new genes looking at chromosome organization and structure finding gene regulatory sequences comparative genomics

Where are the Genes in the Genome?
GAGAAAATCAATTGGTTTAGAAGGTTTGGACTCACTTGACAGGTTCAGTTGGAGACGATCATAGGTGGCT GCTGTGACAAAGGGAAATTGTGCTTTTCCAGCATGCTTACTGACCCTGATTTACCTCAGGAGTTTGAAAG GATGTCTTCCAAGCGACCAGCCTCTCCGTATGGGGAAGCAGATGGAGAGGTAGCCATGGTGACAAGCAGA CAGAAAGTGGAAGAAGAGGAGAGTGACGGGCTCCCAGCCTTTCACCTTCCCTTGCATGTGAGTTTTCCCA ACAAGCCTCACTCTGAGGAATTTCAGCCAGTTTCTCTGCTGACGCAAGAGACTTGTGGCCATAGGACTCC CACTTCTCAGCACAATACAATGGAAGTTGATGGCAATAAAGTTATGTCTTCATTTGCCCCACACAACTCA TCTACCTCACCTCAGAAGGCAGAAGAAGGTGGGCGACAGAGTGGCGAGTCCTTGTCTAGTACAGCCCTGG GAACTCCTGAACGGCGCAAGGGCAGTTTAGCTGATGTTGTTGACACCTTGAAGCAGAGGAAAATGGAAGA GCTCATCAAAAACGAGCCGGAAGAAACCCCCAGTATTGAAAAACTACTCTCAAAGGACTGGAAAGACAAG CTTCTTGCAATGGGATCGGGGAACTTTGGCGAAATAAAAGGGACTCCCGAGAGCTTAGCTGAGAAAGAAA GGCAACTCATGGGTATGATCAACCAGCTGACCAGCCTCCGAGAGCAGCTGTTGGCTGCCCACGATGAGCA GAAGAAACTAGCTGCCTCTCAGATTGAGAAACAGCGTCAGCAAATGGAGCTGGCCAAGCAGCAACAAGAA CAAATTGCAAGACAGCAGCAGCAGCTTCTACAGCAACAACACAAAATCAATTTGCTCCAGCAACAGATCC AGGTTCAAGGTCAGCTGCCGCCATTAATGATTCCCGTATTCCCTCCTGATCAACGGACACTGGCTGCAGC TGCCCAGCAAGGATTCCTCCTCCCTCCAGGCTTCAGCTATAAGGCTGGATGTAGTGACCCTTACCCTGTT CAGCTGATCCCAACTACCATGGCAGCTGCTGCCGCAGCAACACCAGGCTTAGGCCCACTCCAACTGCAGC AGTTATATGCTGCCCAGCTAGCTGCAATGCAGGTATCTCCAGGAGGGAAGCTGCCAGGCATACCCCAAGG CAACCTTGGTGCTGCTGTATCTCCTACCAGCATTCACACAGACAAGAGCACAAACAGCCCACCACCCAAA AGCAAGGATGAAGTGGCACAGCCACTGAACCTATCAGCTAAACCCAAGACCTCTGATGGCAAATCACCCA CATCACCCACCTCTCCCCATATGCCAGCTCTGAGAATAAACAGTGGGGCAGGCCCCCTCAAAGCCTCTGT CCCAGCAGCGTTAGCTAGTCCTTCAGCCAGAGTTAGCACAATAGGTTACTTAAATGACCATGATGCTGTC ACCAAGGCAATCCAAGAAGCTCGGCAAATGAAGGAGCAACTCCGACGGGAACAACAGGTGCTTGATGGGA AGGTGGCTGTTGTGAATAGTCTGGGTCTCAATAACTGCCGAACAGAAAAGGAAAAAACAACACTGGAGAG TCTGACTCAGCAACTGGCAGTTAAACAGAATGAAGAAGGAAAATTTAGCCATGCAATGATGGATTTCAAT CTGAGTGGAGATTCTGATGGAAGTGCTGGAGTCTCAGAGTCAAGAATTTATAGGGAATCCCGAGGGCGTG GTAGCAATGAACCCCACATAAAGCGTCCAATGAATGCCTTCATGGTGTGGGCTAAAGATGAACGGAGAAA GATCCTTCAAGCCTTTCCTGACATGCACAACTCCAACATCAGCAAGATATTGGGATCTCGCTGGAAAGCT ATGACAAACCTAGAGAAACAGCCATATTATGAGGAGCAAGCCCGTCTCAGCAAGCAGCACCTGGAGAAGT ACCCTGACTATAAGTACAAGCCCAGGCCAAAGCGCACCTGCCTGGTGGATGGCAAAAAGCTGCGCATTGG TGAATACAAGGCAATCATGCGCAACAGGCGGCAGGAAATGCGGCAGTACTTCAATGTTGGGCAACAAGCA CAGATCCCCATTGCCACTGCTGGTGTTGTGTACCCTGGAGCCATCGCCATGGCTGGGATGCCCTCCCCTC ACCTGCCCTCGGAGCACTCAAGCGTGTCTAGCAGCCCAGAGCCTGGGATGCCTGTTATCCAGAGCACTTA CGGTGTGAAAGGAGAGGAGCCACATATCAAAGAAGAGATACAGGCCGAGGACATCAATGGAGAAATTTAT GATGAGTACGACGAGGAAGAGGATGATCCAGATGTAGATTATGGGAGTGACAGTGAAAACCATATTGCAG Gene a

Complexity of genome Genes (i.e., protein coding)
But. . . only <2% of the human genome encodes proteins Other than protein coding genes, what is there? genes for noncoding RNAs (rRNA, tRNA, miRNAs, etc.) structural sequences (scaffold attachment regions) regulatory sequences non-functional “junk” ? It’s still uncertain/controversial how much of the genome is composed of any of these classes The answers will come from experimentation and bioinformatics.

The ENCODE Project: ENCyclopedia Of DNA Elements
Science 306, (2004) Published by AAAS

What’s in a genome? Protein coding genes. In long open reading frames ORFs interrupted by introns in eukaryotes Take up most of the genome in prokaryotes, but only a small portion of the eukaryotic genome RNA-only genes Transfer RNA, ribosomal RNA, snoRNAs (guide ribosomal and transfer RNA maturation), intron splicing, guiding mRNAs to the membrane for translation, gene regulation—this is a growing list Gene control sequences Promoters Regulatory elements Transposable elements, both active and defective DNA transposons and retrotransposons Many types and sizes Repeated sequences. Centromeres and telomeres Many with unknown (or no) function Unique sequences that have no obvious function As a general rule, each part of a genomic sequence has only one function: protein-coding gene, RNA gene, control signal, transposable element, repeat sequence, maybe no functional at all. But, most sequence elements overlap only slightly if at all.

protein-coding genes, non–protein-coding genes
easier to find than other functional elements why? genes are transcribed—which means that we can identify them by looking at RNA traditionally this has been done by cDNA or EST sequencing, more recently by microarray, SAGE, MPSS, etc.

Finding protein-coding genes
protein-coding genes have recognizable features open reading frames (ORFs) codon bias known transcription and translational start and stop motifs (promoters, 3’ poly-A sites) splice consensus sequences at intron-exon boundaries begin gene region start translation donor splice site acceptor stop end gene region single exon exon final initial 5’ UTR 3’ UTR intron A,T,G,C

Finding non–protein-coding genes
e.g., tRNA, rRNA, snoRNA, miRNA, various other ncRNAs Harder to find than protein-coding genes Why? often not poly-A tailed—don’t end up in cDNA libraries no ORF constraint on sequence divergence at nucleotide not protein level, so homology is harder to detect So, how do we find these?

Finding non–protein-coding genes
secondary structure homology, especially alignment of related species experimentally isolation through non-polyA dependent cloning methods microarrays

A practical guide to the art of RNA gene prediction
包括多种RNA结构预测及基因鉴别软件假阳性是最大的问题 A practical guide to the art of RNA gene prediction 15

生物信息学第六章基因预测和基因结构分析（II）

基因预测和基因结构分析生物信息学中的重要内容之一预测编码蛋白质的基因（一）基因预测的基本分析内容排除重复序列
确定开放阅读框（open reading frame, ORF）确定基因的调控区－启动子

1. 序列相似性搜索(Extrinsic Approaches)
（二）基因预测的基本方法 1. 序列相似性搜索(Extrinsic Approaches) 基因组DNA序列在6个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析（如Blastx）对EST数据库中同一生物的cDNA序列进行比较分析（如Blastn）确定基因数目和对应的ORF Similarity-based Gene Prediction: for sequences that encode a known protein or a protein with a known homolog

分析举例：水稻Xa21基因序列（U37133） CDS： bp处和 bp处 Blastx分析结果（检索蛋白质数据库）：与水稻蛋白质序列比较有些蛋白质序列是推测获得的 Blastn分析结果（检索est other数据库）：与水稻cDNA序列比较取决于数据库中EST数据的数量和长度通过“Distance tree of results ”查看与U37133序列同源的其它EST序列

2. 根据模式序列预测基因(Ab Initio Approaches)
各种基因预测软件取决于人们对已知基因结构特征的认识采用统计学方法基于一个或多个已知序列模式对未知序列进行分类启动子结构外显子、内含子密码子偏爱性对发现的模式进行统计检验

原核生物（E.coli）与RNA聚合酶互作位点（-10、-35区） LexA repressor的结合位点（启动子区段）CTGNNNNNNNNNNCAG 核糖体结合位点（转录起始位点后）GGAGG

真核生物基因结构复杂已知外显子、内含子－外显子边界、启动子序列特征

根据模式序列预测基因目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因（Mathe et al. 2002) 不同的基因预测软件分析结果有差异综合多个基因预测软件的分析结果人类基因数目 100000 50000 25000

根据模式序列预测基因一种分析工具可选择分析基因的不同结构 exon, poly-A, promoter 重复序列某些分析工具可选择物种模式（matrix）作为参照比较对象某些分析工具可用不同的方式呈现分析结果（文字或图形）

分析举例（1） Gene Finding Softberry ( Finding工具，分三大类 Gene Finding in Eukaryota Operon and Gene Finding in Bacteria Gene Finding in Viruses 每一大类包括多个分析软件在Softberry主页选择“Gene Finding in Eukaryota”类中的“FGENESH” 在FGENESH网页输入D63710序列（fasta格式）、选择物种（human）作为参照分析结果（文字和图像）

分析举例（2） GenScan GenScan（ Vertebrate Arabidopsis Maize 在GenScan主页输入D63710序列、选择物种（Vertebrate）作为参照分析结果（文字和图像）

在GeneMark的分析主页选择“GeneMark-E”
用于真核、原核和病毒等基因的预测多种物种参照在GeneMark的分析主页选择“GeneMark-E” 在“GeneMark-E”网页输入D63710序列、选择物种“H. sapiens”，选择输出格式分析结果

Combine extrinsic and ab initio Approaches
combine extrinsic and ab initio approaches by mapping protein and EST data to the genome to validate ab initio predictions. increase the accuracy of the gene prediction

输入待分析序列，选择masking, clade, species和informant
3. 利用比较基因组预测基因 (Comparative Genomics Approaches) 依赖于全基因组测序结果亲缘关系相近生物的基因序列具有保守性分析举例 N-SCAN/Twinscan ( 选择N-SCAN在线分析（需免费注册）输入待分析序列，选择masking, clade, species和informant 分析结果

基因预测存在主要问题假阳性（False Positive）：多预测了假的编码区，即在非编码区预测出基因
假阴性（False Negative）：漏掉了真实的编码区，即将基因预测为非编码区过界预测（Over Prediction）：由于基因边界很难准确定位，预测经常会超过实际边界片段化（Fragmentation）：内含子太大的基因，在预测时容易断裂成两个或多个基因融合化（Fusion）：距离过近的两个或多个基因，在预测时容易被融合成一个很大的基因

BCM http://searchlauncher.bcm.tmc.edu/
（三）基因精细结构分析 BCM 包括多种基因预测软件 NNPP分析启动子位点在BCM的分析主页选择“Gene Feature Searches” 在“Gene Feature Searches”网页粘贴D63710序列、选择“NNPP/Eukaryotic-eukaryotic promoter prediction” 分析结果

Promoter 2.0 Prediction Server
分析启动子位点 Promoter 2.0 Prediction Server Promoter2.0 predicts transcription start sites of vertebrate PolII promoters in DNA sequences. 在“Promoter 2.0”网页粘贴D63710序列分析结果

分析转录因子结合位点 Cis-acting element（顺式元件）和trans-acting element（反式元件）的互作

在Proscan网页粘贴序列（FASTA格式）
在Proscan网页粘贴序列（FASTA格式）分析结果分析结果

分析举例 PLACE (A Database of Plant Cis-acting Regulatory DNA Element) 植物在PLACE主页点击“Signal Scan Search” 在“PLACE Web Signal Scan”网页粘贴序列（FASTA）三种结果呈现方式：grouped by signal mapped to sequence scan by sequence order 点击相关链接查看什么类型的转录因子结合在相关cis-element上

生物信息学第六章基因预测和基因结构分析（上机操作）

Gene-finding software and resources
Tutorials Books… A beginner’s guide to eukaryotic genome annotation

练习从核苷酸数据库中选择DNA序列(AF319968) ，试用不同的分析工具分析其基因结构，并将分析结果与核苷酸数据库中的结果相比较。预测上述序列是否含有启动子区域，分析其转录因子结合位点。

FGENESH预测结果

GENSCAN预测结果

GeneMark预测结果

转录起点预测

生物信息学第六章基因预测和基因结构分析（I）.

Similar presentations

Presentation on theme: "生物信息学第六章基因预测和基因结构分析（I）."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

生物信息学 第六章 基因预测和基因结构分析 （I）.

Similar presentations

Presentation on theme: "生物信息学 第六章 基因预测和基因结构分析 （I）."— Presentation transcript:

Similar presentations

About project

反馈

生物信息学第六章基因预测和基因结构分析（I）.

Presentation on theme: "生物信息学第六章基因预测和基因结构分析（I）."— Presentation transcript: