生物信息学 第六章 基因预测和基因结构分析 (I).

Slides:



Advertisements
Similar presentations
A11 Regulation of gene expression in eukaryotes 2  真核生物基因表达调控的特点 真核生物表达调控与原核生物的不同: ( 1 )染色体结构不同; ( 2 )原核生物具有正调控和负调控并重的特点,真核 生物目前已知的主要是正调控; ( 3 )原核生物的转录和翻译是相偶联的,真核生物的.
Advertisements

第七章 -2 蛋白质结构预测 主讲人:孙 啸 制作人: 刘志华 东南大学 吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?
第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
第九章 核酸序列的其他分析方法 生物信息学. 1. 确定 DNA 序列的分子量和碱基组成  分子量( molecular weight )  单链 DNA ( single strand DNA , ssDNA )  双链 DNA ( double strand DNA , dsDNA ) 
13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
中三選科— 文科.
第十七章 基因组学与医学 GENOMICS AND MEDICINE 刘新文 北京大学医学部生化与分子生物学系.
Welcome Each of You to My Molecular Biology Class
分子生物学.
Regulation of Gene Expression
第 十 三 章 基因表达调控 Regulation of Gene Expression.
周柏伶 國立台中女中輔導主任 彰師大輔導與諮商研究所碩士 諮商心理師
CHAPTER 4 基因、基因體與DNA.
医学细胞生物学 Medical Cell Biology.
分 子 生 物 学 任课教师:宋方洲 马永平 易发平 刘智敏 卜友泉 基础医学院生物化学与分子生物学教研室.
國際間的協作 科技.
人类基因组学 朱德裕.
广德二中2006届高考 英语专题复习 单项填空 答题指导.
彻底搞清楚promoter, exon, intron, and UTR
生物信息学数据库.
人类科学史上 三大工程 曼哈顿计划(原子弹) 阿波罗计划(登月) 人类基因组计划 了解人类自身,操纵生命 其意义比以上两个计划更为深远.
第四章 基因的结构与功能 基因是一个特定的DNA或RNA片段,但并非一段DNA或RNA都是基因。.
第四节 基因的概念与发展 P140 基因的本质 ○、基因和DNA 一、经典遗传学中基因的概念 二、生化遗传和早期分子遗传学 对基因概念的发展
 DNA cloning Section 1: Gene manipulation (Basic concept & basic techniques) section 2: Cloning vectors (Compare various Cloning vectors) Section 3:
RNA Biosynthesis ( Transcription )
第十四章 基因诊断和基因治疗 表型的改变是由基因异常造成的 表型的改变是由基因异常造成的.
SHARE with YOU Why am I here? (堅持……) What did I do?
生物信息学 Bioinformatics.
酵母双杂交系统 Yeast Two-hybrid System(interaction trap)
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
生物資訊 bioinformatics 林育慶.
Lots of tools for cloning:
Office: C303, Teaching Building
生物資訊 (Bioinformatics)
第31章 DNA的重组 DNA分子内或分子间遗传信息的重新组合 重组的形式多种多样: 真核生物减数分裂时染色体的交换
5、利用EST数据库发现新基因 EST (expressed sequence tags),是从基因表达的短的序列,携带着完整基因某些片断的信息,称为表达序列标签 获得一个EST的途径有三种:1 大规模测序;2 比较同源性;3 差异显示或基因芯片法获得与某一性状相关的EST 电脑克隆 第一步,找到与待克隆基因相关的EST;第二步.
基本概念介紹 生命是什麼? 生命的密碼~DNA 解讀生命的執行者~RNA 生命舞台的主演者~蛋白質 DNA、RNA、蛋白質的三角關係
Guide to Freshman Life Prepared by Sam Wu.
真核生物基因结构的预测分析.
电 子 克 隆.
功能基因组学 中英联合实验室.
Basic Local Alignment Search Tool
普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第五章:真核生物基因组的注释.
第 十 三 章 基因表达调控 Regulation of Gene Expression 目 录.
971研究方法課程第九次上課 認識、理解及選擇一項適當的研究策略
Alternative splicing of mRNA molecule
第二章 细胞的概念与分子基础 细胞的统一性与多样性 统一性 相似的化学组成、最基本的结构要素 类似的遗传(信息)语言
第三章 基因组的结构与功能.
生物信息学 第六章 基因预测和基因结构分析 (II).
第二节、真核生物基因结构及功能 一、基因的概念 基因的概念随着分子遗传学、分子生物学、生物化学领域的进展而不断完善。 从遗传学角度看:
第三章 基因工程制药.
RNA Biosynthesis (Transcription)
3.5 Region Filling Region Filling is a process of “coloring in” a definite image area or region. 2019/4/19.
第 十 三 章 基因表达调控 Regulation of Gene Expression 目 录.
基因结构和表达调控 Gene Structure and Expression 目 录.
CHAPTER 6 Ribosome and Ribozyme.
突出语篇语境,夯实词汇语法 一模试卷单选完形分析 及相应的二轮复习对策 永嘉罗浮中学 周晓媚.
從 ER 到 Logical Schema ──兼談Schema Integration
中考英语阅读理解 完成句子命题与备考 宝鸡市教育局教研室 任军利
Interactome data and databases: different types of protein interaction
冀教版 九年级  Look into Science!.
计算机问题求解 – 论题1-5 - 数据与数据结构 2018年10月16日.
遗传信息的传递与表达.
基因组学        第一节 基因组结构特征      第二节    DNA分子标记及其应用 第三节 基因组图谱的构建及应用 第四节   后基因组学.
基因信息的传递.
遗传信息的流动.
第三节 转录后修饰.
Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷 陳靜儀 謝仁傑 林敬恆.
DNA RNA Protein Central Dogma 複 製 轉 錄 逆轉錄 轉 譯 Replication Reverse
Pattle Pun. Professor of Biology emeritus, Wheaton College, IL
Presentation transcript:

生物信息学 第六章 基因预测和基因结构分析 (I)

基因组测序策略 http://www.bio.davidson.edu/courses/genomics/method/shotgun.html

Genome sequencing: QUICKER, SMALLER, CHEAPER Nature Biotechnology 26, 1135 - 1145 (2008) 13 years $3 billion 1 day $1000

http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html

Applications of sequencing Nature Biotechnology 26, 1135 - 1145 (2008) identifying new genes looking at chromosome organization and structure finding gene regulatory sequences comparative genomics

Where are the Genes in the Genome? GAGAAAATCAATTGGTTTAGAAGGTTTGGACTCACTTGACAGGTTCAGTTGGAGACGATCATAGGTGGCT GCTGTGACAAAGGGAAATTGTGCTTTTCCAGCATGCTTACTGACCCTGATTTACCTCAGGAGTTTGAAAG GATGTCTTCCAAGCGACCAGCCTCTCCGTATGGGGAAGCAGATGGAGAGGTAGCCATGGTGACAAGCAGA CAGAAAGTGGAAGAAGAGGAGAGTGACGGGCTCCCAGCCTTTCACCTTCCCTTGCATGTGAGTTTTCCCA ACAAGCCTCACTCTGAGGAATTTCAGCCAGTTTCTCTGCTGACGCAAGAGACTTGTGGCCATAGGACTCC CACTTCTCAGCACAATACAATGGAAGTTGATGGCAATAAAGTTATGTCTTCATTTGCCCCACACAACTCA TCTACCTCACCTCAGAAGGCAGAAGAAGGTGGGCGACAGAGTGGCGAGTCCTTGTCTAGTACAGCCCTGG GAACTCCTGAACGGCGCAAGGGCAGTTTAGCTGATGTTGTTGACACCTTGAAGCAGAGGAAAATGGAAGA GCTCATCAAAAACGAGCCGGAAGAAACCCCCAGTATTGAAAAACTACTCTCAAAGGACTGGAAAGACAAG CTTCTTGCAATGGGATCGGGGAACTTTGGCGAAATAAAAGGGACTCCCGAGAGCTTAGCTGAGAAAGAAA GGCAACTCATGGGTATGATCAACCAGCTGACCAGCCTCCGAGAGCAGCTGTTGGCTGCCCACGATGAGCA GAAGAAACTAGCTGCCTCTCAGATTGAGAAACAGCGTCAGCAAATGGAGCTGGCCAAGCAGCAACAAGAA CAAATTGCAAGACAGCAGCAGCAGCTTCTACAGCAACAACACAAAATCAATTTGCTCCAGCAACAGATCC AGGTTCAAGGTCAGCTGCCGCCATTAATGATTCCCGTATTCCCTCCTGATCAACGGACACTGGCTGCAGC TGCCCAGCAAGGATTCCTCCTCCCTCCAGGCTTCAGCTATAAGGCTGGATGTAGTGACCCTTACCCTGTT CAGCTGATCCCAACTACCATGGCAGCTGCTGCCGCAGCAACACCAGGCTTAGGCCCACTCCAACTGCAGC AGTTATATGCTGCCCAGCTAGCTGCAATGCAGGTATCTCCAGGAGGGAAGCTGCCAGGCATACCCCAAGG CAACCTTGGTGCTGCTGTATCTCCTACCAGCATTCACACAGACAAGAGCACAAACAGCCCACCACCCAAA AGCAAGGATGAAGTGGCACAGCCACTGAACCTATCAGCTAAACCCAAGACCTCTGATGGCAAATCACCCA CATCACCCACCTCTCCCCATATGCCAGCTCTGAGAATAAACAGTGGGGCAGGCCCCCTCAAAGCCTCTGT CCCAGCAGCGTTAGCTAGTCCTTCAGCCAGAGTTAGCACAATAGGTTACTTAAATGACCATGATGCTGTC ACCAAGGCAATCCAAGAAGCTCGGCAAATGAAGGAGCAACTCCGACGGGAACAACAGGTGCTTGATGGGA AGGTGGCTGTTGTGAATAGTCTGGGTCTCAATAACTGCCGAACAGAAAAGGAAAAAACAACACTGGAGAG TCTGACTCAGCAACTGGCAGTTAAACAGAATGAAGAAGGAAAATTTAGCCATGCAATGATGGATTTCAAT CTGAGTGGAGATTCTGATGGAAGTGCTGGAGTCTCAGAGTCAAGAATTTATAGGGAATCCCGAGGGCGTG GTAGCAATGAACCCCACATAAAGCGTCCAATGAATGCCTTCATGGTGTGGGCTAAAGATGAACGGAGAAA GATCCTTCAAGCCTTTCCTGACATGCACAACTCCAACATCAGCAAGATATTGGGATCTCGCTGGAAAGCT ATGACAAACCTAGAGAAACAGCCATATTATGAGGAGCAAGCCCGTCTCAGCAAGCAGCACCTGGAGAAGT ACCCTGACTATAAGTACAAGCCCAGGCCAAAGCGCACCTGCCTGGTGGATGGCAAAAAGCTGCGCATTGG TGAATACAAGGCAATCATGCGCAACAGGCGGCAGGAAATGCGGCAGTACTTCAATGTTGGGCAACAAGCA CAGATCCCCATTGCCACTGCTGGTGTTGTGTACCCTGGAGCCATCGCCATGGCTGGGATGCCCTCCCCTC ACCTGCCCTCGGAGCACTCAAGCGTGTCTAGCAGCCCAGAGCCTGGGATGCCTGTTATCCAGAGCACTTA CGGTGTGAAAGGAGAGGAGCCACATATCAAAGAAGAGATACAGGCCGAGGACATCAATGGAGAAATTTAT GATGAGTACGACGAGGAAGAGGATGATCCAGATGTAGATTATGGGAGTGACAGTGAAAACCATATTGCAG Gene a

Complexity of genome Genes (i.e., protein coding) But. . . only <2% of the human genome encodes proteins Other than protein coding genes, what is there? genes for noncoding RNAs (rRNA, tRNA, miRNAs, etc.) structural sequences (scaffold attachment regions) regulatory sequences non-functional “junk” ? It’s still uncertain/controversial how much of the genome is composed of any of these classes The answers will come from experimentation and bioinformatics.

The ENCODE Project: ENCyclopedia Of DNA Elements Science 306, 636-640 (2004) Published by AAAS

http://genome.ucsc.edu/ENCODE/

What’s in a genome? Protein coding genes. In long open reading frames ORFs interrupted by introns in eukaryotes Take up most of the genome in prokaryotes, but only a small portion of the eukaryotic genome RNA-only genes Transfer RNA, ribosomal RNA, snoRNAs (guide ribosomal and transfer RNA maturation), intron splicing, guiding mRNAs to the membrane for translation, gene regulation—this is a growing list Gene control sequences Promoters Regulatory elements Transposable elements, both active and defective DNA transposons and retrotransposons Many types and sizes Repeated sequences. Centromeres and telomeres Many with unknown (or no) function Unique sequences that have no obvious function As a general rule, each part of a genomic sequence has only one function: protein-coding gene, RNA gene, control signal, transposable element, repeat sequence, maybe no functional at all. But, most sequence elements overlap only slightly if at all.

protein-coding genes, non–protein-coding genes easier to find than other functional elements why? genes are transcribed—which means that we can identify them by looking at RNA traditionally this has been done by cDNA or EST sequencing, more recently by microarray, SAGE, MPSS, etc.

Finding protein-coding genes protein-coding genes have recognizable features open reading frames (ORFs) codon bias known transcription and translational start and stop motifs (promoters, 3’ poly-A sites) splice consensus sequences at intron-exon boundaries begin gene region start translation donor splice site acceptor stop end gene region single exon exon final initial 5’ UTR 3’ UTR intron A,T,G,C

Finding non–protein-coding genes e.g., tRNA, rRNA, snoRNA, miRNA, various other ncRNAs Harder to find than protein-coding genes Why? often not poly-A tailed—don’t end up in cDNA libraries no ORF constraint on sequence divergence at nucleotide not protein level, so homology is harder to detect So, how do we find these?

Finding non–protein-coding genes secondary structure homology, especially alignment of related species experimentally isolation through non-polyA dependent cloning methods microarrays

A practical guide to the art of RNA gene prediction http://en.wikipedia.org/wiki/List_of_RNA_structure_prediction_software 包括多种RNA结构预测及基因鉴别软件 假阳性是最大的问题 A practical guide to the art of RNA gene prediction 15

生物信息学 第六章 基因预测和基因结构分析 (II)

基因预测和基因结构分析 生物信息学中的重要内容之一 预测编码蛋白质的基因 (一) 基因预测的基本分析内容 排除重复序列 确定开放阅读框(open reading frame, ORF) 确定基因的调控区-启动子

1. 序列相似性搜索(Extrinsic Approaches) (二) 基因预测的基本方法 1. 序列相似性搜索(Extrinsic Approaches) 基因组DNA序列 在6个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析(如Blastx) 对EST数据库中同一生物的cDNA序列进行比较分析(如Blastn) 确定基因数目和对应的ORF Similarity-based Gene Prediction: for sequences that encode a known protein or a protein with a known homolog

分析举例:水稻Xa21基因序列(U37133) CDS:1-2677 bp处和3521-3921 bp处 Blastx分析结果(检索蛋白质数据库):与水稻蛋白质序列比较 有些蛋白质序列是推测获得的 Blastn分析结果(检索est other数据库):与水稻cDNA序列比较 取决于数据库中EST数据的数量和长度 通过“Distance tree of results ”查看与U37133序列同源的其它EST序列

2. 根据模式序列预测基因(Ab Initio Approaches) 各种基因预测软件 取决于人们对已知基因结构特征的认识 采用统计学方法 基于一个或多个已知序列模式对未知序列进行分类 启动子结构 外显子、内含子 密码子偏爱性 对发现的模式进行统计检验

原核生物(E.coli) 与RNA聚合酶互作位点(-10、-35区) LexA repressor的结合位点(启动子区段)CTGNNNNNNNNNNCAG 核糖体结合位点(转录起始位点后)GGAGG

真核生物 基因结构复杂 已知外显子、内含子-外显子边界、启动子序列特征

根据模式序列预测基因 目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因(Mathe et al. 2002) 不同的基因预测软件分析结果有差异 综合多个基因预测软件的分析结果 人类基因数目 100000 50000 25000

根据模式序列预测基因 一种分析工具可选择分析基因的不同结构 exon, poly-A, promoter 重复序列 某些分析工具可选择物种模式(matrix)作为参照比较对象 某些分析工具可用不同的方式呈现分析结果(文字或图形)

分析举例(1) Gene Finding Softberry (http://linux1.softberry.com/berry.phtml)的Gene Finding工具,分三大类 Gene Finding in Eukaryota Operon and Gene Finding in Bacteria Gene Finding in Viruses 每一大类包括多个分析软件 在Softberry主页选择“Gene Finding in Eukaryota”类中的“FGENESH” 在FGENESH网页输入D63710序列(fasta格式)、选择物种(human)作为参照 分析结果(文字和图像)

分析举例(2) GenScan GenScan(http://genes.mit.edu/GENSCAN.html)用三个物种模式作为参照 Vertebrate Arabidopsis Maize 在GenScan主页输入D63710序列、选择物种(Vertebrate)作为参照 分析结果(文字和图像)

在GeneMark的分析主页选择“GeneMark-E” 用于真核、原核和病毒等基因的预测 多种物种参照 在GeneMark的分析主页选择“GeneMark-E” 在“GeneMark-E”网页输入D63710序列、选择物种“H. sapiens”,选择输出格式 分析结果

Combine extrinsic and ab initio Approaches http://bioinf.uni-greifswald.de/augustus/ http://www.yandell-lab.org/software/maker.html combine extrinsic and ab initio approaches by mapping protein and EST data to the genome to validate ab initio predictions. increase the accuracy of the gene prediction

输入待分析序列,选择masking, clade, species和informant 3. 利用比较基因组预测基因 (Comparative Genomics Approaches) 依赖于全基因组测序结果 亲缘关系相近生物的基因序列具有保守性 分析举例 N-SCAN/Twinscan (http://mblab.wustl.edu/nscan/) 选择N-SCAN在线分析(需免费注册) 输入待分析序列,选择masking, clade, species和informant 分析结果

基因预测存在主要问题 假阳性(False Positive):多预测了假的编码区,即在非编码区预测出基因 假阴性(False Negative):漏掉了真实的编码区,即将基因预测为非编码区 过界预测(Over Prediction):由于基因边界很难准确定位,预测经常会超过实际边界 片段化(Fragmentation):内含子太大的基因,在预测时容易断裂成两个或多个基因 融合化(Fusion):距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因

BCM http://searchlauncher.bcm.tmc.edu/ (三)基因精细结构分析 BCM http://searchlauncher.bcm.tmc.edu/ 包括多种基因预测软件 NNPP分析启动子位点 在BCM的分析主页选择“Gene Feature Searches” 在“Gene Feature Searches”网页粘贴D63710序列、选择“NNPP/Eukaryotic-eukaryotic promoter prediction” 分析结果

Promoter 2.0 Prediction Server 分析启动子位点 Promoter 2.0 Prediction Server http://www.cbs.dtu.dk/services/Promoter/ Promoter2.0 predicts transcription start sites of vertebrate PolII promoters in DNA sequences. 在“Promoter 2.0”网页粘贴D63710序列 分析结果

分析转录因子结合位点 Cis-acting element(顺式元件)和trans-acting element(反式元件)的互作

在Proscan网页粘贴序列(FASTA格式) http://www-bimas.cit.nih.gov/molbio/proscan/ 在Proscan网页粘贴序列(FASTA格式) 分析结果 分析结果

分析举例 PLACE (A Database of Plant Cis-acting Regulatory DNA Element) http://www.dna.affrc.go.jp/PLACE/index.html 植物 在PLACE主页点击“Signal Scan Search” 在“PLACE Web Signal Scan”网页粘贴序列(FASTA) 三种结果呈现方式:grouped by signal mapped to sequence scan by sequence order 点击相关链接查看什么类型的转录因子结合在相关cis-element上

生物信息学 第六章 基因预测和基因结构分析 (上机操作)

Gene-finding software and resources Tutorials Books… A beginner’s guide to eukaryotic genome annotation

练习 从核苷酸数据库中选择DNA序列(AF319968) ,试用不同的分析工具分析其基因结构,并将分析结果与核苷酸数据库中的结果相比较。 预测上述序列是否含有启动子区域,分析其转录因子结合位点。

FGENESH预测结果

FGENESH预测结果

GENSCAN预测结果

GeneMark预测结果

转录起点预测