生物信息学 第六章 基因预测和基因结构分析 (II).

Slides:



Advertisements
Similar presentations
第四章 核苷酸和蛋白质序列为 基础的数据库检索 (I) 生物信息学. 检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene.
Advertisements

第五节 基因识别 主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室 基因识别  基因识别是生物信息学领域里的一个重 要研究内容  基因识别问题,在近几年受到广泛的重 视  当人类基因组研究进入一个系统测序阶段 时,急需可靠自动的基因组序列翻译解释 技术,以处理大量已测定的但未知功能或.
流感是什么? 流感是由什么引起的? 流感有什么症状? 为什么春季是流感高峰期? 流感的防疫方法 我问你答.
第七章 -2 蛋白质结构预测 主讲人:孙 啸 制作人: 刘志华 东南大学 吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?
第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
第九章 核酸序列的其他分析方法 生物信息学. 1. 确定 DNA 序列的分子量和碱基组成  分子量( molecular weight )  单链 DNA ( single strand DNA , ssDNA )  双链 DNA ( double strand DNA , dsDNA ) 
13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
分子生物学部分开发实验 植物遗传亲缘关系研究.
第十七章 基因组学与医学 GENOMICS AND MEDICINE 刘新文 北京大学医学部生化与分子生物学系.
第十三章 基因结构与基因表达调控 Gene Structure and Expression
Regulation of Gene Expression
第 十 三 章 基因表达调控 Regulation of Gene Expression.
一次数据库的查寻.
龙星课程—肿瘤生物信息学上机课程 曹莎
人工廢棄容器 登革熱病媒蚊主要孳生之比較 埃及斑蚊 白線斑蚊 於人工容器之積水內如: 水缸、廢輪胎花器、水盆、儲水槽、 樹洞、竹筒、
第2章 基因和染色体的关系 第1节 减数分裂和受精作用.
市 场 营 销 学 精品课程 孙金霞 山西财贸职业技术学院.
专题 1、4 基因工程、生物技术的安全和伦理问题 考纲内容 能力要求 命题展望 1. 基因工程的诞生 2.基因工程的原理及技术
一种基于结构序列 藕合模块辨别人类 miRNA前体的新方法
人类基因组学 朱德裕.
一轮复习 细胞的增值.
彻底搞清楚promoter, exon, intron, and UTR
生物信息学数据库.
未来几大热门行业 管理咨询师   理由:管理咨询师针对企业运用管理学的原理,进行从战略策划到战术运用的系列顾问活动,包括对企业CIS、人力资源、流程再造、组织结构设计、营销等方面进行策划并指导实施。专家指出,我国目前管理咨询专业人才严重短缺。在未来10年中,我国管理咨询业的需求将以每年10倍的速度增加,到2010年中国管理咨询行业的有效需求总额将达到100亿美元。管理咨询师年薪大约在10万到60万元人民币不等。
第五章 非人員解說.
人类科学史上 三大工程 曼哈顿计划(原子弹) 阿波罗计划(登月) 人类基因组计划 了解人类自身,操纵生命 其意义比以上两个计划更为深远.
邹 权 厦门大学计算机科学系 生物信息学中的分类学习问题 邹 权 厦门大学计算机科学系
第四章 基因的结构与功能 基因是一个特定的DNA或RNA片段,但并非一段DNA或RNA都是基因。.
遗 传 生命与繁衍的保证.
第四节 基因的概念与发展 P140 基因的本质 ○、基因和DNA 一、经典遗传学中基因的概念 二、生化遗传和早期分子遗传学 对基因概念的发展
13-14学年度生物学科教研室总结计划 2014年2月.
必修1 分子与细胞 第二章 第三节 细 细胞溶胶 内质网 胞 核糖体 质 高尔基体 线粒体 第一课时 浙江省定海第一中学 黄晓芬.
欢 迎.
RNA Biosynthesis ( Transcription )
第三章 真核细胞基因表 达的调控 生物工程04级1班 马莉.
生物信息学 Bioinformatics.
HBsAg阳性肝细胞的膜表面HBsAg抗原的检测
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
Lots of tools for cloning:
生物信息学 第二章 数 据 库(III).
5、利用EST数据库发现新基因 EST (expressed sequence tags),是从基因表达的短的序列,携带着完整基因某些片断的信息,称为表达序列标签 获得一个EST的途径有三种:1 大规模测序;2 比较同源性;3 差异显示或基因芯片法获得与某一性状相关的EST 电脑克隆 第一步,找到与待克隆基因相关的EST;第二步.
生物信息学常用软件 李蔚 Co-head, Bioinformatics Department
真核生物基因结构的预测分析.
电 子 克 隆.
Basic Local Alignment Search Tool
普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第五章:真核生物基因组的注释.
第 十 三 章 基因表达调控 Regulation of Gene Expression 目 录.
生物信息学 第六章 基因预测和基因结构分析 (I).
Science and technology report service systemUsage method
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
第二节、真核生物基因结构及功能 一、基因的概念 基因的概念随着分子遗传学、分子生物学、生物化学领域的进展而不断完善。 从遗传学角度看:
第三章 基因工程制药.
第二章 基因 掌握基因概念及结构特点;中心法则;基因转录调控相关序列;多顺反子,单顺反子;真核基因与原核基因的结构特点。 熟悉基因突变的意义
第 十 三 章 基因表达调控 Regulation of Gene Expression 目 录.
基因结构和表达调控 Gene Structure and Expression 目 录.
第3节 细胞核——系统的控制中心 本节聚集: 1.细胞核有什么功能? 2. 细胞核的形态结构是怎样的?
基因表达的调控.
第二节 核酸与细胞核.
染色体水平上的DNA与蛋白质 相互作用分析 ——CHIP-chip技术的应用
第九章 人類基因體學與展望.
基因组学        第一节 基因组结构特征      第二节    DNA分子标记及其应用 第三节 基因组图谱的构建及应用 第四节   后基因组学.
张亮生 可变剪切对基因进化模式和功能的影响 张亮生
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
基因信息的传递.
遗传信息的流动.
第三节 真核基因转录调节.
第三节 转录后修饰.
Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷 陳靜儀 謝仁傑 林敬恆.
第十一章 RNA的生物合成 (转录).
第二章 基因与基因组 2019/11/8.
Presentation transcript:

生物信息学 第六章 基因预测和基因结构分析 (II)

基因预测和基因结构分析 生物信息学中的重要内容之一 预测编码蛋白质的基因 (一) 基因预测的基本分析内容 排除重复序列 确定开放阅读框(open reading frame, ORF) 确定基因的调控区-启动子

1. 序列相似性搜索(Extrinsic Approaches) (二) 基因预测的基本方法 1. 序列相似性搜索(Extrinsic Approaches) 基因组DNA序列 在6个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析(如Blastx) 对EST数据库中同一生物的cDNA序列进行比较分析(如Blastn) 确定基因数目和对应的ORF Similarity-based Gene Prediction: for sequences that encode a known protein or a protein with a known homolog

分析举例:水稻Xa21基因序列(U37133) CDS:1-2677 bp处和3521-3921 bp处 Blastx分析结果(检索蛋白质数据库):与水稻蛋白质序列比较 有些蛋白质序列是推测获得的 Blastn分析结果(检索est other数据库):与水稻cDNA序列比较 取决于数据库中EST数据的数量和长度 通过“Distance tree of results ”查看与U37133序列同源的其它EST序列

2. 根据模式序列预测基因(Ab Initio Approaches) 各种基因预测软件 取决于人们对已知基因结构特征的认识 采用统计学方法 基于一个或多个已知序列模式对未知序列进行分类 启动子结构 外显子、内含子 密码子偏爱性 对发现的模式进行统计检验

原核生物(E.coli) 与RNA聚合酶互作位点(-10、-35区) LexA repressor的结合位点(启动子区段)CTGNNNNNNNNNNCAG 核糖体结合位点(转录起始位点后)GGAGG

真核生物 基因结构复杂 已知外显子、内含子-外显子边界、启动子序列特征

根据模式序列预测基因 目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因(Mathe et al. 2002) 不同的基因预测软件分析结果有差异 综合多个基因预测软件的分析结果 人类基因数目 100000 50000 25000

根据模式序列预测基因 一种分析工具可选择分析基因的不同结构 exon, poly-A, promoter 重复序列 某些分析工具可选择物种模式(matrix)作为参照比较对象 某些分析工具可用不同的方式呈现分析结果(文字或图形)

分析举例(1) Gene Finding Softberry (http://linux1.softberry.com/berry.phtml)的Gene Finding工具,分三大类 Gene Finding in Eukaryota Operon and Gene Finding in Bacteria Gene Finding in Viruses 每一大类包括多个分析软件 在Softberry主页选择“Gene Finding in Eukaryota”类中的“FGENESH” 在FGENESH网页输入D63710序列(fasta格式)、选择物种(human)作为参照 分析结果(文字和图像)

分析举例(2) GenScan GenScan(http://genes.mit.edu/GENSCAN.html)用三个物种模式作为参照 Vertebrate Arabidopsis Maize 在GenScan主页输入D63710序列、选择物种(Vertebrate)作为参照 分析结果(文字和图像)

在GeneMark的分析主页选择“GeneMark-E” 用于真核、原核和病毒等基因的预测 多种物种参照 在GeneMark的分析主页选择“GeneMark-E” 在“GeneMark-E”网页输入D63710序列、选择物种“H. sapiens”,选择输出格式 分析结果

Combine extrinsic and ab initio Approaches http://bioinf.uni-greifswald.de/augustus/ http://www.yandell-lab.org/software/maker.html combine extrinsic and ab initio approaches by mapping protein and EST data to the genome to validate ab initio predictions. increase the accuracy of the gene prediction

输入待分析序列,选择masking, clade, species和informant 3. 利用比较基因组预测基因 (Comparative Genomics Approaches) 依赖于全基因组测序结果 亲缘关系相近生物的基因序列具有保守性 分析举例 N-SCAN/Twinscan (http://mblab.wustl.edu/nscan/) 选择N-SCAN在线分析(需免费注册) 输入待分析序列,选择masking, clade, species和informant 分析结果

基因预测存在主要问题 假阳性(False Positive):多预测了假的编码区,即在非编码区预测出基因 假阴性(False Negative):漏掉了真实的编码区,即将基因预测为非编码区 过界预测(Over Prediction):由于基因边界很难准确定位,预测经常会超过实际边界 片段化(Fragmentation):内含子太大的基因,在预测时容易断裂成两个或多个基因 融合化(Fusion):距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因

BCM http://searchlauncher.bcm.tmc.edu/ (三)基因精细结构分析 BCM http://searchlauncher.bcm.tmc.edu/ 包括多种基因预测软件 NNPP分析启动子位点 在BCM的分析主页选择“Gene Feature Searches” 在“Gene Feature Searches”网页粘贴D63710序列、选择“NNPP/Eukaryotic-eukaryotic promoter prediction” 分析结果

Promoter 2.0 Prediction Server 分析启动子位点 Promoter 2.0 Prediction Server http://www.cbs.dtu.dk/services/Promoter/ Promoter2.0 predicts transcription start sites of vertebrate PolII promoters in DNA sequences. 在“Promoter 2.0”网页粘贴D63710序列 分析结果

分析转录因子结合位点 Cis-acting element(顺式元件)和trans-acting element(反式元件)的互作

在Proscan网页粘贴序列(FASTA格式) http://www-bimas.cit.nih.gov/molbio/proscan/ 在Proscan网页粘贴序列(FASTA格式) 分析结果 分析结果

分析举例 PLACE (A Database of Plant Cis-acting Regulatory DNA Element) http://www.dna.affrc.go.jp/PLACE/index.html 植物 在PLACE主页点击“Signal Scan Search” 在“PLACE Web Signal Scan”网页粘贴序列(FASTA) 三种结果呈现方式:grouped by signal mapped to sequence scan by sequence order 点击相关链接查看什么类型的转录因子结合在相关cis-element上

Gene-finding software and resources Tutorials Books… A beginner’s guide to eukaryotic genome annotation

FGENESH预测结果

FGENESH预测结果

GENSCAN预测结果

GeneMark预测结果

转录起点预测