第五节 基因识别 主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室 基因识别  基因识别是生物信息学领域里的一个重 要研究内容  基因识别问题,在近几年受到广泛的重 视  当人类基因组研究进入一个系统测序阶段 时,急需可靠自动的基因组序列翻译解释 技术,以处理大量已测定的但未知功能或.

Slides:



Advertisements
Similar presentations
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
Advertisements

第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
龙星课程—肿瘤生物信息学上机课程 曹莎
3.2 体外受精和早期胚胎培养.
2012年高考说明要求 考纲解读 遗传信息的转录和翻译 Ⅱ 掌握DNA与RNA组成、结构和功能的异同点 理解遗传信息转录、翻译过程的区别和联系以及学会有关图形的识别 学会基因表达过程中有关碱基和氨基酸数量关系的计算、推导.
彻底搞清楚promoter, exon, intron, and UTR
第4章 基因的表达 第1节 基因指导蛋白质的合成.
基因的表达 凌通课件.
常用逻辑用语复习课 李娟.
小学生游戏.
初中数学八年级下册 (苏科版) 10.4 探索三角形 相似的条件(2).
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
程序的形式验证 - 简介 中国科学院软件研究所 张文辉 1.
Hadoop I/O By ShiChaojie.
面向对象建模技术 软件工程系 林 琳.
强连通分量 无向图 1、任意两顶点连通称该图为连通图 2、否则将其中的极大连通子图称为连通分量 A D C B E 有向图
电 子 克 隆.
普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第五章:真核生物基因组的注释.
SQL Injection.
网络常用常用命令 课件制作人:谢希仁.
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
数据挖掘工具性能比较.
生物信息学 第六章 基因预测和基因结构分析 (II).
动态规划(Dynamic Programming)
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
第8章 遗传密码 8.1 遗传密码的基本特性.
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
SOA – Experiment 2: Query Classification Web Service
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
专项考能集训(四)  碱基含量及DNA复制有关的计算.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
线性规 Linear Programming
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
姚金宇 MIT SCHEME 使用说明 姚金宇
超越自然还是带来毁灭 “人造生命”令全世界不安
用计算器开方.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
3.16 枚举算法及其程序实现 ——数组的作用.
上海交通大学计算机系 吴亚栋 Tel: 语音识别基础 第五章 基于统计模型(HMM)方式 的语音识别技术 上海交通大学计算机系 吴亚栋 Tel:
第4课时 绝对值.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
第七、八次实验要求.
例题2-15讲解 主讲人 束美其.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§2 方阵的特征值与特征向量.
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
滤波减速器的体积优化 仵凡 Advanced Design Group.
基于列存储的RDF数据管理 朱敏
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
基因信息的传递.
第三节 转录后修饰.
线性规划 Linear Programming
第四章 UNIX文件系统.
第十七讲 密码执行(1).
第十二讲 密码执行(上).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
入侵检测技术 大连理工大学软件学院 毕玲.
3.3.2 两点间的距离 山东省临沂第一中学.
§3.1.2 两条直线平行与垂直的判定 l1 // l2 l1 ⊥ l2 k1与k2 满足什么关系?
Presentation transcript:

第五节 基因识别 主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室

基因识别  基因识别是生物信息学领域里的一个重 要研究内容  基因识别问题,在近几年受到广泛的重 视  当人类基因组研究进入一个系统测序阶段 时,急需可靠自动的基因组序列翻译解释 技术,以处理大量已测定的但未知功能或 未经注释的 DNA 序列

 原核基因识别 重点在于识别编码区域

 非翻译区域( untranslated regions, UTR )  编码区域两端的 DNA ,有一部分被转录, 但是不被翻译,这一部分称为非翻译区域  5’UTR--- 基因上游区域的非翻译区域  3’UTR--- 基因下游区域的非翻译区域

 对于任何给定的核酸序列(单链 DNA 或 mRNA ),根据密码子的起始位置,可 以按照三种方式进行解释。  例如,序列 ATTCGATCGCAA  这三种阅读顺序称为阅读框( reading frames ) CAA A ATTCGATCG ATTCGATCGCAA ATTCGATCGCA (1)(1) (3)(3) (2)(2)

 一个开放阅读框( ORF,open reading frame )是一个没有终止编码的密码子序 列。  原核基因识别任务的重点是识别开放阅读 框,或者说识别长的编码区域。

基于基因密码子特性的识别方法  辨别编码区域与非编码区域的一种方法  是检查终止密码子的出现频率 终止密码子出现的期望次数为: 每 21 个(  64/3 )密码子出现一次终止密 码子

基本思想:  如果能够找到一个比较长的序列,其相应 的密码子序列不含终止密码子,则这段序 列可能就是编码区域。  基本算法:  扫描给定的 DNA 序列,在三个不同的阅读 框中寻找较长的 ORF 。遇到终止密码子以 后,回头寻找起始密码子。  这种算法过于简单,不适合于处理短的 ORF 或者交叠的 ORF 。

 识别编码区域的另一种方法是分析各种 密码子出现的频率 将一个随机均匀分布的 DNA 序列翻译成氨基酸 序列,则在氨基酸序列中上述 3 种氨基酸出现的 比例应该为 6:4:1 例如,亮氨酸、丙氨酸、色氨酸分别有 6 个、 4 个和 1 个密码子 但是在真实的氨基酸序列中,上述比例并不 正确 这说明 DNA 的编码区域并非随机

 假设在一条 DNA 序列中已经找到所有的 ORF ,那么可以利用密码子频率进一步 区分编码 ORF 和非编码 ORF  马尔柯夫链模型  利用这种方法,可以计算一个 ORF 成为 编码区域的可能性。

 一个简单的统计模型 假设相继的密码子是独立的,不存在前后依 赖关系。 令 f abc 代表密码子 abc 在编码区域出现的频率 给定序列 a 1,b 1,c 1, a 2,b 2,c 2,…, a n+1,b n+1 从密码子 a 1 b 1 c 1 开始的阅读框,其 n 个密码子 的出现概率为

 第二种和第三种阅读框 n 个密码子出现的概率 分别为

 第 i 个阅读框成为编码阅读框的概率 计算:  算法: 在序列上移动长度为 n 的窗口,计算 P i 根据 P i 的值识别编码的阅读框

基于编码区域碱基组成特征的识别方法  编码序列与非编码序列在碱基组成上 有区别  单个碱基的组成比例  多个碱基的组成  通过统计分析识别编码序列

分析实例

2 、真核基因识别问题 真核基因远比原核基因复杂:  一方面,真核基因的编码区域是非连续 的,编码区域被分割为若干个小片段。  另一方面,真核基因具有更加丰富的基 因调控信息,这些信息主要分布在基因 上游区域。

基因识别基本思路 找出基因两端的功能区域 : 转录启动区 终止区 在启动区下游位置寻找翻译起始密码子 识别转录剪切位点 剪切给体位点 剪切接受体位点

 各种不同的方法有不同的适应面,而不 同的方法有时可以结合起来以提高基因 识别的准确率。  关键问题是如何提高一个识别算法的敏 感性( sensitivity , Sn )和特异性 ( specificity , Sp )。

3 、基因识别的主要方法 两大类识别方法:  从头算方法(或基于统计的方法)  根据蛋白质编码基因的一般性质和特征进行识别, 通过统计值区分外显子、内含子及基因间区域  基于同源序列比较的方法  利用数据库中现有与基因有关的信息(如 EST 序 列、蛋白质序列),通过同源比较,帮助发现新 基因。  最理想的方法是综合两大类方法的优点, 开发混合算法。

 基因识别方法有 : ( 1 )基于规则的系统 ( 2 ) 语义学方法 ( 3 ) 线性辨别分析( LDA ) ( 4 ) 决策树  ( 5 ) 动态规划  ( 6 ) 隐马尔柯夫模型  ( 7 ) 剪切对比排列 ( spliced alignment )

4 、编码区域识别 两类方法 :  基于特征信号的识别  内部外显子 剪切位点  5’ 端的外显子一定在核心启动子的下游  3’ 端的外显子的下游包含多聚A信号和终 止编码  基于统计度量的方法  根据密码子使用倾向  双联密码统计度量等

 在一个基因中,第 i 个( i=1 , 64 )密码子相对使用 倾向 RSCU i 的定义如下:  Obs i 是该基因中第 i 个密码子实际出现的次数 Exp i 是对应密码子期望的出现次数  aa i 是统计的第 i 个密码子出现的次数  syn i 是所有与第 i 个密码子同义密码子出现的次数  RSCU 大于 1 表示相应密码子出现的次数比期望次数 高,而小于 1 则表示出现次数相对较少。 ( 5-66 ) ( 5-65 ) 密码子使用倾向

 设一段 DNA 序列为 S ,从 S 的第 i 位到第 j 位的双联密 码统计度量 IF 6 ( i , j )定义为 : f k 是从第 k 位开始的双联密码的频率 F k 是该双联密码随机出现的频率 ( 5-67 ) 双联密码统计度量

通过相似搜索发现编码区域或者外显子  EST ( Expressed Sequence Tags )  cDNA  蛋白质序列

 目前大多数预测程序都将数据库相似性 搜索的信息结合进基因预测过程  同时考虑序列特征信号和统计度量 GRAIL 用人工神经网络识别编码区域

输入是一系列反映功能位点信号特征和序列编码统计特征的参数 输出就是对一段 DNA 序列是否是编码区域的判别结果 神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关性

5 、构建基因模型  基因识别最终任务是建立完整的基因结 构模型  一个理想的基因识别程序应该能够发现 完整的基因结构 ( …,e 1, i 1, …, i n-1, e n, … ) ATG- 外显子 1 内含子 外显子 外显子 n-UAG

 基因剪切位点 剪切给体( donor )位点 - “gt” 接受体( acceptor )位点 - “ag”

基因的可变剪切

gene A 基因可变剪切示意

构建基因模型方法  剪切位点形成外显子和内含子的边界 搜集候选外显子 → 候选基因

 候选基因是一条非相交的外显子和内含 子的链,表示为 ( i 0, e 1, i 1, …, e n, i n ) 其中 i j 代表内含子( 0  j  n ) e l 代表外显子( 1  l  n ) i 0 和 i n 并非真实的内含子,它们分别代表 基因两侧的非编码序列

 候选基因位于给定的 DNA 序列,并满足下列一 致性条件: ( 1 )所有外显子加起来的长度是 3 的整数倍; ( 2 )在各个外显子内部(除最后一个外显子的 最后一个密码子),没有终止编码; ( 3 )第一个内含子 - 外显子边界( i 0, e 1 )是翻 译起始编码,而最后一个外显子 - 内含子边界 ( e n, i n )是终止编码。

位点图 (分层标注剪切位点) 另设两个特殊的顶点,即起点( source )和终点( sink )。 从起点到终点的任何一条路径代表一个可能的基因结构。

例如: 位点图上的路径

 候选基因所对应的道路图中的路径

 求最优路径  每一条弧附加一个权值 外显子、内含子度量  每个节点附加权值 剪切位点度量  综合评价

6 、用于基因识别的 HMM 模型  隐马尔柯夫模型 HMM 是一条状态不可见 的马尔柯夫链,其当前状态的输出是可见 的。  每个状态按照一定的概率分布随机地从字母 表中取出字符并释放。  扩展的隐藏马尔柯夫模型( GHMMs )  对 HMM 进一步抽象,产生更一般的马尔柯夫 模型,以分析复杂的脊椎动物基因 。

(1) 信号传感器模型  将剪切位点、起始编码区域或者终止 编码区域看成是 DNA 序列上的功能位 点或者信号位点,用 HMM 来进行分析

内含子区域 外显子区域 保守位点 根据对比排列, 形成具有 19 状态 的 HMM 模型。

 对前一节所介绍的 HMM 模型进行修改, 可以处理双联核苷酸的问题,即将 4 种 概率分布扩展为 16 种。  假设一段序列为 ACTGTC… ,则 P(ACTGTC…)=p 1 (A)  p 2 (C  A)  p 3 (T  C)  p 4 (G  T)  p 5 (T  G)  p 6 (C  T)… 其中 p 1 是状态 1 对于 4 种核苷酸的概率, p 2 (x  y) 状态 2 的条件概率。

(2) 编码区模型

 由于密码子的长度为 3 ,因此密码子模型的最 后一个状态应该至少为 2 阶。  对于 2 阶的状态,具有 64 种概率分布,可根据 已知编码区域进行统计计算而得到 64 种分布。 例如: p(A  CA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(C  CA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(G  CA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(T  CA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] 其中, c(xyz) 是密码子 xyz 的计数。  这样的模型可以检测无结束编码的区域,因为 对应于三个结束编码 TAA 、 TAG 和 TGA 的 p(A  TA) 、 p(G  TA) 和 p(A  TG) 自动为 0 。

(3) 组合模型

 将上述模型扩展,使之可以 识别具有多个外显子的基因。  改进后的模型见下图

7、基于剪切比对的基因识别方法  基本思想是:利用数据库中的同源信息 进行基因识别,包括 DNA 、 RNA 和蛋白 质数据库。  其方法是:  首先通过分析所有可能的剪切接受体位点 和剪切给体位点,构建一组候选的外显子。  然后进一步分析候选外显子,探查所有可 能的外显子组合,寻找一个与已知目标蛋 白质或其他表达序列最匹配的组合

 一种半自动的综合方法识别基因过程:  ( 1 )选择所有长度大于 50bp 并介于保守 的剪切接受位点和给体位点之间的 ORF , 作为候选的外显子; 预选  ( 2 )对于候选的外显子计算其 6 目编码度 量值,并从大到小将它们排列起来; 减小搜索范围  ( 3 )对照蛋白质序列数据库进行搜索,寻 找相似体。 搜索,筛选

8、基因识别程序介绍 表 5.7 基因识别程序及访问地址 ( HP— 主页; ES— 服务器; WS—web 服务器; CL— 客户 / 服务器协议; EX— 有可执行代码; SC— 有源代码)

表 5.8 各程序的性能比较(敏感性 (1)— 被预测出的真实编码核酸的 % ; 敏感性 (2)— 被正确识别出的编码外显子的 % ; 特异性 (1)— 预测出的编码核酸为真实编码核酸的 % ; 特异性 (2)— 预测出外显子为真实外显子的 % )

 基因识别方法存在的问题和局限性: ( 1 )关于基因的定义不明确 → 统一定义 ( 2 )目前的方法仅仅识别蛋白质编码基因 → 转录信号 ( 3 )现有的许多方法仅检测单个基因 → 部分基因、多重基因 ( 4 )基于同源分析的方法是保守的 → 不可能发现新的基因 ( 5 ) 忽视关于基因结构的生物学知识 → 基因表达的真实分子机制

谢谢!