Download presentation
Presentation is loading. Please wait.
Published by课 潘 Modified 8年之前
1
第七章 -2 蛋白质结构预测 主讲人:孙 啸 制作人: 刘志华 东南大学 吴健雄实验室
2
结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure? Protein family, domain, cluster analysis Relation- ship to known structure? Structural analysis 3D comparative modeling Predicted three dimensional structure Is there a predicted structure? 3D analysis in laboratory yes no
3
第四节 蛋白质三维结构预测 1 、同源模型化方法 主要思想: 对于一个未知结构的蛋白质,找到一个已知结构的同源 蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白 质建立结构模型。 依据: 任何一对蛋白质,如果两者的序列等同部分超过 30% , 则它们具有相似的三维结构,即两个蛋白质的基本折叠 相同,只是在非螺旋和非折叠区域的一些细节部分有所 不同。
4
假设待预测三维结构的目标蛋白质为 U ( Unknown ),利用同源模型化方法建立结 构模型的过程包括下述 6 个步骤: ( 1 )搜索结构模型的模板 (T) ( 2 )序列比对 ( 3 )建立骨架 ( 4 )构建目标蛋白质的侧链 ( 5 )构建目标蛋白质的环区 ( 6 )优化模型 U T
5
构建目标蛋白质的侧链
6
预测结果准确率: 对于具有 60% 等同的序列,用上述方法所建 立的三维模型非常准确。若序列的等同部分 超过 60% ,则预测结果将接近于实验得到的 测试结果。 一般如果序列的等同部分大于 30% ,则可以 期望得到比较好的预测结果。
7
2 、线索化方法(折叠识别方法) 有很多蛋白质具有相似的空间结构,但它们 的序列等同部分小于 25% ,即远程同源。 对于这类蛋白质,很难通过序列比对找出它 们之间的关系,必须设计新的分析方法。
8
对于一个未知结构的蛋白质( U ), 如果找到一个已知结构的远程同源蛋白质 ( T ), 那么可以根据 T 的结构模板通过远程同源模型 化方法建立 U 的三维结构模型。 U T (远程同源)
9
一个远程同源模型化方法要解决三个问题: ( 1 )检测远程同源蛋白质( T ); ( 2 ) U 和 T 的序列必须被正确地对比排列; ( 3 )修改一般的同源模型化过程,以应用于相似度 非常低的情况,即处理更多的环区,建立合理的三 维结构模型。 如何解决第一个和第二个问题? 基本思想是建立一个从 U 到已知结构 T 的线索,并通 过一些基于环境或基于知识的势,评价序列与结构 的适应性。 至于最后建立三维结构模型则是非常困难的 序列 → 结构比对
10
线索化的主要思想: 利用氨基酸的结构倾向(如形成二级结构 的倾向、疏水性、极性等),评价一个序 列所对应的结构是否能够适配到一个给定 的结构环境中。
11
建立序列到结构的线索的过程称为线索化, 线索技术又称折叠识别技术。 线索化或者折叠识别的目标是为目标蛋白质 U 寻找合适的蛋白质模板,这些模板蛋白质 与 U 没有显著的序列相似性,但却是远程同 源的。
12
线索化方法一般有 5 个基本组成部分: ( 1 )已知三维折叠结构的数据库; ( 2 )一种适合于进行序列 - 结构比对的三维折 叠信息的表示方法; ( 3 )一个序列 - 结构匹配函数,该函数对匹配 程度进行打分; ( 4 )建立最优线索的策略,或者是进行序列 - 结构比对的策略; ( 5 )一种评价序列 - 结构比对显著性的方法。
13
假设存在有限数目的核心折叠( core folds ) 核心折叠实际上是构成蛋白质空间形状的基 本模式。 建立核心折叠数据库 预测 ---- 建立线索 U 序列 与数据库核 心折叠比对 取最佳核 心折叠 U 结构模型
14
一种基于序列与结构比对的最优线索化算法 令 : s 1, s 2,…, s n 为蛋白质序列 S 的 n 个元素 C 1, C 2,…, C m 为数据库中核心折叠 C 的 m 个核心区域 C ij 为第 i 个核心区域第 j 个氨基酸位置 每一个核心区域由若干个氨基酸残基构成
15
设 t 是一个从序列到核心折叠的线索,那么 t 说明了序列 S 的哪些元素 s i,s j,s k,… 代表核心 区域 C 1, C 2, C 3,… 的起始位置。 这实际上是一种从序列 S 到核心折叠 C 的比对 令 代表核心折叠 C 中的环到序列 S 中空位的 映射,显然 是通过线索化而确定的。
16
令 f(t) 是进行比对的得分函数,其定义如下: f(t) = g 1 (v,t) + g 2 (u,v,t) + g 3 (,t) g 1 (v,t) 评价氨基酸残基 v 所处的位置 g 2 (u,v,t) 评价残基 u 和 v 的相对位置,如果 u 和 v 键合,则得 分高; g 3 (,t) 评价环区,根据环区的大小进行打分。 线索化问题: 对于给定的序列 S 和核心折叠 C ,选择一个线索 t ,使得 f(t) 的 值最小,即寻找一个从 S 到 C 的最佳映射。
17
3 、从头预测方法 在既没有已知结构的同源蛋白质、也没有已 知结构的远程同源蛋白质的情况下,上述两 种蛋白质结构预测的方法都不能用,这时只 能采用从头预测方法,即(直接)仅仅根据 序列本身来预测其结构。
18
从头预测方法一般由下列 3 个部分组成: ( 1 )一种蛋白质几何的表示方法 由于表示和处理所有原子和溶剂环境的计算开销非 常大,因此需要对蛋白质和溶剂的表示形式作近似 处理。 ( 2 )一种势函数及其参数 通过对已知结构的蛋白质进行统计分析确定势函数 中的各个参数 ( 3 )一种构象空间搜索技术 构象空间搜索和势函数的建立是从头预测方法的关 键
19
N 端的氨基酸位于坐标系统的原点 第二个氨基酸位于坐标的( 1,0 )或( 1 , 0 , 0 )处。 H-P 模型 -[ 疏水 (hydrophobic)- 极性 (polar)]
20
基于疏水残基之间的接触进行打分 每一个 H 和 H 的接触(非相邻残基)对能量的贡献都为- 1 最优的构象就是所有可能的构象中具有最多 H 和 H 接触的那个构象 图中的二维和三维构象的得分都是- 3
21
绝对方向表示法 : 每一个位置上可选择的方向 : 上、右、左和下( U 、 R 、 L 、 D ); 而对于三维模型 : 上、右、左、下、后和前( U 、 R 、 L 、 D 、 B 、 F )。 构象空间搜索 (R,R,D,L,D,L,U,L,U,U,R) (R,B,U,F,L,U,R,B,L,L,F)(R,R,D,L,D,L,U,L,U,U,R) (R,B,U,F,L,U,R,B,L,L,F)
22
相对方向表示法: 利用每个氨基酸残基主链的转动方向来表示 每个位置上的残基的方向二维网格模型: 每个残基位置上可选择的方向有三个 左、右和前( L 、 R 和 F ) 三维网格模型: 左、右、前、上和下 ( L 、 R 、 F 、 U 、 D )
23
能量函数和优化 需要考虑的相互作用 疏水作用 氢键 二硫桥 静电作用 范德华力 溶剂作用
24
分子力学方法 —— 假设正确的蛋白质折叠对应于最低能量的构象 分子力学势能是原子坐标的函数 势能函数由多项组成 成键作用: 化学键的伸缩能(键长) 弯曲能(键角) 扭转能(二面角) 非成键作用: 范德华力 静电力 氢键 分子力学中的势能参数的来源 从头算( ab initio )和半经验计算结果 氨基酸和小分子的实验观察结果
25
能量优化方法 : 梯度下降法 最陡下降法 共轭梯度法 牛顿 - 拉普森方法
26
分子动力学 蒙特卡罗方法 模拟退火方法 遗传算法
27
基于势函数或者力场的结构预测方法在实际 应用中存在许多问题,主要原因 : 我们还没有完全了解究竟是哪些力决定了蛋白质 的折叠过程,同时这些力之间又是如何相互作用 的 力场参数不精确,没有对溶剂处理的好方法 构象搜索过程容易陷入局部能量极小点 自然折叠的蛋白质结构与一般蛋白质构象之间的 能量差比较小 研究蛋白质折叠的计算量非常大
28
4 、预测方法评价 对各种方法所得到的蛋白质结构预测结果需要进行验证, 以确定预测方法是否可行,确定其适应面。 验证的一种方法是取已知结构的蛋白质,对这些蛋白质进 行模拟结构预测,并将预测结构与真实结构进行比较,分 析两者之间的差距。 权威的评判机构,建立公共认可的蛋白质结构测试数据集。 设立在马里兰生物技术研究中心的 CASP 就是这样一个系统 ( http://predictioncenter.llnl.gov/casp4/ )
29
第五节 蛋白质空间结构比较 结构域 对蛋白质进行序列比较,可以发现同源序列的保守区域。 但是对于结构域,通过序列比较,我们只能得到一部分 信息。 如果在结构这个层次上进行比较,可以发现更多的信息。 蛋白质的结构比序列更加保守,通过比较蛋白质的空间结 构,可以发现属于同一家族蛋白质的保守结构,可以发现 特定的空间结构模式。 这些模式由多个不相邻的序列片段组成,经过蛋白质折叠 以后,这些一维不相邻的元素在三维空间中结合到一起, 形成特定的功能位点,如酶的活性部位,蛋白质结合部位 等。
30
蛋白质结构比较有两个主要的任务: 检测蛋白质的结构特征 在已知两个蛋白质对应结构特征的条件下,寻 找将两个蛋白质空间结构重叠的几何变换,进 行三维结构的比对( alignment )。
31
如果用数学语言来描述,就是给定两个三维点集 P={p i } 和 Q={q i } ( i=1,2,…,n ),寻找一个空间变换矩阵 T ,使得 最小,即: 这个问题可以用最小二乘法解决
32
空间点三元组几何变换 目标: 寻找两个蛋白质空间点三元组重叠最多的几何变换。
33
解决这个问题的直接算法是如下: ( 1 )对于每一对空间点三元组(分别来自 不同的蛋白质),计算能使这两个对象重叠 的几何变换; ( 2 )统计在各种变换中,能够同时重叠、 或者基本重叠的空间点三元组个数,并作为 对应变换的得分; ( 3 )选择得分比较高的变换,改进这些变 换,使其得分进一步提高。
34
基于几何哈希( geometric hashing )技术的三维 结构比对方法
35
将目标分子与数据库中模型分子匹配 数据库中的模型分子是预先建立的。对于每个模型 分子,按照下述步骤进行预处理: ( 1 )挑选参考框架,即挑选模型分子中非共线的三 个点; ( 2 )计算参考框架的三维正交基及其形状特征(例 如,三角形边的长度); ( 3 )计算参考框架一定范围内所有其它点的坐标; ( 4 )以每个坐标作为哈希查找表的地址,在哈希表 相应的位置存贮蛋白质的有关信息,如蛋白质的标 识符,参考文献、形状特征等; ( 5 )对于每个参考框架(模型分子中非共线的三个 点)重复上述过程。
36
识别阶段 利用前面预处理所得到的哈希表进行识别,过程如下: 对于每个目标分子的参考框架,计算参考框架的三 维正交基及其形状特征,计算参考框架内其它点的 坐标,将每个坐标作为哈希查找表的地址,在哈希 表相应的位置取出有关的信息,找出形状特征匹配 的记录,然后针对那些匹配好的记录计算相应的空 间变换,保存匹配的点。 计算不同空间变换下匹配点对的个数,形成匹配表。 选择匹配点对多的匹配表作为进一步匹配的出发点, 这样的匹配表中所包含的匹配又称为 “ 种子匹配 ” 。 其基本思路与序列快速比较算法 BLAST 相似。
Similar presentations