Presentation is loading. Please wait.

Presentation is loading. Please wait.

第七章 -2 蛋白质结构预测 主讲人:孙 啸 制作人: 刘志华 东南大学 吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?

Similar presentations


Presentation on theme: "第七章 -2 蛋白质结构预测 主讲人:孙 啸 制作人: 刘志华 东南大学 吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?"— Presentation transcript:

1 第七章 -2 蛋白质结构预测 主讲人:孙 啸 制作人: 刘志华 东南大学 吴健雄实验室

2 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure? Protein family, domain, cluster analysis Relation- ship to known structure? Structural analysis 3D comparative modeling Predicted three dimensional structure Is there a predicted structure? 3D analysis in laboratory yes no

3 第四节 蛋白质三维结构预测 1 、同源模型化方法  主要思想: 对于一个未知结构的蛋白质,找到一个已知结构的同源 蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白 质建立结构模型。  依据: 任何一对蛋白质,如果两者的序列等同部分超过 30% , 则它们具有相似的三维结构,即两个蛋白质的基本折叠 相同,只是在非螺旋和非折叠区域的一些细节部分有所 不同。

4  假设待预测三维结构的目标蛋白质为 U ( Unknown ),利用同源模型化方法建立结 构模型的过程包括下述 6 个步骤: ( 1 )搜索结构模型的模板 (T) ( 2 )序列比对 ( 3 )建立骨架 ( 4 )构建目标蛋白质的侧链 ( 5 )构建目标蛋白质的环区 ( 6 )优化模型 U  T

5 构建目标蛋白质的侧链

6 预测结果准确率:  对于具有 60% 等同的序列,用上述方法所建 立的三维模型非常准确。若序列的等同部分 超过 60% ,则预测结果将接近于实验得到的 测试结果。  一般如果序列的等同部分大于 30% ,则可以 期望得到比较好的预测结果。

7 2 、线索化方法(折叠识别方法)  有很多蛋白质具有相似的空间结构,但它们 的序列等同部分小于 25% ,即远程同源。  对于这类蛋白质,很难通过序列比对找出它 们之间的关系,必须设计新的分析方法。

8  对于一个未知结构的蛋白质( U ), 如果找到一个已知结构的远程同源蛋白质 ( T ), 那么可以根据 T 的结构模板通过远程同源模型 化方法建立 U 的三维结构模型。 U  T (远程同源)

9 一个远程同源模型化方法要解决三个问题: ( 1 )检测远程同源蛋白质( T ); ( 2 ) U 和 T 的序列必须被正确地对比排列; ( 3 )修改一般的同源模型化过程,以应用于相似度 非常低的情况,即处理更多的环区,建立合理的三 维结构模型。 如何解决第一个和第二个问题?  基本思想是建立一个从 U 到已知结构 T 的线索,并通 过一些基于环境或基于知识的势,评价序列与结构 的适应性。 至于最后建立三维结构模型则是非常困难的 序列 → 结构比对

10  线索化的主要思想: 利用氨基酸的结构倾向(如形成二级结构 的倾向、疏水性、极性等),评价一个序 列所对应的结构是否能够适配到一个给定 的结构环境中。

11  建立序列到结构的线索的过程称为线索化, 线索技术又称折叠识别技术。  线索化或者折叠识别的目标是为目标蛋白质 U 寻找合适的蛋白质模板,这些模板蛋白质 与 U 没有显著的序列相似性,但却是远程同 源的。

12  线索化方法一般有 5 个基本组成部分: ( 1 )已知三维折叠结构的数据库; ( 2 )一种适合于进行序列 - 结构比对的三维折 叠信息的表示方法; ( 3 )一个序列 - 结构匹配函数,该函数对匹配 程度进行打分; ( 4 )建立最优线索的策略,或者是进行序列 - 结构比对的策略; ( 5 )一种评价序列 - 结构比对显著性的方法。

13 假设存在有限数目的核心折叠( core folds )  核心折叠实际上是构成蛋白质空间形状的基 本模式。  建立核心折叠数据库  预测 ---- 建立线索 U 序列 与数据库核 心折叠比对 取最佳核 心折叠 U 结构模型

14  一种基于序列与结构比对的最优线索化算法 令 : s 1, s 2,…, s n 为蛋白质序列 S 的 n 个元素 C 1, C 2,…, C m 为数据库中核心折叠 C 的 m 个核心区域 C ij 为第 i 个核心区域第 j 个氨基酸位置 每一个核心区域由若干个氨基酸残基构成

15  设 t 是一个从序列到核心折叠的线索,那么 t 说明了序列 S 的哪些元素 s i,s j,s k,… 代表核心 区域 C 1, C 2, C 3,… 的起始位置。 这实际上是一种从序列 S 到核心折叠 C 的比对  令 代表核心折叠 C 中的环到序列 S 中空位的 映射,显然 是通过线索化而确定的。

16 令 f(t) 是进行比对的得分函数,其定义如下: f(t) = g 1 (v,t) + g 2 (u,v,t) + g 3 (,t)  g 1 (v,t) 评价氨基酸残基 v 所处的位置  g 2 (u,v,t) 评价残基 u 和 v 的相对位置,如果 u 和 v 键合,则得 分高;  g 3 (,t) 评价环区,根据环区的大小进行打分。 线索化问题: 对于给定的序列 S 和核心折叠 C ,选择一个线索 t ,使得 f(t) 的 值最小,即寻找一个从 S 到 C 的最佳映射。

17 3 、从头预测方法  在既没有已知结构的同源蛋白质、也没有已 知结构的远程同源蛋白质的情况下,上述两 种蛋白质结构预测的方法都不能用,这时只 能采用从头预测方法,即(直接)仅仅根据 序列本身来预测其结构。

18  从头预测方法一般由下列 3 个部分组成: ( 1 )一种蛋白质几何的表示方法 由于表示和处理所有原子和溶剂环境的计算开销非 常大,因此需要对蛋白质和溶剂的表示形式作近似 处理。 ( 2 )一种势函数及其参数 通过对已知结构的蛋白质进行统计分析确定势函数 中的各个参数 ( 3 )一种构象空间搜索技术 构象空间搜索和势函数的建立是从头预测方法的关 键

19 N 端的氨基酸位于坐标系统的原点 第二个氨基酸位于坐标的( 1,0 )或( 1 , 0 , 0 )处。 H-P 模型 -[ 疏水 (hydrophobic)- 极性 (polar)]

20 基于疏水残基之间的接触进行打分 每一个 H 和 H 的接触(非相邻残基)对能量的贡献都为- 1 最优的构象就是所有可能的构象中具有最多 H 和 H 接触的那个构象 图中的二维和三维构象的得分都是- 3

21 绝对方向表示法 : 每一个位置上可选择的方向 : 上、右、左和下( U 、 R 、 L 、 D ); 而对于三维模型 : 上、右、左、下、后和前( U 、 R 、 L 、 D 、 B 、 F )。 构象空间搜索 (R,R,D,L,D,L,U,L,U,U,R) (R,B,U,F,L,U,R,B,L,L,F)(R,R,D,L,D,L,U,L,U,U,R) (R,B,U,F,L,U,R,B,L,L,F)

22 相对方向表示法: 利用每个氨基酸残基主链的转动方向来表示 每个位置上的残基的方向二维网格模型: 每个残基位置上可选择的方向有三个 左、右和前( L 、 R 和 F ) 三维网格模型: 左、右、前、上和下 ( L 、 R 、 F 、 U 、 D )

23 能量函数和优化 需要考虑的相互作用 疏水作用 氢键 二硫桥 静电作用 范德华力 溶剂作用

24  分子力学方法 —— 假设正确的蛋白质折叠对应于最低能量的构象 分子力学势能是原子坐标的函数 势能函数由多项组成 成键作用: 化学键的伸缩能(键长) 弯曲能(键角) 扭转能(二面角) 非成键作用: 范德华力 静电力 氢键 分子力学中的势能参数的来源 从头算( ab initio )和半经验计算结果 氨基酸和小分子的实验观察结果

25  能量优化方法 : 梯度下降法 最陡下降法 共轭梯度法 牛顿 - 拉普森方法

26  分子动力学  蒙特卡罗方法  模拟退火方法  遗传算法

27  基于势函数或者力场的结构预测方法在实际 应用中存在许多问题,主要原因 : 我们还没有完全了解究竟是哪些力决定了蛋白质 的折叠过程,同时这些力之间又是如何相互作用 的 力场参数不精确,没有对溶剂处理的好方法 构象搜索过程容易陷入局部能量极小点 自然折叠的蛋白质结构与一般蛋白质构象之间的 能量差比较小 研究蛋白质折叠的计算量非常大

28 4 、预测方法评价  对各种方法所得到的蛋白质结构预测结果需要进行验证, 以确定预测方法是否可行,确定其适应面。  验证的一种方法是取已知结构的蛋白质,对这些蛋白质进 行模拟结构预测,并将预测结构与真实结构进行比较,分 析两者之间的差距。  权威的评判机构,建立公共认可的蛋白质结构测试数据集。 设立在马里兰生物技术研究中心的 CASP 就是这样一个系统 ( http://predictioncenter.llnl.gov/casp4/ )

29 第五节 蛋白质空间结构比较  结构域  对蛋白质进行序列比较,可以发现同源序列的保守区域。 但是对于结构域,通过序列比较,我们只能得到一部分 信息。  如果在结构这个层次上进行比较,可以发现更多的信息。  蛋白质的结构比序列更加保守,通过比较蛋白质的空间结 构,可以发现属于同一家族蛋白质的保守结构,可以发现 特定的空间结构模式。  这些模式由多个不相邻的序列片段组成,经过蛋白质折叠 以后,这些一维不相邻的元素在三维空间中结合到一起, 形成特定的功能位点,如酶的活性部位,蛋白质结合部位 等。

30  蛋白质结构比较有两个主要的任务: 检测蛋白质的结构特征 在已知两个蛋白质对应结构特征的条件下,寻 找将两个蛋白质空间结构重叠的几何变换,进 行三维结构的比对( alignment )。

31  如果用数学语言来描述,就是给定两个三维点集 P={p i } 和 Q={q i } ( i=1,2,…,n ),寻找一个空间变换矩阵 T ,使得 最小,即:  这个问题可以用最小二乘法解决

32 空间点三元组几何变换 目标: 寻找两个蛋白质空间点三元组重叠最多的几何变换。

33 解决这个问题的直接算法是如下: ( 1 )对于每一对空间点三元组(分别来自 不同的蛋白质),计算能使这两个对象重叠 的几何变换; ( 2 )统计在各种变换中,能够同时重叠、 或者基本重叠的空间点三元组个数,并作为 对应变换的得分; ( 3 )选择得分比较高的变换,改进这些变 换,使其得分进一步提高。

34  基于几何哈希( geometric hashing )技术的三维 结构比对方法

35  将目标分子与数据库中模型分子匹配  数据库中的模型分子是预先建立的。对于每个模型 分子,按照下述步骤进行预处理: ( 1 )挑选参考框架,即挑选模型分子中非共线的三 个点; ( 2 )计算参考框架的三维正交基及其形状特征(例 如,三角形边的长度); ( 3 )计算参考框架一定范围内所有其它点的坐标; ( 4 )以每个坐标作为哈希查找表的地址,在哈希表 相应的位置存贮蛋白质的有关信息,如蛋白质的标 识符,参考文献、形状特征等; ( 5 )对于每个参考框架(模型分子中非共线的三个 点)重复上述过程。

36 识别阶段 利用前面预处理所得到的哈希表进行识别,过程如下:  对于每个目标分子的参考框架,计算参考框架的三 维正交基及其形状特征,计算参考框架内其它点的 坐标,将每个坐标作为哈希查找表的地址,在哈希 表相应的位置取出有关的信息,找出形状特征匹配 的记录,然后针对那些匹配好的记录计算相应的空 间变换,保存匹配的点。  计算不同空间变换下匹配点对的个数,形成匹配表。 选择匹配点对多的匹配表作为进一步匹配的出发点, 这样的匹配表中所包含的匹配又称为 “ 种子匹配 ” 。 其基本思路与序列快速比较算法 BLAST 相似。

37


Download ppt "第七章 -2 蛋白质结构预测 主讲人:孙 啸 制作人: 刘志华 东南大学 吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?"

Similar presentations


Ads by Google