第七章 -2 蛋白质结构预测主讲人：孙啸制作人：刘志华东南大学吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?

第七章 -2 蛋白质结构预测主讲人：孙啸制作人：刘志华东南大学吴健雄实验室

结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure? Protein family, domain, cluster analysis Relation- ship to known structure? Structural analysis 3D comparative modeling Predicted three dimensional structure Is there a predicted structure? 3D analysis in laboratory yes no

第四节蛋白质三维结构预测 1 、同源模型化方法  主要思想：对于一个未知结构的蛋白质，找到一个已知结构的同源蛋白质，以该蛋白质的结构为模板，为未知结构的蛋白质建立结构模型。  依据：任何一对蛋白质，如果两者的序列等同部分超过 30% ，则它们具有相似的三维结构，即两个蛋白质的基本折叠相同，只是在非螺旋和非折叠区域的一些细节部分有所不同。

 假设待预测三维结构的目标蛋白质为 U （ Unknown ），利用同源模型化方法建立结构模型的过程包括下述 6 个步骤：（ 1 ）搜索结构模型的模板 (T) （ 2 ）序列比对（ 3 ）建立骨架（ 4 ）构建目标蛋白质的侧链（ 5 ）构建目标蛋白质的环区（ 6 ）优化模型 U  T

构建目标蛋白质的侧链

预测结果准确率：  对于具有 60% 等同的序列，用上述方法所建立的三维模型非常准确。若序列的等同部分超过 60% ，则预测结果将接近于实验得到的测试结果。  一般如果序列的等同部分大于 30% ，则可以期望得到比较好的预测结果。

2 、线索化方法（折叠识别方法）  有很多蛋白质具有相似的空间结构，但它们的序列等同部分小于 25% ，即远程同源。  对于这类蛋白质，很难通过序列比对找出它们之间的关系，必须设计新的分析方法。

 对于一个未知结构的蛋白质（ U ），如果找到一个已知结构的远程同源蛋白质（ T ），那么可以根据 T 的结构模板通过远程同源模型化方法建立 U 的三维结构模型。 U  T （远程同源）

一个远程同源模型化方法要解决三个问题：（ 1 ）检测远程同源蛋白质（ T ）；（ 2 ） U 和 T 的序列必须被正确地对比排列；（ 3 ）修改一般的同源模型化过程，以应用于相似度非常低的情况，即处理更多的环区，建立合理的三维结构模型。如何解决第一个和第二个问题？  基本思想是建立一个从 U 到已知结构 T 的线索，并通过一些基于环境或基于知识的势，评价序列与结构的适应性。至于最后建立三维结构模型则是非常困难的序列 → 结构比对

 线索化的主要思想：利用氨基酸的结构倾向（如形成二级结构的倾向、疏水性、极性等），评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。

 建立序列到结构的线索的过程称为线索化，线索技术又称折叠识别技术。  线索化或者折叠识别的目标是为目标蛋白质 U 寻找合适的蛋白质模板，这些模板蛋白质与 U 没有显著的序列相似性，但却是远程同源的。

 线索化方法一般有 5 个基本组成部分：（ 1 ）已知三维折叠结构的数据库；（ 2 ）一种适合于进行序列 - 结构比对的三维折叠信息的表示方法；（ 3 ）一个序列 - 结构匹配函数，该函数对匹配程度进行打分；（ 4 ）建立最优线索的策略，或者是进行序列 - 结构比对的策略；（ 5 ）一种评价序列 - 结构比对显著性的方法。

假设存在有限数目的核心折叠（ core folds ）  核心折叠实际上是构成蛋白质空间形状的基本模式。  建立核心折叠数据库  预测 ---- 建立线索 U 序列与数据库核心折叠比对取最佳核心折叠 U 结构模型

 一种基于序列与结构比对的最优线索化算法令 : s 1, s 2,…, s n 为蛋白质序列 S 的 n 个元素 C 1, C 2,…, C m 为数据库中核心折叠 C 的 m 个核心区域 C ij 为第 i 个核心区域第 j 个氨基酸位置每一个核心区域由若干个氨基酸残基构成

 设 t 是一个从序列到核心折叠的线索，那么 t 说明了序列 S 的哪些元素 s i,s j,s k,… 代表核心区域 C 1, C 2, C 3,… 的起始位置。这实际上是一种从序列 S 到核心折叠 C 的比对  令代表核心折叠 C 中的环到序列 S 中空位的映射，显然是通过线索化而确定的。

令 f(t) 是进行比对的得分函数，其定义如下： f(t) = g 1 (v,t) + g 2 (u,v,t) + g 3 (,t)  g 1 (v,t) 评价氨基酸残基 v 所处的位置  g 2 (u,v,t) 评价残基 u 和 v 的相对位置，如果 u 和 v 键合，则得分高；  g 3 (,t) 评价环区，根据环区的大小进行打分。线索化问题：对于给定的序列 S 和核心折叠 C ，选择一个线索 t ，使得 f(t) 的值最小，即寻找一个从 S 到 C 的最佳映射。

3 、从头预测方法  在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下，上述两种蛋白质结构预测的方法都不能用，这时只能采用从头预测方法，即（直接）仅仅根据序列本身来预测其结构。

 从头预测方法一般由下列 3 个部分组成：（ 1 ）一种蛋白质几何的表示方法由于表示和处理所有原子和溶剂环境的计算开销非常大，因此需要对蛋白质和溶剂的表示形式作近似处理。（ 2 ）一种势函数及其参数通过对已知结构的蛋白质进行统计分析确定势函数中的各个参数（ 3 ）一种构象空间搜索技术构象空间搜索和势函数的建立是从头预测方法的关键

N 端的氨基酸位于坐标系统的原点第二个氨基酸位于坐标的（ 1,0 ）或（ 1 ， 0 ， 0 ）处。 H-P 模型 -[ 疏水 (hydrophobic)- 极性 (polar)]

基于疏水残基之间的接触进行打分每一个 H 和 H 的接触（非相邻残基）对能量的贡献都为－ 1 最优的构象就是所有可能的构象中具有最多 H 和 H 接触的那个构象图中的二维和三维构象的得分都是－ 3

绝对方向表示法 : 每一个位置上可选择的方向 : 上、右、左和下（ U 、 R 、 L 、 D ）；而对于三维模型 : 上、右、左、下、后和前（ U 、 R 、 L 、 D 、 B 、 F ）。构象空间搜索（R，R，D，L，D，L，U，L，U，U，R）（R，B，U，F，L，U，R，B，L，L，F）（R，R，D，L，D，L，U，L，U，U，R）（R，B，U，F，L，U，R，B，L，L，F）

相对方向表示法：利用每个氨基酸残基主链的转动方向来表示每个位置上的残基的方向二维网格模型：每个残基位置上可选择的方向有三个左、右和前（ L 、 R 和 F ）三维网格模型：左、右、前、上和下（ L 、 R 、 F 、 U 、 D ）

能量函数和优化需要考虑的相互作用疏水作用氢键二硫桥静电作用范德华力溶剂作用

 分子力学方法 —— 假设正确的蛋白质折叠对应于最低能量的构象分子力学势能是原子坐标的函数势能函数由多项组成成键作用：化学键的伸缩能（键长）弯曲能（键角）扭转能（二面角）非成键作用：范德华力静电力氢键分子力学中的势能参数的来源从头算（ ab initio ）和半经验计算结果氨基酸和小分子的实验观察结果

 能量优化方法 : 梯度下降法最陡下降法共轭梯度法牛顿 - 拉普森方法

 分子动力学  蒙特卡罗方法  模拟退火方法  遗传算法

 基于势函数或者力场的结构预测方法在实际应用中存在许多问题，主要原因 : 我们还没有完全了解究竟是哪些力决定了蛋白质的折叠过程，同时这些力之间又是如何相互作用的力场参数不精确，没有对溶剂处理的好方法构象搜索过程容易陷入局部能量极小点自然折叠的蛋白质结构与一般蛋白质构象之间的能量差比较小研究蛋白质折叠的计算量非常大

4 、预测方法评价  对各种方法所得到的蛋白质结构预测结果需要进行验证，以确定预测方法是否可行，确定其适应面。  验证的一种方法是取已知结构的蛋白质，对这些蛋白质进行模拟结构预测，并将预测结构与真实结构进行比较，分析两者之间的差距。  权威的评判机构，建立公共认可的蛋白质结构测试数据集。设立在马里兰生物技术研究中心的 CASP 就是这样一个系统（ http://predictioncenter.llnl.gov/casp4/ ）

第五节蛋白质空间结构比较  结构域  对蛋白质进行序列比较，可以发现同源序列的保守区域。但是对于结构域，通过序列比较，我们只能得到一部分信息。  如果在结构这个层次上进行比较，可以发现更多的信息。  蛋白质的结构比序列更加保守，通过比较蛋白质的空间结构，可以发现属于同一家族蛋白质的保守结构，可以发现特定的空间结构模式。  这些模式由多个不相邻的序列片段组成，经过蛋白质折叠以后，这些一维不相邻的元素在三维空间中结合到一起，形成特定的功能位点，如酶的活性部位，蛋白质结合部位等。

 蛋白质结构比较有两个主要的任务：检测蛋白质的结构特征在已知两个蛋白质对应结构特征的条件下，寻找将两个蛋白质空间结构重叠的几何变换，进行三维结构的比对（ alignment ）。

 如果用数学语言来描述，就是给定两个三维点集 P={p i } 和 Q={q i } （ i=1,2,…,n ），寻找一个空间变换矩阵 T ，使得最小，即：  这个问题可以用最小二乘法解决

空间点三元组几何变换目标：寻找两个蛋白质空间点三元组重叠最多的几何变换。

解决这个问题的直接算法是如下：（ 1 ）对于每一对空间点三元组（分别来自不同的蛋白质），计算能使这两个对象重叠的几何变换；（ 2 ）统计在各种变换中，能够同时重叠、或者基本重叠的空间点三元组个数，并作为对应变换的得分；（ 3 ）选择得分比较高的变换，改进这些变换，使其得分进一步提高。

 基于几何哈希（ geometric hashing ）技术的三维结构比对方法

 将目标分子与数据库中模型分子匹配  数据库中的模型分子是预先建立的。对于每个模型分子，按照下述步骤进行预处理：（ 1 ）挑选参考框架，即挑选模型分子中非共线的三个点；（ 2 ）计算参考框架的三维正交基及其形状特征（例如，三角形边的长度）；（ 3 ）计算参考框架一定范围内所有其它点的坐标；（ 4 ）以每个坐标作为哈希查找表的地址，在哈希表相应的位置存贮蛋白质的有关信息，如蛋白质的标识符，参考文献、形状特征等；（ 5 ）对于每个参考框架（模型分子中非共线的三个点）重复上述过程。

识别阶段利用前面预处理所得到的哈希表进行识别，过程如下：  对于每个目标分子的参考框架，计算参考框架的三维正交基及其形状特征，计算参考框架内其它点的坐标，将每个坐标作为哈希查找表的地址，在哈希表相应的位置取出有关的信息，找出形状特征匹配的记录，然后针对那些匹配好的记录计算相应的空间变换，保存匹配的点。  计算不同空间变换下匹配点对的个数，形成匹配表。选择匹配点对多的匹配表作为进一步匹配的出发点，这样的匹配表中所包含的匹配又称为 “ 种子匹配 ” 。其基本思路与序列快速比较算法 BLAST 相似。

第七章 -2 蛋白质结构预测主讲人：孙啸制作人：刘志华东南大学吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?

Similar presentations

Presentation on theme: "第七章 -2 蛋白质结构预测主讲人：孙啸制作人：刘志华东南大学吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第七章 -2 蛋白质结构预测 主讲人：孙 啸 制作人： 刘志华 东南大学 吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?

Similar presentations

Presentation on theme: "第七章 -2 蛋白质结构预测 主讲人：孙 啸 制作人： 刘志华 东南大学 吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?"— Presentation transcript:

Similar presentations

About project

反馈

第七章 -2 蛋白质结构预测主讲人：孙啸制作人：刘志华东南大学吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?

Presentation on theme: "第七章 -2 蛋白质结构预测主讲人：孙啸制作人：刘志华东南大学吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?"— Presentation transcript: