蛋白质结构中的关键模体识别及结构预测算法

蛋白质结构中的关键模体识别及结构预测算法
答辩人：凌彬指导老师：卜东波研究员答辩日期：2014年2月17日

报告提纲研究背景及国内外研究现状研究动机及目标研究内容与成果总结与展望

研究背景蛋白质结构预测:从一维序列到三维结构

结构预测方法同源建模法归范法从头预测法

面临的挑战同源建模法：规范法：从头预测法：超过30%序列等同率的蛋白一般能产生高质量的预测结果
“已经被close了”[Baker，2007] 规范法：仅能正确识别约2/3远同源的折叠型从头预测法：不适宜预测长的、复杂拓扑结构的蛋白质，能量函数不准确，构象搜索效率低

报告提纲研究背景及国内外研究现状研究动机及目标研究内容与成果总结与展望

现有方法的问题问题：远同源蛋白质往往只在部分序列上表现出信号其他区域信号模糊

研究动机及目标目标：关键模体：识别模板上的关键模体，基于关键模体设计联配算法，以确定蛋白质的粗拓扑提高蛋白质折叠型识别率。
模板上结构和序列都高度保守的部分。

报告提纲研究背景及意义国内外研究现状研究目标及框架研究内容与成果总结与展望具有远程关联区域的序列保守性关键模体的标定算法
基于关键模体的联配算法总结与展望

远程残基接触(Contact) Contact示意图

现有归范法的遇到的问题问题：联配给出的contact往往有冲突如何确定哪些contact更可信？

Contact一致性问题目标：现有方法：本文方法：确定哪些contact具有高可信度。采用共变信息（Co-evolution）
缺点:需要的同源序列很多（>1000条）。本文方法：序列保守性两个具有相互作用的残基对在进化过程中应该表现地相对保守。

多序列联配的Contact一致性 S1和S2上同时为T，则contact一致 S1和S2上一个为T一个为F，则contact不一致

实验采用的数据集数据集：PFAM-A 优点：人工标注的高质量多序列联配预处理：滤除序列等同率70%以上的序列

序列保守性的衡量方法常用方法： 𝑎=1 20 𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 本文方法：
常用方法： 𝑎=1 20 𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 本文方法：对20种氨基酸按照𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 进行排序，取出前k大的氨基酸标记为1，其余标记为0 然后再计算与背景分布之间的KL距离𝑆𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝐶𝑜𝑛𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛= 𝑝 1 𝑙𝑛 𝑝 1 𝑞 1 + 𝑝 0 𝑙𝑛 𝑝 0 𝑞 0 优点：关注大的偏差

序列保守性阈值估计我们分别取0.6、1.0、1.5作为阈值进行探究

Contact距离阈值估计 Contact定义方法: C α − C α 之间的距离 C β − C β 之间的距离
侧链（Side Chain）球形中心（ 𝑅 𝑠𝑐 ）之间距离

Contact距离阈值估计表3-2 (a) C α 之间的距离分布阈值（单位：Å） 4.5 5.0 5.5
9.8% 24.7% 37.4% 表3-2 (a) C α 之间的距离分布阈值（单位：Å） 4.5 5.0 5.5 具有contact的残基比例 21.53% 37.3% 50.7% 表3-2 (b) C β 之间的距离分布阈值（单位：Å） 4.5 5.0 5.5 具有contact的残基比例 37.5% 49.4% 58.2% 表3-2 (c)侧链中心之间的距离分布

Contact一致性衡量方法衡量方法：Contact一致的情形出现的比例
𝐶𝑜𝑛𝑡𝑎𝑐𝑡 𝐶𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑐𝑦= #𝑥𝑦𝑇𝑇 #𝑥𝑦𝑇𝑇+#𝑥𝑦𝑇𝐹

表3-3 Contact阈值4.5Å两端均保守的情形
结果分析 τ #11TT #11TF #11FT #11FF Contact Consistence 0.6 18864 20094 21019 48.4% 1.0 12137 10307 10582 54.1% 1.5 3942 2429 2427 986997 61.9% 观察1：序列保守性越强，contact一致性越高表3-3 Contact阈值4.5Å两端均保守的情形

表3-5 Contact阈值4.5Å两端均不保守的情形
结果分析观察2：序列保守部分比序列不保守部分的contact一致性高 τ #00TT #00TF #00FT #00FF Contact Consistence 0.6 4326 9120 9300 32.2% 1.0 8957 18672 18996 32.4% 1.5 18299 32177 33010 36.3% 表3-5 Contact阈值4.5Å两端均不保守的情形

实例分析下图所示为contact不一致的情况

实例分析启示：应该放松contact距离阈值

结果分析观察：Contact一致性显著提升 𝜏 3 #11TT #11TF #11FT #11FF Contact Consistence
0.6 44442 8754 9476 82.4% 1.0 27013 4252 4480 85.7% 1.5 8813 1229 1177 88.2% 观察：Contact一致性显著提升表3-6 Contact阈值放松后两端均保守的情形 𝜏 3 #00TT #00TF #00FT #00FF Contact Consistence 0.6 10280 5674 5986 63.2% 1.0 22847 10891 11404 66.7% 1.5 45413 17117 18097 71.5% 表3-8 Contact阈值放松后两端均不保守的情形

改进残基的contact 二级结构之间的contact α螺旋：考察其序列距离为4的邻域 β平面：考察其序列距离为2的邻域
Coil: 则不考察

结果分析观察：Contact一致性得到进一步的提升 𝜏 3 #11TT #11TF #11FT #11FF
Contact Consistence 0.6 66376 6666 7367 90.9% 1.0 48967 3217 3461 93.8% 1.5 20633 936 931 95.6% 观察：Contact一致性得到进一步的提升表3-9 考虑邻居的Contact两端均保守的情形 𝜏 3 #00TT #00TF #00FT #00FF Contact Consistence 0.6 4707 4409 4715 51.6% 1.0 11201 8463 8955 56.9% 1.5 34079 13242 14161 72.0% 表3-11考虑邻居的Contact两端均不保守的情形

结论序列保守性越强，contact一致性越高序列保守部分的二级结构片段之间的contact更可信

报告提纲研究背景及意义国内外研究现状研究目标及框架研究内容与成果总结与展望具有远程关联区域的序列保守性关键模体的识别算法

关键模体的定义结构保守：序列保守：在进化中，结构表现的比序列更保守。
从蛋白质结构预测算法的角度来看，只有序列信号强，有利于我们进行准确联配的区域才能提供稳定的三维约束。

同源蛋白质组的构建方法：工具：TMalign[Y. Zhang2005] 标准：TMscore > 0.55时为同源
以某个蛋白质结构为seed从结构库里找出与seed为同源的蛋白质。工具：TMalign[Y. Zhang2005] 标准：TMscore > 0.55时为同源问题：并不是真正意义上的同源蛋白质

方法一：整数线性规划目标：双目标单目标近似：求解序列保守结构也保守的部分
双目标单目标近似：把其中一个目标反映在约束部分，在这个约束条件下去优化另一个目标。如序列保守性大于一定的阈值作为约束，优化结构保守性

方法一：整数线性规划结构模体识别问题：给定一组同源蛋白H={ s 1 , s 2 ,…, s N }，在每条序列中找出m个长度为n的片段，使得序列保守性大于一定阈值，且结构相似性最大。目标函数：结构相似度—Dscore[JF.Zhang2012] 约束条件：序列相似度大于一定阈值片段的顺序性，联配不能交叉等

方法一：整数线性规划

ILP识别的关键模体同源蛋白质组：SCOP family c

关键模体识别的近似算法 ILP的缺陷：速度太慢先保证结构保守性，再优化序列保守性结构保守性：BLOMAPS
序列保守性：Gibbs Sampling、MEME

步骤一：BLOMAPS BLOMAPS是基于结构码的多结构联配软件。结构码的优势： 1）速度快：三维结构比对一维结构码比对
1）速度快：三维结构比对一维结构码比对 2）由于结构码表示的是角度，避免RMSD的hinge效应。

BLOMAPS多结构联配的输出 ‘+’代表同源蛋白质组中所有成员共有的结构，‘.’代表部分成员共有的结构
同源蛋白质组中80%以上成员含有的局部结构作为下一步的输入。

步骤二：Gibbs Sampling

Gibbs Sampling求解序列模体输出
长度设定为5或者7

3gxr_A的关键模体

关键模体的序列和结构保守性计算方法：序列保守性结构保守性同源蛋白质组各成员的关键模体之间计算序列相似度和结构相似度。
log-odds——𝑙𝑜𝑔 𝑎=1 20 𝑝 𝑎 𝑞 𝑎 𝑓 𝑎 结构保守性 TMscore

关键模体的序列保守性观察：序列上是保守的（log-odds>0)

关键模体的结构保守性观察：结构上是保守的（Tmscore>0.4)

关键模体的profile的建立简单方法：查询蛋白质的全长序列型中直接截取。我们的方法：问题：针对全长序列加权
首先从原序列的MSA中截取关键模体部分所对应的列然后对这些列进行加权最后获得关键模体部分的序列型。

关键模体片段之间的距离分布距离分布获取的两种方法： MSA中对应片段之间的距离结构相似的二级邻居中对应片段之间的距离

MSA上统计得到的关键模体片段间的距离分布
高斯分布非高斯分布

由二级邻居统计得到的关键模体片段间的距离分布
高斯分布非高斯分布

关键模体库：共27000个蛋白质的关键模体

实例分析表4-1 SCOP中部分序列的关键模体情况 PDB SCOP class 片段个数序列保守性结构保守性 3ip4_C a 4
1.3 0.682 1n00_A 8 1.02 0.769 1erj_A b 21 0.856 0.901 1sr4_C 7 0.73 0.614 1uuq_A c 11 0.934 3o6c_A 0.518 0.566 12as_A d 0.651 0.52 2f5g_A 3 0.868 0.708

实例分析——1b7y_A的关键模体的物理解释
粉色区域：为5磷酸腺苷的结合位点一部分黑圈内区域：具有高度α螺旋倾向性的区域

基于关键模体的联配算法设计动机现有的联配算法的问题：
对关键模体区域和非关键模体区域不加区分引入信号的同时也引入了噪声噪声干扰导致联配错误因此，在联配中区分关键模体与非关键模体，将有助于确定蛋白质的“粗拓扑”，进而提高远同源蛋白质的折叠型识别。

基于关键模体的联配算法 “分级处理”的策略首先用关键模体与查询序列进行联配，产生最优以及多个次优联配
在固定关键模体片段联配之后，再对关键模体之间的区域进行联配

步骤一：关键模体联配的动态规划算法 𝑆 𝑖, 𝑗 = (𝑖𝑓 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 <0) 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 + 𝑚𝑎𝑥 𝑆 𝑖 ′ , 𝑗 ′ +𝑔𝑎𝑝_𝑝𝑒𝑛𝑎𝑙𝑡𝑦 𝑖,𝑗, 𝑖 ′ , 𝑗 ′ (𝑒𝑙𝑠𝑒)

𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡y=SS score 𝜎;𝜌,𝑐 = log 𝑃 𝜎;𝜌,𝑐 𝑃 𝜎 𝑃 𝜌,𝑐 𝜔=0.15
关键模体部分的打分 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 =𝑃𝑟𝑜𝑓𝑖𝑙𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦+𝜔∗𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑃𝑟𝑜𝑓𝑖𝑙𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦= 𝑙𝑜𝑔 𝑎=1 20 𝑝 𝑎 𝑞 𝑎 𝑓 𝑎 𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡y=SS score 𝜎;𝜌,𝑐 = log 𝑃 𝜎;𝜌,𝑐 𝑃 𝜎 𝑃 𝜌,𝑐 𝜔=0.15

中间区域的距离罚分用高斯分布𝐺(μ, σ 2 )拟合关键模体间的距离，，则打分如下：当方差接近于0时，打分如下：
Gap penalty= log φ d μ,σ φ μ+σ μ,σ =0.5− 𝑑−𝜇 σ 2 d为查询序列上的关键模体联配上的位置之间的距离当方差接近于0时，打分如下： Gap penalty=ω′∗ d−μ (ω′=0.1)

关键模体片段中间区域的联配固定关键模体的联配以后，中间区域的联配使用HMM-HMM联配算法。中间区域的HMM直接从全长HMM中截取。

衡量关键模体联配可信度的P-value 关键模体库搜索排名：问题：解决方案：
由于不同的蛋白质上关键模体的个数和长度差异很大，直接按照关键模体联配打分进行排名不合理。解决方案：为每个模板上的关键模体联配打分用极值分布拟合，计算p-value后排名。

衡量关键模体联配可信度的P-value 对每个模板上的关键模体，都与随机挑选的15000条查询序列进行联配，计算其联配打分，再用极值分布进行拟合。

关键模体联配算法在训练集上的性能训练集：测试方法：衡量方法：获得关键模体的模板集合
200个同源蛋白质组，对每一组模板蛋白质，随机挑选一个蛋白质作为查询序列，求其与中心蛋白质关键模体的最优联配衡量方法：预测结构与真实结构的TMscore

关键模体联配算法在训练集上的性能 TMscore均大于0.4，取得了良好的效果

关键模体联配算法在测试数据集上的性能测试数据：去除：最后剩下142对蛋白质作为测试集。由多个蛋白质对构成
TMscore在0.5到0.7之间序列等同度都在25%以下去除：小蛋白质（长度小于200残基的蛋白质） HHpred能够成功预测结构的蛋白质最后剩下142对蛋白质作为测试集。

关键模体联配算法在测试数据集上的性能测试方法：衡量方法：用一条作为模板首先求取关键模体，以另一条作为查询序列计算最优联配。
目标蛋白质的结构直接复制对应模板联配位置坐标，使用与真实结构之间的TMscore来评估结果。

关键模体联配算法在测试数据集上的性能实验结果： 7个得到了TMscore大于0.4的结构 45个蛋白质的关键模体联配提供了可靠的三维约束。

实例分析——1rcw_A与2c2j_A 查询序列：2c2j_A 模板：1rcw_A 1rcw_A与2c2j_A：TMscore=0.52
HHpred：TMscore=0.25 基于关键模体的联配算法：TMscore=0.44

实例分析——1rcw_A与2c2j_A 1rcw_A的关键模体 c2j_A上关键模体联配上的位置

实例分析——3dz1_A与1twd_A 查询序列： 3dz1_A 模板：1twd_A 3dz1_A与1twd_A：TMscore=0.56

实例分析——3dz1_A与1twd_A HHpred预测结构与真实结构的结构联配关键模体联配预测结构与真实结构的结构联配

实例分析——2cws_A与3h0o_A 查询序列： 2cws_A 模板：3h0o_A 2cws_A与3h0o_A：TMscore=0.55

实例分析——2cws_A与3h0o_A HHpred预测结构与真实结构的结构联配关键模体联配预测结构与真实结构的结构联配

总结考察了contact一致性与序列保守性之间的关系，探究了模板上的contact的可信度
设计了关键结构模体的识别算法，获得序列结构上均保守的关键模体设计了基于关键模体的联配算法，结果显示，基于关键模体的联配算法能够获得比传统方法更优的联配。

展望 contact一致性方面基于PFAM-A数据集探究由HHBLITS和PSIBLAST构建的MSA

展望本文关键模体的问题：没有从物理意义的角度去描述关键模体可能的解决方法：从物理意义的角度设计关键模体识别算法

展望最后，本文提出的基于关键模体的算法中未加入溶液可及性等信息，如果加入这些信息，相信可以使得联配更加地准确。

谢谢！

蛋白质结构中的关键模体识别及结构预测算法

Similar presentations

Presentation on theme: "蛋白质结构中的关键模体识别及结构预测算法"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

蛋白质结构中的关键模体识别及结构预测算法

Similar presentations

Presentation on theme: "蛋白质结构中的关键模体识别及结构预测算法"— Presentation transcript:

Similar presentations

About project

反馈