Presentation is loading. Please wait.

Presentation is loading. Please wait.

蛋白质结构中的关键模体识别及结构预测算法

Similar presentations


Presentation on theme: "蛋白质结构中的关键模体识别及结构预测算法"— Presentation transcript:

1 蛋白质结构中的关键模体识别及结构预测算法
答辩人:凌彬 指导老师:卜东波 研究员 答辩日期:2014年2月17日

2 报告提纲 研究背景及国内外研究现状 研究动机及目标 研究内容与成果 总结与展望

3 研究背景 蛋白质结构预测:从一维序列到三维结构

4 结构预测方法 同源建模法 归范法 从头预测法

5 面临的挑战 同源建模法: 规范法: 从头预测法: 超过30%序列等同率的蛋白一般能产生高质量的预测结果
“已经被close了”[Baker,2007] 规范法: 仅能正确识别约2/3远同源的折叠型 从头预测法: 不适宜预测长的、复杂拓扑结构的蛋白质,能量函数不准确,构象搜索效率低

6 报告提纲 研究背景及国内外研究现状 研究动机及目标 研究内容与成果 总结与展望

7 现有方法的问题 问题: 远同源蛋白质往往只在部分序列上表现出信号 其他区域信号模糊

8 研究动机及目标 目标: 关键模体: 识别模板上的关键模体, 基于关键模体设计联配算法,以确定蛋白质的粗拓扑 提高蛋白质折叠型识别率。
模板上结构和序列都高度保守的部分。

9 报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的标定算法
基于关键模体的联配算法 总结与展望

10 远程残基接触(Contact) Contact示意图

11 现有归范法的遇到的问题 问题: 联配给出的contact往往有冲突 如何确定哪些contact更可信?

12 Contact一致性问题 目标: 现有方法: 本文方法: 确定哪些contact具有高可信度。 采用共变信息(Co-evolution)
缺点:需要的同源序列很多(>1000条)。 本文方法: 序列保守性 两个具有相互作用的残基对在进化过程中应该表现地相对保守。

13 多序列联配的Contact一致性 S1和S2上同时为T,则contact一致 S1和S2上一个为T一个为F,则contact不一致

14 实验采用的数据集 数据集:PFAM-A 优点:人工标注的高质量多序列联配 预处理: 滤除序列等同率70%以上的序列

15 序列保守性的衡量方法 常用方法 : 𝑎=1 20 𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 本文方法:
常用方法 : 𝑎=1 20 𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 本文方法: 对20种氨基酸按照𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 进行排序, 取出前k大的氨基酸标记为1,其余标记为0 然后再计算与背景分布之间的KL距离𝑆𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝐶𝑜𝑛𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛= 𝑝 1 𝑙𝑛 𝑝 1 𝑞 1 + 𝑝 0 𝑙𝑛 𝑝 0 𝑞 0 优点:关注大的偏差

16 序列保守性阈值估计 我们分别取0.6、1.0、1.5作为阈值进行探究

17 Contact距离阈值估计 Contact定义方法: C α − C α 之间的距离 C β − C β 之间的距离
侧链(Side Chain)球形中心( 𝑅 𝑠𝑐 )之间距离

18 Contact距离阈值估计 表3-2 (a) C α 之间的距离分布 阈值(单位:Å) 4.5 5.0 5.5
9.8% 24.7% 37.4% 表3-2 (a) C α 之间的距离分布 阈值(单位:Å) 4.5 5.0 5.5 具有contact的残基 比例 21.53% 37.3% 50.7% 表3-2 (b) C β 之间的距离分布 阈值(单位:Å) 4.5 5.0 5.5 具有contact的残基 比例 37.5% 49.4% 58.2% 表3-2 (c)侧链中心之间的距离分布

19 Contact一致性衡量方法 衡量方法:Contact一致的情形出现的比例
𝐶𝑜𝑛𝑡𝑎𝑐𝑡 𝐶𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑐𝑦= #𝑥𝑦𝑇𝑇 #𝑥𝑦𝑇𝑇+#𝑥𝑦𝑇𝐹

20 表3-3 Contact阈值4.5Å两端均保守的情形
结果分析 τ #11TT #11TF #11FT #11FF Contact Consistence 0.6 18864 20094 21019 48.4% 1.0 12137 10307 10582 54.1% 1.5 3942 2429 2427 986997 61.9% 观察1: 序列保守性越强,contact一致性越高 表3-3 Contact阈值4.5Å两端均保守的情形

21 表3-5 Contact阈值4.5Å两端均不保守的情形
结果分析 观察2: 序列保守部分比序列不保守部分的contact一致性高 τ #00TT #00TF #00FT #00FF Contact Consistence 0.6 4326 9120 9300 32.2% 1.0 8957 18672 18996 32.4% 1.5 18299 32177 33010 36.3% 表3-5 Contact阈值4.5Å两端均不保守的情形

22 实例分析 下图所示为contact不一致的情况

23 实例分析 启示:应该放松contact距离阈值

24 结果分析 观察:Contact一致性显著提升 𝜏 3 #11TT #11TF #11FT #11FF Contact Consistence
0.6 44442 8754 9476 82.4% 1.0 27013 4252 4480 85.7% 1.5 8813 1229 1177 88.2% 观察:Contact一致性显著提升 表3-6 Contact阈值放松后两端均保守的情形 𝜏 3 #00TT #00TF #00FT #00FF Contact Consistence 0.6 10280 5674 5986 63.2% 1.0 22847 10891 11404 66.7% 1.5 45413 17117 18097 71.5% 表3-8 Contact阈值放松后两端均不保守的情形

25 改进 残基的contact 二级结构之间的contact α螺旋:考察其序列距离为4的邻域 β平面:考察其序列距离为2的邻域
Coil: 则不考察

26 结果分析 观察:Contact一致性得到进一步的提升 𝜏 3 #11TT #11TF #11FT #11FF
Contact Consistence 0.6 66376 6666 7367 90.9% 1.0 48967 3217 3461 93.8% 1.5 20633 936 931 95.6% 观察:Contact一致性得到进一步的提升 表3-9 考虑邻居的Contact两端均保守的情形 𝜏 3 #00TT #00TF #00FT #00FF Contact Consistence 0.6 4707 4409 4715 51.6% 1.0 11201 8463 8955 56.9% 1.5 34079 13242 14161 72.0% 表3-11考虑邻居的Contact两端均不保守的情形

27 结论 序列保守性越强,contact一致性越高 序列保守部分的二级结构片段之间的contact更可信

28 报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的识别算法
基于关键模体的联配算法 总结与展望

29 关键模体的定义 结构保守: 序列保守: 在进化中,结构表现的比序列更保守。
从蛋白质结构预测算法的角度来看,只有序列信号强,有利于我们进行准确联配的区域才能提供稳定的三维约束。

30 同源蛋白质组的构建 方法: 工具:TMalign[Y. Zhang2005] 标准:TMscore > 0.55时为同源
以某个蛋白质结构为seed从结构库里找出与seed为同源的蛋白质。 工具:TMalign[Y. Zhang2005] 标准:TMscore > 0.55时为同源 问题:并不是真正意义上的同源蛋白质

31 方法一:整数线性规划 目标: 双目标 单目标近似: 求解序列保守结构也保守的部分
双目标 单目标近似: 把其中一个目标反映在约束部分,在这个约束条件下去优化另一个目标。 如序列保守性大于一定的阈值作为约束,优化结构保守性

32 方法一:整数线性规划 结构模体识别问题:给定一组同源蛋白H={ s 1 , s 2 ,…, s N },在每条序列中找出m个长度为n的片段,使得序列保守性大于一定阈值,且结构相似性最大。 目标函数: 结构相似度—Dscore[JF.Zhang2012] 约束条件: 序列相似度大于一定阈值 片段的顺序性,联配不能交叉等

33 方法一:整数线性规划

34 ILP识别的关键模体 同源蛋白质组:SCOP family c

35 关键模体识别的近似算法 ILP的缺陷:速度太慢 先保证结构保守性,再优化序列保守性 结构保守性:BLOMAPS
序列保守性:Gibbs Sampling、MEME

36 步骤一:BLOMAPS BLOMAPS是基于结构码的多结构联配软件。 结构码的优势: 1)速度快:三维结构比对 一维结构码比对
1)速度快:三维结构比对 一维结构码比对 2)由于结构码表示的是角度,避免RMSD的hinge效应。

37 BLOMAPS多结构联配的输出 ‘+’代表同源蛋白质组中所有成员共有的结构,‘.’代表部分成员共有的结构
同源蛋白质组中80%以上成员含有的局部结构作为下一步的输入。

38 步骤二:Gibbs Sampling

39 Gibbs Sampling求解序列模体输出
长度设定为5或者7

40 3gxr_A的关键模体

41 关键模体的序列和结构保守性 计算方法: 序列保守性 结构保守性 同源蛋白质组各成员的关键模体之间计算序列相似度和结构相似度。
log-odds——𝑙𝑜𝑔 𝑎=1 20 𝑝 𝑎 𝑞 𝑎 𝑓 𝑎 结构保守性 TMscore

42 关键模体的序列保守性 观察: 序列上是保守的(log-odds>0)

43 关键模体的结构保守性 观察: 结构上是保守的(Tmscore>0.4)

44 关键模体的profile的建立 简单方法:查询蛋白质的全长序列型中直接截取。 我们的方法: 问题:针对全长序列加权
首先从原序列的MSA中截取关键模体部分所对应的列 然后对这些列进行加权 最后获得关键模体部分的序列型。

45 关键模体片段之间的距离分布 距离分布获取的两种方法: MSA中对应片段之间的距离 结构相似的二级邻居中对应片段之间的距离

46 MSA上统计得到的关键模体片段间的距离分布
高斯分布 非高斯分布

47 由二级邻居统计得到的关键模体片段间的距离分布
高斯分布 非高斯分布

48 关键模体库:共27000个蛋白质的关键模体

49 实例分析 表4-1 SCOP中部分序列的关键模体情况 PDB SCOP class 片段个数 序列保守性 结构保守性 3ip4_C a 4
1.3 0.682 1n00_A 8 1.02 0.769 1erj_A b 21 0.856 0.901 1sr4_C 7 0.73 0.614 1uuq_A c 11 0.934 3o6c_A 0.518 0.566 12as_A d 0.651 0.52 2f5g_A 3 0.868 0.708

50 实例分析——1b7y_A的关键模体的物理解释
粉色区域:为5磷酸腺苷的结合位点一部分 黑圈内区域:具有高度α螺旋倾向性的区域

51 报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的识别算法
基于关键模体的联配算法 总结与展望

52 基于关键模体的联配算法设计动机 现有的联配算法的问题:
对关键模体区域和非关键模体区域不加区分 引入信号的同时也引入了噪声 噪声干扰导致联配错误 因此,在联配中区分关键模体与非关键模体,将有助于确定蛋白质的“粗拓扑”,进而提高远同源蛋白质的折叠型识别。

53 基于关键模体的联配算法 “分级处理”的策略 首先用关键模体与查询序列进行联配,产生最优以及多个次优联配
在固定关键模体片段联配之后,再对关键模体之间的区域进行联配

54 步骤一:关键模体联配的动态规划算法 𝑆 𝑖, 𝑗 = (𝑖𝑓 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 <0) 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 + 𝑚𝑎𝑥 𝑆 𝑖 ′ , 𝑗 ′ +𝑔𝑎𝑝_𝑝𝑒𝑛𝑎𝑙𝑡𝑦 𝑖,𝑗, 𝑖 ′ , 𝑗 ′ (𝑒𝑙𝑠𝑒)

55 𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡y=SS score 𝜎;𝜌,𝑐 = log 𝑃 𝜎;𝜌,𝑐 𝑃 𝜎 𝑃 𝜌,𝑐 𝜔=0.15
关键模体部分的打分 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 =𝑃𝑟𝑜𝑓𝑖𝑙𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦+𝜔∗𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑃𝑟𝑜𝑓𝑖𝑙𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦= 𝑙𝑜𝑔 𝑎=1 20 𝑝 𝑎 𝑞 𝑎 𝑓 𝑎 𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡y=SS score 𝜎;𝜌,𝑐 = log 𝑃 𝜎;𝜌,𝑐 𝑃 𝜎 𝑃 𝜌,𝑐 𝜔=0.15

56 中间区域的距离罚分 用高斯分布𝐺(μ, σ 2 )拟合关键模体间的距离,,则打分如下: 当方差接近于0时,打分如下:
Gap penalty= log φ d μ,σ φ μ+σ μ,σ =0.5− 𝑑−𝜇 σ 2 d为查询序列上的关键模体联配上的位置之间的距离 当方差接近于0时,打分如下: Gap penalty=ω′∗ d−μ (ω′=0.1)

57 关键模体片段中间区域的联配 固定关键模体的联配以后,中间区域的联配使用HMM-HMM联配算法。 中间区域的HMM直接从全长HMM中截取。

58 衡量关键模体联配可信度的P-value 关键模体库搜索排名: 问题: 解决方案:
由于不同的蛋白质上关键模体的个数和长度差异很大,直接按照关键模体联配打分进行排名不合理。 解决方案: 为每个模板上的关键模体联配打分用极值分布拟合,计算p-value后排名。

59 衡量关键模体联配可信度的P-value 对每个模板上的关键模体,都与随机挑选的15000条查询序列进行联配,计算其联配打分,再用极值分布进行拟合。

60 关键模体联配算法在训练集上的性能 训练集: 测试方法: 衡量方法: 获得关键模体的模板集合
200个同源蛋白质组,对每一组模板蛋白质,随机挑选一个蛋白质作为查询序列,求其与中心蛋白质关键模体的最优联配 衡量方法: 预测结构与真实结构的TMscore

61 关键模体联配算法在训练集上的性能 TMscore均大于0.4,取得了良好的效果

62 关键模体联配算法在测试数据集上的性能 测试数据: 去除: 最后剩下142对蛋白质作为测试集。 由多个蛋白质对构成
TMscore在0.5到0.7之间 序列等同度都在25%以下 去除: 小蛋白质(长度小于200残基的蛋白质) HHpred能够成功预测结构的蛋白质 最后剩下142对蛋白质作为测试集。

63 关键模体联配算法在测试数据集上的性能 测试方法: 衡量方法: 用一条作为模板首先求取关键模体,以另一条作为查询序列计算最优联配。
目标蛋白质的结构直接复制对应模板联配位置坐标,使用与真实结构之间的TMscore来评估结果。

64 关键模体联配算法在测试数据集上的性能 实验结果: 7个得到了TMscore大于0.4的结构 45个蛋白质的关键模体联配提供了可靠的三维约束。

65 实例分析——1rcw_A与2c2j_A 查询序列:2c2j_A 模板:1rcw_A 1rcw_A与2c2j_A:TMscore=0.52
HHpred:TMscore=0.25 基于关键模体的联配算法:TMscore=0.44

66 实例分析——1rcw_A与2c2j_A 1rcw_A的关键模体 c2j_A上关键模体联配上的位置

67 实例分析——3dz1_A与1twd_A 查询序列: 3dz1_A 模板:1twd_A 3dz1_A与1twd_A:TMscore=0.56
HHpred:TMscore=0.22 基于关键模体的联配算法:TMscore=0.43

68 实例分析——3dz1_A与1twd_A HHpred预测结构与真实结构的结构联配 关键模体联配预测结构与真实结构的结构联配

69 实例分析——2cws_A与3h0o_A 查询序列: 2cws_A 模板:3h0o_A 2cws_A与3h0o_A:TMscore=0.55
HHpred:TMscore=0.28 基于关键模体的联配算法:TMscore=0.45

70 实例分析——2cws_A与3h0o_A HHpred预测结构与真实结构的结构联配 关键模体联配预测结构与真实结构的结构联配

71 报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的识别算法
基于关键模体的联配算法 总结与展望

72 总结 考察了contact一致性与序列保守性之间的关系,探究了模板上的contact的可信度
设计了关键结构模体的识别算法,获得序列结构上均保守的关键模体 设计了基于关键模体的联配算法,结果显示,基于关键模体的联配算法能够获得比传统方法更优的联配。

73 展望 contact一致性方面 基于PFAM-A数据集 探究由HHBLITS和PSIBLAST构建的MSA

74 展望 本文关键模体的问题: 没有从物理意义的角度去描述关键模体 可能的解决方法:从物理意义的角度设计关键模体识别算法

75 展望 最后,本文提出的基于关键模体的算法中未加入溶液可及性等信息,如果加入这些信息,相信可以使得联配更加地准确。

76 谢谢!


Download ppt "蛋白质结构中的关键模体识别及结构预测算法"

Similar presentations


Ads by Google