蛋白质结构中的关键模体识别及结构预测算法 答辩人:凌彬 指导老师:卜东波 研究员 答辩日期:2014年2月17日
报告提纲 研究背景及国内外研究现状 研究动机及目标 研究内容与成果 总结与展望
研究背景 蛋白质结构预测:从一维序列到三维结构
结构预测方法 同源建模法 归范法 从头预测法
面临的挑战 同源建模法: 规范法: 从头预测法: 超过30%序列等同率的蛋白一般能产生高质量的预测结果 “已经被close了”[Baker,2007] 规范法: 仅能正确识别约2/3远同源的折叠型 从头预测法: 不适宜预测长的、复杂拓扑结构的蛋白质,能量函数不准确,构象搜索效率低
报告提纲 研究背景及国内外研究现状 研究动机及目标 研究内容与成果 总结与展望
现有方法的问题 问题: 远同源蛋白质往往只在部分序列上表现出信号 其他区域信号模糊
研究动机及目标 目标: 关键模体: 识别模板上的关键模体, 基于关键模体设计联配算法,以确定蛋白质的粗拓扑 提高蛋白质折叠型识别率。 模板上结构和序列都高度保守的部分。
报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的标定算法 基于关键模体的联配算法 总结与展望
远程残基接触(Contact) Contact示意图
现有归范法的遇到的问题 问题: 联配给出的contact往往有冲突 如何确定哪些contact更可信?
Contact一致性问题 目标: 现有方法: 本文方法: 确定哪些contact具有高可信度。 采用共变信息(Co-evolution) 缺点:需要的同源序列很多(>1000条)。 本文方法: 序列保守性 两个具有相互作用的残基对在进化过程中应该表现地相对保守。
多序列联配的Contact一致性 S1和S2上同时为T,则contact一致 S1和S2上一个为T一个为F,则contact不一致
实验采用的数据集 数据集:PFAM-A 优点:人工标注的高质量多序列联配 预处理: 滤除序列等同率70%以上的序列
序列保守性的衡量方法 常用方法 : 𝑎=1 20 𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 本文方法: 常用方法 : 𝑎=1 20 𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 本文方法: 对20种氨基酸按照𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 进行排序, 取出前k大的氨基酸标记为1,其余标记为0 然后再计算与背景分布之间的KL距离𝑆𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝐶𝑜𝑛𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛= 𝑝 1 𝑙𝑛 𝑝 1 𝑞 1 + 𝑝 0 𝑙𝑛 𝑝 0 𝑞 0 优点:关注大的偏差
序列保守性阈值估计 我们分别取0.6、1.0、1.5作为阈值进行探究
Contact距离阈值估计 Contact定义方法: C α − C α 之间的距离 C β − C β 之间的距离 侧链(Side Chain)球形中心( 𝑅 𝑠𝑐 )之间距离
Contact距离阈值估计 表3-2 (a) C α 之间的距离分布 阈值(单位:Å) 4.5 5.0 5.5 9.8% 24.7% 37.4% 表3-2 (a) C α 之间的距离分布 阈值(单位:Å) 4.5 5.0 5.5 具有contact的残基 比例 21.53% 37.3% 50.7% 表3-2 (b) C β 之间的距离分布 阈值(单位:Å) 4.5 5.0 5.5 具有contact的残基 比例 37.5% 49.4% 58.2% 表3-2 (c)侧链中心之间的距离分布
Contact一致性衡量方法 衡量方法:Contact一致的情形出现的比例 𝐶𝑜𝑛𝑡𝑎𝑐𝑡 𝐶𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑐𝑦= #𝑥𝑦𝑇𝑇 #𝑥𝑦𝑇𝑇+#𝑥𝑦𝑇𝐹
表3-3 Contact阈值4.5Å两端均保守的情形 结果分析 τ #11TT #11TF #11FT #11FF Contact Consistence 0.6 18864 20094 21019 9539263 48.4% 1.0 12137 10307 10582 4394188 54.1% 1.5 3942 2429 2427 986997 61.9% 观察1: 序列保守性越强,contact一致性越高 表3-3 Contact阈值4.5Å两端均保守的情形
表3-5 Contact阈值4.5Å两端均不保守的情形 结果分析 观察2: 序列保守部分比序列不保守部分的contact一致性高 τ #00TT #00TF #00FT #00FF Contact Consistence 0.6 4326 9120 9300 5462832 32.2% 1.0 8957 18672 18996 10734786 32.4% 1.5 18299 32177 33010 18187309 36.3% 表3-5 Contact阈值4.5Å两端均不保守的情形
实例分析 下图所示为contact不一致的情况
实例分析 启示:应该放松contact距离阈值
结果分析 观察:Contact一致性显著提升 𝜏 3 #11TT #11TF #11FT #11FF Contact Consistence 0.6 44442 8754 9476 9871562 82.4% 1.0 27013 4252 4480 4669233 85.7% 1.5 8813 1229 1177 1122241 88.2% 观察:Contact一致性显著提升 表3-6 Contact阈值放松后两端均保守的情形 𝜏 3 #00TT #00TF #00FT #00FF Contact Consistence 0.6 10280 5674 5986 5341887 63.2% 1.0 22847 10891 11404 10473993 66.7% 1.5 45413 17117 18097 17766621 71.5% 表3-8 Contact阈值放松后两端均不保守的情形
改进 残基的contact 二级结构之间的contact α螺旋:考察其序列距离为4的邻域 β平面:考察其序列距离为2的邻域 Coil: 则不考察
结果分析 观察:Contact一致性得到进一步的提升 𝜏 3 #11TT #11TF #11FT #11FF Contact Consistence 0.6 66376 6666 7367 9867920 90.9% 1.0 48967 3217 3461 4635611 93.8% 1.5 20633 936 931 1110955 95.6% 观察:Contact一致性得到进一步的提升 表3-9 考虑邻居的Contact两端均保守的情形 𝜏 3 #00TT #00TF #00FT #00FF Contact Consistence 0.6 4707 4409 4715 5344792 51.6% 1.0 11201 8463 8955 10529512 56.9% 1.5 34079 13242 14161 17864570 72.0% 表3-11考虑邻居的Contact两端均不保守的情形
结论 序列保守性越强,contact一致性越高 序列保守部分的二级结构片段之间的contact更可信
报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的识别算法 基于关键模体的联配算法 总结与展望
关键模体的定义 结构保守: 序列保守: 在进化中,结构表现的比序列更保守。 从蛋白质结构预测算法的角度来看,只有序列信号强,有利于我们进行准确联配的区域才能提供稳定的三维约束。
同源蛋白质组的构建 方法: 工具:TMalign[Y. Zhang2005] 标准:TMscore > 0.55时为同源 以某个蛋白质结构为seed从结构库里找出与seed为同源的蛋白质。 工具:TMalign[Y. Zhang2005] 标准:TMscore > 0.55时为同源 问题:并不是真正意义上的同源蛋白质
方法一:整数线性规划 目标: 双目标 单目标近似: 求解序列保守结构也保守的部分 双目标 单目标近似: 把其中一个目标反映在约束部分,在这个约束条件下去优化另一个目标。 如序列保守性大于一定的阈值作为约束,优化结构保守性
方法一:整数线性规划 结构模体识别问题:给定一组同源蛋白H={ s 1 , s 2 ,…, s N },在每条序列中找出m个长度为n的片段,使得序列保守性大于一定阈值,且结构相似性最大。 目标函数: 结构相似度—Dscore[JF.Zhang2012] 约束条件: 序列相似度大于一定阈值 片段的顺序性,联配不能交叉等
方法一:整数线性规划
ILP识别的关键模体 同源蛋白质组:SCOP family c.37.1.11
关键模体识别的近似算法 ILP的缺陷:速度太慢 先保证结构保守性,再优化序列保守性 结构保守性:BLOMAPS 序列保守性:Gibbs Sampling、MEME
步骤一:BLOMAPS BLOMAPS是基于结构码的多结构联配软件。 结构码的优势: 1)速度快:三维结构比对 一维结构码比对 1)速度快:三维结构比对 一维结构码比对 2)由于结构码表示的是角度,避免RMSD的hinge效应。
BLOMAPS多结构联配的输出 ‘+’代表同源蛋白质组中所有成员共有的结构,‘.’代表部分成员共有的结构 同源蛋白质组中80%以上成员含有的局部结构作为下一步的输入。
步骤二:Gibbs Sampling
Gibbs Sampling求解序列模体输出 长度设定为5或者7
3gxr_A的关键模体
关键模体的序列和结构保守性 计算方法: 序列保守性 结构保守性 同源蛋白质组各成员的关键模体之间计算序列相似度和结构相似度。 log-odds——𝑙𝑜𝑔 𝑎=1 20 𝑝 𝑎 𝑞 𝑎 𝑓 𝑎 结构保守性 TMscore
关键模体的序列保守性 观察: 序列上是保守的(log-odds>0)
关键模体的结构保守性 观察: 结构上是保守的(Tmscore>0.4)
关键模体的profile的建立 简单方法:查询蛋白质的全长序列型中直接截取。 我们的方法: 问题:针对全长序列加权 首先从原序列的MSA中截取关键模体部分所对应的列 然后对这些列进行加权 最后获得关键模体部分的序列型。
关键模体片段之间的距离分布 距离分布获取的两种方法: MSA中对应片段之间的距离 结构相似的二级邻居中对应片段之间的距离
MSA上统计得到的关键模体片段间的距离分布 高斯分布 非高斯分布
由二级邻居统计得到的关键模体片段间的距离分布 高斯分布 非高斯分布
关键模体库:共27000个蛋白质的关键模体
实例分析 表4-1 SCOP中部分序列的关键模体情况 PDB SCOP class 片段个数 序列保守性 结构保守性 3ip4_C a 4 1.3 0.682 1n00_A 8 1.02 0.769 1erj_A b 21 0.856 0.901 1sr4_C 7 0.73 0.614 1uuq_A c 11 0.934 3o6c_A 0.518 0.566 12as_A d 0.651 0.52 2f5g_A 3 0.868 0.708
实例分析——1b7y_A的关键模体的物理解释 粉色区域:为5磷酸腺苷的结合位点一部分 黑圈内区域:具有高度α螺旋倾向性的区域
报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的识别算法 基于关键模体的联配算法 总结与展望
基于关键模体的联配算法设计动机 现有的联配算法的问题: 对关键模体区域和非关键模体区域不加区分 引入信号的同时也引入了噪声 噪声干扰导致联配错误 因此,在联配中区分关键模体与非关键模体,将有助于确定蛋白质的“粗拓扑”,进而提高远同源蛋白质的折叠型识别。
基于关键模体的联配算法 “分级处理”的策略 首先用关键模体与查询序列进行联配,产生最优以及多个次优联配 在固定关键模体片段联配之后,再对关键模体之间的区域进行联配
步骤一:关键模体联配的动态规划算法 𝑆 𝑖, 𝑗 = 0 (𝑖𝑓 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 <0) 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 + 𝑚𝑎𝑥 𝑆 𝑖 ′ , 𝑗 ′ +𝑔𝑎𝑝_𝑝𝑒𝑛𝑎𝑙𝑡𝑦 𝑖,𝑗, 𝑖 ′ , 𝑗 ′ (𝑒𝑙𝑠𝑒)
𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡y=SS score 𝜎;𝜌,𝑐 = log 𝑃 𝜎;𝜌,𝑐 𝑃 𝜎 𝑃 𝜌,𝑐 𝜔=0.15 关键模体部分的打分 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 =𝑃𝑟𝑜𝑓𝑖𝑙𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦+𝜔∗𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑃𝑟𝑜𝑓𝑖𝑙𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦= 𝑙𝑜𝑔 𝑎=1 20 𝑝 𝑎 𝑞 𝑎 𝑓 𝑎 𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡y=SS score 𝜎;𝜌,𝑐 = log 𝑃 𝜎;𝜌,𝑐 𝑃 𝜎 𝑃 𝜌,𝑐 𝜔=0.15
中间区域的距离罚分 用高斯分布𝐺(μ, σ 2 )拟合关键模体间的距离,,则打分如下: 当方差接近于0时,打分如下: Gap penalty= log φ d μ,σ φ μ+σ μ,σ =0.5− 𝑑−𝜇 2 2 σ 2 d为查询序列上的关键模体联配上的位置之间的距离 当方差接近于0时,打分如下: Gap penalty=ω′∗ d−μ (ω′=0.1)
关键模体片段中间区域的联配 固定关键模体的联配以后,中间区域的联配使用HMM-HMM联配算法。 中间区域的HMM直接从全长HMM中截取。
衡量关键模体联配可信度的P-value 关键模体库搜索排名: 问题: 解决方案: 由于不同的蛋白质上关键模体的个数和长度差异很大,直接按照关键模体联配打分进行排名不合理。 解决方案: 为每个模板上的关键模体联配打分用极值分布拟合,计算p-value后排名。
衡量关键模体联配可信度的P-value 对每个模板上的关键模体,都与随机挑选的15000条查询序列进行联配,计算其联配打分,再用极值分布进行拟合。
关键模体联配算法在训练集上的性能 训练集: 测试方法: 衡量方法: 获得关键模体的模板集合 200个同源蛋白质组,对每一组模板蛋白质,随机挑选一个蛋白质作为查询序列,求其与中心蛋白质关键模体的最优联配 衡量方法: 预测结构与真实结构的TMscore
关键模体联配算法在训练集上的性能 TMscore均大于0.4,取得了良好的效果
关键模体联配算法在测试数据集上的性能 测试数据: 去除: 最后剩下142对蛋白质作为测试集。 由多个蛋白质对构成 TMscore在0.5到0.7之间 序列等同度都在25%以下 去除: 小蛋白质(长度小于200残基的蛋白质) HHpred能够成功预测结构的蛋白质 最后剩下142对蛋白质作为测试集。
关键模体联配算法在测试数据集上的性能 测试方法: 衡量方法: 用一条作为模板首先求取关键模体,以另一条作为查询序列计算最优联配。 目标蛋白质的结构直接复制对应模板联配位置坐标,使用与真实结构之间的TMscore来评估结果。
关键模体联配算法在测试数据集上的性能 实验结果: 7个得到了TMscore大于0.4的结构 45个蛋白质的关键模体联配提供了可靠的三维约束。
实例分析——1rcw_A与2c2j_A 查询序列:2c2j_A 模板:1rcw_A 1rcw_A与2c2j_A:TMscore=0.52 HHpred:TMscore=0.25 基于关键模体的联配算法:TMscore=0.44
实例分析——1rcw_A与2c2j_A 1rcw_A的关键模体 2c2j_A上关键模体联配上的位置
实例分析——3dz1_A与1twd_A 查询序列: 3dz1_A 模板:1twd_A 3dz1_A与1twd_A:TMscore=0.56 HHpred:TMscore=0.22 基于关键模体的联配算法:TMscore=0.43
实例分析——3dz1_A与1twd_A HHpred预测结构与真实结构的结构联配 关键模体联配预测结构与真实结构的结构联配
实例分析——2cws_A与3h0o_A 查询序列: 2cws_A 模板:3h0o_A 2cws_A与3h0o_A:TMscore=0.55 HHpred:TMscore=0.28 基于关键模体的联配算法:TMscore=0.45
实例分析——2cws_A与3h0o_A HHpred预测结构与真实结构的结构联配 关键模体联配预测结构与真实结构的结构联配
报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的识别算法 基于关键模体的联配算法 总结与展望
总结 考察了contact一致性与序列保守性之间的关系,探究了模板上的contact的可信度 设计了关键结构模体的识别算法,获得序列结构上均保守的关键模体 设计了基于关键模体的联配算法,结果显示,基于关键模体的联配算法能够获得比传统方法更优的联配。
展望 contact一致性方面 基于PFAM-A数据集 探究由HHBLITS和PSIBLAST构建的MSA
展望 本文关键模体的问题: 没有从物理意义的角度去描述关键模体 可能的解决方法:从物理意义的角度设计关键模体识别算法
展望 最后,本文提出的基于关键模体的算法中未加入溶液可及性等信息,如果加入这些信息,相信可以使得联配更加地准确。
谢谢!