蛋白质结构中的关键模体识别及结构预测算法

Slides:



Advertisements
Similar presentations
站立歪斜或坐姿不端正、習慣性翹腳、長時 間坐在電腦前都會造成我們脊椎歪曲不直, 脊椎一旦彎曲歪斜,很多毛病會跟著來,所 以可以常常做滾背的動作,可以矯正脊椎, 不用快慢慢作,矯正脊椎自己來。
Advertisements

腫瘤個案管理師之職責與作業 乳癌個案管理師 : 陳慧蘭. 腫瘤個案管理師之職責  收案  評估病家需求  擬訂及提供照護計畫  參與多專科共同照護  提供追蹤管理  品質監測及回饋.
粮油贮藏特性 一、 粮油化学成分与贮藏的关系 1 、水分 自由水含量低:粮食贮存稳定性高; 自由水含量高:粮食呼吸旺盛,仓虫、仓螨、霉菌大量繁殖,从 而出现粮食霉变、虫害现象。 2 、淀粉:在存储粮食时,淀粉是比较稳定的。 3 、可溶性糖 在粮食储存过程中,受环境高温、微生物作用的影响,粮食中淀 粉、蔗糖等的含量逐渐减少,而一些单糖、麦芽糖的含量不断.
大學甄選入學 個人申請面試技巧 黃仁竑 教授 中正大學資工系. 大綱 面試目的 面試流程 面試技巧 ( 注意事項 ) 結語.
1. 吸菸及會導致的傷害 : ※吸菸的短期立即傷害 : 一、 最大的影響在呼吸道的部分,吸菸會在 肺部、支氣管內積聚有毒物質,使肺部細胞破 壞、肺泡漲大、換氣障礙,導致咳嗽不停、呼 吸困難。 2.
第七章 溶液. 剛加入時振蕩靜置 粉筆粉 + 水 粉筆粉沉降到試 管底部,混合物 分為上下兩層。 振蕩後,液 體出現渾濁。 靜置後混 合物再次 分為上下 兩層。 植物油 + 水 植物油出現在水 層之上,混合物 分上下兩層。 振蕩後,液 體出現渾濁。 靜置後混 合物再次 分為上下 兩層。 實驗一 第一節.
无机非金属 材料. 一、材料的分类和特点 材料 无机非金属材料 金属材料 高分子材料:塑料、合成橡胶、合成纤维 传统无机非金属材料 新型无机非金属材料 水泥、玻璃、陶瓷 高温结构陶瓷、光导纤维 Fe 、 Cu 、 Al 、合金等.
应对环境挑战 副总经理 耿汝光 中国,珠海 打造绿色航空产业链. 2 中国航空工业集团公司概况 全球面临环境挑战 积极应对,打造绿色航空产业链
第四章 细胞与细胞工程 第一课时 细胞的生物膜系统.
第二章 中药药性理论的现代研究 掌握中药四性的现代研究 掌握中药五味的现代研究 掌握中药毒性的现代研究 了解中药归经的现代研究.
课题2 化学元素与人体健康
癸巳年魯班先師寶誕賀誕金 各會員及商號樂助列
答:由内分泌器官(或细胞)分泌的化学物质进行调节,这就是激素调节。
東南科技大學 春暉社 簡 報.
第 三 章 领悟人生真谛 创造人生价值.
第二章 中药总论 ----中兽药的基本知识.
台中縣立大里高中 理化科實習教師 曹佑民 老師
初中化学知识在日常生活中的应用 ——清 的学问
第11章 绿色运输和绿色物流 运输和大气质量的关系
忻州师范学院校运会管理系统的设计与实现 班 级:计算机系本0702班 姓 名:董莎莎 学 号: 导 师:郑志荣.
中國境內18 處公認超級美景 雲南羅平 四川:稻城 湖南吉首鳳凰 新疆帕米爾高原 浙江烏鎮 瀘沽湖 紅水河岸上風光 長白山天池 廣西龍脊梯田
第一篇 总 论 第二篇 普外科 外科护理学 吉林大学远程教育学院.
第七章     内分泌代谢疾病 第一节      总论 第二节     甲状腺疾病 甲状腺功能亢进症 (Graves病)最多见。 一、甲亢的概念*
十年期国债期货首日操作策略 浙商期货研究院:刘鹏.
恒泰期货研究所2016年 期债暴跌告一段落,短期波动降低 国债期货周报
第十三章 网络计划技术.
單 元 簡 報 生態系多樣性及其重要性.
单元4 生物的遗传 第1讲 基因的分离定律.
如果没有植物,地球将失去绿色,动物和人都要饿死。 如果没有动物,生态平衡也难以维持。 如果没有细菌和真菌呢?
广东省健康教育服务均等化系列课件 甲状腺疾病患者健康教育 中山大学孙逸仙纪念医院 蒋宁一 李敬彦.
第三篇 大气与天气、气候 专题八 大气的组成和垂直分层.
浙江省三年(2011、 2012、 2013) 高考物理试题分析.
下雨了,快点跑啊~ 呼哧呼哧…… 体液调节 安静时每分钟呼吸次数只有10几次,为什么奔跑时,呼吸会随之加快?
第9章 工程索赔管理.
第八章 风湿性疾病 第一节 总论 第二节 系统性红斑狼疮 一、诱因 二、临床表现:皮肤与粘膜的损害 三、治疗与护理措施:皮肤护理:饮食
第五章 资料收集.
第八章 两总体均数差异性检验 2004年10月 华中科技大学同济医学院 宇传华制作.
大地醫療團隊- 微生物製劑環保與農業應用.
我國室內空氣品質管理法第一波適法場域輔導設置管理計畫之進度與成效,及第二波預告適法場域與未來之規劃進程
相持时双方的拉力一定大小相等,方向相反;当甲方齐心协力把绳子缓缓朝他们方向拉过去的时候,甲方的拉力一定比乙方大吗?
第二章 设备基础 基础类型及要求 地脚螺栓 垫铁 无垫铁安装及座浆法.
臺北縣政府消防局緊急救護科 救護技術員訓練教材 脊椎外傷病患之處置 主講人:重陽專責救護隊     隊員 李憲賓.
光的干涉.
国际关系的决定因素:国家利益 江苏省震泽中学 丛海啸.
第9章 光纤传感器.
贵宾专享 金融服务方案 邓慧景.
瘿 病 中医内科教研室 洪军.
思考: 甲状腺激素产生的部位及生理作用? 机体调节内分泌活动的枢纽是什么?.
§5-1 生态系统的结构 胡春英.
物质的变化与性质
尺規作圖的緣起.
普通高中课程标准实验教科书 地理 必修•第2册
室內空氣品質管理法推動計畫 工作報告 工務室陳建德 102年6月27日.
(二)生物对环境的适应 和影响.
第五章 采油工程.
第 7 課 刑法與生活.
第六章 正态条件下回归的推论.
摩擦力.
第三章 傅里叶变换.
第五章 简单控制系统.
牛全基因组预测转录因子 数据库构建及分析 导 师: 张勤教授 研究生: 王志鹏 August, 2008.
小太陽兒童人文藝術學院兒童畫展 地點:住院大樓9F、11F外走道( )
團體衛生教育護理創意競賽 報告者:護理科 計畫主持人邱馨誼講師
工聯會婦女事務委員會 懷孕婦女權益及保障問卷調查: 母乳餵哺 2017年4月28日 調查方法: 總回覆數:624
提案討論.
活動攝影技巧.
台灣房價指數 台灣房屋 中央大學 2011年7月29日.
§2.2.1对数与对数运算.
保健脊椎 健康一生 按鍵換頁 紐西蘭新生命慈善基金會 報告人:陳閩雄 一共 89 張.
Presentation transcript:

蛋白质结构中的关键模体识别及结构预测算法 答辩人:凌彬 指导老师:卜东波 研究员 答辩日期:2014年2月17日

报告提纲 研究背景及国内外研究现状 研究动机及目标 研究内容与成果 总结与展望

研究背景 蛋白质结构预测:从一维序列到三维结构

结构预测方法 同源建模法 归范法 从头预测法

面临的挑战 同源建模法: 规范法: 从头预测法: 超过30%序列等同率的蛋白一般能产生高质量的预测结果 “已经被close了”[Baker,2007] 规范法: 仅能正确识别约2/3远同源的折叠型 从头预测法: 不适宜预测长的、复杂拓扑结构的蛋白质,能量函数不准确,构象搜索效率低

报告提纲 研究背景及国内外研究现状 研究动机及目标 研究内容与成果 总结与展望

现有方法的问题 问题: 远同源蛋白质往往只在部分序列上表现出信号 其他区域信号模糊

研究动机及目标 目标: 关键模体: 识别模板上的关键模体, 基于关键模体设计联配算法,以确定蛋白质的粗拓扑 提高蛋白质折叠型识别率。 模板上结构和序列都高度保守的部分。

报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的标定算法 基于关键模体的联配算法 总结与展望

远程残基接触(Contact) Contact示意图

现有归范法的遇到的问题 问题: 联配给出的contact往往有冲突 如何确定哪些contact更可信?

Contact一致性问题 目标: 现有方法: 本文方法: 确定哪些contact具有高可信度。 采用共变信息(Co-evolution) 缺点:需要的同源序列很多(>1000条)。 本文方法: 序列保守性 两个具有相互作用的残基对在进化过程中应该表现地相对保守。

多序列联配的Contact一致性 S1和S2上同时为T,则contact一致 S1和S2上一个为T一个为F,则contact不一致

实验采用的数据集 数据集:PFAM-A 优点:人工标注的高质量多序列联配 预处理: 滤除序列等同率70%以上的序列

序列保守性的衡量方法 常用方法 : 𝑎=1 20 𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 本文方法: 常用方法 : 𝑎=1 20 𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 本文方法: 对20种氨基酸按照𝑝 𝑎 𝑙𝑛 𝑝 𝑎 𝑞 𝑎 进行排序, 取出前k大的氨基酸标记为1,其余标记为0 然后再计算与背景分布之间的KL距离𝑆𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝐶𝑜𝑛𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛= 𝑝 1 𝑙𝑛 𝑝 1 𝑞 1 + 𝑝 0 𝑙𝑛 𝑝 0 𝑞 0 优点:关注大的偏差

序列保守性阈值估计 我们分别取0.6、1.0、1.5作为阈值进行探究

Contact距离阈值估计 Contact定义方法: C α − C α 之间的距离 C β − C β 之间的距离 侧链(Side Chain)球形中心( 𝑅 𝑠𝑐 )之间距离

Contact距离阈值估计 表3-2 (a) C α 之间的距离分布 阈值(单位:Å) 4.5 5.0 5.5 9.8% 24.7% 37.4% 表3-2 (a) C α 之间的距离分布 阈值(单位:Å) 4.5 5.0 5.5 具有contact的残基 比例 21.53% 37.3% 50.7% 表3-2 (b) C β 之间的距离分布 阈值(单位:Å) 4.5 5.0 5.5 具有contact的残基 比例 37.5% 49.4% 58.2% 表3-2 (c)侧链中心之间的距离分布

Contact一致性衡量方法 衡量方法:Contact一致的情形出现的比例 𝐶𝑜𝑛𝑡𝑎𝑐𝑡 𝐶𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑐𝑦= #𝑥𝑦𝑇𝑇 #𝑥𝑦𝑇𝑇+#𝑥𝑦𝑇𝐹

表3-3 Contact阈值4.5Å两端均保守的情形 结果分析 τ #11TT #11TF #11FT #11FF Contact Consistence 0.6 18864 20094 21019 9539263 48.4% 1.0 12137 10307 10582 4394188 54.1% 1.5 3942 2429 2427 986997 61.9% 观察1: 序列保守性越强,contact一致性越高 表3-3 Contact阈值4.5Å两端均保守的情形

表3-5 Contact阈值4.5Å两端均不保守的情形 结果分析 观察2: 序列保守部分比序列不保守部分的contact一致性高 τ #00TT #00TF #00FT #00FF Contact Consistence 0.6 4326 9120 9300 5462832 32.2% 1.0 8957 18672 18996 10734786 32.4% 1.5 18299 32177 33010 18187309 36.3% 表3-5 Contact阈值4.5Å两端均不保守的情形

实例分析 下图所示为contact不一致的情况

实例分析 启示:应该放松contact距离阈值

结果分析 观察:Contact一致性显著提升 𝜏 3 #11TT #11TF #11FT #11FF Contact Consistence 0.6 44442 8754 9476 9871562 82.4% 1.0 27013 4252 4480 4669233 85.7% 1.5 8813 1229 1177 1122241 88.2% 观察:Contact一致性显著提升 表3-6 Contact阈值放松后两端均保守的情形 𝜏 3 #00TT #00TF #00FT #00FF Contact Consistence 0.6 10280 5674 5986 5341887 63.2% 1.0 22847 10891 11404 10473993 66.7% 1.5 45413 17117 18097 17766621 71.5% 表3-8 Contact阈值放松后两端均不保守的情形

改进 残基的contact 二级结构之间的contact α螺旋:考察其序列距离为4的邻域 β平面:考察其序列距离为2的邻域 Coil: 则不考察

结果分析 观察:Contact一致性得到进一步的提升 𝜏 3 #11TT #11TF #11FT #11FF Contact Consistence 0.6 66376 6666 7367 9867920 90.9% 1.0 48967 3217 3461 4635611 93.8% 1.5 20633 936 931 1110955 95.6% 观察:Contact一致性得到进一步的提升 表3-9 考虑邻居的Contact两端均保守的情形 𝜏 3 #00TT #00TF #00FT #00FF Contact Consistence 0.6 4707 4409 4715 5344792 51.6% 1.0 11201 8463 8955 10529512 56.9% 1.5 34079 13242 14161 17864570 72.0% 表3-11考虑邻居的Contact两端均不保守的情形

结论 序列保守性越强,contact一致性越高 序列保守部分的二级结构片段之间的contact更可信

报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的识别算法 基于关键模体的联配算法 总结与展望

关键模体的定义 结构保守: 序列保守: 在进化中,结构表现的比序列更保守。 从蛋白质结构预测算法的角度来看,只有序列信号强,有利于我们进行准确联配的区域才能提供稳定的三维约束。

同源蛋白质组的构建 方法: 工具:TMalign[Y. Zhang2005] 标准:TMscore > 0.55时为同源 以某个蛋白质结构为seed从结构库里找出与seed为同源的蛋白质。 工具:TMalign[Y. Zhang2005] 标准:TMscore > 0.55时为同源 问题:并不是真正意义上的同源蛋白质

方法一:整数线性规划 目标: 双目标 单目标近似: 求解序列保守结构也保守的部分 双目标 单目标近似: 把其中一个目标反映在约束部分,在这个约束条件下去优化另一个目标。 如序列保守性大于一定的阈值作为约束,优化结构保守性

方法一:整数线性规划 结构模体识别问题:给定一组同源蛋白H={ s 1 , s 2 ,…, s N },在每条序列中找出m个长度为n的片段,使得序列保守性大于一定阈值,且结构相似性最大。 目标函数: 结构相似度—Dscore[JF.Zhang2012] 约束条件: 序列相似度大于一定阈值 片段的顺序性,联配不能交叉等

方法一:整数线性规划

ILP识别的关键模体 同源蛋白质组:SCOP family c.37.1.11

关键模体识别的近似算法 ILP的缺陷:速度太慢 先保证结构保守性,再优化序列保守性 结构保守性:BLOMAPS 序列保守性:Gibbs Sampling、MEME

步骤一:BLOMAPS BLOMAPS是基于结构码的多结构联配软件。 结构码的优势: 1)速度快:三维结构比对 一维结构码比对 1)速度快:三维结构比对 一维结构码比对 2)由于结构码表示的是角度,避免RMSD的hinge效应。

BLOMAPS多结构联配的输出 ‘+’代表同源蛋白质组中所有成员共有的结构,‘.’代表部分成员共有的结构 同源蛋白质组中80%以上成员含有的局部结构作为下一步的输入。

步骤二:Gibbs Sampling

Gibbs Sampling求解序列模体输出 长度设定为5或者7

3gxr_A的关键模体

关键模体的序列和结构保守性 计算方法: 序列保守性 结构保守性 同源蛋白质组各成员的关键模体之间计算序列相似度和结构相似度。 log-odds——𝑙𝑜𝑔 𝑎=1 20 𝑝 𝑎 𝑞 𝑎 𝑓 𝑎 结构保守性 TMscore

关键模体的序列保守性 观察: 序列上是保守的(log-odds>0)

关键模体的结构保守性 观察: 结构上是保守的(Tmscore>0.4)

关键模体的profile的建立 简单方法:查询蛋白质的全长序列型中直接截取。 我们的方法: 问题:针对全长序列加权 首先从原序列的MSA中截取关键模体部分所对应的列 然后对这些列进行加权 最后获得关键模体部分的序列型。

关键模体片段之间的距离分布 距离分布获取的两种方法: MSA中对应片段之间的距离 结构相似的二级邻居中对应片段之间的距离

MSA上统计得到的关键模体片段间的距离分布 高斯分布 非高斯分布

由二级邻居统计得到的关键模体片段间的距离分布 高斯分布 非高斯分布

关键模体库:共27000个蛋白质的关键模体

实例分析 表4-1 SCOP中部分序列的关键模体情况 PDB SCOP class 片段个数 序列保守性 结构保守性 3ip4_C a 4 1.3 0.682 1n00_A 8 1.02 0.769 1erj_A b 21 0.856 0.901 1sr4_C 7 0.73 0.614 1uuq_A c 11 0.934 3o6c_A 0.518 0.566 12as_A d 0.651 0.52 2f5g_A 3 0.868 0.708

实例分析——1b7y_A的关键模体的物理解释 粉色区域:为5磷酸腺苷的结合位点一部分 黑圈内区域:具有高度α螺旋倾向性的区域

报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的识别算法 基于关键模体的联配算法 总结与展望

基于关键模体的联配算法设计动机 现有的联配算法的问题: 对关键模体区域和非关键模体区域不加区分 引入信号的同时也引入了噪声 噪声干扰导致联配错误 因此,在联配中区分关键模体与非关键模体,将有助于确定蛋白质的“粗拓扑”,进而提高远同源蛋白质的折叠型识别。

基于关键模体的联配算法 “分级处理”的策略 首先用关键模体与查询序列进行联配,产生最优以及多个次优联配 在固定关键模体片段联配之后,再对关键模体之间的区域进行联配

步骤一:关键模体联配的动态规划算法 𝑆 𝑖, 𝑗 = 0 (𝑖𝑓 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 <0) 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 + 𝑚𝑎𝑥 𝑆 𝑖 ′ , 𝑗 ′ +𝑔𝑎𝑝_𝑝𝑒𝑛𝑎𝑙𝑡𝑦 𝑖,𝑗, 𝑖 ′ , 𝑗 ′ (𝑒𝑙𝑠𝑒)

𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡y=SS score 𝜎;𝜌,𝑐 = log 𝑃 𝜎;𝜌,𝑐 𝑃 𝜎 𝑃 𝜌,𝑐 𝜔=0.15 关键模体部分的打分 𝑠𝑐𝑜𝑟𝑒 𝑖,𝑗 =𝑃𝑟𝑜𝑓𝑖𝑙𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦+𝜔∗𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑃𝑟𝑜𝑓𝑖𝑙𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦= 𝑙𝑜𝑔 𝑎=1 20 𝑝 𝑎 𝑞 𝑎 𝑓 𝑎 𝑆𝑆 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡y=SS score 𝜎;𝜌,𝑐 = log 𝑃 𝜎;𝜌,𝑐 𝑃 𝜎 𝑃 𝜌,𝑐 𝜔=0.15

中间区域的距离罚分 用高斯分布𝐺(μ, σ 2 )拟合关键模体间的距离,,则打分如下: 当方差接近于0时,打分如下: Gap penalty= log φ d μ,σ φ μ+σ μ,σ =0.5− 𝑑−𝜇 2 2 σ 2 d为查询序列上的关键模体联配上的位置之间的距离 当方差接近于0时,打分如下: Gap penalty=ω′∗ d−μ (ω′=0.1)

关键模体片段中间区域的联配 固定关键模体的联配以后,中间区域的联配使用HMM-HMM联配算法。 中间区域的HMM直接从全长HMM中截取。

衡量关键模体联配可信度的P-value 关键模体库搜索排名: 问题: 解决方案: 由于不同的蛋白质上关键模体的个数和长度差异很大,直接按照关键模体联配打分进行排名不合理。 解决方案: 为每个模板上的关键模体联配打分用极值分布拟合,计算p-value后排名。

衡量关键模体联配可信度的P-value 对每个模板上的关键模体,都与随机挑选的15000条查询序列进行联配,计算其联配打分,再用极值分布进行拟合。

关键模体联配算法在训练集上的性能 训练集: 测试方法: 衡量方法: 获得关键模体的模板集合 200个同源蛋白质组,对每一组模板蛋白质,随机挑选一个蛋白质作为查询序列,求其与中心蛋白质关键模体的最优联配 衡量方法: 预测结构与真实结构的TMscore

关键模体联配算法在训练集上的性能 TMscore均大于0.4,取得了良好的效果

关键模体联配算法在测试数据集上的性能 测试数据: 去除: 最后剩下142对蛋白质作为测试集。 由多个蛋白质对构成 TMscore在0.5到0.7之间 序列等同度都在25%以下 去除: 小蛋白质(长度小于200残基的蛋白质) HHpred能够成功预测结构的蛋白质 最后剩下142对蛋白质作为测试集。

关键模体联配算法在测试数据集上的性能 测试方法: 衡量方法: 用一条作为模板首先求取关键模体,以另一条作为查询序列计算最优联配。 目标蛋白质的结构直接复制对应模板联配位置坐标,使用与真实结构之间的TMscore来评估结果。

关键模体联配算法在测试数据集上的性能 实验结果: 7个得到了TMscore大于0.4的结构 45个蛋白质的关键模体联配提供了可靠的三维约束。

实例分析——1rcw_A与2c2j_A 查询序列:2c2j_A 模板:1rcw_A 1rcw_A与2c2j_A:TMscore=0.52 HHpred:TMscore=0.25 基于关键模体的联配算法:TMscore=0.44

实例分析——1rcw_A与2c2j_A 1rcw_A的关键模体 2c2j_A上关键模体联配上的位置

实例分析——3dz1_A与1twd_A 查询序列: 3dz1_A 模板:1twd_A 3dz1_A与1twd_A:TMscore=0.56 HHpred:TMscore=0.22 基于关键模体的联配算法:TMscore=0.43

实例分析——3dz1_A与1twd_A HHpred预测结构与真实结构的结构联配 关键模体联配预测结构与真实结构的结构联配

实例分析——2cws_A与3h0o_A 查询序列: 2cws_A 模板:3h0o_A 2cws_A与3h0o_A:TMscore=0.55 HHpred:TMscore=0.28 基于关键模体的联配算法:TMscore=0.45

实例分析——2cws_A与3h0o_A HHpred预测结构与真实结构的结构联配 关键模体联配预测结构与真实结构的结构联配

报告提纲 研究背景及意义 国内外研究现状 研究目标及框架 研究内容与成果 总结与展望 具有远程关联区域的序列保守性 关键模体的识别算法 基于关键模体的联配算法 总结与展望

总结 考察了contact一致性与序列保守性之间的关系,探究了模板上的contact的可信度 设计了关键结构模体的识别算法,获得序列结构上均保守的关键模体 设计了基于关键模体的联配算法,结果显示,基于关键模体的联配算法能够获得比传统方法更优的联配。

展望 contact一致性方面 基于PFAM-A数据集 探究由HHBLITS和PSIBLAST构建的MSA

展望 本文关键模体的问题: 没有从物理意义的角度去描述关键模体 可能的解决方法:从物理意义的角度设计关键模体识别算法

展望 最后,本文提出的基于关键模体的算法中未加入溶液可及性等信息,如果加入这些信息,相信可以使得联配更加地准确。

谢谢!