生 物 信 息 学 Bioinformatics 0233301510 巩晶 癌症研究中心 山东大学 医学院 2015.10.23
第四章 序列比较
复习 双序列比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 对于: 序列p:ACGTC 序列q:AATC : 字符对字符 : 字符对空位 箭头指着的序列为空位 0 1 2 3 4 5 序列 p A C G T -5 -10 -15 -20 -25 10 5 7 4 -1 -6 12 9 21 1 2 3 序列 q 4 得分矩阵 序列p: A C G T C 序列q: A - A T C 全局序列比对结果
复习 双序列比对 无论两个序列长度是否相同,都要先做双序列全局比对,然后根据比对结果及比对长度计算它们的一致度和相似度。 如果两个序列长度相同: 一致度(identity)= (一致字符的个数 / 全局比对长度)×100% 相似度(similarity)= (一致及相似的字符的个数 / 全局比对长度)×100% 序列1:CVHK-LA identity = (4/7)*100% = 57% 序列2:C-HKTIA similarity = ((4+1)/7)*100% = 71% 如果两个序列长度不相同: 一致度(identity)=(一致字符的个数 / 全局比对长度)×100% 相似度(similarity)=(一致及相似的字符的个数 / 全局比对长度)×100% 序列1:CVHKAT identity = (4/6)*100% = 67% 序列2:CIHK-T similarity = ((4+1)/6)*100% = 83% 无论两个序列长度是否相同,都要先做双序列全局比对,然后根据比对结果及比对长度计算它们的一致度和相似度。
4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 http://www.ebi.ac.uk/Tools/psa
4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具
4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具
4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具
4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 小的 Gap Open + 大的 Gap Extend
4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 小的 Gap Open + 大的 Gap Extend = 分散的空位
4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 大的 Gap Open + 小的 Gap Extend = 集中的空位
4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 调整 gap open 和gap extend以达到期望的比对结果
4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具
4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具
4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具 黑色是相似的部分,红色是完全不相似的部分 >Seq1 MHHHHHHSSGVDLGTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKSISENIVSFIEKSYKSIFVLSPNFVQNEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRYHKLKALLEKKAYLEWPKDRRKCGLFWANLRAAIN >Seq2 GTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRAAAAAAAAAAA
4.5.3 双序列比对:在线比对工具 全局与局部比对比较 局部比对 全局比对
4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具
4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具 黑色是相似的部分,红色是不相似的部分 >Seq3 TTLDDPLGHMPERFDAFICYCPSDIQFVQEMIRQLEQTNYRLKLCVSDRDVLPGTCVWSI ASELIEKRCRRMVVVVSDDYLQAKECDVQSKFALSLSPGAHQKRLIPIKYKAMKKEFPSI LRFITVCDYTNPCTKSWFWTRLAKALSLP >Seq4 MHHHHHHSSGVDLGTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEK EDGSILICLYESYFDPGKSISENIVSYLQSKECDLQTKFATSNQNEWCHYEFYFAHHNLF HENSDHIILILLEPIPFYCIPTRYHKLKALLEKKAYLEWPKDRRKCGLFWANLRAAIN
4.5.3 双序列比对:在线比对工具 全局与局部比对比较 局部比对 全局比对
5.3 双序列比对:在线比对工具 免费的在线双序列比对工具 软件名 比对类型 网址链接 EMBL Global/Local PIR http://www.ebi.ac.uk/Tools/psa PIR Global http://pir.georgetown.edu/pirwww/search/pairwise.shtml Lalign http://www.ch.embnet.org/software/LALIGN_form.html LAGAN http://lagan.stanford.edu/lagan_web/index.shtml AlignMe Alignment of Membrane Proteins http://www.bioinfo.mpg.de/AlignMe/AlignMe.html MCALIGN Alignment of non-coding DNA sequences http://homepages.ed.ac.uk/eang33/mcalign/mcinstructions.html
4.6 多序列比对 多序列比对(multiple alignment),对两条以上的生物序列进行全局比对。
4.6.1 多序列比对:应该知道的几点 多序列比对的主要用途: 确认:一个未知的序列是否属于某个家族 建立:系统发生树,查看物种间或者序列间的关系 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列 片段是否也具有该功能。 预测蛋白质/RNA二级结构 等等。
4.6.1 多序列比对:应该知道的几点 对要进行多序列比对的序列的几点要求: 太多的序列受不了。一般10-15条序列,最好别超过50条。 关系太远的序列受不了。两两之间序列相似度低于30%的一组序列,作多序列比对会有麻烦。 关系太近的序列受不了。两两之间序列相似度大于90%的序列,有再多条都等于只有一条。 局部的短序列受不了。多序列比对支持一组差不多长的序列,个别很短的序列属于捣乱分子。 有重复域的序列受不了。如果序列里包含重复域, 大多数多序列比对的程序都会出错,甚至崩溃。
4.6.1 多序列比对:应该知道的几点 序列的名字有几点建议: 名字里不要有“空格”,用“_”代替“空格” 。 不要用特殊字符,(比如中文, @, #, &, ^ 等) 。 名字的长度不要超过15个字符。 一组序列里,不要有重名的序列。 如果不按上述几点建议命名的话,多序列比对程序会在不告知你的情况下修改你的序列名称。 e.g. My Seq 1 My_Seq_1 e.g. 我的序列壹 Seq1@li.com e.g. This_is_my_favorite_sequence_about_mouse
4.6.2 多序列比对:算法 多序列比对的算法 目前所有的多序列比对工具都不是完美的,它们都使用一种近似的算法。 seq1 seq3 P Y M N V I -1 -2 -3 -4 -5 -6 7 6 5 4 3 2 14 13 12 11 10 E L 15 F seq2 seq1 seq2 2条序列 = 2D 3条序列 = 3D N条序列 = nD
4.6.3 多序列比对:在线比对工具 多序列比对的工具 Clustal – 最常用的多序列比对工具 Tcoffee – 最新的多序列比对工具之一 MUSCLE – 最快的多序列比对工具之一 提供多序列比对在线使用的网站(部分) 网站名称 服务器位置 网址链接 EBI Clustal-Omiga http://www.ebi.ac.uk/Tools/msa/clustalo/ Expasy Clustal W http://www.ch.embnet.org/software/ClustalW.html Sfi-Clustal Clustal O/W2 http://www.clustal.org/ (仅下载) Tcoffee http://www.ebi.ac.uk/Tools/msa/tcoffee/ http://www.tcoffee.org/ Muscle http://www.ebi.ac.uk/Tools/msa/muscle/ MUSCLE http://www.drive5.com/muscle/(仅下载)
4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的ClustalW工具 http://www.ebi.ac.uk/Tools/msa
4.6.3.1 多序列比对:在线比对工具-Clustal 人Toll样受体1-10胞内域 EMBL网站的Clustal工具
4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具
4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 多序列比对中各个序列的排列顺序: aligned-比对过程中自动创建的顺序 input-输入序列的原始顺序 比对输出格式
4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 默认情况下,结果中的序列顺序是按照Guide Tree排列的,而非输入时的排列顺序。 保存比对结果
4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 先记住这里有个按钮,一会儿再来研究它!
4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 这个树 不是 真正的进化树!
4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 转入另一个程序去进一步做真正的系统发生树。
4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 Red: 疏水的 Blue: 酸性的 Magenta: 碱性的 Green: 羟基+胺+碱性 Gray: 其他
4.6.3 多序列比对:在线比对工具 EMBL网站的ClustalW工具 * 完全保守的一列,即,这一列的残基完全相同。 * 完全保守的一列,即,这一列的残基完全相同。 : 这一列的残基有大致相似的分子大小及相同亲疏水性,即这 一列残基或相同或相似。 . 在进化过程中,残基的分子大小及亲疏水性被一定程度上保 留了,但是有替换发生在不相似的残基间。 完全不保守的一列。
4.6.3.2 多序列比对:在线比对工具-TCOFFEE Tcoffee :多序列比对工具,算法上与Clastal系列类似,准确度上比Clustal系列高,但计算耗时比Clustal系列略高。 http://www.tcoffee.org http://tcoffee.crg.cat T-Coffee 镜像网站 SIB http://tcoffee.vital-it.ch EBI http://www.ebi.ac.uk/Tools/msa/tcoffee CNRS http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/ index.cgi Max-Planck http://toolkit.tuebingen.mpg.de/t_coffee CBSU http://cbsuapps.tc.cornell.edu/t_coffee.aspx EMBnet http://www.es.embnet.org/Services/MolBio/t-coffee
http://tcoffee.crg.cat
给序列加入结构信息的多序列比对。 把多个比对工具的结果整合成一个。 专为穿膜蛋白打造的多序列比对。 专为远源序列打造的多序列比对。 http://tcoffee.crg.cat
http://tcoffee.crg.cat
http://tcoffee.crg.cat
http://tcoffee.crg.cat
4.6.3.2 多序列比对:在线比对工具-TCOFFEE
4.6.3.2 多序列比对:在线比对工具-TCOFFEE 如果要做比对的序列有结构信息的话(包括 未发表的非PDB里的结构),可以把这些结构的PDB文件上传。
4.6.3.2 多序列比对:在线比对工具-TCOFFEE 从这里指定哪个序列对应哪个PDB结构。已上传的结构会根据序列信息自动匹配是哪个序列,不需要列出。 或者偷个懒,自动给每条序列通过BLAST搜索自动到数据库中找序列水平上相似的结构。 要算很久,留个email很必要!
4.6.3.2 多序列比对:在线比对工具-TCOFFEE
4.6.3.2 多序列比对:在线比对工具-TCOFFEE
4.6.3.2 多序列比对:在线比对工具-TCOFFEE 110
4.6.3.2 多序列比对:在线比对工具-TCOFFEE fasta_aln file score_html file phylip file clustalw_aln file
4.6.3.2 多序列比对:在线比对工具-TCOFFEE 到底保存哪个格式呢? 在选择保存格式之前,需要问自己几个问题: 大多数软件都支持我要选的这个格式吗? 我的同事们能使用我选的这个格式吗? 这个格式能保存我所需要的所有信息吗? 这个格式适合我进一步加工吗? 如果比对工具输出的格式里没有我想要的哪种, 可以通过第三方软件进行格式转换,比如: fmtseq : http://evol.mcmaster.ca/Pise/5.a/fmtseq.html or http://www.bioinformatics.org/JaMBW/1/2
4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 为了能对多序列比对的结果进行彩色显示和手工编辑,人们开发了多序列比对结果编辑器。 Jalview是一个十分常用的编辑器。http://www.jalview.org
4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 从EMBL ClustalW 多序列比对结果中快速启动JalView
4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 http://www.jalview.org/
4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 http://www.jalview.org/ 从主页上启动在线版
4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 http://www.jalview.org/
4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 下载到本地安装
软件打开后,会自动展示许多示例。
4.6.4 多序列比对:编辑和发布 刚刚做的多序列比对
4.6.4 多序列比对:编辑和发布 保守度 比对质量 共有序列
4.6.4 多序列比对:编辑和发布
4.6.4 多序列比对:编辑和发布
4.6.4 多序列比对:编辑和发布 Colour -> Clustalx 140
4.6.4 多序列比对:编辑和发布 Colour -> Clustalx
4.6.4 多序列比对:编辑和发布 将前四条序列的第51列移至第49列: 首先要选中前四条序列:持续按住 Ctrl 键,同时用鼠标点中前四条序列的名字。选中后,序列名字的底色由白变灰。
4.6.4 多序列比对:编辑和发布 然后,再次按住 Ctrl 键,把鼠标放在第51列的字母上,向左拖动到第49列。再用同样的方法,把原来的第52列向右拖动回原位。 如果只想移动选中的这一组序列中的一条序列,则按住 Shift 键再拖动即可。
4.6.4 多序列比对:编辑和发布 调整格式 各种排序 为任意一对序列做双序列比对
4.6.4 多序列比对:编辑和发布 计算各种系统发生树
4.6.4 多序列比对:编辑和发布 预测一条蛋白质序列的二级结构
4.6.4 多序列比对:编辑和发布 二级结构预测结果
4.6.4 多序列比对:编辑和发布 把序列比对保存成文本或图片
4.6.4 多序列比对:编辑和发布 终于可以发布漂亮的序列比对了!
4.6.4 多序列比对:编辑和发布 多序列比对美化工具 JalView JAVA Boxshade 擅长黑白作图 ESPript 名称 网址 特点 JalView http://www.jalview.org JAVA Boxshade http://www.ch.embnet.org/software/BOX_form.html 擅长黑白作图 ESPript http://espript.ibcp.fr/ESPript/ESPript 功能强大,很牛 MView http://bio-mview.sourceforge.net 擅长转换成HTML源码