Presentation is loading. Please wait.

Presentation is loading. Please wait.

生 物 信 息 学 Bioinformatics 0233301510 巩晶 癌症研究中心 山东大学 医学院 2015.10.23.

Similar presentations


Presentation on theme: "生 物 信 息 学 Bioinformatics 0233301510 巩晶 癌症研究中心 山东大学 医学院 2015.10.23."— Presentation transcript:

1 生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院

2 第四章 序列比较

3 复习 双序列比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 对于: 序列p:ACGTC 序列q:AATC : 字符对字符 : 字符对空位 箭头指着的序列为空位 序列 p A C G T -5 -10 -15 -20 -25 10 5 7 4 -1 -6 12 9 21 1 2 3 序列 q 4 得分矩阵 序列p: A C G T C 序列q: A - A T C 全局序列比对结果

4 复习 双序列比对 无论两个序列长度是否相同,都要先做双序列全局比对,然后根据比对结果及比对长度计算它们的一致度和相似度。
如果两个序列长度相同: 一致度(identity)= (一致字符的个数 / 全局比对长度)×100% 相似度(similarity)= (一致及相似的字符的个数 / 全局比对长度)×100% 序列1:CVHK-LA identity = (4/7)*100% = 57% 序列2:C-HKTIA similarity = ((4+1)/7)*100% = 71% 如果两个序列长度不相同: 一致度(identity)=(一致字符的个数 / 全局比对长度)×100% 相似度(similarity)=(一致及相似的字符的个数 / 全局比对长度)×100% 序列1:CVHKAT identity = (4/6)*100% = 67% 序列2:CIHK-T similarity = ((4+1)/6)*100% = 83% 无论两个序列长度是否相同,都要先做双序列全局比对,然后根据比对结果及比对长度计算它们的一致度和相似度。

5 4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具

6 4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具

7 4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具

8 4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具

9 4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 小的 Gap Open + 大的 Gap Extend

10 4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 小的 Gap Open + 大的 Gap Extend = 分散的空位

11 4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 大的 Gap Open + 小的 Gap Extend = 集中的空位

12 4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 调整 gap open 和gap extend以达到期望的比对结果

13 4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具

14 4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具

15 4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具 黑色是相似的部分,红色是完全不相似的部分 >Seq1
MHHHHHHSSGVDLGTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKSISENIVSFIEKSYKSIFVLSPNFVQNEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRYHKLKALLEKKAYLEWPKDRRKCGLFWANLRAAIN >Seq2 GTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRAAAAAAAAAAA

16 4.5.3 双序列比对:在线比对工具 全局与局部比对比较 局部比对 全局比对

17 4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具

18 4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具 黑色是相似的部分,红色是不相似的部分 >Seq3
TTLDDPLGHMPERFDAFICYCPSDIQFVQEMIRQLEQTNYRLKLCVSDRDVLPGTCVWSI ASELIEKRCRRMVVVVSDDYLQAKECDVQSKFALSLSPGAHQKRLIPIKYKAMKKEFPSI LRFITVCDYTNPCTKSWFWTRLAKALSLP >Seq4 MHHHHHHSSGVDLGTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEK EDGSILICLYESYFDPGKSISENIVSYLQSKECDLQTKFATSNQNEWCHYEFYFAHHNLF HENSDHIILILLEPIPFYCIPTRYHKLKALLEKKAYLEWPKDRRKCGLFWANLRAAIN

19 4.5.3 双序列比对:在线比对工具 全局与局部比对比较 局部比对 全局比对

20 5.3 双序列比对:在线比对工具 免费的在线双序列比对工具 软件名 比对类型 网址链接 EMBL Global/Local PIR
PIR Global Lalign LAGAN AlignMe Alignment of Membrane Proteins MCALIGN Alignment of non-coding DNA sequences

21 4.6 多序列比对 多序列比对(multiple alignment),对两条以上的生物序列进行全局比对。

22 4.6.1 多序列比对:应该知道的几点 多序列比对的主要用途: 确认:一个未知的序列是否属于某个家族
建立:系统发生树,查看物种间或者序列间的关系 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列 片段是否也具有该功能。 预测蛋白质/RNA二级结构 等等。

23 4.6.1 多序列比对:应该知道的几点 对要进行多序列比对的序列的几点要求: 太多的序列受不了。一般10-15条序列,最好别超过50条。
关系太远的序列受不了。两两之间序列相似度低于30%的一组序列,作多序列比对会有麻烦。 关系太近的序列受不了。两两之间序列相似度大于90%的序列,有再多条都等于只有一条。 局部的短序列受不了。多序列比对支持一组差不多长的序列,个别很短的序列属于捣乱分子。 有重复域的序列受不了。如果序列里包含重复域, 大多数多序列比对的程序都会出错,甚至崩溃。

24 4.6.1 多序列比对:应该知道的几点 序列的名字有几点建议: 名字里不要有“空格”,用“_”代替“空格” 。
#, &, ^ 等) 。 名字的长度不要超过15个字符。 一组序列里,不要有重名的序列。 如果不按上述几点建议命名的话,多序列比对程序会在不告知你的情况下修改你的序列名称。 e.g. My Seq My_Seq_1 e.g. 我的序列壹 e.g. This_is_my_favorite_sequence_about_mouse

25 4.6.2 多序列比对:算法 多序列比对的算法 目前所有的多序列比对工具都不是完美的,它们都使用一种近似的算法。 seq1 seq3
P Y M N V I -1 -2 -3 -4 -5 -6 7 6 5 4 3 2 14 13 12 11 10 E L 15 F seq2 seq1 seq2 2条序列 = 2D 3条序列 = 3D N条序列 = nD

26 4.6.3 多序列比对:在线比对工具 多序列比对的工具 Clustal – 最常用的多序列比对工具
Tcoffee – 最新的多序列比对工具之一 MUSCLE – 最快的多序列比对工具之一 提供多序列比对在线使用的网站(部分) 网站名称 服务器位置 网址链接 EBI Clustal-Omiga Expasy Clustal W Sfi-Clustal Clustal O/W2 (仅下载) Tcoffee Muscle MUSCLE

27 4.6.3.1 多序列比对:在线比对工具-Clustal
EMBL网站的ClustalW工具

28 4.6.3.1 多序列比对:在线比对工具-Clustal
人Toll样受体1-10胞内域 EMBL网站的Clustal工具

29 4.6.3.1 多序列比对:在线比对工具-Clustal
EMBL网站的Clustal工具

30 4.6.3.1 多序列比对:在线比对工具-Clustal
EMBL网站的Clustal工具 多序列比对中各个序列的排列顺序: aligned-比对过程中自动创建的顺序 input-输入序列的原始顺序 比对输出格式

31 4.6.3.1 多序列比对:在线比对工具-Clustal
EMBL网站的Clustal工具 默认情况下,结果中的序列顺序是按照Guide Tree排列的,而非输入时的排列顺序。 保存比对结果

32 4.6.3.1 多序列比对:在线比对工具-Clustal
EMBL网站的Clustal工具 先记住这里有个按钮,一会儿再来研究它!

33 4.6.3.1 多序列比对:在线比对工具-Clustal
EMBL网站的Clustal工具 这个树 不是 真正的进化树!

34 4.6.3.1 多序列比对:在线比对工具-Clustal
EMBL网站的Clustal工具 转入另一个程序去进一步做真正的系统发生树。

35 4.6.3.1 多序列比对:在线比对工具-Clustal
EMBL网站的Clustal工具 Red: 疏水的 Blue: 酸性的 Magenta: 碱性的 Green: 羟基+胺+碱性 Gray: 其他

36 4.6.3 多序列比对:在线比对工具 EMBL网站的ClustalW工具 * 完全保守的一列,即,这一列的残基完全相同。
* 完全保守的一列,即,这一列的残基完全相同。 : 这一列的残基有大致相似的分子大小及相同亲疏水性,即这 一列残基或相同或相似。 . 在进化过程中,残基的分子大小及亲疏水性被一定程度上保 留了,但是有替换发生在不相似的残基间。 完全不保守的一列。

37 4.6.3.2 多序列比对:在线比对工具-TCOFFEE
Tcoffee :多序列比对工具,算法上与Clastal系列类似,准确度上比Clustal系列高,但计算耗时比Clustal系列略高。 T-Coffee 镜像网站 SIB EBI CNRS index.cgi Max-Planck CBSU EMBnet

38

39 给序列加入结构信息的多序列比对。 把多个比对工具的结果整合成一个。 专为穿膜蛋白打造的多序列比对。 专为远源序列打造的多序列比对。

40

41

42

43 4.6.3.2 多序列比对:在线比对工具-TCOFFEE

44 4.6.3.2 多序列比对:在线比对工具-TCOFFEE
如果要做比对的序列有结构信息的话(包括 未发表的非PDB里的结构),可以把这些结构的PDB文件上传。

45 4.6.3.2 多序列比对:在线比对工具-TCOFFEE
从这里指定哪个序列对应哪个PDB结构。已上传的结构会根据序列信息自动匹配是哪个序列,不需要列出。 或者偷个懒,自动给每条序列通过BLAST搜索自动到数据库中找序列水平上相似的结构。 要算很久,留个 很必要!

46 4.6.3.2 多序列比对:在线比对工具-TCOFFEE

47 4.6.3.2 多序列比对:在线比对工具-TCOFFEE

48 4.6.3.2 多序列比对:在线比对工具-TCOFFEE
110

49 4.6.3.2 多序列比对:在线比对工具-TCOFFEE
fasta_aln file score_html file phylip file clustalw_aln file

50 4.6.3.2 多序列比对:在线比对工具-TCOFFEE
到底保存哪个格式呢? 在选择保存格式之前,需要问自己几个问题: 大多数软件都支持我要选的这个格式吗? 我的同事们能使用我选的这个格式吗? 这个格式能保存我所需要的所有信息吗? 这个格式适合我进一步加工吗? 如果比对工具输出的格式里没有我想要的哪种, 可以通过第三方软件进行格式转换,比如: fmtseq : or

51 4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 为了能对多序列比对的结果进行彩色显示和手工编辑,人们开发了多序列比对结果编辑器。
Jalview是一个十分常用的编辑器。

52 4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 从EMBL ClustalW 多序列比对结果中快速启动JalView

53 4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对

54 4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 从主页上启动在线版

55 4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对

56 4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 下载到本地安装

57 软件打开后,会自动展示许多示例。

58 4.6.4 多序列比对:编辑和发布 刚刚做的多序列比对

59 4.6.4 多序列比对:编辑和发布 保守度 比对质量 共有序列

60 4.6.4 多序列比对:编辑和发布

61 4.6.4 多序列比对:编辑和发布

62 4.6.4 多序列比对:编辑和发布 Colour -> Clustalx 140

63 4.6.4 多序列比对:编辑和发布 Colour -> Clustalx

64 4.6.4 多序列比对:编辑和发布 将前四条序列的第51列移至第49列:
首先要选中前四条序列:持续按住 Ctrl 键,同时用鼠标点中前四条序列的名字。选中后,序列名字的底色由白变灰。

65 4.6.4 多序列比对:编辑和发布 然后,再次按住 Ctrl 键,把鼠标放在第51列的字母上,向左拖动到第49列。再用同样的方法,把原来的第52列向右拖动回原位。 如果只想移动选中的这一组序列中的一条序列,则按住 Shift 键再拖动即可。

66 4.6.4 多序列比对:编辑和发布 调整格式 各种排序 为任意一对序列做双序列比对

67 4.6.4 多序列比对:编辑和发布 计算各种系统发生树

68 4.6.4 多序列比对:编辑和发布 预测一条蛋白质序列的二级结构

69 4.6.4 多序列比对:编辑和发布 二级结构预测结果

70 4.6.4 多序列比对:编辑和发布 把序列比对保存成文本或图片

71 4.6.4 多序列比对:编辑和发布 终于可以发布漂亮的序列比对了!

72 4.6.4 多序列比对:编辑和发布 多序列比对美化工具 JalView JAVA Boxshade 擅长黑白作图 ESPript
名称 网址 特点 JalView JAVA Boxshade 擅长黑白作图 ESPript 功能强大,很牛 MView 擅长转换成HTML源码


Download ppt "生 物 信 息 学 Bioinformatics 0233301510 巩晶 癌症研究中心 山东大学 医学院 2015.10.23."

Similar presentations


Ads by Google