多序列比对与Clustal的使用,以及各类常见的序列分析工具介绍 中山大学生科院 2004年10月
内容提要 第一部分:多序列比对 意义、方法、算法 Clustal的使用 1.Clustalx 2.Clustalw 第二部分:常见的序列分析软件分类简介
第一部分: 多序列比对及Clustal的使用
序列相似性比较和序列同源性分析 序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;
多序列比对的意义 用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。 用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。 其他应用,如构建profile,打分矩阵等。
多序列比对的方法 同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。
多序列比对的方法 基本上多序列比对可以分为 1.手工比对(辅助编辑软件如bioedit,seaview,Genedoc等) 通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。 2.计算机程序自动比对 通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态。
自动多序列比对的算法 1.同步法 将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。
自动多序列比对的算法 2.步进法 最常见的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有进化相关性的这一假设。
Clustal的渐进比对过程 在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。
多序列比对工具 -clustal Clustal是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。
Clustal简介 CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。
Clustalx的工作界面 (多序列比对模式)
Clustalx的工作界面 (剖面(profile)比对模式)
快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。 Clustal的工作原理 Clustal输入多个序列 快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。 邻接法(NJ)构建一个树(引导树) 根据引导树,渐进比对多个序列。
Clustal的应用 1.输入输出格式。 输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。 输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。
Clustal的应用 2.两种工作模式。 a.多序列比对模式。 b.剖面(profile)比对模式。 3.一个实际的例子。
多序列比对实例 输入文件的格式(fasta): >KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN…… >DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK……. >KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN…… >DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD…… >1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……
第一步:输入序列文件。
第二步:设定比对的一些参数。
参数设定窗口。
第三步:开始序列比对。
第四步:比对完成,选择保存结果文件的格式
Clustalw的使用(一)
在线的clustalw分析 EBI提供的在线clustalw服务 http://www.ebi.ac.uk/clustalw/
EBI提供 的在线 Clustalw 服务
更为详细的教程 可以在这里得到更多关于clustal的帮助: http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html
实际操作(练习) 使用clustalx程序,对给定的多序列,选择合适的参数,进行多序列比对,输出结果文件维phylip格式。 相同的文件,使用ebi和我们提供的在线服务,进行多序列比对。 对上述计算机程序比对的结果进行手工改动(bioedit,seaview),使得多序列比对结果跟符合要求。
练习序列 >SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAIS AAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC >TIV HELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIA AAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC >WIV RAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW TELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVN AASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ >CzIV RAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW PELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVT AAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL >CIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASIS RAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFT TPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQ FHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQ TAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHH TTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTAS PAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL
第二部分: 常见的序列分析软件分类简介
1.综合序列分析软件包 GCG EMBOSS(免费) Vector NTI DNAstar Bioedit(免费) 其他
GCG(商业软件) GCG (Genetics Computer Group)是生物信息界最广为人知的分子序列分析软件包,最早是在美国的威斯康辛大学麦迪逊校区(University of Wisconsin-Madison)内发展起来的,后来独立成为一个商业公司,期间曾经是Oxford Molecular 的分支机构,在2000 年又由Pharmacopeia 所并构。
2. Database Searching and Retrieval GCG 软件包包括了超过130个独立的序列分析程序,大致上可以分成以下12个类别: 1. Sequence Comparison 2. Database Searching and Retrieval 3.DNA/RNA Secondary Structure Prediction 4.Editing and Publication 5.Evolutionary Analysis 6.Fragment Assembly 7.Gene Finding and Pattern Recognition 8.Importing and Exporting 9.Mapping 10.Primer Selection 11.Protein Analysis 12.Translation
除了分析程序以外, GCG 同时也提供多种生物学数据库。 核酸相关的: GenBank(http://www.ncbi.nlm.nih.gov/ ) EMBL (http://www.ebi.ac.uk/) 蛋白质相关的: SWISS-PROT (http://www.expasy.ch/sprot/) PIR (http://www-nbrf.georgetown.edu/pir/) SP-TrEMBL (http://www.expasy.ch/sprot/ ) 使用者可以输入自己实验获得的分子序列, 或者从这些数据库中来获取得到分子序列,再用到GCG的分析程序进行分析。
GCG的工作方式(S-C) 安装在基于Unix系统的服务器上,目前可以安装的平台(platform)有SGI 的IRIX 操作系统,SUN 的Solaris操作系统,及Compaq 的Tru64操作系统,用户可以通过网络连接的方法来使用GCG提供的分析程序以及数据库。
执行GCG程序的方法 1.传统的命令行形式,这种情况要求用户熟悉程序的命令。 2.借助SeqLab的用户窗口界面,通过各类表单的操作来实现分析任务。 以上两个执行GCG的方法都是通过telnet来实现的。 3. 借助于WWW服务的SeqWeb,是最为简单和方便的使用方式。 虽然命令行的操作需要一些操作,但是对于熟悉GCG的用户来说,却是最为快捷和有效的方法,此外这种方法还可以扩展到批处理中。
EMBOSS(免费软件) EMBOSS(European Molecular Biology Open Software Suite)源于1988年的EGCG(主流商业软件GCG的扩展),由于版权等原因,EGCG不再发行,开发人员在此基础上开发出来公开源代码的EMBOSS软件包。 http://www.sanger.ac.uk/Software/EMBOSS
Vector NTI 由Informax公司(现在已经归入Invitrogen公司旗下)开发的一种高度集成、功能齐全的分子生物学应用软件,可以对DNA、蛋白质分子进行大量分析和操作。
主要功能: 1.DNA序列的ORF、Motif、功能区搜索,限制酶图谱,蛋白质翻译。 2.PCR引物、测序引物、杂交探针的设计和评价。 3.DNA测序片断的拼接 4.同源比较和系统发育树构建 5.蛋白质结构预测:三维结构、化学键、翻译后修饰位点、结构域等 6.模拟电泳:琼脂糖、PAGE
DNAstar DNASTAR有限公司开发了Lasergen程序组,可在计算机上进行DNA和蛋白分析。它们是易于使用且对用户友好的软件,可进行分子生物学中的小规模序列分析和多序列比较。Lasergen有PC Windows和Macintosh两种版本。Lasergen的一个主要功能是它有针对不同应用的7种程序。用户可根据自己需要选择购买。
主要功能: 1. Editseq,可以从键盘、数据库或数字序列输入和编辑。 2. PrimerSelect,PCR引物和探针设计。 3 主要功能: 1. Editseq,可以从键盘、数据库或数字序列输入和编辑。 2. PrimerSelect,PCR引物和探针设计。 3. MapDraw,限制性位点分析和图谱绘制。 4. MegAlign,多个和成对蛋白或DNA序列比对。 5. GeneMan,生物数据库和数据库检索。 6. Protean,蛋白结构分析。 7. SeqMan,序列装配和毗连(序列)群管理。
Bioedit 是一个性能优良的免费的分子生物学应用软件,可以对核酸序列和蛋白质序列进行常规的分析操作,并提供了很多网络程序的分析界面和接口。 http://www.mbio.ncsu.edu/BioEdit/bioedit.html
2.快速同源性数据库搜索工具 Blast Fasta HMMer
HMMER HMMer 是一个采用隐马可夫模型 HMMs(Hidden Markov Models)来识别不同基因之间的结构相似性程度的工具。可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构。 http://hmmer.wustl.edu/
3.多序列比对工具 Clustal 基于渐进算法的多序列比对优化算法,由Higgins D.G. 等开发。Clustlw,clustalx等。 其他:T_coffee
4.分子进化分析工具 PHYLIP PAUP* 其他:Mega2,MrBayes,tree-puzzle PAML,treeview
PHYLIP Phylip是一个免费的系统发生(phylogenetics)分析软件包。 由华盛顿大学遗传学系开发,1980年首次公布,目前的版本是3.6。包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。 Phylip有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。 http://evolution.genetics,washington.edu/phylip.html
PAUP* 最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有MP法,后续版本已经包括距离法和ML法,现今有mac,win,linux等多种版本,该软件不是免费软件,使用者需要向开发者购买。
5.其他工具 模式识别:Meme,signalscan, domainFinder等 测序分析与序列拼接:Chromas, Phred+Phrap+cross_match+consed, contigExpress等 引物设计:Oligo,Primer3, Primer Premier5.0等 三维分子:PDBviewer,CN3D,RASMOL等
序列分析工具的网络资源 生物软件网 http://www.bio-soft.net NCBI http://www.ncbi.nlm.nih.gov Expasy http://www.expasy.org/
生物软件网 由华北制药集团的谈杰创建,是一个具有丰富生物信息学资源的站点,提供了大量的生物信息学分析软件下载。 http://www.bio-soft.net
NCBI 美国国立生物技术信息中心(NCBI) 成立于1988年11月4日。是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。 主要资源包括:数据库和软件,以及相关的教育 和培训资源 http://www.ncbi.nlm.nih.gov
Expasy 由位于瑞士日内瓦的 Swiss Institute of Bioinformatics 所建立的,是全世界最重要的蛋白质数据库之一 ,也是 GCG 最主要的蛋白质序列来源。 Expasy的主 要 有蛋白质序列、结构、2-D PAGE (Two-dimentional polyacrylamide gel electrophoresis ) 等多个数据库 ,还有大量的蛋白质序列与结构分析工具以及FTP资源等。 蛋白质分析工具主要有蛋白质的功能预测,序列搜索与比对,二级、三级和四级结构的预测等等。 http://www.expasy.org/
计算机相关知识 操作系统 Unix(Linux),Windows, Macintosh 编程 语言:perl,C,php,VB 算法:动态规划,启发式,各类模型 数据结构:表,栈,树,图 数据库 Mysql,Oracle,SQL server,Sybase 网络 局域网构架与管理,并行化,网络应用(http,ftp,telnet)
Linux: 是一个免费的可以在PC机上运行的UNIX系统.Linux系统具有最新UNIX的全部功能,包括真正的多任务,虚拟存储,共享库函数,即时负载,优越的存储管理和TCP/IP,UUCP网络工具。Linux由于其系统软件的免费获取,硬件费用低廉的特点,近年来发展迅猛。 常见的Linux发行版有RedHat,Debian,Mandrake,SuSe等
Perl 强大的正则表达式(regular expression)以及字符串操作使这个工作变得简单而没有其它语言能相比。Perl 非常擅长于切割,扭转,绞,弄平,总结,以及其它的操作文字文件。生物资料大部分是以文字文件存在的,如物种名称,种属关系,基因或序列的注解,评住,目录查阅, 就连DNA和蛋白质序列本身也是以文字形式出现的。正是因为这样,在生物资料处理的时候最多涉及的也是字符操作问题。各种不同格式的生物信息资料之间的相互转换是一个很难解决的问题,而perl由于具有方便和强大的字符操作功能,使得它在这方面具有特殊的用途。
MySQL 是一个免费的、多用户、多线程的小型SQL数据库,是一个客户机/服务器结构的应用,可以运行在多种平台上,它由一个服务器守护程序mysqld和很多不同的客户程序和库组成。MySQL具有快速、多线程、多用户和稳定等特点,对于中、小型应用系统是非常理想的数据库服务平台。
动态规划(dynamic programming ) 动态规划的实质是分治思想和解决冗余,将问题的实例分解为更小的、相似的子问题。动态规划的思想在于,如果各个子问题不是独立的,不同的子问题的个数只是多项式量级,如果我们能够保存已经解决的子问题的答案,而在需要的时候再找出已求得的答案,这样就可以避免大量的重复计算。由此而来的基本思路是,用一个表记录所有已解决的子问题的答案,不管该问题以后是否被用到,只要它被计算过,就将其结果填入表中。 动态规划算法在生物序列分析中是一个比较常见也是比较有用的算法。
网络应用: HTTP(超文本传输协议):应用层网络协议之一,主要用于传输www网页。 FTP(文件传输协议):应用层网络传输协议之一,主要用于文件传输。 其他应用协议:Telnet
本章结束,如有问题,请联系 yuansen_huang@hotmail.com