多序列比对与Clustal的使用，以及各类常见的序列分析工具介绍

Slides:

Advertisements

Similar presentations

高校教师、高级项目经理任铄 QQ ：第一章操作系统引论 1.1 操作系统的目标和作用 1.2 操作系统的发展过程 1.3 操作系统的基本特性 1.4 操作系统的主要功能 1.5 OS 结构设计.

Advertisements

分子生物学部分开发实验植物遗传亲缘关系研究.

——Windows98与Office2000(第二版) 林卓然编著中山大学出版社

LSF系统介绍张焕杰中国科学技术大学网络信息中心

分子生物学软件介绍刘吉平讲师

实用操作系统概念张惠娟副教授 1.

Oracle数据库 Oracle 子程序.

第四次大作业登陆学校图书馆网站的电子数据库

全国计算机等级考试二级基础知识第二章程序设计基础.

在PHP和MYSQL中实现完美的中文显示

基因组数据注释和功能分析陈启昀陈辰丁文超张增明浙江加州国际纳米技术研究院（ZCNI）

LSF系统介绍张焕杰中国科学技术大学网络信息中心

Hadoop I/O By ShiChaojie.

第二讲搭建Java Web开发环境主讲人：孙娜

R in Enterprise Environment 企业环境中的R

SOA – Experiment 3: Web Services Composition Challenge

李杰首都经济贸易大学安全与环境工程学院个人主页：

大学计算机基础典型案例之一构建FPT服务器.

网络常用常用命令课件制作人：谢希仁.

第11章：一些著名开源软件介绍第12章：服务安装和配置本章教学目标：了解当前一些应用最广泛的开源软件项目搭建一个网站服务器

第一单元初识C程序与C程序开发平台搭建 ---观其大略

Windows网络操作系统管理 ——Windows Server 2008 R2.

第17章网站发布.

2018 北京大学汇丰商学院日期：

Online job scheduling in Distributed Machine Learning Clusters

What have we learned?.

《手把手教你学STM32》主讲人：正点原子团队硬件平台：正点原子STM32开发板版权所有：广州市星翼电子科技有限公司淘宝店铺：

数据挖掘工具性能比较.

动态规划(Dynamic Programming)

搜刘智 iLife信息素养协会索.

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

三：基于Eclipse的集成开发环境搭建与使用

Unit 11.Operating System 11.1 What’s OS 11.2 Related Courses

SOA – Experiment 2: Query Classification Web Service

C语言程序设计主讲教师：陆幼利.

学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.

微机系统的组成.

_01Win32简介与IDE简介本节课讲师——void* 视频提供：昆山爱达人信息技术有限公司官网地址：

第四章团队音乐会序幕：团队协作平台的快速创建

2019/4/16 关注NE官方微信，获取更多服务.

数据库使用指南 Nature全文数据库.

中国国家标准文献共享服务平台检索信息检索与利用 2019/4/29 王婧怡图书馆615室科技信息研究所

姚金宇 MIT SCHEME 使用说明姚金宇

实验七安全FTP服务器实验 2019/4/28.

用计算器开方.

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

项目二：HTML语言基础.

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

第4章 Excel电子表格制作软件 4.4 函数（一）.

iSIGHT 基本培训使用 Excel的栅栏问题

《手把手教你学STM32-STemWin》主讲人：正点原子团队硬件平台：正点原子STM32开发板版权所有：广州市星翼电子科技有限公司

2019/5/8 第2章数据分析软件介绍.

数据报分片.

LOGIX500软件入门西安华光信息技术有限公司 2008年7月11日.

魏新宇 MATLAB/Simulink 与控制系统仿真魏新宇

第七、八次实验要求.

计算机绘图 AutoCAD2016.

GIS基本功能数据存储与管理数据采集数据处理与编辑空间查询空间查询 GIS能做什么？与分析叠加分析缓冲区分析网络分析

Python 环境搭建基于Anaconda和VSCode.

生物信息学 Bioinformatics 巩晶癌症研究中心山东大学医学院

《手把手教你学STM32-STemWin》主讲人：正点原子团队硬件平台：正点原子STM32开发板版权所有：广州市星翼电子科技有限公司

基于列存储的RDF数据管理朱敏

C++语言程序设计 C++语言程序设计第一章 C++语言概述第十一组 C++语言程序设计.

基因信息的传递.

多序列比对和系统进化分析 ——以镰刀形贫血症为例浙江大学生物信息实验室.

第十七讲密码执行(1).

FVX1100介绍法视特（上海）图像科技有限公司施俊.

Presentation transcript:

多序列比对与Clustal的使用，以及各类常见的序列分析工具介绍中山大学生科院 2004年10月

内容提要第一部分：多序列比对意义、方法、算法 Clustal的使用 1.Clustalx 2.Clustalw 第二部分：常见的序列分析软件分类简介

第一部分：多序列比对及Clustal的使用

序列相似性比较和序列同源性分析序列相似性比较：就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；

多序列比对的意义用于描述一组序列之间的相似性关系，以便了解一个基因家族的基本特征，寻找motif，保守区域等。用于描述一个同源基因之间的亲缘关系的远近，应用到分子进化分析中。其他应用，如构建profile，打分矩阵等。

多序列比对的方法同源性分析中常常要通过多序列比对来找出序列之间的相互关系，和blast的局部匹配搜索不同，多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程，特别是序列数目多，且序列长的情况下。

多序列比对的方法基本上多序列比对可以分为 1.手工比对（辅助编辑软件如bioedit，seaview，Genedoc等）通过辅助软件的不同颜色显示不同残基，靠分析者的观察来改变比对的状态。 2.计算机程序自动比对通过特定的算法（如同步法，渐进法等），由计算机程序自动搜索最佳的多序列比对状态。

自动多序列比对的算法 1.同步法将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大，对于计算机系统的资源要求比较高，一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。

自动多序列比对的算法 2.步进法最常见的就是clustal所采用的方法。其基本思想就是基于相似序列通常具有进化相关性的这一假设。

Clustal的渐进比对过程在比对过程中，先对所有的序列进行两两比对并计算它们相似性分值，然后根据相似性分值将它们分成若干组，并在每组之间进行比对，计算相似性分值。根据相似性分值继续分组比对，直到得到最终比对结果。在比对过程中，相似性程度较高的序列先进行比对而距离较远的序列添加在后面。

多序列比对工具－clustal Clustal是一个单机版的基于渐进比对的多序列比对工具，由Higgins D.G. 等开发。有应用于多种操作系统平台的版本，包括linux版，DOS版的clustlw，clustalx等。

Clustal简介 CLUSTAL是一种渐进的比对方法，先将多个序列两两比对构建距离矩阵，反应序列之间两两关系；然后根据距离矩阵计算产生系统进化指导树，对关系密切的序列进行加权；然后从最紧密的两条序列开始，逐步引入临近的序列并不断重新构建比对，直到所有序列都被加入为止。

Clustalx的工作界面（多序列比对模式）

Clustalx的工作界面（剖面(profile)比对模式）

快速的序列两两比对，计算序列间的距离，获得一个距离矩阵。 Clustal的工作原理 Clustal输入多个序列快速的序列两两比对，计算序列间的距离，获得一个距离矩阵。邻接法(NJ)构建一个树（引导树）根据引导树，渐进比对多个序列。

Clustal的应用 1.输入输出格式。输入序列的格式比较灵活，可以是前面介绍过的FASTA格式，还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择，有ALN、GCG、PHYLIP和NEXUS等，用户可以根据自己的需要选择合适的输出格式。

Clustal的应用 2.两种工作模式。 a.多序列比对模式。 b.剖面(profile)比对模式。 3.一个实际的例子。

多序列比对实例输入文件的格式(fasta)： >KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN…… >DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK……. >KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN…… >DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD…… >1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……

第一步：输入序列文件。

第二步：设定比对的一些参数。

参数设定窗口。

第三步：开始序列比对。

第四步：比对完成，选择保存结果文件的格式

Clustalw的使用(一)

在线的clustalw分析 EBI提供的在线clustalw服务 http://www.ebi.ac.uk/clustalw/

EBI提供的在线 Clustalw 服务

更为详细的教程可以在这里得到更多关于clustal的帮助： http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html

实际操作(练习) 使用clustalx程序，对给定的多序列，选择合适的参数，进行多序列比对，输出结果文件维phylip格式。相同的文件，使用ebi和我们提供的在线服务，进行多序列比对。对上述计算机程序比对的结果进行手工改动（bioedit，seaview），使得多序列比对结果跟符合要求。

练习序列 >SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAIS AAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC >TIV HELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIA AAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC >WIV RAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW TELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVN AASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ >CzIV RAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW PELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVT AAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL >CIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASIS RAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFT TPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQ FHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQ TAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHH TTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTAS PAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL

第二部分：常见的序列分析软件分类简介

1.综合序列分析软件包 GCG EMBOSS(免费) Vector NTI DNAstar Bioedit(免费) 其他

GCG(商业软件) GCG (Genetics Computer Group)是生物信息界最广为人知的分子序列分析软件包，最早是在美国的威斯康辛大学麦迪逊校区(University of Wisconsin-Madison)内发展起来的，后来独立成为一个商业公司，期间曾经是Oxford Molecular 的分支机构,在2000 年又由Pharmacopeia 所并构。

2. Database Searching and Retrieval GCG 软件包包括了超过130个独立的序列分析程序，大致上可以分成以下12个类别： 1. Sequence Comparison 2. Database Searching and Retrieval 3.DNA/RNA Secondary Structure Prediction 4.Editing and Publication 5.Evolutionary Analysis 6.Fragment Assembly 7.Gene Finding and Pattern Recognition 8.Importing and Exporting 9.Mapping 10.Primer Selection 11.Protein Analysis 12.Translation

除了分析程序以外， GCG 同时也提供多种生物学数据库。核酸相关的: GenBank(http://www.ncbi.nlm.nih.gov/ ) EMBL (http://www.ebi.ac.uk/) 蛋白质相关的： SWISS-PROT (http://www.expasy.ch/sprot/) PIR (http://www-nbrf.georgetown.edu/pir/) SP-TrEMBL (http://www.expasy.ch/sprot/ ) 使用者可以输入自己实验获得的分子序列，或者从这些数据库中来获取得到分子序列，再用到GCG的分析程序进行分析。

GCG的工作方式(S-C) 安装在基于Unix系统的服务器上，目前可以安装的平台(platform)有SGI 的IRIX 操作系统，SUN 的Solaris操作系统，及Compaq 的Tru64操作系统，用户可以通过网络连接的方法来使用GCG提供的分析程序以及数据库。

执行GCG程序的方法 1.传统的命令行形式，这种情况要求用户熟悉程序的命令。 2.借助SeqLab的用户窗口界面，通过各类表单的操作来实现分析任务。以上两个执行GCG的方法都是通过telnet来实现的。 3. 借助于WWW服务的SeqWeb，是最为简单和方便的使用方式。虽然命令行的操作需要一些操作，但是对于熟悉GCG的用户来说，却是最为快捷和有效的方法，此外这种方法还可以扩展到批处理中。

EMBOSS(免费软件) EMBOSS（European Molecular Biology Open Software Suite）源于1988年的EGCG（主流商业软件GCG的扩展），由于版权等原因，EGCG不再发行，开发人员在此基础上开发出来公开源代码的EMBOSS软件包。 http://www.sanger.ac.uk/Software/EMBOSS

Vector NTI 由Informax公司（现在已经归入Invitrogen公司旗下）开发的一种高度集成、功能齐全的分子生物学应用软件，可以对DNA、蛋白质分子进行大量分析和操作。

主要功能： 1.DNA序列的ORF、Motif、功能区搜索，限制酶图谱，蛋白质翻译。 2.PCR引物、测序引物、杂交探针的设计和评价。 3.DNA测序片断的拼接 4.同源比较和系统发育树构建 5.蛋白质结构预测：三维结构、化学键、翻译后修饰位点、结构域等 6.模拟电泳：琼脂糖、PAGE

DNAstar DNASTAR有限公司开发了Lasergen程序组,可在计算机上进行DNA和蛋白分析。它们是易于使用且对用户友好的软件,可进行分子生物学中的小规模序列分析和多序列比较。Lasergen有PC Windows和Macintosh两种版本。Lasergen的一个主要功能是它有针对不同应用的7种程序。用户可根据自己需要选择购买。

主要功能： 1. Editseq，可以从键盘、数据库或数字序列输入和编辑。 2. PrimerSelect，PCR引物和探针设计。 3 主要功能： 1. Editseq，可以从键盘、数据库或数字序列输入和编辑。 2. PrimerSelect，PCR引物和探针设计。 3. MapDraw，限制性位点分析和图谱绘制。 4. MegAlign，多个和成对蛋白或DNA序列比对。 5. GeneMan，生物数据库和数据库检索。 6. Protean，蛋白结构分析。 7. SeqMan，序列装配和毗连(序列)群管理。

Bioedit 是一个性能优良的免费的分子生物学应用软件，可以对核酸序列和蛋白质序列进行常规的分析操作，并提供了很多网络程序的分析界面和接口。 http://www.mbio.ncsu.edu/BioEdit/bioedit.html

2.快速同源性数据库搜索工具 Blast Fasta HMMer

HMMER HMMer 是一个采用隐马可夫模型 HMMs（Hidden Markov Models）来识别不同基因之间的结构相似性程度的工具。可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构。 http://hmmer.wustl.edu/

3.多序列比对工具 Clustal 基于渐进算法的多序列比对优化算法，由Higgins D.G. 等开发。Clustlw，clustalx等。其他：T_coffee

4.分子进化分析工具 PHYLIP PAUP* 其他：Mega2，MrBayes，tree-puzzle PAML，treeview

PHYLIP Phylip是一个免费的系统发生(phylogenetics)分析软件包。由华盛顿大学遗传学系开发，1980年首次公布，目前的版本是3.6。包含了35个独立的程序，这些独立的程序都实现特定的功能，这些程序基本上包括了系统发生分析的所有方面。 Phylip有多种不同平台的版本（包括windows，Macintosh，DOS，Linux，Unix和OpenVMX）。 http://evolution.genetics,washington.edu/phylip.html

PAUP* 最早是在苹果机上开发的具有菜单界面的进化分析软件，早先版本只有MP法，后续版本已经包括距离法和ML法，现今有mac，win，linux等多种版本，该软件不是免费软件，使用者需要向开发者购买。

5.其他工具模式识别：Meme，signalscan， domainFinder等测序分析与序列拼接：Chromas， Phred+Phrap+cross_match+consed, contigExpress等引物设计：Oligo，Primer3， Primer Premier5.0等三维分子：PDBviewer，CN3D,RASMOL等

序列分析工具的网络资源生物软件网 http://www.bio-soft.net NCBI http://www.ncbi.nlm.nih.gov Expasy http://www.expasy.org/

生物软件网由华北制药集团的谈杰创建，是一个具有丰富生物信息学资源的站点，提供了大量的生物信息学分析软件下载。 http://www.bio-soft.net

NCBI 美国国立生物技术信息中心（NCBI）成立于1988年11月4日。是在NIH的国立医学图书馆（NLM）的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的，而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。主要资源包括：数据库和软件，以及相关的教育和培训资源 http://www.ncbi.nlm.nih.gov

Expasy 由位于瑞士日内瓦的 Swiss Institute of Bioinformatics 所建立的，是全世界最重要的蛋白质数据库之一，也是 GCG 最主要的蛋白质序列来源。 Expasy的主要有蛋白质序列、结构、2-D PAGE (Two-dimentional polyacrylamide gel electrophoresis ) 等多个数据库，还有大量的蛋白质序列与结构分析工具以及FTP资源等。蛋白质分析工具主要有蛋白质的功能预测，序列搜索与比对，二级、三级和四级结构的预测等等。 http://www.expasy.org/

计算机相关知识操作系统 Unix（Linux），Windows， Macintosh 编程语言：perl，C，php，VB 算法：动态规划，启发式，各类模型数据结构：表，栈，树，图数据库 Mysql，Oracle，SQL server，Sybase 网络局域网构架与管理，并行化，网络应用（http，ftp，telnet）

Linux：是一个免费的可以在PC机上运行的UNIX系统．Linux系统具有最新UNIX的全部功能，包括真正的多任务，虚拟存储，共享库函数，即时负载，优越的存储管理和TCP/IP，UUCP网络工具。Linux由于其系统软件的免费获取，硬件费用低廉的特点，近年来发展迅猛。常见的Linux发行版有RedHat，Debian，Mandrake，SuSe等

Perl 强大的正则表达式(regular expression)以及字符串操作使这个工作变得简单而没有其它语言能相比。Perl 非常擅长于切割，扭转，绞，弄平，总结，以及其它的操作文字文件。生物资料大部分是以文字文件存在的，如物种名称，种属关系，基因或序列的注解，评住，目录查阅, 就连DNA和蛋白质序列本身也是以文字形式出现的。正是因为这样，在生物资料处理的时候最多涉及的也是字符操作问题。各种不同格式的生物信息资料之间的相互转换是一个很难解决的问题，而perl由于具有方便和强大的字符操作功能，使得它在这方面具有特殊的用途。

MySQL 是一个免费的、多用户、多线程的小型SQL数据库，是一个客户机/服务器结构的应用，可以运行在多种平台上，它由一个服务器守护程序mysqld和很多不同的客户程序和库组成。MySQL具有快速、多线程、多用户和稳定等特点，对于中、小型应用系统是非常理想的数据库服务平台。

动态规划（dynamic programming ）动态规划的实质是分治思想和解决冗余，将问题的实例分解为更小的、相似的子问题。动态规划的思想在于，如果各个子问题不是独立的，不同的子问题的个数只是多项式量级，如果我们能够保存已经解决的子问题的答案，而在需要的时候再找出已求得的答案，这样就可以避免大量的重复计算。由此而来的基本思路是，用一个表记录所有已解决的子问题的答案，不管该问题以后是否被用到，只要它被计算过，就将其结果填入表中。动态规划算法在生物序列分析中是一个比较常见也是比较有用的算法。

网络应用： HTTP（超文本传输协议）：应用层网络协议之一，主要用于传输www网页。 FTP（文件传输协议）：应用层网络传输协议之一，主要用于文件传输。其他应用协议：Telnet

本章结束，如有问题，请联系 yuansen_huang@hotmail.com