Presentation is loading. Please wait.

Presentation is loading. Please wait.

分子系统发育分析 毛理凯.

Similar presentations


Presentation on theme: "分子系统发育分析 毛理凯."— Presentation transcript:

1 分子系统发育分析 毛理凯

2 本课目录 总括 多序列比对 构建系统树 系统发生软件

3 一、总括

4 系统发生学(phylogenetics)
亦称系统学,种系发生学,种系发生系统学(phylogenetic systematics) 在希腊文中 phylon = tribe, race(种系) genesis = birth 研究生物群体(如:物种,种群)之间的进化关系

5 相关概念 phylogenetic taxonomy(系统发生分类学) phylogeny (=phylogenesis系统发生)
是系统学的一个分支 根据进化相关度对生物群体分类 phylogeny (=phylogenesis系统发生) 生物群体的产生和进化 分子系统学(molecular phylogenetics) 将核酸,氨基酸序列作为进化特征

6 系统发生树(phylogenetic tree)
也叫系统树,进化树(evolutionary tree),生命树(tree of life) 对物种之间的进化关系的一种描述,这些物种被认为有共同祖先 叶,节点 关系,时间

7 有根树和无根树 有根树(rooted tree) 无根树(unrooted tree) 树空间(tree space) 有共同祖先
从已知序列可以产生许多系统树 来自几何

8 无根树和有根树的关系(1) 从一棵有根树总可以产生一棵无根树 而从无根树产生有根树需要额外的数据

9 无根树和有根树的关系(2) 一棵无根树可以产生多棵有根树

10 Willi Hennig ( ) 德国生物学家,被认为是系统发生学和分类学(cladistics; 也叫cladogram)的奠基人 据已知资料来看,他的观点并不是最早被阐述 属达尔文学派;类似的观点另一学派的Lamarck和Rosa也有阐述 可以认为是系统发生学的集大成者

11 历史上的系统树 海克尔(Ernst Haeckel)首次制成了当时所有已知生物的系统树
( )著名的德国生物学家,哲学家,医生,教授,艺术家 创建了重演论(recapitulation theory) 命名了许多生物学术语(如:门,系统发生,生态学,原生生物)和几千物种 出版了著名的Kunstformen der Natur (Artforms of Nature)

12 可能是最早的系统树 C. Darwin,1837

13 特征选取的变迁 经典系统发生学 现代系统发生学 主要是比较大的物理或表型特征 如生物体的大小,颜色,牙齿个数,行为特征
缺点: 不易量化(连续), 难以选取合适特征 现代系统发生学 分子水平: 核酸或氨基酸序列 优点: 易量化(离散),易获取,适于自动化,更本质 例子: (现代人起源) 通过对线粒体DNA的研究,认为所有现代人都是一个非洲女性的后代(“夏娃”)

14 系统发生学研究方法 目的 分析步骤 在树空间中寻找正确的系统树
多(重)序列比对(multiple sequence alignment, MSA) 构建系统树 评价结果

15 三种构建系统树中使用的搜索算法 穷尽法 分支约束方法 启发式或经验性方法(heuristic)
搜索整个空间(所有可能的树),然后根据评价标准选择一棵最优的树 分支约束方法 根据一定的约束条件将搜索空间限制在一定范围内 启发式或经验性方法(heuristic) 根据目前的搜索情况指导下一步的搜索方向 根据先验知识或一定的指导性规则压缩搜索空间

16 两类数据: 距离和离散特征 距离 离散特征 描述序列之间的差别 (遗传距离) 一般用距离矩阵(distance matrix)表示
距离往往由序列比对产生(如错配的比例) 离散特征 二态特征 (如: DNA序列上的某个位点是否剪切位点) 多态特征 (如: 某一位点可能的碱基有A,T,G,C)

17 两大类构建系统树的算法 基于距离的构建方法 (distance-matrix methods) 基于离散特征的构建方法
邻近归并法 (或称邻接法,neighbor-joining) 非加权组平均法 (UPGMA) Fitch-Margoliash法 最小进化方法 基于离散特征的构建方法 最大简约法 (MP) 进化简约法 (EP) 最大似然法 (ML) 相容性方法

18 注意: 系统树的限制 有人认为生物的系统关系不一定是树状的 系统树不一定代表进化历史 有很多干扰分析的因素 噪音(noisy)
水平基因转移(horizontal gene transfer;网状) 杂交,重组等 (网状) 用不同基因或蛋白产生的树往往不同 已经灭绝的物种只能作为叶节点

19 二、多序列比对

20 例子 多物种核糖体Rplp0蛋白比对 ClustalW生成(颜色表示氨基酸保守性)

21 多序列比对方法 动态规划(dynamic programming)
慢,耗内存 改进: 使用“sum of pairs”目标函数 渐进法(progressive method;或称分级法hierarchical,建树法tree) 迭代法(iterative method) 基序法(motif finding;或称轮廓分析法profile analysis) 来自计算科学的算法 HMM, GA, SA 星形比对,树形比对

22 动态规划法 是两两比对所用动态规划方法的直接扩展 步骤 优点 缺点 用两两比对的方法比对所有的序列对 建立n维矩阵(n为序列个数)
产生多序列比对 优点 理论上适用于任意多个序列 保证能得到较好结果 缺点 耗费大量时间,内存 实际上很少用于多于3个序列的比对

23 逐对加和法(sum of pairs, SP) 步骤 例子 进行所有两两比对,并给每个比对打分 将所有的得分相加
找到最优多序列比对,使得总得分(目标函数objective function)最高 例子 对于这个蛋白多序列(3个)比对,求总分 已知得分(K,R)=3,间隔罚分为-12 K R (-12)+(-12)+3=-21

24 Clustal 可能是使用最广的多序列比对软件 算法 两个主要形式 适用于Windows,Mac OS,Unix/Linux
用Needleman-Wunsch全局算法做所有两两比对 得到距离矩阵,从而产生引导树 (guide tree; 利用UPGMA,见后; 得到dnd文件) 渐进式比对 (先处理距离最近的2个序列,再加次最近的…; 得到aln文件) 两个主要形式 ClustalW (命令行) ClustalX (图形用户界面GUI) 适用于Windows,Mac OS,Unix/Linux

25 Clustal的输入输出文件格式 输入 输出 FASTA Clustal NBRF/PIR GCC/MSF GDE
EMBL/Swissprot GCG9 RSF 输出 PHYLIP Clustal NBRF/PIR GCG/MSF GDE NEXUS

26 ClustalW比对多序列(1) – 主页 这里将输入比对的多个序列

27 ClustalW (2) – 获取FASTA格式的序列
或将这里改为Text,更易拷贝 选择格式 拷贝这些部分 拷贝这些部分 拷贝这些部分

28 ClustalW (3) – 将多个序列输入 将多个序列粘贴到此 点此比对

29 ClustalW (4) – 比对结果(1) 基本信息
多序列比对文件 引导树文件

30 ClustalW (5) – 比对结果(2) 比对图

31 ClustalW (6) – 比对结果(3)引导树

32 MSA数据库 Pfam (profile HMM library) SMART
CDD (HMM; NCBI DART; =Pfam+SMART) BLOCKS (HMM) PRINTS PROSITE PopSet DOMO (Gapped MSA) PRODOM (PSI-BLAST) MetaFAM INTERPRO iProClass

33 MSA软件(维基的列表) NAME Description Link Author Year MSA MultAlin PSAlign
Sequence Type Alignment Type Link Author Year MSA Dynamic programming Both Local or Global download D.J. Lipman et al. 1989 (modified 1995) MultAlin Dynamic programming/clustering server F. Corpet 1988 PSAlign Alignment preserving non-heuristic S.H. Sze, Y. Lu, Q. Yang. 2006 ClustalW Progressive alignment EBI PBIL EMBNet GenomeNet Thompson et al. 1994 Kalign Global T. Lassmann 2005 T-Coffee More sensitive progressive alignment C. Notredame et al. 2000 AMAP Sequence annealing A. Schwartz and L. Pachter MAVID N. Bray and L. Pachter 2004 Multi-LAGAN Progressive dynamic programming alignment M. Brudno et al. 2003 MUSCLE Progressive/iterative alignment R. Edgar MAFFT GenomeNet MAFFT K. Katoh et al. Geneious Progressive/Iterative alignment; ClustalW plugin A.J. Drummond et al. 2005 / 2006 CHAOS/DIALIGN Iterative alignment Local (preferred) M. Brudno and B. Morgenstern PRRN/PRRP Iterative alignment (especially refinement) Protein PRRP PRRN Y. Totoki (based on O. Gotoh) 1991 and later POA Partial order/hidden Markov model C. Lee 2002 SAM Hidden Markov model A. Krogh et al. 1994 (most recent 2002) ProbCons Probabilistic/consistency C. Do et al. SAGA Sequence alignment by genetic algorithm 1996 (new version 1998) Ed'Nimbus Seeded filtration Nucleotides Local P. Peterlongo et al. RevTrans Combines DNA and Protein alignment, by back translating the protein alignment to DNA. DNA/Protein (special) Wernersson and Pedersen 2003 (newest version 2005)

34 其他MSA软件 Opal (Bioinformatics 23(13);2007/7/1;免费)
aligning alignments Murlet (Bioinformatics 23(13);2007/7/1;开源) for RNA SQUINT (Bioinformatics 23(12);2007/6/1) Probalign (Bioinformatics 22(22)) PileUp (全局渐进) PIMA (局部渐进) BaliBase (比较MSA算法) AMAS CINEMA HMMT Match-Box Musca

35 MSA算法比较 全局(global)算法往往优于局部(local)算法
迭代(iterative)算法(如PRRP, SAGA)往往优于渐进式(progressive)算法(如Clustal) (a recent review) Recent Evolutions of Multiple Sequence Alignment Algorithms. Cédric Notredame. PLoS Computational Biology. 3(8). 2007

36 三、构建系统树

37 非加权分组平均法 UPGMA (Unweighted Pair Group Method with Arithmetic mean)
算法(基于距离) 使每个物种自成一类 执行下列循环 寻找最小距离的两个类,建立一个新的聚类 连接这两个类形成新节点 在距离矩阵中删除这两个类相应的行和列,为新类加入新的行和列(非加权) 重复循环,直到仅剩一个类 思想跟连锁聚类方法、渐进法类似 是一种改进了的邻近归并法

38 最大简约法(1) Maximum Parsimony (MP) 思想:最好的树应该用最少的进化上的变化来解释数据 基于离散特征的方法
枝长来自该枝进化上变化的数目 有时会存在多棵最大简约树

39 最大简约法(2) 计算量太大  考虑部分位点 信息位点 (informative sites)
若在某个位点上至少有两个等位基因,而每个等位基因至少存在于两条序列,该位点称为信息位点 位点 序列 A A G A G T G C A A G C C G T G C G A G A T A T C C A A G A G A T C C G * * *

40 最大简约法(3) – “长枝吸引” Long Branch Attraction (LBA) 若两个物种的变异率较大,导致: √ × 长枝
真实树 Long Branch Attraction (LBA) 若两个物种的变异率较大,导致: 长枝 可能存在共同变异 结果:若这些变异多于那些能区别它们共同祖先的变异,MP将产生错误的树 MP重建的树 真实树 MP重建的树 ×

41 评价结果 问题 方法 整棵树和它的组成部分(分支)的置信度是多少? 这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少?
自举检验 (bootstrap) 参数检验

42 全基因组的系统发生分析 基于多棵系统发生树的方法 基于基因内容的方法 基于蛋白质折叠结构的方法 基于基因次序的方法
基于连接的直向同源蛋白的方法 基于代谢途径(pathway)的方法

43 四、系统发生软件

44 Joe Felsenstein's list of Phylogeny Programs (最全的列表)

45 JF's list (简介;包含309种软件) 三种分类依据 其他列表 软件所使用的方法 软件使用的系统 软件所分析的数据 最近加入的软件
最近更新的软件 以前列出但已经不再发行的软件 等待加入的软件 不被列出的软件 其他系统发生软件的列表

46 JF's list (所有软件按方法分类) (方法后数字为该分类的软件个数)
General-purpose packages 一般目的 11 Parsimony programs 简约法 37 Distance matrix methods 距离矩阵 65 Computation of distances 计算距离 58 Maximum likelihood and Bayesian methods 最大似然、贝叶斯 77 Quartets methods 四重奏 11 Artificial-intelligence and genetic algorithms methods 人工智能、遗传算法 4 Invariants (or Evolutionary Parsimony) methods 不变量/进化简约 4 Interactive tree manipulation 24 Looking for hybridization or recombination events 19 Bootstrapping and other measures of support 63 Compatibility analysis 9 Consensus trees, subtrees, supertrees, distances between trees 22 Tree-based alignment 20 Gene duplication and genomic analysis 6 Biogeographic analysis and host-parasite comparison 8 Comparative method analysis 26 Simulation of trees or data 21 Examination of shapes of trees 13 Clocks, dating and stratigraphy 32 Model Selection 12 Description or prediction of data from trees 9 Tree plotting/drawing 38 Sequence management/job submission 20 Teaching about phylogenies 4 (方法后数字为该分类的软件个数)

47 JF's list (一般目的软件) PHYLIP PAUP* MEGA Phylo_win ARB DAMBE PAL
Bionumerics Mesquite PaupUp BIRCH

48 JF's list (软件按数据分类) Microsatellite data RSTCALC POPTREE Microsat
Populations MSA YCDMA Network IM

49 JF's list (按数据分类) RAPDs, RFLPs, or AFLPs tfpga RAPDistance
Fingerprinting II Informatix Software GelCompar II Bionumerics Winboot REAP RESTSITE MVSP DENDRON Phyltools Network BIRCH

50 JF's list (按数据分类) Continuous quantitative characters PHYLIP Mesquite
ANCML COMPARE CMAP PDAP ACAP Phylogenetic Independence APE CAIC TreeScan PHYLOGR IDC CoMET OUCH Brownie BayesTraits TNT PHYSIG

51 JF's list (按数据分类) Gene frequencies (aside from microsatellite loci)
PHYLIP DAMBE DISPAN GDA POPGENE YCDMA FSTAT Arlequin DnaSP APE DIVAGE GeneStrut POPTREE Genepop SPAGeDi

52 免费开源软件 http://digitaltaxonomy.infobio.net/ (Digital Taxonomy)
还包括systematics(分类学/系统学)、morphometrics(形态测定学)方面的软件

53 维基(Wiki)的列表 NAME Description Methods Link Author PHYLIP download
Phylogenetic inference package Maximum parsimony, distance matrix, maximum likelihood download J. Felsenstein PAUP Phylogenetic analysis using parsimony purchase D. Swofford PAML Phylogenetic analysis by maximum likelihood Maximum likelihood Z. Yang ClustalW Progressive multiple sequence alignment Distance matrix/nearest neighbor EBI PBIL EMBNet GenomeNet Thompson et al. QuickTree Tree construction optimized for efficiency Neighbor-joining server K. Howe, A. Bateman, R. Durbin MOLPHY Molecular phylogenetics (protein or nucleotide) J. Adachi and M. Hasegawa TreeGen Tree construction given precomputed distance data Distance matrix ETH Zurich fastDNAml Optimized maximum likelihood (nucleotides only) G.J. Olsen TREE-PUZZLE Maximum likelihood and statistical analysis H.A. Schmidt, K. Strimmer, A. von Haeseler TreeAlign Efficient hybrid method Distance matrix and approximate parsimony J. Hein PhyloQuart Quartet implementation (uses sequences or distances) Quartet method V. Berry MrBayes Posterior probability estimation Bayesian inference J. Huelsenbeck et al.

54 杂项 PhyloCode (不是软件;是种系发生命名法的一些规则)
TOPD/FMTS (Bioinformatics 23(12); )

55 PHYLIP 种系发生软件包 Joseph Felsenstein,华盛顿大学 下载(Windows版)

56 用PHYLIP绘制树(1) 安装目录里有一个“exe”目录 将该目录中某一个font文件改名为fontfile
将ClustalW中保存的引导树文件移入该目录并改名为intree 运行程序drawgram.exe

57 绘制树(2) 输入“y”,回车

58


Download ppt "分子系统发育分析 毛理凯."

Similar presentations


Ads by Google