分子系统发育分析 毛理凯.

Slides:



Advertisements
Similar presentations
邢立宁 研究员 新兴信息技术条件下 智能优化的若干发展趋势 国防科学技术大学 信息系统与管理学院 2015年6月14日.
Advertisements

图论与网络 1数学的内容、方法与意义. 组合数学概述 现代数学可以分为两大类:一类是研究连 续对象的,如分析、方程等;另一类就是 研究离散对象的组合数学。 现代数学可以分为两大类:一类是研究连 续对象的,如分析、方程等;另一类就是 研究离散对象的组合数学。 计算机出现以后,由于离散对象的处理是 计算机科学的核心,研究离散对象的组合.
13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
第二節 演 化 的 證 據.
系统进化树的构建方法与软件应用 姓名:张镜悬
分子生物学软件介绍 刘吉平讲师
第10章 生物信息学基础.
生物信息学数据库.
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
邹 权 (博士、副教授) 厦门大学数据挖掘实验室
第Ⅱ部分 问题求解 第4章 超越经典搜索 中国科大 计算机学院.
Molecular Phylogeny 分子系统发育分析
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
生物資訊 bioinformatics 林育慶.
丁 承 國立交通大學經營管理研究所教授 成大統計68級 民國103年6月14日
文献综述题目.
Sequence analysis.
Hadoop I/O By ShiChaojie.
生物資訊 (Bioinformatics)
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
计算机科学与生命科学(11) 生物信息学基础 2013年秋季学期通选课程 上课时间:周一 18:30点 上课地点:软件园4区502d
Special Topics in Social Media Services 社會媒體服務專題
Basic Local Alignment Search Tool
SOA – Experiment 3: Web Services Composition Challenge
辅导课程六.
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
双序列比对.
重點 資料結構之選定會影響演算法 選擇對的資料結構讓您上天堂 程式.
生物序列的信息检索 多序列比对及进化树的构建
Introduction to AI and ML
基于基因集富集分析的畜禽复杂性状GWAS分析平台及其应用
数据挖掘工具性能比较.
动态规划(Dynamic Programming)
生物序列的信息检索 多序列比对及进化树的构建
高职申请 申 请 人:孟增 竞聘岗位:副教授 研究方向:结构优化设计及可靠性分析 设岗学科:工程力学 土木与水利工程学院
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
103學年度「教學獎」申請理念說明 黃慧玲 生物科技學系 04/27/2015.
一个交叉学科的胜利 简介 生物信息学 黄晓靖.
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
WSDM见闻 程龚.
第十章 古DNA数据分析.
Artificial Intelligence - 人工智慧導論
序列分析(一) 一一序列比对.
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
資料結構 Data Structures Fall 2006, 95學年第一學期 Instructor : 陳宗正.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
Chapter 8 Model Inference and Averaging
模型分类问题 Presented by 刘婷婷 苏琬琳.
第十章 線上行銷研究.
姚金宇 MIT SCHEME 使用说明 姚金宇
超越自然还是带来毁灭 “人造生命”令全世界不安
利用Bayesian算法重建昆虫纲双翅目水虻科系统发育树
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
Interactome data and databases: different types of protein interaction
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
系统发育就是指生物谱系的分支演化历史,或是指生命自起源 后的整个遗传进化史 (Avise,2006)
iSIGHT 基本培训 使用 Excel的栅栏问题
第七、八次实验要求.
基于最大margin的决策树归纳 李 宁.
缅怀植物学家钟 扬:一个心怀家国的“善梦者”
基因信息的传递.
本节内容 动态链接库 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
多序列比对和系统进化分析 ——以镰刀形贫血症为例 浙江大学生物信息实验室.
Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷 陳靜儀 謝仁傑 林敬恆.
第四章 UNIX文件系统.
台灣產毛茛科鐵線蓮屬 ( Clematis ) 植物分子親緣關係之探討 黃佳茵 ,胡哲明 國立台灣大學 生態學與演化生物學研究所 前言:
最小生成树 最优二叉树.
Self-Attention huitr
Presentation transcript:

分子系统发育分析 毛理凯

本课目录 总括 多序列比对 构建系统树 系统发生软件

一、总括

系统发生学(phylogenetics) 亦称系统学,种系发生学,种系发生系统学(phylogenetic systematics) 在希腊文中 phylon = tribe, race(种系) genesis = birth 研究生物群体(如:物种,种群)之间的进化关系

相关概念 phylogenetic taxonomy(系统发生分类学) phylogeny (=phylogenesis系统发生) 是系统学的一个分支 根据进化相关度对生物群体分类 phylogeny (=phylogenesis系统发生) 生物群体的产生和进化 分子系统学(molecular phylogenetics) 将核酸,氨基酸序列作为进化特征

系统发生树(phylogenetic tree) 也叫系统树,进化树(evolutionary tree),生命树(tree of life) 对物种之间的进化关系的一种描述,这些物种被认为有共同祖先 叶,节点 关系,时间

有根树和无根树 有根树(rooted tree) 无根树(unrooted tree) 树空间(tree space) 有共同祖先 从已知序列可以产生许多系统树 来自几何

无根树和有根树的关系(1) 从一棵有根树总可以产生一棵无根树 而从无根树产生有根树需要额外的数据

无根树和有根树的关系(2) 一棵无根树可以产生多棵有根树

Willi Hennig (1913-1976) 德国生物学家,被认为是系统发生学和分类学(cladistics; 也叫cladogram)的奠基人 据已知资料来看,他的观点并不是最早被阐述 属达尔文学派;类似的观点另一学派的Lamarck和Rosa也有阐述 可以认为是系统发生学的集大成者

历史上的系统树 海克尔(Ernst Haeckel)首次制成了当时所有已知生物的系统树 (1834-1919)著名的德国生物学家,哲学家,医生,教授,艺术家 创建了重演论(recapitulation theory) 命名了许多生物学术语(如:门,系统发生,生态学,原生生物)和几千物种 出版了著名的Kunstformen der Natur (Artforms of Nature)

可能是最早的系统树 C. Darwin,1837

特征选取的变迁 经典系统发生学 现代系统发生学 主要是比较大的物理或表型特征 如生物体的大小,颜色,牙齿个数,行为特征 缺点: 不易量化(连续), 难以选取合适特征 现代系统发生学 分子水平: 核酸或氨基酸序列 优点: 易量化(离散),易获取,适于自动化,更本质 例子: (现代人起源) 通过对线粒体DNA的研究,认为所有现代人都是一个非洲女性的后代(“夏娃”)

系统发生学研究方法 目的 分析步骤 在树空间中寻找正确的系统树 多(重)序列比对(multiple sequence alignment, MSA) 构建系统树 评价结果

三种构建系统树中使用的搜索算法 穷尽法 分支约束方法 启发式或经验性方法(heuristic) 搜索整个空间(所有可能的树),然后根据评价标准选择一棵最优的树 分支约束方法 根据一定的约束条件将搜索空间限制在一定范围内 启发式或经验性方法(heuristic) 根据目前的搜索情况指导下一步的搜索方向 根据先验知识或一定的指导性规则压缩搜索空间

两类数据: 距离和离散特征 距离 离散特征 描述序列之间的差别 (遗传距离) 一般用距离矩阵(distance matrix)表示 距离往往由序列比对产生(如错配的比例) 离散特征 二态特征 (如: DNA序列上的某个位点是否剪切位点) 多态特征 (如: 某一位点可能的碱基有A,T,G,C)

两大类构建系统树的算法 基于距离的构建方法 (distance-matrix methods) 基于离散特征的构建方法 邻近归并法 (或称邻接法,neighbor-joining) 非加权组平均法 (UPGMA) Fitch-Margoliash法 最小进化方法 基于离散特征的构建方法 最大简约法 (MP) 进化简约法 (EP) 最大似然法 (ML) 相容性方法

注意: 系统树的限制 有人认为生物的系统关系不一定是树状的 系统树不一定代表进化历史 有很多干扰分析的因素 噪音(noisy) 水平基因转移(horizontal gene transfer;网状) 杂交,重组等 (网状) 用不同基因或蛋白产生的树往往不同 已经灭绝的物种只能作为叶节点

二、多序列比对

例子 多物种核糖体Rplp0蛋白比对 ClustalW生成(颜色表示氨基酸保守性)

多序列比对方法 动态规划(dynamic programming) 慢,耗内存 改进: 使用“sum of pairs”目标函数 渐进法(progressive method;或称分级法hierarchical,建树法tree) 迭代法(iterative method) 基序法(motif finding;或称轮廓分析法profile analysis) 来自计算科学的算法 HMM, GA, SA 星形比对,树形比对

动态规划法 是两两比对所用动态规划方法的直接扩展 步骤 优点 缺点 用两两比对的方法比对所有的序列对 建立n维矩阵(n为序列个数) 产生多序列比对 优点 理论上适用于任意多个序列 保证能得到较好结果 缺点 耗费大量时间,内存 实际上很少用于多于3个序列的比对

逐对加和法(sum of pairs, SP) 步骤 例子 进行所有两两比对,并给每个比对打分 将所有的得分相加 找到最优多序列比对,使得总得分(目标函数objective function)最高 例子 对于这个蛋白多序列(3个)比对,求总分 已知得分(K,R)=3,间隔罚分为-12 K – R (-12)+(-12)+3=-21

Clustal 可能是使用最广的多序列比对软件 算法 两个主要形式 适用于Windows,Mac OS,Unix/Linux 用Needleman-Wunsch全局算法做所有两两比对 得到距离矩阵,从而产生引导树 (guide tree; 利用UPGMA,见后; 得到dnd文件) 渐进式比对 (先处理距离最近的2个序列,再加次最近的…; 得到aln文件) 两个主要形式 ClustalW (命令行) ClustalX (图形用户界面GUI) 适用于Windows,Mac OS,Unix/Linux

Clustal的输入输出文件格式 输入 输出 FASTA Clustal NBRF/PIR GCC/MSF GDE EMBL/Swissprot GCG9 RSF 输出 PHYLIP Clustal NBRF/PIR GCG/MSF GDE NEXUS

ClustalW比对多序列(1) – 主页 http://www.ebi.ac.uk/clustalw/ 这里将输入比对的多个序列

ClustalW (2) – 获取FASTA格式的序列 或将这里改为Text,更易拷贝 选择格式 拷贝这些部分 拷贝这些部分 拷贝这些部分

ClustalW (3) – 将多个序列输入 将多个序列粘贴到此 点此比对

ClustalW (4) – 比对结果(1) 基本信息 多序列比对文件 引导树文件

ClustalW (5) – 比对结果(2) 比对图

ClustalW (6) – 比对结果(3)引导树

MSA数据库 Pfam (profile HMM library) SMART CDD (HMM; NCBI DART; =Pfam+SMART) BLOCKS (HMM) PRINTS PROSITE PopSet DOMO (Gapped MSA) PRODOM (PSI-BLAST) MetaFAM INTERPRO iProClass

MSA软件(维基的列表) NAME Description Link Author Year MSA MultAlin PSAlign Sequence Type Alignment Type Link Author Year MSA Dynamic programming Both Local or Global download D.J. Lipman et al. 1989 (modified 1995) MultAlin Dynamic programming/clustering server F. Corpet 1988 PSAlign Alignment preserving non-heuristic S.H. Sze, Y. Lu, Q. Yang. 2006 ClustalW Progressive alignment EBI PBIL EMBNet GenomeNet Thompson et al. 1994 Kalign Global T. Lassmann 2005 T-Coffee More sensitive progressive alignment C. Notredame et al. 2000 AMAP Sequence annealing A. Schwartz and L. Pachter MAVID N. Bray and L. Pachter 2004 Multi-LAGAN Progressive dynamic programming alignment M. Brudno et al. 2003 MUSCLE Progressive/iterative alignment R. Edgar MAFFT GenomeNet MAFFT K. Katoh et al. Geneious Progressive/Iterative alignment; ClustalW plugin A.J. Drummond et al. 2005 / 2006 CHAOS/DIALIGN Iterative alignment Local (preferred) M. Brudno and B. Morgenstern PRRN/PRRP Iterative alignment (especially refinement) Protein PRRP PRRN Y. Totoki (based on O. Gotoh) 1991 and later POA Partial order/hidden Markov model C. Lee 2002 SAM Hidden Markov model A. Krogh et al. 1994 (most recent 2002) ProbCons Probabilistic/consistency C. Do et al. SAGA Sequence alignment by genetic algorithm 1996 (new version 1998) Ed'Nimbus Seeded filtration Nucleotides Local P. Peterlongo et al. RevTrans Combines DNA and Protein alignment, by back translating the protein alignment to DNA. DNA/Protein (special) Wernersson and Pedersen 2003 (newest version 2005)

其他MSA软件 Opal (Bioinformatics 23(13);2007/7/1;免费) aligning alignments Murlet (Bioinformatics 23(13);2007/7/1;开源) for RNA SQUINT (Bioinformatics 23(12);2007/6/1) Probalign (Bioinformatics 22(22)) PileUp (全局渐进) PIMA (局部渐进) BaliBase (比较MSA算法) AMAS CINEMA HMMT Match-Box Musca

MSA算法比较 全局(global)算法往往优于局部(local)算法 迭代(iterative)算法(如PRRP, SAGA)往往优于渐进式(progressive)算法(如Clustal) (a recent review) Recent Evolutions of Multiple Sequence Alignment Algorithms. Cédric Notredame. PLoS Computational Biology. 3(8). 2007

三、构建系统树

非加权分组平均法 UPGMA (Unweighted Pair Group Method with Arithmetic mean) 算法(基于距离) 使每个物种自成一类 执行下列循环 寻找最小距离的两个类,建立一个新的聚类 连接这两个类形成新节点 在距离矩阵中删除这两个类相应的行和列,为新类加入新的行和列(非加权) 重复循环,直到仅剩一个类 思想跟连锁聚类方法、渐进法类似 是一种改进了的邻近归并法

最大简约法(1) Maximum Parsimony (MP) 思想:最好的树应该用最少的进化上的变化来解释数据 基于离散特征的方法 枝长来自该枝进化上变化的数目 有时会存在多棵最大简约树

最大简约法(2) 计算量太大  考虑部分位点 信息位点 (informative sites) 若在某个位点上至少有两个等位基因,而每个等位基因至少存在于两条序列,该位点称为信息位点 位点 序列 1 2 3 4 5 6 7 8 9 1 A A G A G T G C A 2 A G C C G T G C G 3 A G A T A T C C A 4 A G A G A T C C G * * *

最大简约法(3) – “长枝吸引” Long Branch Attraction (LBA) 若两个物种的变异率较大,导致: √ × 长枝 真实树 Long Branch Attraction (LBA) 若两个物种的变异率较大,导致: 长枝 可能存在共同变异 结果:若这些变异多于那些能区别它们共同祖先的变异,MP将产生错误的树 MP重建的树 √ 真实树 MP重建的树 ×

评价结果 问题 方法 整棵树和它的组成部分(分支)的置信度是多少? 这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少? 自举检验 (bootstrap) 参数检验

全基因组的系统发生分析 基于多棵系统发生树的方法 基于基因内容的方法 基于蛋白质折叠结构的方法 基于基因次序的方法 基于连接的直向同源蛋白的方法 基于代谢途径(pathway)的方法

四、系统发生软件

Joe Felsenstein's list of Phylogeny Programs (最全的列表) http://evolution.gs.washington.edu/phylip/software.html

JF's list (简介;包含309种软件) 三种分类依据 其他列表 软件所使用的方法 软件使用的系统 软件所分析的数据 最近加入的软件 最近更新的软件 以前列出但已经不再发行的软件 等待加入的软件 不被列出的软件 其他系统发生软件的列表

JF's list (所有软件按方法分类) (方法后数字为该分类的软件个数) General-purpose packages 一般目的 11 Parsimony programs 简约法 37 Distance matrix methods 距离矩阵 65 Computation of distances 计算距离 58 Maximum likelihood and Bayesian methods 最大似然、贝叶斯 77 Quartets methods 四重奏 11 Artificial-intelligence and genetic algorithms methods 人工智能、遗传算法 4 Invariants (or Evolutionary Parsimony) methods 不变量/进化简约 4 Interactive tree manipulation 24 Looking for hybridization or recombination events 19 Bootstrapping and other measures of support 63 Compatibility analysis 9 Consensus trees, subtrees, supertrees, distances between trees 22 Tree-based alignment 20 Gene duplication and genomic analysis 6 Biogeographic analysis and host-parasite comparison 8 Comparative method analysis 26 Simulation of trees or data 21 Examination of shapes of trees 13 Clocks, dating and stratigraphy 32 Model Selection 12 Description or prediction of data from trees 9 Tree plotting/drawing 38 Sequence management/job submission 20 Teaching about phylogenies 4 (方法后数字为该分类的软件个数)

JF's list (一般目的软件) PHYLIP PAUP* MEGA Phylo_win ARB DAMBE PAL Bionumerics Mesquite PaupUp BIRCH

JF's list (软件按数据分类) Microsatellite data RSTCALC POPTREE Microsat Populations MSA YCDMA Network IM

JF's list (按数据分类) RAPDs, RFLPs, or AFLPs tfpga RAPDistance Fingerprinting II Informatix Software GelCompar II Bionumerics Winboot REAP RESTSITE MVSP DENDRON Phyltools Network BIRCH

JF's list (按数据分类) Continuous quantitative characters PHYLIP Mesquite ANCML COMPARE CMAP PDAP ACAP Phylogenetic Independence APE CAIC TreeScan PHYLOGR IDC CoMET OUCH Brownie BayesTraits TNT PHYSIG

JF's list (按数据分类) Gene frequencies (aside from microsatellite loci) PHYLIP DAMBE DISPAN GDA POPGENE YCDMA FSTAT Arlequin DnaSP APE DIVAGE GeneStrut POPTREE Genepop SPAGeDi

免费开源软件 http://digitaltaxonomy.infobio.net/ (Digital Taxonomy) 还包括systematics(分类学/系统学)、morphometrics(形态测定学)方面的软件

维基(Wiki)的列表 NAME Description Methods Link Author PHYLIP download Phylogenetic inference package Maximum parsimony, distance matrix, maximum likelihood download J. Felsenstein PAUP Phylogenetic analysis using parsimony purchase D. Swofford PAML Phylogenetic analysis by maximum likelihood Maximum likelihood Z. Yang ClustalW Progressive multiple sequence alignment Distance matrix/nearest neighbor EBI PBIL EMBNet GenomeNet Thompson et al. QuickTree Tree construction optimized for efficiency Neighbor-joining server K. Howe, A. Bateman, R. Durbin MOLPHY Molecular phylogenetics (protein or nucleotide) J. Adachi and M. Hasegawa TreeGen Tree construction given precomputed distance data Distance matrix ETH Zurich fastDNAml Optimized maximum likelihood (nucleotides only) G.J. Olsen TREE-PUZZLE Maximum likelihood and statistical analysis H.A. Schmidt, K. Strimmer, A. von Haeseler TreeAlign Efficient hybrid method Distance matrix and approximate parsimony J. Hein PhyloQuart Quartet implementation (uses sequences or distances) Quartet method V. Berry MrBayes Posterior probability estimation Bayesian inference J. Huelsenbeck et al.

杂项 PhyloCode (不是软件;是种系发生命名法的一些规则) TOPD/FMTS (Bioinformatics 23(12); 2007-6-1)

PHYLIP 种系发生软件包 Joseph Felsenstein,华盛顿大学 下载(Windows版) http://evolution.genetics.washington.edu/phylip/getme.html

用PHYLIP绘制树(1) 安装目录里有一个“exe”目录 将该目录中某一个font文件改名为fontfile 将ClustalW中保存的引导树文件移入该目录并改名为intree 运行程序drawgram.exe

绘制树(2) 输入“y”,回车