系统进化树的构建方法与软件应用姓名：张镜悬 E-mail：J.zhang@biosino.com.cn.

Slides:

Advertisements

Similar presentations

3 的倍数的特征的倍数有 : 。 5 的倍数有 : 。既是 2 的倍数又是 5 的倍数有 : 。 12 ， 18 ， 20 ， 48 ， 60 ， 72 ，， 25 ， 60 ，

Advertisements

龙星课程—肿瘤生物信息学上机课程曹莎

一、二阶行列式的引入用消元法解二元线性方程组. 一、二阶行列式的引入用消元法解二元线性方程组.

第10章生物信息学基础.

证券投资技术分析.

在PHP和MYSQL中实现完美的中文显示

基因组数据注释和功能分析陈启昀陈辰丁文超张增明浙江加州国际纳米技术研究院（ZCNI）

Hadoop I/O By ShiChaojie.

SOA – Experiment 3: Web Services Composition Challenge

元素替换法 ——行列式按行(列)展开（推论）

第一单元初识C程序与C程序开发平台搭建 ---观其大略

第一讲: 基本流程（1）.

第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库数据库中数据的组织由低到高分为四级：字段、记录、表、数据库四种。

生物序列的信息检索多序列比对及进化树的构建

以ISI平台为例，为您演示一下如何在Endnote文献中查看该文献的References

数据挖掘工具性能比较.

生物序列的信息检索多序列比对及进化树的构建

绿色圃中小学教育网比例比例的意义绿色圃中小学教育网

使用矩阵表示最小生成树算法.

第十章古DNA数据分析.

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

无向树和根树.

程序设计工具实习 Software Program Tool

顺序表的删除.

3.8.1 代数法计算终点误差终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差

模型分类问题 Presented by 刘婷婷苏琬琳.

WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了，与其他文章的区别是什么？ 2.Charging Control的手段是什么？ 3.Power Reigon是什么东西？

姚金宇 MIT SCHEME 使用说明姚金宇

超越自然还是带来毁灭 “人造生命”令全世界不安

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

Web安全基础教程

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

第4章 Excel电子表格制作软件 4.4 函数（一）.

iSIGHT 基本培训使用 Excel的栅栏问题

长春理工大学电工电子实验教学中心数字电路实验数字电路实验室.

§6.7 子空间的直和一、直和的定义二、直和的判定三、多个子空间的直和.

《手把手教你学STM32-STemWin》主讲人：正点原子团队硬件平台：正点原子STM32开发板版权所有：广州市星翼电子科技有限公司

第六章素材的加工与处理第13讲用GoldWave进行音频的截取、合并、淡入淡出操作

树和图 tree and graph 蔡亚星.

LOGIX500软件入门西安华光信息技术有限公司 2008年7月11日.

魏新宇 MATLAB/Simulink 与控制系统仿真魏新宇

第七、八次实验要求.

海报题目简介: 介绍此项仿真工作的目标和需要解决的问题。可以添加合适的图片。

SCI收录号查询方法介绍上海大学情报研究所

波形平均和叠加分析指南上海骐驰仪器有限公司 Shanghai Qichi Instruments Co. Ltd.

分数再认识三真假带分数的练习课.

GIS基本功能数据存储与管理数据采集数据处理与编辑空间查询空间查询 GIS能做什么？与分析叠加分析缓冲区分析网络分析

Python 环境搭建基于Anaconda和VSCode.

生物信息学 Bioinformatics 巩晶癌症研究中心山东大学医学院

第六章 Excel的应用五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行

《手把手教你学STM32-STemWin》主讲人：正点原子团队硬件平台：正点原子STM32开发板版权所有：广州市星翼电子科技有限公司

基于列存储的RDF数据管理朱敏

C++语言程序设计 C++语言程序设计第一章 C++语言概述第十一组 C++语言程序设计.

基因信息的传递.

YOUR SUBTITLE GOES HERE

多序列比对和系统进化分析 ——以镰刀形贫血症为例浙江大学生物信息实验室.

第8章创建与使用图块将一个或多个单一的实体对象整合为一个对象，这个对象就是图块。图块中的各实体可以具有各自的图层、线性、颜色等特征。在应用时，图块作为一个独立的、完整的对象进行操作，可以根据需要按一定比例和角度将图块插入到需要的位置。 2019/6/30.

本节内容如何调试驱动程序? 视频提供：昆山爱达人信息技术有限公司官网地址：联系QQ: QQ交流群：联系电话：

第四章 UNIX文件系统.

第十七讲密码执行(1).

第十二讲密码执行(上).

创建、启动和关闭Activity 本讲大纲： 1、创建Activity 2、配置Activity 3、启动和关闭Activity

基于学案制作ppt 录屏工具使用郑建彬.

使用Fragment 本讲大纲： 1、创建Fragment 2、在Activity中添加Fragment

最小生成树最优二叉树.

学习目标 1、什么是列类型 2、列类型之数值类型.

海报题目简介: 介绍此项仿真工作的目标和需要解决的问题。可以添加合适的图片。

百万行、千万行数据查询教程老黄牛.

Presentation transcript:

系统进化树的构建方法与软件应用姓名：张镜悬 E-mail：J.zhang@biosino.com.cn

什么是系统进化树系统进化树又称为演化树，是表明被认为具有共同祖先的各物种间演化关系的树.在树中每个节点代表其各个分支的最近共同祖先，而节点的线段长度对应了其演化的距离。 (http://en.wikipedia.org/wiki/Phylogenetic_tree)

直系同源和旁系同源直系同源：同源的基因是由共同的祖先基因进化而产生的。旁系同源：同源的基因是由于基因复制产生的。这也就告诉我们用于分子进化分析中的序列必须是直系同源的才可以真实的反映其进化的过程。

系统进化树的分类根据树是否有根，进化树可以分为有根树和无根树两类。

有根树和无根树的进化层面上的意义有根树反应了树上物种或者基因进化的时间顺序,通过分析有根树的长度，可以了解不同的物种或者基因以什么方式和速率进化。无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题做有根树需要指定outgroup。所谓out group ，就是你所分析的东西之外的一个group。比如你分析人类的不同人种，就选个chimpanzee，你要分析哺乳动物，就选个鳄鱼乌龟之类，总之保证它在你要分析的group之外，但又不太远就行了。将你选定的东西指定为outgroup，做出来的树就是有根树。out group可以不只一个，它是一个group。

系统进化树的结构进化树的结构主要分为三部分：树叶树枝节点其中我们把从同一个节点上分出的两个分支叫做sister group. branch node 进化树的结构主要分为三部分：树叶树枝节点其中我们把从同一个节点上分出的两个分支叫做sister group. Sister group 从结构上可以理解为从进化史上看两者非常接近，其次两者拥有唯一的共同的祖先。

系统进化树的结构 a b c d a b d c a c d b 从结构上看，我们认为这三个树是等价的

构建系统进化树的理论方法最大简约法(maximum parsimony，MP)最早源于形态性状研究，现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆哲学原则，这个原则认为：解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算，并计算出所需替代数最小的那个拓扑结构，作为最优树。优点：最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。在分析的序列位点上没有回复突变或平行突变，且被检验的序列位点数很大的时候，最大简约法能够推导获得一个很好的进化树。缺点：在分析序列上存在较多的回复突变或平行突变，而被检验的序列位点数又比较少的时候，最大简约法可能会给出一个不合理的或者错误的进化树推导结果。

构建系统进化树的理论方法最大似然法(maximum likelihood,ML) 最早应用于系统发育分析是在对基因频率数据的分析上，后来基于分子序列的分析中也已经引入了最大似然法的分析方法。当样本量很大的时候，似然法可以获得参数统计的最小方差。最大似然法分析中，选取一个特定的替代模型来分析给定的一组序列数据，使得获得的每一个拓扑结构的似然率都为最大值，然后再挑出其中似然率最大的拓扑结构作为最优树。最大似然进化模型简单假设所有核苷酸（或者氨基酸）之间相互转变的概率是一样的程序会把所有可能的核苷酸轮流置于进化树的内部节点上，并且计算每个这样的序列产生实际数据的可能性。所有可能再现的几率被加总，产生一个特定点的似然值，然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。

构建系统进化树的理论方法邻近法（Neighbor-Joining Method，NJ ）该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点，就可以建立一个相应的拓扑树。

构建系统进化树的所涉及的工具 PHYLIP MEGA R Matlab BioEdit TreeView PHYML ClustalX

构建系统进化树的所涉及的工具 PHYLIP 由美国华盛顿大学Felsenstein开发，可以免费下载，适用于绝大多数操作系统 PAUP 由美国simthsonion institute开发，仅适用于Apple-Macintosh和UNIX操作系统 MEGA 美国宾夕法尼亚州立大学MasatoshiNei开发的分子进化遗传学软件，图形化，集成的进行分析工具，不包括ML MOLPHY 日本国立统计数理研究所开发，最大似然法构树 PAML 英国University college London开发，最大似然法构树和分子进化模型

构建系统进化树的所涉及的工具 PUZZLE 应用quarter puzzling方法（一种最大简约法）构建系统树 TreeView 英国University of Glasgow开发，进化树显示工具 Phylogeny 欧洲生物信息研究所（EBI）的系统发育分析软件 PHYML 快速的ＭＬ建树工具 MrBayes 基于贝叶斯方法的建树工具 MAC5 基于贝叶斯方法的建树工具　

软件的选择构建ＮＪ树，可以用PHYLIP或者MEGA 构建MP树，可以使用PHYLIP或者MEGA 构建ML树可以使用PHYML，速度快，同时构建ML树还可以用PHYLIP，或者可以使用BioEdit 贝叶斯的算法以MrBayes为代表，不过速度比较慢关于系统发育分析的更多知识请参阅： http://www.bioon.com/biology/bioinfo2/78842.shtml

构建系统进化树的主要步骤大体来说构建系统进化树的步骤有三步：序列比对 (ClustalX2)

构建系统进化树的主要步骤 2. 掐头去尾选取所需序列转换格式（BioEdit or ClustalX2） Example： 3. 利用相关软件绘制系统进化树（BioEdit，MEGA）

实例讲解下面的内容将教大家如何来构建自己的系统进化树。首先我们需要弄清楚一个很重要的问题，什么是Fasta 格式? 在生物信息学中，FASTA格式（又称为Pearson格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。序列文件的第一行是由大于号“>”或分号“;”打头的任意文字说明（习惯常用“>”作为起始），用于序列标记。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号。

构建我们自己的Fasta 文件很多情况下，Fasta文件是直接可以从数据库中下载得到的，但是根据实际要求的不同，有时候我们需要自己构建Fasta文件，如果您已近有了想用来构建进化树的序列，您可以如右图所示构建自己的文件，文件的保存格式是：文件名.txt

实例讲解下面我们以禽流感病毒为例，构建系统进化树。首先我们要下载我们所需的序列。 http://www.ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi?go=genomeset

实例讲解请在Define search set: 中选择我们想要的禽流感病毒的Type, Host, Country/Region, Subtype. 这里我们选在了A型禽流感病毒，当然在这次练习中您喜欢的任意类型。

实例讲解请在Define search set: 中选择我们想要的禽流感病毒的Type, Host, Country/Region, Subtype. 这里我们选在了A型禽流感病毒，当然在这次练习中您喜欢的任意类型。当您确定之后请点击 Show results

实例讲解当您点击完 Show results 之后你要做的就是选在我们所需的序列了

实例讲解因为禽流感病毒不像别的很多别的病毒只有核苷酸序列，它拥有八个或者七个Negative -sense RNA。

实例讲解　　这里我们只要选中其中一种就可以了，比如说ＨＡ，我们可以选择２０个样本来构建系统进化树。样本选择完之后请点击Download，文件类型选择Nucleotide (Fasta)，并把文件保存在计算机您熟悉的地方。（当然根据需求的不同您也可以选在蛋白序列）

实例讲解文件下载完之后，下载的Fasta 文件直接用 ClustalX 2.0.12打开

实例讲解在进行多序列比对之前我们需要对软件进行一些设置 1.选择Alignment标签 2.选择Output format options 请将Clustalw sequences numbers选项设置为 On 之后点击 Ok ，在返回主界面之后请点击Alignment 标签选择 Do Complete Alignment选项选择保存路径之后点击ok，剩下的时间可以去喝点咖啡休息一下。

实例讲解从图中我们可以发现起始序列最短的是从位置22开始的，而尾端序列最短的是在位置1738，通过设置我们可以保存这样一批已经经过掐头去尾后的序列,保存格式为：文件名.aln。当然我们也可以直接保存为Fasta format, 如果选择前者我们需要用BioEdit转换格式，如果是后者我们可以直接进入建树阶段。点击主界面中的 File标签选择 Save as选项，并按照例子设置参数

实例讲解经过ClustalX2掐头去尾后的序列可以用BioEdit软件打开，选择FileSave as保存类型为:文件名.fasta. 当我们查询结果的时候可以发现这和用ClustalX2保存的fasta文件是一致的。

实例讲解下一步我们将介绍如何用MEGA构建我们的进化树，首先请大家用MEGA软件将我们之前保留的Fasta文件打开。

实例讲解下一步我们将介绍如何用MEGA构建我们的进化树，首先请大家用MEGA软件将我们之前保留的Fasta文件打开这时候会有两个窗口，选择File标签-->Convert file format to Mega.

实例讲解选择File标签-->Convert file format to Mega. 当给出相应的文件路径之后点击ok ,然后制定输出文件格式：文件名.meg

实例讲解双击刚才保存的meg文件. 选择数据类型，在本次测试中我们用的是核苷酸序列，对于右边的参数信息请点击help按钮。更具实际的情况我们这里选择No选项

实例讲解参数设置好之后点击compute. 下一步进入建树的最后阶段在Plylogeny中选择建树方法，这里我们选择NJ法。蛋白质序列一般选择Poisson Correction（泊松校正）,对于核苷酸序列一般采用Kimura-2模型

实例讲解根据Mega的计算最终我们得到了序列中的进化关系。 Mega软件还可以自动提供一份简要的分析报告，你只需要点击Caption按钮报告便可以自动生成。如果Bootstrap Value >70我们认为这个分支是可靠的

实例讲解进化树评估优化方法简介：常用的两种方法就是Bootstrap和Jackknife。所谓Bootstraping法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列，一个多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可能性法、邻位相连法）每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最“逼真”的进化树。其数值反应了该树枝的可信的百分比。所谓Jackknife则是另外一种随机选取序列的方法。它与 Bootstrap法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。 Double Check 通常情况下当我们用建树的一种方法获得了树图之后，我们建议大家可以通过另外的方法建树，如果先后的两个树图大体一致，我们认为之前构建的树是相对可靠的。

Thanks