系统进化树的构建方法与软件应用 姓名:张镜悬 E-mail:J.zhang@biosino.com.cn.

Slides:



Advertisements
Similar presentations
3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
Advertisements

龙星课程—肿瘤生物信息学上机课程 曹莎
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
第10章 生物信息学基础.
证券投资技术分析.
在PHP和MYSQL中实现完美的中文显示
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
Hadoop I/O By ShiChaojie.
SOA – Experiment 3: Web Services Composition Challenge
元素替换法 ——行列式按行(列)展开(推论)
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
第一讲: 基本流程(1).
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
生物序列的信息检索 多序列比对及进化树的构建
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
数据挖掘工具性能比较.
生物序列的信息检索 多序列比对及进化树的构建
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
使用矩阵表示 最小生成树算法.
第十章 古DNA数据分析.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
无向树和根树.
程序设计工具实习 Software Program Tool
顺序表的删除.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
姚金宇 MIT SCHEME 使用说明 姚金宇
超越自然还是带来毁灭 “人造生命”令全世界不安
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
Web安全基础教程
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
长春理工大学 电工电子实验教学中心 数字电路实验 数字电路实验室.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
第六章 素材的加工与处理 第13讲 用GoldWave进行音频的截取、合并、淡入淡出操作
树和图 tree and graph 蔡亚星.
LOGIX500软件入门 西安华光信息技术有限公司 2008年7月11日.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
第七、八次实验要求.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
SCI收录号查询方法介绍 上海大学情报研究所
波形平均和叠加分析指南 上海骐驰仪器有限公司 Shanghai Qichi Instruments Co. Ltd.
分数再认识三 真假带分数的练习课.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Python 环境搭建 基于Anaconda和VSCode.
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
基于列存储的RDF数据管理 朱敏
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
基因信息的传递.
YOUR SUBTITLE GOES HERE
多序列比对和系统进化分析 ——以镰刀形贫血症为例 浙江大学生物信息实验室.
第8章 创建与使用图块 将一个或多个单一的实体对象整合为一个对象,这个对象就是图块。图块中的各实体可以具有各自的图层、线性、颜色等特征。在应用时,图块作为一个独立的、完整的对象进行操作,可以根据需要按一定比例和角度将图块插入到需要的位置。 2019/6/30.
本节内容 如何调试驱动程序? 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
第四章 UNIX文件系统.
第十七讲 密码执行(1).
第十二讲 密码执行(上).
创建、启动和关闭Activity 本讲大纲: 1、创建Activity 2、配置Activity 3、启动和关闭Activity
基于学案制作ppt 录屏工具使用 郑建彬.
位似.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
最小生成树 最优二叉树.
学习目标 1、什么是列类型 2、列类型之数值类型.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
百万行、千万行数据查询教程 老黄牛.
Presentation transcript:

系统进化树的构建方法与软件应用 姓名:张镜悬 E-mail:J.zhang@biosino.com.cn

什么是系统进化树 系统进化树又称为演化树,是表明被认为具有共同祖先的各物种间演化关系的树.在树中每个节点代表其各个分支的最近共同祖先,而节点的线段长度对应了其演化的距离。 (http://en.wikipedia.org/wiki/Phylogenetic_tree)

直系同源和旁系同源 直系同源:同源的基因是由共同的祖先基因进化而产生的。 旁系同源:同源的基因是由于基因复制产生的。 这也就告诉我们用于分子进化分析中的序列必须是直系同源的才可以真实的反映其进化的过程。

系统进化树的分类 根据树是否有根,进化树可以分为有根树和无根树两类。

有根树和无根树的进化层面上的意义 有根树反应了树上物种或者基因进化的时间顺序,通过分析有根树的长度,可以了解不同的物种或者基因以什么方式和速率进化。 无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题 做有根树需要指定outgroup。所谓out group , 就是你所分析的东西之外的一个group。比如你分析人类的不同人种,就选个chimpanzee,你要分析哺乳动物,就选个鳄鱼乌龟之类,总之保证它在 你要分析的group之外,但又不太远就行了。将你选定的东西指定为outgroup,做出来的树就是有根树。out group可以不只一个,它是一个group。

系统进化树的结构 进化树的结构主要分为三部分: 树叶 树枝 节点 其中我们把从同一个节点上分出的两个分支叫做sister group. branch node 进化树的结构主要分为三部分: 树叶 树枝 节点 其中我们把从同一个节点上分出的两个分支叫做sister group. Sister group 从结构上可以理解为从进化史上看两者非常接近,其次两者拥有唯一的共同的祖先。

系统进化树的结构 a b c d a b d c a c d b 从结构上看,我们认为这三个树是等价的

构建系统进化树的理论方法 最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。 优点:最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。 缺点:在分析序列上存在较多 的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。

构建系统进化树的理论方法 最大似然法(maximum likelihood,ML) 最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。当样本量很大的时候,似然法可以获得参数统计的最小方差。 最大似然法分析中,选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构 作为最优树。 最大似然进化模型 简单假设所有核苷酸(或者氨基酸)之间相互转变的概率是一样的 程序会把所有可能的核苷酸轮流置于进化树的内部节点上,并且计算每个这样的序列产生实际数据的可能性。 所有可能再现的几率被加总,产生一个特定点的似然值,然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。  

构建系统进化树的理论方法 邻近法(Neighbor-Joining Method,NJ ) 该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。

构建系统进化树的所涉及的工具 PHYLIP MEGA R Matlab BioEdit TreeView PHYML ClustalX

构建系统进化树的所涉及的工具 PHYLIP 由美国华盛顿大学Felsenstein开发,可以免费下载,适用于绝大多数操作系统 PAUP 由美国simthsonion institute开发,仅适用于Apple-Macintosh和UNIX操作系统 MEGA 美国宾夕法尼亚州立大学MasatoshiNei开发的分子进化遗传学软件,图形化,集成的进行分析工具,不包括ML MOLPHY 日本国立统计数理研究所开发,最大似然法构树 PAML 英国University college London开发,最大似然法构树和分子进化模型

构建系统进化树的所涉及的工具 PUZZLE 应用quarter puzzling方法(一种最大简约法)构建系统树 TreeView 英国University of Glasgow开发,进化树显示工具 Phylogeny 欧洲生物信息研究所(EBI)的系统发育分析软件 PHYML 快速的ML建树工具 MrBayes 基于贝叶斯方法的建树工具 MAC5 基于贝叶斯方法的建树工具 

软件的选择 构建NJ树,可以用PHYLIP或者MEGA 构建MP树,可以使用PHYLIP或者MEGA 构建ML树可以使用PHYML,速度快,同时构建ML树还可以用PHYLIP,或者可 以使用BioEdit 贝叶斯的算法以MrBayes为代表,不过速度比较慢 关于系统发育分析的更多知识请参阅: http://www.bioon.com/biology/bioinfo2/78842.shtml

构建系统进化树的主要步骤 大体来说构建系统进化树的步骤有三步: 序列比对 (ClustalX2)

构建系统进化树的主要步骤 2. 掐头去尾 选取所需序列 转换格式(BioEdit or ClustalX2) Example: 3. 利用相关软件绘制系统进化树(BioEdit,MEGA)

实例讲解 下面的内容将教大家如何来构建自己的系统进化树。 首先我们需要弄清楚一个很重要的问题,什么是Fasta 格式? 在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号“>”或分号“;”打头的任意文字说明(习惯常用“>”作为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。

构建我们自己的Fasta 文件 很多情况下,Fasta文件是直接可以从数据库中下载得到的,但是根据实际要求的不同,有时候我们需要自己构建Fasta文件,如果您已近有了想用来构建进化树的序列,您可以如右图所示构建自己的文件,文件的保存格式是: 文件名.txt

实例讲解 下面我们以禽流感病毒为例,构建系统进化树。 首先我们要下载我们所需的序列。 http://www.ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi?go=genomeset

实例讲解 请在Define search set: 中选择我们想要的禽流感病毒的Type, Host, Country/Region, Subtype. 这里我们选在了A型禽流感病毒,当然在这次练习中您喜欢的任意类型。

实例讲解 请在Define search set: 中选择我们想要的禽流感病毒的Type, Host, Country/Region, Subtype. 这里我们选在了A型禽流感病毒,当然在这次练习中您喜欢的任意类型。当您确定之后请点击 Show results

实例讲解 当您点击完 Show results 之后你要做的就是选在我们所需的序列了

实例讲解 因为禽流感病毒不像别的很多别的病毒只有核苷酸序列,它拥有八个或者七个Negative -sense RNA。

实例讲解   这里我们只要选中其中一种就可以了,比如说HA,我们可以选择20个样本来构建系统进化树。样本选择完之后请点击Download, 文件类型选择Nucleotide (Fasta),并把文件保存在计算机您熟悉的地方。(当然根据需求的不同您也可以选在蛋白序列)

实例讲解 文件下载完之后,下载的Fasta 文件直接用 ClustalX 2.0.12打开

实例讲解 在进行多序列比对之前我们需要对软件进行一些设置 1.选择Alignment标签 2.选择Output format options 请将Clustalw sequences numbers选项设置为 On 之后点击 Ok ,在返回主界面之后请点击Alignment 标签选择 Do Complete Alignment选项 选择保存路径之后点击ok,剩下的时间可以去喝点咖啡休息一下。

实例讲解 从图中我们可以发现起始序列最短的是从位置22开始的,而尾端序列最短的是在位置1738,通过设置我们可以保存这样一批已经经过掐头去尾后的序列,保存格式为:文件名.aln。当然我们也可以直接保存为Fasta format, 如果选择前者我们需要用BioEdit转换格式,如果是后者我们可以直接进入建树阶段。 点击主界面中的 File标签选择 Save as选项,并按照例子设置参数

实例讲解 经过ClustalX2掐头去尾后的序列可以用BioEdit软件打开,选择FileSave as保存类型为:文件名.fasta. 当我们查询结果的时候可以发现这和用ClustalX2保存的fasta文件是一致的。

实例讲解 下一步我们将介绍如何用MEGA构建我们的进化树,首先请大家用MEGA软件将我们之前保留的Fasta文件打开。

实例讲解 下一步我们将介绍如何用MEGA构建我们的进化树,首先请大家用MEGA软件将我们之前保留的Fasta文件打开这时候会有两个窗口,选择File标签-->Convert file format to Mega.

实例讲解 选择File标签-->Convert file format to Mega. 当给出相应的文件路径之后点击ok ,然后制定输出文件格式:文件名.meg

实例讲解 双击刚才保存的meg文件. 选择数据类型,在本次测试中我们用的是核苷酸序列,对于右边的参数信息请点击help按钮。 更具实际的情况我们这里选择No选项

实例讲解 参数设置好之后点击compute. 下一步进入建树的最后阶段 在Plylogeny中选择建树方法,这里我们选择NJ法。 蛋白质序列一般选择Poisson Correction(泊松校正),对于核苷酸序列一般采用Kimura-2模型

实例讲解 根据Mega的计算最终我们得到了序列中的进化关系。 Mega软件还可以自动提供一份简要的分析报告,你只需要点击Caption按钮报告便可以自动生成。 如果Bootstrap Value >70我们认为这个分支是可靠的

实例讲解 进化树评估优化方法简介:常用的两种方法就是Bootstrap和Jackknife。         所谓Bootstraping法 就是从整个序列的碱基(氨基酸)中任意 选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序 列就可以变成了许多序列,一个多序列组也就可以变 成许多个多序列组。 根据某种算法(最大简约性法、最大可能性法、邻位相连法)每个多序 列组都可以生成一个进化树。将生成的许多进化树进行比 较,按照多数 规则(majority-rule)我们就会得到一个最“逼真”的进化树。其数值 反应了该树枝的可信的百分比。 所谓Jackknife则是另外一种随机选取序列的方法。它与 Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半 的新序列。 Double Check 通常情况下当我们用建树的一种方法获得了树图之后,我们建议大家 可以通过另外的方法建树,如果先后的两个树图大体一致,我们认为之 前构建的树是相对可靠的。

Thanks