第十章 古DNA数据分析
主要内容 系统发育分析 遗传多维尺度分析 主成分分析 群体遗传学分析
系统发育分析 系统发育(phylogeny)是指一群有机体发生或进化的历史。 系统发育树(phylogenetic tree),也称为谱系发育树、谱系树、系统发生树、系统树)就是描述这一群有机体发生或进化顺序的拓扑结构 。 系统发育分析(phylogenetic analysis)就是指利用现有生物的形态或分子生物学数据重建(reconstruction)系统发育树推断系统发生的过程。
系统发育树
系统发育树形式 有根树(rooted tree)和无根树(unrooted tree)
系统发育树形式 标度树和非标度树
系统发育树形式 基因树和物种树 基因树与物种树之间的不同 图(a)基因的分歧时间早于物种的分歧时间 (b)基因的分歧时间晚于物种的分歧时间
系统发生树的构建 (1)序列比对与排序; (2)系统发育树的重建; (3)结果的检验。
序列比对与排序 序列比对与排序是构建系统发育树、进行系统发育分析的前提和必要条件。在古DNA研究中,序列比对的目的就是建立起所检测序列与其他序列的同源关系,提取系统发育分析数据集。 序列比对有各种不同的方法,这些方法都是将同源序列位点上相同或相似残基(称匹配位点)与不相似残基(称不匹配位点)按一定的记分规则转化成序列之间相似性或差异性(距离)数值进行比较。 ClustalX (ClustalW) 是进行此项工作的经典程序。
系统发育树的重建 在古DNA研究中,主要的系统发育树重建方法有3类: 距离法 简约法 似然法
距离法 距离法(distance method)首先根据距离模型估算出分类群间的进化距离,然后根据不同的聚类算法,从进化距离最短的开始依次聚类,利用距离值矩阵计算出最优树,或将总的树枝长度最小化而优化出进化树 。 计算个体间遗传距离的替代模型有很多,最基本的核苷酸序列替代模型是P-距离模型、Jukes—Cantor单参数模型(JC69)、Kimura双参数模型(K2P,也称为K80),在此基础上衍生出其它一系列模型,如Tajima-Nei模型、Tamura模型、Tamura-Nei模型等。
P距离 P-距离模式最简单的距离模型,将2个序列间核苷酸差异率作为彼此间的遗传距离,其计算公式为: 式中nd和n分别为所检测的两序列间的核苷酸差异数和配对总数。
Jukes-cantor距离模型 Jukes-cantor模型假定任一位点的4种核苷酸A、T、G和C间的替代频率都是相同的,其遗传距离为: 式中P为两个序列间核苷酸的差异率。
Kimura双参数距离模型 事实上,在DNA 序列中4种核苷酸的替代频率是不同的,通常核苷酸转换的比率要高于颠换,Kimura双参数模型考虑了转换和颠换速率的不同,其遗传距离为: 式中P 和Q 分别为序列中核苷酸转换和颠换的比率
群体之间的遗传距离 对于群体之间的遗传距离,常用以下公式计算: 其中 dij 是指种群i和j间的平均配对差异(raw mean nucleotide pairwise difference),而d i和 dj则分别为种群i和j内的平均配对差异。
距离模型的选择 当序列分歧比较大时,不同距离测度获的结果差异比较大;但序列分歧比较小时,各种模型所得的数据十分相近。目前古DNA研究的对象多为10万年内的人、动植物等,其序列分歧度都不是很大,因此无论选择哪种距离模型,对实验的分析结果影响都比较小。 在古DNA研究中一般选用Kimura双参数距离模型,在实际应用中,此遗传距离模型和其它模型相差不大。
距离法常用的聚类算法 算术平均不加权的组对法(unweighted pair group method with arithmatic mean, UPGMA)、 FM法(Fitch-Margoliash)、 最小进化法(minimum evolution, ME) 邻接法(neighbor-joining, NJ)
NJ法 NJ法在系统发育树构建中应用最为广泛,其原理是逐步寻找新的近邻种类(序列),使最终生成的分子树的遗传距离总长度为最小。所谓“近邻”是指在谱系树上两个分类单元只通过一个内部节点相连。 对于古DNA研究来说,通常选用NJ法构树。
简约法 简约法(parsimony methods)中最有影响的是最大简约法(Maximum Parsimony, MP),该方法源于形态性状的研究,运用最相近的生物间性状变化量最少的演化原理确定最短的进化树,该树仅需要最少的进化步骤就能解释所有DNA序列之间的变异 。 构建最简约谱系树的位点被称为简约信息点(informative site)当无论有多少条序列进行比对后,如果一个位点是信息位点,那么在这个位点上它至少要包含两种不同的核苷酸,而且每种核苷酸至少在两个序列中出现。
最大简约树的构建 最大简约法应用于序列数据构建包括以下几个步骤: ⑴ 确定所有的信息位点, ⑵ 对所有可能的树型,计算每个信息位点上的发生核苷酸替代的最低次数,并对所有信息位点的最低替代数目求和, ⑶ 选择核苷酸替代次数总和最小的树作为最简约谱系树。
一致树consensus tree 在简约法中会产生多颗等价的简约树是很常见的,大量近源序列组成的数据集有时会产生成百上千棵树,无法得到准确的系统发育信息。此时最好的办法是将所有的谱系树合成为一个谱系树,即一致树。 一致树可分为: 严格一致树(strict consensus tree) 多数一致树(majority-rule consensus tree)
似然法 似然法(likelihood methods)中最常用的是最大似然法(Maximum Likelihood, ML),这类方法首先要确定一个序列进化模型,例如Kimura双参数模型等。然后在该模型下寻找可能的系统树,最后通过比较系统树的似然函数值,将具有最大似然值的系统树视为最佳的系统树。 实际上,似然值是从比对的每一个碱基位点衍生出来的。如果以核苷酸替代模型为基础,最大似然法需要确定每个分支在一定时间间隔内核苷酸发生特定替代变化的概率。
中介网络法(median network) mtDNA控制区序列系统发育信息位点少,受频发突变影响而出现多系或网状结构,上述这些传统构树方法往往最后只使用一棵分子系统树, 很难反映单倍型序列间的真实系统发育关系。此外, 这些方法在构建分子系统树时,不考虑单倍型的频率及其地理来源的信息。 Bandelt等提出一种新的构树方法—中介网络法,可以构建中介网络图,该图包含所有最简约的树,而且可显示序列的信息(如同质性位点的位置、突变热点以及分辨单倍型类群等),在聚类簇中节点之间的距离越近,它们的单倍型就越相近。
不同构树方法的评估和比较 在研究实际问题的过程中,不同谱系构树方法获得的结果不尽相同。目前还没有一种构树方法可以适合于所有的数据和条件。 在构建系统发育树时,最好同时使用多种方法构建系统树,多种方法所获系统树的一致,将大大提高结果的可靠性。当然无论使用何种方法重建系统树,都必须对其分支格局的统计置信度进行检验。
系统发育树的检验 当一个系统树建成后,确定其可靠性十分重要。因此在构建系统发育树之后,应当对所建立的系统树的准确度加以评估。一个系统树一般会有两类误差:拓扑结构误差和分支长度误差。 在检验分子系统树的精确性时一般首先检验分支拓扑结构存在的误差,而分枝长度估计的可靠性可以通过自展法来检验。
自展法(bootstrap method) 自展法根据从原始数据集中随机抽样产生的自展数据集构建多个系统发育树,然后检验这些谱系树对一致树各个支系的支持率。 自展法可以对距离构树方法、最大简约建树方法、最大似然构树方法以及衍生出的其它任何方法进行评估。 典型的自展检验分析结果是一个数字,这个数字同一个系统发育进化树的一个特定分支相关,而这个系统发育进化树则给出了支持单源进化分支的自展的重复比例。 如果自展值大于70%,那么所得到的系统发育进化树能够反映真实的系统发生史的可能性要大于95%。
遗传多维尺度分析 对于亲缘关系较近的群体,用构建系统发育树的方法分析其遗传关系有一定的局限性。当亲缘关系很近时,不同方法所得到的系统发育树在分支上总是或多或少存在差别,而在理论上无法判定哪种谱系更为合理。 多维尺度分析基于对象间的相似性或不相似性,它从原始变量中得到一系列经过简化的新变量,并以新变量为基础,对对象进行缩放,用图形表示对象在多维空间(Muti—dimensionaL space,MDS)中的关系的。
遗传多维尺度分析 在遗传多维尺度分析过程中,它以两个群体间的遗传距离作为尺度,在多维图上遗传距离接近的群体会聚在一起,从而直观形象的推断出群体间遗传距离的远近。 但是,MDS法仅仅以两两亚群体间的遗传距离作为尺度,缺乏对整个群体进化发育关系的宏观考虑,同时在数据转化为一个二维平面或三维空间的尺度问题上也存在一定的局限。因此在分析古DNA数据时,宜将MDS法和构建系统发育树这两种方法结合起来考虑,这样可以得到更合理的结果。
图 契丹与7个现代对比人群的多维度分析OM=外蒙古、IM=内蒙古、DAU=达斡尔、N H=北方汉族、UIG=维吾尔、KAZ=哈萨克、UZB=乌兹别克
主成分分析 在多数实际问题中,当我们对同一个体进行多项观察时,必定涉及多个随机变量。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。 我们希望有一个或几个较好的综合指标(即主成分)来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。主成分分析的实质是将样本的多个指标化为少数的几个指标的一种多元统计方法。
群体遗传学分析 群体遗传学主要研究基因频率在群体中的变化规律以及如何保持遗传多样性。 群体遗传结构动态分析主要这主要包括:遗传多样性指度分析、核苷酸不配对差异分析、中性检验和分子差异性分析以及基因混合度分析等。
群体遗传多样性指度分析 遗传多样性指度分析主要指: 基因多样性(gene diversity) 核苷酸多样性(nucleotide diversity) 平均配对差异数(mean number of pairwise differences)。
基因多样性 当一个基因座上有两个或两个以上的等位基因存在时,我们就称该基因座具有基因多态性(genetic polymorphism)。在群体中一个基因座的基因多样性计算公式如下: n 是基因拷贝在样本中的数目,对于单倍体来说 n 就是样本的数量,对于二倍体来说 n 是标本数的2倍。K 是等位基因的数目,Pi是第i个等位基因的群体频率。
核苷酸多样性 一个不依赖于样本大小的DNA多态性的测度是两个序列间每个位点上核苷酸差异的平均值或核苷酸多态性,计算公式如下: dij是第i个等位基因和第j个等位基因间的核苷酸差异数,L是序列的长度。
平均配对差异数 平均配对差异数指所有序列比对差异数的平均数,计算公式如下 : n是样本的数量,其他参数与上面相同。
核苷酸配对差异分析与中性检验 一般来说,群体是否经受扩张、瓶颈效应或保持群体大小恒定等会影响到群体间的遗传距离。因此,当我们分析群体间的亲缘关系时,也需考察群体的历史动态,核苷酸配对差异分布分析和中性检验就是两个有力的检验工具。
核苷酸配对差异分布分析 核苷酸配对差异分布分析(Mismatch distribution)是将一个或多个群体的任意两个序列进行两两比较得出的各序列间配对差异的分布情况。 通过观察群体的核苷酸配对差异分布曲线,可以推测群体的历史动态。当分布曲线呈现单峰泊松分布时,表明群体在过去经受过扩张或持续增长。
中性检验 通过中性检验也可以推断群体的历史动态。在古DNA研究中应用最为广泛的是Tajima’s 和 Fu’s Fs中性检验,当Tajima’s D值和Fu’s Fs值呈现较大的负值,显著偏离中性突变时,可以作为一个古代群体扩张的证明。
中国古代马群体扩张 Fu’s Fs负值(-14.21,P=0.0000)
分子差异分析 分子差异性分析(analysis of molecular variance, AMOVA) 主要以分子单倍型之间的突变数目为基础,通过对所研究群体进行不同层次的归类和划分,可界定不同的遗传结构并进行统计学检验,从而估计出群体间、群体内以及个体间不同层次所表现的差异占总变异的多少,可以讨论不同海拔高度、不同语系、以及地理群体间是否存在相应的遗传变异,尤其在比较不同群体之间遗传相关性大小时十分有用。
基因混合度计算 一个生物类群或种群的来源往往是多元的,而祖先类群对新类群形成的贡献率很可能是不相等的,要定量地刻划每个祖先类群对新类群的基因贡献的大小,就须借助基因混合度的计算。 在假设两个祖先人群A,B和混合人群M进化速率相同的情况下,由A人群贡献给M人群的基因的比例可表示为:M = 1/2 +(fBM-fAM)/2*fAB其中fAB为A,B两个祖先人群之间的统计频率距离,fAM和fBM为每个祖先人群和混合人群之间的统计频率距离。