第十章 古DNA数据分析.

Slides:



Advertisements
Similar presentations
熱烈歡迎 各級長官 貴賓 全體會員 蒞臨會場.
Advertisements

“ 十五 ” 国家级规划教材 新世纪全国高等中医院校规划教材 中 医 妇 科 学 总 论 主讲人 李朝平.
第十八章 判别分析 Discriminant Analysis. Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant.
教育部 輔導教官:林家豪 年度育達商職紫錐花運動 強化反毒健康小學堂輔導課程 簡 報.
1 安全乘坐电梯 与大型游乐设施 福建省特检院宁德分院党支部 王祖生 特种设备安全知识进校园.
行政院原住民族委員會 法規暨訴願審議委員會 102 年度原住民身分法實例演練講習: 原住民身分認定及救濟程序.
本校自民國 78 年於顏前校長世錫任內創設本系 設立鑑識科學學系大學部,專責鑑識人才之培養, 為目前國內唯一專門培育鑑識科學人才、研究鑑識 科學學術之大學學系,設系剛滿 20 年。自 85 年於姚 前校長高橋任內,設立鑑識科學研究所招收碩士生 ,民國 88 年於謝前校長瑞智任內先後獲內政部、教.
第二节 基因在亲子代间的传递. 1. 什么叫做遗传? 2. 什么叫做性状? 3. 性状是由什么决定的?
高一年级组家长会. 一、考试成绩分析 二、存在的问题 三、给家长的建议 四、科任教师交流 表扬 1 、 年级组语数外成绩优异同学 ( 年级排名 ) 李 芮第 1 名 吕明洋第 2 名 王 越第 3 名 杨天宇第 4 名 张凯燕第 5 名 李 曦第 7 名 魏书静第 8 名 项春怡第 10 名 郑明明第.
沟通交流 活动有序 内容轻松 文明守纪 团结共进 1. 成立家长委员会, 通知 15 人明天下午 3-5 点五楼报告厅 “ 全面育人教育论坛 ” 2. 介绍附中、年级、班级的规范和要求 日常行为规范,高中学习特点,考试、作业要求 3. 开学以来年级、班级开展的工作及安排 开学以来年级、班级开展的工作及安排.
教务处 年夏季大学英语等级考试 六级监考注意事项. 教务处 2 (一)本次考试基本情况 科目人数考场数 英语六级
第二章:生物科學與食品 第三節:基因改造食品.
生 命 教 育 「讓愛傳出去」 組別:第10組 組員:495i0004 陳靜宜 495i0009 郭品秀 495i0011 林千玉
1、毛将后代握手言欢泯恩怨 2、美国总统奥巴马访华.
大学生安全防范知识 城北派出所 陶燕雄.
远 方 宽厚肩膀,手指干净而修长。 笑声像大海,眼睛里有阳光。 我想象你,一定就是这样。 还没出现,就已对你爱恋;还没遇见,就先有了思念。
第三章 现代教育与人的发展.
我们向往新的飞翔 青岛顺兴路小学.
一、基因工程簡介 二、複製人與複製動物 三、基因食品 四、創造新物種
欢迎各位家长 同样的心情 一样的期待 初二(2)班家长会.
藝術與人文---太鼓.
孩子腹泻病的预防与治疗.
第21课时 生物圈中的微生物 考 点 聚 焦 专 项 突 破 1.
國民中學 自然與生活科技 第二冊 第3章 生殖 3-1 細胞分裂 3-2 無性生殖 3-3 有性生殖.
《成人健康护理学》的 教学组织与实施 何平先.
第2章 基因和染色体的关系 第1节 减数分裂和受精作用.
学校核心发展力 上海市建平中学 程红兵.
必修二 生物 (人教版).
第10章 生物信息学基础.
想一想 议一议 P74 我们常吃的蘑菇有根、茎、叶吗? 它们的生长是否需要光? 为什么说它们是真菌而不是植物呢?
三次科技革命 学习目标: 1.知道三次科技革命的时间、标志、发源地、理论基础、主要成就、主要特点及影响。 2.培养归纳历史知识的能力
热烈欢迎您 参加家长会!.
吳 慎 宜 文化大學勞動暨人力資源系講師 FM91.3 台北勞工教育電台台長
王永慶遺產分配 第三組民法報告 4970T011 劉昭妤 4970T037 吳品怡 4970T090 袁如意
台南在地美食文化介紹 台南市鳳凰城文史協會 理事長 歐財榮.
第四节 地域文化与人口 有儿无女不称心,有女无儿就伤心; 一儿一女不放心,多子多女才舒心。 有权的顶着生,有钱的买着生;
复 习 纲 要.
一、作者概說:    王壽來,民國三十八年生,山西省 五臺縣人,中興大學 法律系畢業,美國 喬治城大學碩士、臺灣師範大學 美術研究所碩博士。長期從事文化與外交工作,現任文建會 文化資產總管理處籌備處主任。   王壽來靈感多取自生活經驗,善用中外名言,描繪人生百態。著有《公務員快意人生》、《藝術‧收藏‧我》、《公務員DNA》、《和世界偉人面對面》等書。
请同学们思考下列问题:.
第十九章 聯合分析、多元尺度方法 和集群分析
基于微卫星标记的12个地方鸡种遗传多样性保护等级分析
导入新课 波能绕过障碍物产生衍射。既然光也是一种波,为什么在日常生活中难以观察到光的衍射现象呢?.
高中生物学必修Ⅰ 分子与细胞 前 言.
提示语、广告词 颁奖词、衔接语 感谢信、通告启事 图文转换
。星。星。の。承。諾。 6年15班 7號 張靖旋 作者:不明.
令我后悔的一件事.
关注生物技术的 伦理问题.
2015年高考历史质量分析报告 兰州市外国语高级中学 杨彩玲.
肝功能正常的小三阳注意事项.
突變 突變是指遺傳物質發生改變, 而影響到性狀的表現 例:白化症.
司法机关.
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
生物五界的分類方式.
主題:踏出宣教路 使12:11 彼得醒悟過來,說:「我現在真知道主差遣 他的使者,救我脫離希律的手和猶太百姓一
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法.
人是由什么发育而来的? 一个受精卵.
(歡迎各校教師下載使用,內容有誤敬請賜教,使用時敬請註明來源)
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法
歐巴桑症候群 *** 歐巴桑症候群***.
聚类分析法预测(Cluster Analysis)
系统发育就是指生物谱系的分支演化历史,或是指生命自起源 后的整个遗传进化史 (Avise,2006)
─Molecular Weight of a Water Soluble Polymer by Viscosity Method
集群分析(Cluster) 根據觀察值在一群變項上的測量值進行分類的多變量分析方法。 在不同專業領域也稱為
西太平洋與東熱帶太平洋海域泛熱帶斑海豚 族群變異與地理親緣關係 姚秋如 指導教授:林曜松博士、周蓮香博士
資管人的規劃 -學校生活資源 1 1.
非同源染色体:不是同源染色体的两条染色体
台灣產毛茛科鐵線蓮屬 ( Clematis ) 植物分子親緣關係之探討 黃佳茵 ,胡哲明 國立台灣大學 生態學與演化生物學研究所 前言:
Intra-population Genetic Structure of Camellia hengchunensis Chang
证据运用 第八章 证据的运用 第一节 证据体系的结构及运用规则.
Presentation transcript:

第十章 古DNA数据分析

主要内容 系统发育分析 遗传多维尺度分析 主成分分析 群体遗传学分析

系统发育分析 系统发育(phylogeny)是指一群有机体发生或进化的历史。 系统发育树(phylogenetic tree),也称为谱系发育树、谱系树、系统发生树、系统树)就是描述这一群有机体发生或进化顺序的拓扑结构 。 系统发育分析(phylogenetic analysis)就是指利用现有生物的形态或分子生物学数据重建(reconstruction)系统发育树推断系统发生的过程。

系统发育树

系统发育树形式 有根树(rooted tree)和无根树(unrooted tree)

系统发育树形式 标度树和非标度树

系统发育树形式 基因树和物种树 基因树与物种树之间的不同 图(a)基因的分歧时间早于物种的分歧时间 (b)基因的分歧时间晚于物种的分歧时间

系统发生树的构建 (1)序列比对与排序; (2)系统发育树的重建; (3)结果的检验。

序列比对与排序 序列比对与排序是构建系统发育树、进行系统发育分析的前提和必要条件。在古DNA研究中,序列比对的目的就是建立起所检测序列与其他序列的同源关系,提取系统发育分析数据集。 序列比对有各种不同的方法,这些方法都是将同源序列位点上相同或相似残基(称匹配位点)与不相似残基(称不匹配位点)按一定的记分规则转化成序列之间相似性或差异性(距离)数值进行比较。 ClustalX (ClustalW) 是进行此项工作的经典程序。

系统发育树的重建 在古DNA研究中,主要的系统发育树重建方法有3类: 距离法 简约法 似然法

距离法 距离法(distance method)首先根据距离模型估算出分类群间的进化距离,然后根据不同的聚类算法,从进化距离最短的开始依次聚类,利用距离值矩阵计算出最优树,或将总的树枝长度最小化而优化出进化树 。 计算个体间遗传距离的替代模型有很多,最基本的核苷酸序列替代模型是P-距离模型、Jukes—Cantor单参数模型(JC69)、Kimura双参数模型(K2P,也称为K80),在此基础上衍生出其它一系列模型,如Tajima-Nei模型、Tamura模型、Tamura-Nei模型等。

P距离 P-距离模式最简单的距离模型,将2个序列间核苷酸差异率作为彼此间的遗传距离,其计算公式为: 式中nd和n分别为所检测的两序列间的核苷酸差异数和配对总数。

Jukes-cantor距离模型 Jukes-cantor模型假定任一位点的4种核苷酸A、T、G和C间的替代频率都是相同的,其遗传距离为: 式中P为两个序列间核苷酸的差异率。

Kimura双参数距离模型 事实上,在DNA 序列中4种核苷酸的替代频率是不同的,通常核苷酸转换的比率要高于颠换,Kimura双参数模型考虑了转换和颠换速率的不同,其遗传距离为: 式中P 和Q 分别为序列中核苷酸转换和颠换的比率

群体之间的遗传距离 对于群体之间的遗传距离,常用以下公式计算: 其中 dij 是指种群i和j间的平均配对差异(raw mean nucleotide pairwise difference),而d i和 dj则分别为种群i和j内的平均配对差异。

距离模型的选择 当序列分歧比较大时,不同距离测度获的结果差异比较大;但序列分歧比较小时,各种模型所得的数据十分相近。目前古DNA研究的对象多为10万年内的人、动植物等,其序列分歧度都不是很大,因此无论选择哪种距离模型,对实验的分析结果影响都比较小。 在古DNA研究中一般选用Kimura双参数距离模型,在实际应用中,此遗传距离模型和其它模型相差不大。

距离法常用的聚类算法 算术平均不加权的组对法(unweighted pair group method with arithmatic mean, UPGMA)、 FM法(Fitch-Margoliash)、 最小进化法(minimum evolution, ME) 邻接法(neighbor-joining, NJ)

NJ法 NJ法在系统发育树构建中应用最为广泛,其原理是逐步寻找新的近邻种类(序列),使最终生成的分子树的遗传距离总长度为最小。所谓“近邻”是指在谱系树上两个分类单元只通过一个内部节点相连。 对于古DNA研究来说,通常选用NJ法构树。

简约法 简约法(parsimony methods)中最有影响的是最大简约法(Maximum Parsimony, MP),该方法源于形态性状的研究,运用最相近的生物间性状变化量最少的演化原理确定最短的进化树,该树仅需要最少的进化步骤就能解释所有DNA序列之间的变异 。 构建最简约谱系树的位点被称为简约信息点(informative site)当无论有多少条序列进行比对后,如果一个位点是信息位点,那么在这个位点上它至少要包含两种不同的核苷酸,而且每种核苷酸至少在两个序列中出现。

最大简约树的构建 最大简约法应用于序列数据构建包括以下几个步骤: ⑴ 确定所有的信息位点, ⑵ 对所有可能的树型,计算每个信息位点上的发生核苷酸替代的最低次数,并对所有信息位点的最低替代数目求和, ⑶ 选择核苷酸替代次数总和最小的树作为最简约谱系树。

一致树consensus tree 在简约法中会产生多颗等价的简约树是很常见的,大量近源序列组成的数据集有时会产生成百上千棵树,无法得到准确的系统发育信息。此时最好的办法是将所有的谱系树合成为一个谱系树,即一致树。 一致树可分为: 严格一致树(strict consensus tree) 多数一致树(majority-rule consensus tree)

似然法 似然法(likelihood methods)中最常用的是最大似然法(Maximum Likelihood, ML),这类方法首先要确定一个序列进化模型,例如Kimura双参数模型等。然后在该模型下寻找可能的系统树,最后通过比较系统树的似然函数值,将具有最大似然值的系统树视为最佳的系统树。 实际上,似然值是从比对的每一个碱基位点衍生出来的。如果以核苷酸替代模型为基础,最大似然法需要确定每个分支在一定时间间隔内核苷酸发生特定替代变化的概率。

中介网络法(median network) mtDNA控制区序列系统发育信息位点少,受频发突变影响而出现多系或网状结构,上述这些传统构树方法往往最后只使用一棵分子系统树, 很难反映单倍型序列间的真实系统发育关系。此外, 这些方法在构建分子系统树时,不考虑单倍型的频率及其地理来源的信息。 Bandelt等提出一种新的构树方法—中介网络法,可以构建中介网络图,该图包含所有最简约的树,而且可显示序列的信息(如同质性位点的位置、突变热点以及分辨单倍型类群等),在聚类簇中节点之间的距离越近,它们的单倍型就越相近。

不同构树方法的评估和比较 在研究实际问题的过程中,不同谱系构树方法获得的结果不尽相同。目前还没有一种构树方法可以适合于所有的数据和条件。 在构建系统发育树时,最好同时使用多种方法构建系统树,多种方法所获系统树的一致,将大大提高结果的可靠性。当然无论使用何种方法重建系统树,都必须对其分支格局的统计置信度进行检验。

系统发育树的检验 当一个系统树建成后,确定其可靠性十分重要。因此在构建系统发育树之后,应当对所建立的系统树的准确度加以评估。一个系统树一般会有两类误差:拓扑结构误差和分支长度误差。 在检验分子系统树的精确性时一般首先检验分支拓扑结构存在的误差,而分枝长度估计的可靠性可以通过自展法来检验。

自展法(bootstrap method) 自展法根据从原始数据集中随机抽样产生的自展数据集构建多个系统发育树,然后检验这些谱系树对一致树各个支系的支持率。 自展法可以对距离构树方法、最大简约建树方法、最大似然构树方法以及衍生出的其它任何方法进行评估。 典型的自展检验分析结果是一个数字,这个数字同一个系统发育进化树的一个特定分支相关,而这个系统发育进化树则给出了支持单源进化分支的自展的重复比例。 如果自展值大于70%,那么所得到的系统发育进化树能够反映真实的系统发生史的可能性要大于95%。

遗传多维尺度分析 对于亲缘关系较近的群体,用构建系统发育树的方法分析其遗传关系有一定的局限性。当亲缘关系很近时,不同方法所得到的系统发育树在分支上总是或多或少存在差别,而在理论上无法判定哪种谱系更为合理。 多维尺度分析基于对象间的相似性或不相似性,它从原始变量中得到一系列经过简化的新变量,并以新变量为基础,对对象进行缩放,用图形表示对象在多维空间(Muti—dimensionaL space,MDS)中的关系的。

遗传多维尺度分析 在遗传多维尺度分析过程中,它以两个群体间的遗传距离作为尺度,在多维图上遗传距离接近的群体会聚在一起,从而直观形象的推断出群体间遗传距离的远近。 但是,MDS法仅仅以两两亚群体间的遗传距离作为尺度,缺乏对整个群体进化发育关系的宏观考虑,同时在数据转化为一个二维平面或三维空间的尺度问题上也存在一定的局限。因此在分析古DNA数据时,宜将MDS法和构建系统发育树这两种方法结合起来考虑,这样可以得到更合理的结果。

图 契丹与7个现代对比人群的多维度分析OM=外蒙古、IM=内蒙古、DAU=达斡尔、N H=北方汉族、UIG=维吾尔、KAZ=哈萨克、UZB=乌兹别克

主成分分析 在多数实际问题中,当我们对同一个体进行多项观察时,必定涉及多个随机变量。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。 我们希望有一个或几个较好的综合指标(即主成分)来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。主成分分析的实质是将样本的多个指标化为少数的几个指标的一种多元统计方法。

群体遗传学分析 群体遗传学主要研究基因频率在群体中的变化规律以及如何保持遗传多样性。 群体遗传结构动态分析主要这主要包括:遗传多样性指度分析、核苷酸不配对差异分析、中性检验和分子差异性分析以及基因混合度分析等。

群体遗传多样性指度分析 遗传多样性指度分析主要指: 基因多样性(gene diversity) 核苷酸多样性(nucleotide diversity) 平均配对差异数(mean number of pairwise differences)。

基因多样性 当一个基因座上有两个或两个以上的等位基因存在时,我们就称该基因座具有基因多态性(genetic polymorphism)。在群体中一个基因座的基因多样性计算公式如下: n 是基因拷贝在样本中的数目,对于单倍体来说 n 就是样本的数量,对于二倍体来说 n 是标本数的2倍。K 是等位基因的数目,Pi是第i个等位基因的群体频率。

核苷酸多样性 一个不依赖于样本大小的DNA多态性的测度是两个序列间每个位点上核苷酸差异的平均值或核苷酸多态性,计算公式如下: dij是第i个等位基因和第j个等位基因间的核苷酸差异数,L是序列的长度。

平均配对差异数 平均配对差异数指所有序列比对差异数的平均数,计算公式如下 : n是样本的数量,其他参数与上面相同。

核苷酸配对差异分析与中性检验 一般来说,群体是否经受扩张、瓶颈效应或保持群体大小恒定等会影响到群体间的遗传距离。因此,当我们分析群体间的亲缘关系时,也需考察群体的历史动态,核苷酸配对差异分布分析和中性检验就是两个有力的检验工具。

核苷酸配对差异分布分析 核苷酸配对差异分布分析(Mismatch distribution)是将一个或多个群体的任意两个序列进行两两比较得出的各序列间配对差异的分布情况。 通过观察群体的核苷酸配对差异分布曲线,可以推测群体的历史动态。当分布曲线呈现单峰泊松分布时,表明群体在过去经受过扩张或持续增长。

中性检验 通过中性检验也可以推断群体的历史动态。在古DNA研究中应用最为广泛的是Tajima’s 和 Fu’s Fs中性检验,当Tajima’s D值和Fu’s Fs值呈现较大的负值,显著偏离中性突变时,可以作为一个古代群体扩张的证明。

中国古代马群体扩张 Fu’s Fs负值(-14.21,P=0.0000)

分子差异分析 分子差异性分析(analysis of molecular variance, AMOVA) 主要以分子单倍型之间的突变数目为基础,通过对所研究群体进行不同层次的归类和划分,可界定不同的遗传结构并进行统计学检验,从而估计出群体间、群体内以及个体间不同层次所表现的差异占总变异的多少,可以讨论不同海拔高度、不同语系、以及地理群体间是否存在相应的遗传变异,尤其在比较不同群体之间遗传相关性大小时十分有用。

基因混合度计算 一个生物类群或种群的来源往往是多元的,而祖先类群对新类群形成的贡献率很可能是不相等的,要定量地刻划每个祖先类群对新类群的基因贡献的大小,就须借助基因混合度的计算。 在假设两个祖先人群A,B和混合人群M进化速率相同的情况下,由A人群贡献给M人群的基因的比例可表示为:M = 1/2 +(fBM-fAM)/2*fAB其中fAB为A,B两个祖先人群之间的统计频率距离,fAM和fBM为每个祖先人群和混合人群之间的统计频率距离。