人类群体遗传学 基本原理和分析方法 徐书华 金 力 中科院-马普学会计算生物学伙伴研究所

Slides:



Advertisements
Similar presentations
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
Advertisements

龙星课程—肿瘤生物信息学上机课程 曹莎
The Concept and Classification of Hereditary Diseases
-CHINESE TIME (中文时间): Free Response idea: 你周末做了什么?
谁动了我的CK? + BY黄建建 谢宇 CAN HEAR 锐得PPT论坛整理
第二节 现代生物进化理论的主要内容.
How to Use SPSS in Biomedical Data analysis
宏 观 经 济 学 N.Gregory Mankiw 上海杉达学院.
十五條佛規 後學:張慈幸
专题八 书面表达.
常染色体隐性遗传病 生化遗传教研室 张 君
医 学 遗 传 学 群体遗传学.
第二节、单基因病的遗传方式 单基因病:是由单个(一对等位) 因突变引起的,突变基因影响表现 型,它是以简单形式传,与孟德尔以
第八章 群 体 遗 传 学.
CHIN 3010: reading & writing
如何在Elsevier期刊上发表文章 china.elsevier.com
第七章 现代生物进化理论 考试说明及能力要求: (1)现代生物进化理论的主要内容 Ⅱ (2)生物进化与生物多样性的形成 Ⅱ.
许冰莹, Tel: ; 昆明医科大学法医学院.
第三节 伴性遗传.
遗传的基本规律.
西南石油大学 校级学习中心学员使用手册 2013年10月29日.
第六章 遗传和变异 1.植物叶肉细胞内遗传物质的载体不包括( ) A.染色体 B.质体 C.线粒体 D.核糖体
欢迎光临指导 奉贤中学  宋洁莲.
§6.3 性别决定和伴性遗传. §6.3 性别决定和伴性遗传 人类染色体显微形态图 ♀ ♂ 它们是有丝分裂什么时期的照片? 在这两张图中能看得出它们的区别吗?
群体遗传学 Population genetics.
上皮生長因子接受器-1, -2基因多形性與泌尿道上皮癌之相關研究
第四章 单基因病 Monogenic disease
第二节 遗传平衡定律及应用 一、遗传平衡定律
第十二章 群体遗传学 一、概念 群体遗传学:研究一个群体中基因的组成及其遗传规律的科学。
讨论: 1.分离定律适用于几对基因控制着的几对相对性状? 2.一对相对性状中如何确定显隐性的关系?
第十五章 群体的遗传平衡.
第2课时 基因的分离定律. 第2课时 基因的分离定律 重习要点 ◆ 一对相对性状的基因型种类 及概率的计算 ◆ 一对相对性状遗传系谱求法及图的判断 ◆ 如何实验验证某性状是由一对基因控制 ◆ 一对相对性状的基因型种类 及概率的计算 ◆ 一对相对性状遗传系谱求法及图的判断 ◆ 如何实验验证某性状是由一对基因控制.
拇指竖起时弯曲情形 1、挺直2、拇指向指背面弯曲 食指长短 1、食指比无名指长 2、食指比无名指短 双手手指嵌合
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
SHARE with YOU Why am I here? (堅持……) What did I do?
Euler’s method of construction of the Exponential function
Life relies on sports 生命在于运动.
Reading Do you remember what you were doing? 学习目标 1、了解几个重要历史事件。
Been During the Vacation?
Module 5 Shopping 第2课时.
Population proportion and sample proportion
第3节 伴 性 遗 传.
初二英语写作课 课件 福建省闽清县第一中 王国豪
REVIEW&PLINK
但是如果你把它发给最少两个朋友。。。你将会有3年的好运气!!!
圖表製作 集中指標 0628 統計學.
第14章 竞争市场上的企业 上海杉达学院 国贸系.
This Is English 3 双向视频文稿.
Interval Estimation區間估計
Lesson 44:Popular Sayings
Workshop on Statistical Analysis
第十五课:在医院看病.
建国以来,大陆对台政策 金亚丽 周莎 黄运娜.
Introduction to Basic Statistics
相關統計觀念復習 Review II.
Introduction to Basic Statistics
行政管理者 的素质要求 中南大学湘雅医院 李远斌
突出语篇语境,夯实词汇语法 一模试卷单选完形分析 及相应的二轮复习对策 永嘉罗浮中学 周晓媚.
成才之路 · 英语 人教版 · 必修1 路漫漫其修远兮 吾将上下而求索.
爬蟲類動物2 Random Slide Show Menu
王建康 中国农业科学院作物科学研究所 第1章 群体结构与交配系统 王建康 中国农业科学院作物科学研究所
Review of Statistics.
基于高中生物学理性思维培养的实践性课例开发
§2 方阵的特征值与特征向量.
無悔今生.
自主练悟 ①(2017·桂林市联考)To them, life is a competition — they have to do _______ (good) than their peers to be happy. ②(2017·菏泽市模拟)People who forgive.
Grammar (1) Cardinal and ordinal numbers 基数词和序数词
Climbing a Rock Wall 攀岩 选自《多维阅读第10级》.
箴言系列信息(6) 神的言語句句煉淨 遠離虛謊 鍛鍊的一年.
Presentation transcript:

人类群体遗传学 基本原理和分析方法 徐书华 金 力 中科院-马普学会计算生物学伙伴研究所 中国科学院上海生命科学研究院研究生课程 人类群体遗传学 人类群体遗传学 基本原理和分析方法 徐书华 金 力 中科院-马普学会计算生物学伙伴研究所

2008-2009学年第二学期《人类群体遗传学分析方法》课程表 上课时间:每周四上午10:00-11:50 上课地点:中科大厦4楼403室第7教室 序号 日 期 课程内容 授课教师 1 2月26日 Hardy-Weinberg平衡检验原理及其应用 徐书华 2 3月5日 遗传多态性统计量 3 3月12日 进化树的构建方法及应用 4 3月19日 Coalescence原理及应用 李海鹏 5 3月26日 遗传漂变效应及有效群体大小的估计 6 4月2日 人群遗传结构分析 (I) 7 4月9日 单倍型估计及连锁不平衡分析 8 4月16日 人群遗传结构分析 (II) 9 4月23日 基因定位中的关联分析(I) 何云刚 10 4月30日 基因定位中的关联分析(II) 11 5月7日 人类基因组中的连锁不平衡模式及标签位点的选择 12 5月14日 基因表达数据的分析方法 严军 13 5月21日 人群历史的遗传学研究 5月28日 端午节 14 6月4日 法医学检测及分析方法 李士林 15 6月11日 自然选择检验原理和方法 16 6月18日 全基因组基因型数据正选择检验方法 17 6月25日 课程考试 教育基地

第一讲 Hardy-Weinberg平衡检验及其应用 Hardy-Weinberg Equilibrium (HWE)定律 HWE的偏离(固定指数) HWE的偏离( Wahlund定律) HWE在单基因遗传疾病研究中的应用 HWE在多基因复杂疾病研究中的应用 检验HWE的常用方法和软件 全基因组数据中的HWE检验问题

Why do students need to know Hardy-Weinberg Equilibrium? As Thomas Merten (1992) states: 'If you have ever been asked questions such as the ones that follow, you begin to see why studying population genetics might be useful: 1. I'm confused! How can O be the most common of the blood types if it is a recessive trait? 2. If Huntington's disease is a dominant trait, shouldn't three-fourths of the population have Huntington's while one-fourth have the normal phenotype? 3. Shouldn't recessive traits be gradually ‘swamped out' so they disappear from the population?

基本概念 突变(mutation) 遗传多态性(genetic polymorphism) 遗传座位(locus) 等位基因(allele) 核苷酸位点(nucleotide) 序列(sequence) 位点(site) 分离位点(segregating site)

基本概念 单倍体(haploid)、二倍体(diploid) 基因型(genotype) 杂合子(heterozygote)、纯合子(homozygotye) 等位基因频率(allele frequency) 基因型频率(genotype frequency)

计算基因型频率 一个群体由N个个体组成,其中有一对常染色体等位基因A, a,其频率分别以p、q表示 。 可能的基因型为AA,Aa,aa三种,其频率分别以D、H、R表示,其中D+H+R=1。 若群体中有 n1 AA n2 Aa n3 aa N=n1+n2+n3 合计 1

计算等位基因频率 等位基因A的频率 等位基因a的频率 其中,p+q=D+H/2+H/2+R=1

精 子 A(p) a(q) 卵 A(p) AA(p2) Aa(pq) 子 a(q) Aa(pq) aa(q2) 由表可见子代基因型组成:p2+2pq+q2=1 这里基因型AA的频率为p2,基因型aa的频率为 q2,基因型Aa的频率为2pq。 AA:Aa:aa= p2:2pq:q2

A=p2+1/2(2pq)=p2+pq=p(p+q)=p a=q2+ 1/2(2pq)=q2+pq=q(p+q)=q 子一代向下一代提供的配子中两种基因频率分别是: A=p2+1/2(2pq)=p2+pq=p(p+q)=p a=q2+ 1/2(2pq)=q2+pq=q(p+q)=q 由此可见,子代基因A的频率仍然是p,基因a的频率仍然是q,而且将以这种频率在所有世代传递下去,这就是遗传平衡。

Hardy-Weinberg平衡定律 p2 2pq q2 亲代 交配类型 交配频率 子代群体 条件概率 AA Aa aa AA×AA D2 1 ── AA×Aa 2DH 1/2 DH Aa×Aa H2 1/4 2/4 1/4H2 2/4H2 AA×aa 2DR Aa×aa 2HR —— HR aa×aa R2 合计 (D+H+R) 2=1 (D+1/2H) 2 2(D+1/2H)(R+1/2H) (R+1/2H)2 p2 2pq q2

Hardy-Weinberg平衡定律 群体中的等位基因频率以及基因型频率并不随世代的推移而变化。

保持群体HWE的理论条件 Random mating No differential fertility of the genotypes Equal genotype frequencies in the two sexes No mutation No immigration No differential emigration No differential viability Infinite population size

人类进化中的5个基本动力元素 突变(mutation) 婚配 (random mating) 选择 (selection) 漂变 (drift) 迁移 (migration)

现代人群是一个HWE群体吗? 有趣的是,对于一个特定的地理群体,绝大部分基因组区域处于HWE状态。

HWE平衡群体的性质(1) 杂合体的比例为H=2pq,H的最大值为1/2 当q=1/2,p=1/2时,H取最大值1/2

HWE平衡群体的性质(2) Aa×Aa的交配频率永远为AA×aa交配频率的2倍 Aa×Aa=H2=4p2q2 AA×aa=2DR=2p2q2 例如 人类白化病被认为是一个简单的隐性性状,某地白化病的婴儿的发病率q2 (aa)=1/10000 , q(a)=1/100 但群体中,杂合子的比例要大得多

产生隐性后代的比例 产生隐性后代的亲本组合 合计 Aa×Aa Aa×aa aa×aa 在所有交配中 p2q2 2pq3 q4 q2 在产生aa后代的交配中 p2q2/q2=p2 2pq3/q2=2pq q4/q2=q2 1 98.01% 1.98% 0.01% 其中由Aa×Aa得到的aa个体占

HWE平衡群体的性质(3) 当q很小时,p=1,则H-W’s law取得一种极限形式 H=2q 差不多所有的隐性基因都处于杂合状态中,杂合子个体的比例约为隐性基因频率的两倍。上述白化病 q=0.01 一般q2可看作发病率,杂合子的频率=2

HWE在单基因遗传疾病研究中的应用 计算基因型频率 计算隐性性状的发病率(出生前死亡) 计算等位基因频率 随机交配时纯合子(基因型)的频率可用配子(基因)频率平方求得 ; 杂合子频率=2x隐性等位基因频率(如前所述). 计算隐性性状的发病率(出生前死亡) 计算等位基因频率

计算等位基因频率(隐性) 如已知某种常染色体隐性遗传病(白化病)在一特定人群中频率,就能计算这个异常基因的携带者和基因频率。白化病发病(aa)(q2)的频率为1/10000,即其基因型频率,则致病基因(a)频率=1/100= 0.01;基因A的频率=1-0.01=0.99;而杂合子携带者的频率为2pq=2×99/100×1/100≈1/50。因此,在比例中,每个受累的个体将有200个左右在临床上无症状的携带者。

计算等位基因频率(显性) 常染色体显性遗传病,如并指症,在一个群体多为杂合子(Aa)发病。 杂合子(H)的频率为2pq,由于q值大,近于1,故H=2p,p=1/2H。因此,只要知道杂合子发病率,就易求得基因A的频率。如并指症的发病率为 1/1000,H=1/2000,p=1/2H=1/4000,即致病基因A的频率为0.000025。

白化病为AR遗传病,患者为致病基因的纯合子,因此: 在已知某一性状频率的群体中,确定等位基因频率和杂合子携带者频率。 例如:已知白化病的发病率为1/20000,求白化病致病基因频率q和携带者频率。 白化病为AR遗传病,患者为致病基因的纯合子,因此: 发病率(aa) = q2 = 1/20000 a= q =0.007 A=p = 1 - q =0.993 携带者频率(Aa) = 2pq = 2 ×0.993× 0.007 = 0.0139 这提示人群中有1.4%为白化病致病基因携带者,对于遗传咨询很重要。

☆对于一种罕见的AD遗传病 致病基因频率p很低,p2可以忽略,因此: 2pq p2 + 2pq 患者几乎都以杂合子形式出现 =1

致病基因频率p很低,正常基因频率q≈1 男性患者 = 致病基因频率 = p 女性患者 = p2 + 2pq = 2p 男性患者 女性患者 ☆ 对于一种罕见的XD遗传病 致病基因频率p很低,正常基因频率q≈1 男性患者 = 致病基因频率 = p 女性患者 = p2 + 2pq = 2p 男性患者 女性患者 女性患病率是男性患病率的2倍 = 1/2

提示: 致病基因频率q越低,致病基因在群体中主 要以杂合携带者形式存在。 ☆ 对于一种罕见的AR遗传病 致病基因频率q很低,正常基因频率p≈1 : 杂合携带者频率 = 2pq =2q 即杂合携带者频率约为致病基因频率的2倍。 杂合携带者 2pq 2 纯合患者 q2 q 提示: 致病基因频率q越低,致病基因在群体中主 要以杂合携带者形式存在。 = =

提示:疾病越罕见,q越低,女性患者越罕见。 ☆ 对于一种罕见的XR遗传病 致病基因频率q很低, 男性患者 = 致病基因频率 = q 女性患者 = 致病基因频率的平方 = q2 男性患者 q 1 女性患者 q2 q 提示:疾病越罕见,q越低,女性患者越罕见。 = =

HWE的偏离(固定指数) 固定指数(F): 如果一个座位上有两个等位基因,Hardy-Weinberg比率的任何偏差可以由参量F来度量,F称为固定指数,则基因型频率可以由下式给出: 由以上第二式可得:

可以看出,当h0小于h时,F取正值;当h0大于h时,F取负值。在近亲交配时,杂合子频率的观察值减小,F就取正值。 上式可写成 固定指数F可正可负,视情况而定。 可以看出,当h0小于h时,F取正值;当h0大于h时,F取负值。在近亲交配时,杂合子频率的观察值减小,F就取正值。

亚群体(sub-population) 以上考虑的是一个简单的群体,不论其是否近亲交配。

可再分群体中的基因型频率 假定一个群体可分为s个亚群体,每一个亚群体都满足Hardy-Weiberg平衡。设xk为第k个亚群体中等位基因A1的频率,则基因型A1A1,A1A2,A2A2的频率分别为 我们用wk来表示第k个亚群体的相对大小,且总和为1。则A1A1,A1A2,A2A2在整个群体中的频率为: 其中 和 是亚群体中等位基因频率的均值和方差。

可再分群体中的固定指数 比较 我们知道 ,因此

HWE的偏离(Wahlund定律) 表明如果一个群体被分为多个交配单位,纯合子的频率要高于Hardy-Weinberg比率。这个性质首先由Wahlund(1928)发现,被称为Wahlund定律,也称Wahlund现象。 当等位基因频率在所有亚群体中一致时,F为0;而当每个亚群体都被固定为某一个等位基因时,F为1。

Wahlund现象的启示 群体结构(population structure)的存在! 反之,当F为负值的时候, 杂合子频率比Hardy-Weinberg平衡时预期的要高,意味着杂合优势,某种程度的自然选择发生。 杂合优势与平衡选择(后面“自然选择”章节细谈)

检验HWE的常用方法 观察值 期望值 X2-test

实例 例 MN血型基因频率的计算 血型 基因型 人数(O) LM LN 预期值 ( C ) M LMLM 397 794 1788×p2=382.96 MN LMLN 861 1788×2pq=889.05 N LNLN 530 1060 1788×q2=515.99 合计 1788 1855 1921 p=0.4628 q=1-p=0.5372

结论:三个基因型频率的观察值与HWE定律所期望的频率没有显著差异。

精确检验 AA AB BB nAA nAB nBB N Am.J.Hum.Genet 2005, 76:887-893

HWE在复杂疾病遗传研究中的应用 数据分析中,检测可能的数据质量问题(typing error)。 Case-control study 一般要求所有检测位点在control中处于HWE。 多个位点处于HWD暗示近亲婚配或群体结构的存在。 在排除其他可能的因素以后,筛选可能受到自然选择的基因。

全基因组数据中的HWE检验问题 Affymetrix 500K, Illumina 650K… 多重检验(multiple testing)问题 If you have 10,000 genes in your genome, and perform a statistical analysis, a p-value cutoff of 0.05 allows a 5% chance of error. That means that 500 genes out of 10,000 could be found to be significant by chance alone.

多重检验校正方法 Bonferroni correction Bonferroni Step-down (Holm) correction Westfall and Young Permutation Benjamini and Hochberg False Discovery Rate

Bonferroni correction The p-value of each gene is multiplied by the number of genes in the gene list. If the corrected p-value is still below the error rate, the gene will be significant: Corrected P-value= p-value * n (number of genes in test) <0.05 As a consequence, if testing 1000 genes at a time, the highest accepted individual p-value is 0.00005, making the correction very stringent. The expected number of false positives will be 0.05.

Bonferroni Step-down (Holm) correction This correction is very similar to the Bonferroni, but a little less stringent: 1) The p-value of each gene is ranked from the smallest to the largest. 2) The first p-value is multiplied by the number of genes present in the gene list; if the end value is less than 0.05, the gene is significant; Corrected P-value= p-value * n < 0.05 3) The second p-value is multiplied by the number of genes less 1. Corrected P-value= p-value * n-1 < 0.05 4) The third p-value is multiplied by the number of genes less 2. Corrected P-value= p-value * n-2 < 0.05 It follows that sequence until no gene is found to be significant.

Westfall and Young Permutation The Westfall and Young permutation follows a step-down procedure similar to the Holm method, combined with a bootstrapping method to compute the p-value distribution: 1) P-values are calculated for each gene based on the original data set and ranked. 2) The permutation method creates a pseudo-data set by dividing the data into artificial treatment and control groups. 3) P-values for all genes are computed on the pseudo-data set. 4) The successive minima of the new p-values are retained and compared to the original ones. 5) This process is repeated a large number of times, and the roportion of resampled data sets where the minimum pseudo-p-value is less than the original p-value is the adjusted p-value. Because of the permutations, the method is very slow.

Benjamini and Hochberg False Discovery Rate This correction is the least stringent of all 4 options, and therefore tolerates more false positives. There will be also less false negative genes. Here is how it works: 1) The p-values of each gene are ranked from the smallest to the largest. 2) The largest p-value remains as it is. 3) The second largest p-value is multiplied by the total number of genes in gene list divided by its rank. If less than 0.05, it is significant. Corrected p-value = p-value*(n/n-1) < 0.05, if so, gene is significant. 4) The third p-value is multiplied as in step 3: Corrected p-value = p-value*(n/n-2) < 0.05, if so, gene is significant.

检验HWE的常用软件 Arlequin 3.01 各种关联分析软件 http://anthro.unige.ch/software/arlequin/ 各种关联分析软件 PLINK (Whole genome association analysis toolset) http://pngu.mgh.harvard.edu/~purcell/plink/

练习 利用HapMap数据进行HWE测验; http://www.hapmap.org 理解多重检验校正的原理并熟悉各种方法的基本步骤。