第二节 人 类 基 因 组 ( The Human Genome) 许冰莹 ,昆明医科大学法医学院
基因组(genome): 一个生物体所含有的全部遗传信息。 包括一个单倍体细胞中全部基因序列 及其间隔序列。
原核细胞内构成类染色体的一个DNA分子 Prokaryotes genome
Prokaryotes genome nuclear genome Cell organelle genome Mitochondrial genome chloroplast genome
什么是人类基因组计划? (Human Genome Project, HGP ) 美国科学家于1985年率先提出,于1990年10月正式启动。这一价值达30亿美元的人类基因组计划目标是: 用15年的时间,阐明人类基因组30亿个碱基对的序列,发现所有人类基因并搞清其在染色体上的位置,最终弄清楚每种基因编码的蛋白质及其功能,破译人类全部遗传信息。
二十世纪人类科技发展史上的三大创举 90年代人类基因组计划 60年代阿波罗登月计划 40年代曼哈顿原子弹计划
人类基因组(human genome ) 核基因组( nuclear genome ) 30 亿个碱基对 (bp) 24 条染色体: 1-22, X, Y 21,500 - 24,000 基因 结构基因仅占 2% 重复序列占 46% 2. 线粒体基因组(Mitochondrial genome ) 线粒体内全部的DNA分子,16.6kb 每个细胞平均有800个线粒体 每个线粒体含有10个DNA拷贝
遗传图谱(genetic map) 物理图谱(physical map) 转录图谱(transcription map) 序列图谱(sequence map)
★ 中国对HGP的贡献 3p region : from D3S3610 to ter; (31.4cM ) 1999年 9月中国获准加入人类基因组计划,负责测定人类基因组全部序列的1%,也就是3号染色体上的3000万个碱基对。 2001年8月26日,中国宣布,按照国际人类基因组计划的部署,1%人类基因组的工作框架图完成。
linking difference of human genome to difference in the susceptibility to human diseases Canada 10 % China 10 % Japan 25 % UK 25 % USA 30 %
(Personal genome sequence diagrams ) 个人基因组序列图 (Personal genome sequence diagrams ) James Watson (1928-) 〔美国〕 1953年,他和Crick发现DNA具有双螺旋结构; 为此,他获得了1962年诺贝尔生理/医学奖 2007年4月16日美国贝勒医学院的基因组中心
2007年9月刚刚在美国学术杂志上发表的,以传统测序方法完成的基因组研究先锋CraigVenter的个人基因组序列图。 克雷格·文特尔(1946-) 2007年9月刚刚在美国学术杂志上发表的,以传统测序方法完成的基因组研究先锋CraigVenter的个人基因组序列图。
汉族,健康男性 个人基因组时代来临 2007年10月11日,深圳华大基因研究院完成了全球首张完整的中国人基因组图谱(又称“炎黄一号”)。 “炎黄99” “千人基因组计划” 个人基因组时代来临
目前正在对以下生物的基因组进行测序
一、人类核基因组DNA(Human nuclear genome DNA ) (一)基因及基因有关序列 外显子(exon): 结构基因中的编码序列,即可以编码氨基酸的序列。 内含子(intron): 结构基因中的非编码序列(间隔序列)。
断裂基因(split gene) 前导序列和尾随序列---能被转录,但不被翻译
结构基因(structure gene) 调节基因(regulating gene): 启 动 子、增 强 子 重叠基因(overlapping gene)
(二)基因外DNA(extragenic DNA) 基因组中大约占基因组70%-80%的DNA,功能不清,称作基因外DNA。 单拷贝、低拷贝数,30%为串联重复 重复序列在个体间最具变异性,是形成DNA多态性的基础。
(三)单一序列(unique sequence) 与重复序列(Repetitive sequence ) 根据基因组DNA的碱基顺序重复出现的程度不同,把基因组DNA碱基顺序分为: 单一序列DNA 【约10%】 重复序列DNA 【约90%】
1.单一序列DNA (unique sequence) 常被重复序列隔开,以间隔顺序和散在分布的重复顺序构成侧翼。
2.重复序列DNA (repetitive sequence) 重复序列指在基因组中有多个拷贝的DNA序列,有些与染色体结构有关,如:端粒(TAAGGG)n ,但大多数生物学功能有待研究。 高度重复序列 反向重复序列 串联重复序列 中度重复序列 短散布元件(short interspersed element, SINE) 长散布元件(Long interspersed element ,LINE)
(1)高度重复序列highly repetitive sequence 定义: 重复片段的长度单位在几个到几百个碱基对(base pair,bp)之间(一般不超过200bp),串联重复频率很高(可达106以上),高度重复后形成的这类重复顺序称为高度重复顺序。 功能 一般不能转录,不能编码蛋白质。主要参与维持染色体的结构,如构成着丝粒、端粒;将结构基因间隔开;参与减数分裂时染色体的配对等。
反向重复序列(inverted repeat sequence ) 两个顺序相同的互补拷贝在同一条DNA 链上反向排列而成的,占5%,长约300bp。 功能:构成终止子,参与结构基因的调控。
CTGCACACTGGACCGCCAGTGTTAC GACGTGTGACCTGGCGGTCACAATG CTGCA GGTCAC CCAGTG TTAC CA CG GACGT GTGACC CACTGG AATG TG 如两个互补序列之间有一段间隔序列,则两个互补拷贝可以形成链内碱基互补配对,形成十字状结构。
CTGCACACTGGCCAGTGTTAC 如果两个互补序列之间没有间隔,而是串联,称为回文结构(palindrome)。 CTGCACACTGGCCAGTGTTAC GACGTGTGACCGGTCACAATG
串联重复序列(tandem repeats) 重复次数不同 重复单位不同 重复次数不同 串联重复序列是以相对恒定的短序列作为重复单位, 首尾相接,串联连接形成的结构形式。
卫星DNA (satellite DNA) 主带DNA 卫星DNA
大卫星DNA(macrosatellite DNA) 也成经典卫星DNA 作用: 构成染色体的着丝粒、端粒、Y染色体长臂上的异染色质区; 高度重复序列不能转录,形成结构基因的间隔; 参与维持染色体的结构,与减数分裂联会有关。
小卫星DNA (ministatellite DNA) 重复单位长度 15-30bp,序列总长度约100bp-20kb。 特点: 高度变异性,重复次数变化很大,构成复杂的DNA长度多态性; 与DNA同源重组有关; 多出现在非编码序列
微卫星DNA (microstatellite DNA) 重复单位长度 2-6bp,重复次数10-60次,总长度多在400bp以下,又称短串联重复序列(short tandem repeats,STRs)。 特点: (AC)n和(TG)n最常见 位于内含子,间隔DNA
(2)中度重复序列(intermediate repetitive sequence) 定义: 重复长度300~7000bp不等,重复次数在102~105左右。 功能: 一般都是不编码的顺序。主要在基因调控中发挥作用,如开启或关闭基因,促进或终止转录,启动DNA复制,参与前mRNA加工等。 短分散元件SINE:short interspersing element 长分散元件LINE:long interspersing element 小卫星DNA和微卫星DNA都属于短分散元件的中度重复序列。 小卫星DNA:重复长度16~28bp,重复次数高度变异 微卫星DNA:基本顺序只有1~6bp,如(TA)n、(CGG)n、(AC)n、(GT)n等,通常重复10~60次,并呈现高度的多态性。 32
短 散 布 元 件 (short interspersed element,SINE) 300-500bp, 如:Alu序列: 300bp,序列中含有一个Alu酶切位点-AGCT-,能将其切为两个片段,故称 Alu序列。是人类基因组特有的含量丰富的中度重复序列,30-70万拷贝。 功能: ①可能与基因转录的调节有关; ②hnRNA的加工有关; ③DNA复制的启动有关。
长 散 布 元 件 (long interspersed element,LINE) 5000~7000bp 如:KpnI家族(转位活性) 和Alu序列一样,具有转位功能,通过反转录自我复制,插入基因组其它位置。
(四)假基因(pseudogene) 如:ψζ、ψα、ψβ 假基因是指具有与功能基因相似的序列,但由于有许多突变而丧失了原有的功能,所以假基因是没有功能的基因,通常用ψ 表示。 如:ψζ、ψα、ψβ
(五)多基因家族(multigene family) 多基因家族:是指由一个祖先基因经过重复和变异所形成的一组功能相似、碱基序列相同或部分同源的基因。 一条染色体上 分布 几条不同的染色体上
超基因家族(supergene family) 是指由一个祖先基因经过变异,产生大量结构大致相同但功能不尽相同的一大批基因,分别属于不同的基因家族,总称为超基因家族。e.g.免疫球蛋白超基因家族
(六)转座子(transposon) 又称可移动基因(mobile gene), 是指DNA分子内或分子间可以转移的DNA片段。转座因子或是直接从原来位置上切离,然后插入染色体新的位置;或是在转移后仍保留原来位置上的DNA序列,只是把一个新合成的复本插入到另外的位置上。
(七)端粒(telomere) 线性DNA末端的特殊结构 DNA和蛋白质形成的复合结构 仅存于真核生物染色体的末端 富含 G 的寡核苷酸序列 封闭染色体末端 维持染色体稳定
端粒DNA的长度与年龄、细胞分裂次数有关,随着细胞分裂次数的增多,端粒DNA长度逐渐缩短。 端粒酶以自身一段RNA为模板,通过逆转录酶,转录出一段端粒片段并使之连接于染色体的端粒末端,使端粒不缩短,维持完整,从而保持了细胞的永生化生长。 人类正常组织的体细胞均无端粒酶活性。绝大多数恶性肿瘤细胞中显示明显的端粒酶活性,这可能是肿瘤细胞具有永生性生长的原因之一。
(八)DNA的甲基化修饰 DNA甲基化(DNA methylation ): 生物体在DNA甲基转移酶(DNA methyltransferase,DNMT) 的催化下,以S-腺苷甲硫氨酸(SAM) 为甲基供体,将甲基转移到特定的碱基上的过程。
DNA甲基化发生的位置: 腺嘌呤的N -6位、 胞嘧啶的N -4位、 鸟嘌呤的N -7位 胞嘧啶的C-5位等。 5’-CG-3’ 5mCG (5-甲基胞嘧啶)
人类的CpG以两种形式存在: (1)分散于DNA 中, (2)CpG结构高度聚集的CpG岛。 在正常组织里,70 %~90 %的散在的CpG是被甲基化修饰的,而CpG岛则是非甲基化的。
染色质结构 DNA构象 DNA稳定性 DNA与蛋白质相互作用方式 在真核生物中,DNA甲基化程度与基因表达水平呈负相关。也就是说甲基化阻遏基因的表达。
通常情况下,来自父亲和母亲的两个等位基因,在子代细胞中都会表达。 当这两个基因不同时,它们都被翻译成蛋白质,但最后的结果,取决于两个基因综合表达后的效应。
父母的基因对孩子的贡献并不均等!!! 来自双亲的某些等位基因,在子代的表达水平不同: 有些只有父源的基因有转录活性, 而母源的同一基因则始终处于沉默状态 永远不表达; 另一些基因的情况则相反。
基因组印记(Genomic Imprinting): 在人类基因组中,一些基因只表达一 种亲源的基因版本的现象。 基因组印记和真核生物的DNA甲基化 密切相关。