第十二章 人类基因组计划
一、简 史 1986年,Renato Dulbecco 提出 1990年10月,美国政府正式启动了HGP工程,投资30亿美元,预期于2005年完成人类基因组约30亿个碱基对的全序列测定。 1998年5月,Craig Venter创立Celera公司 1999年9月,中国加入HGP,3000万bp测序任务 1999年12月,第22条染色体破译 2000年4月,中国完成1%测序任务 2000年5月,第21条染色体破译 2000年6月,人类基因组工作框架图公布 2001年2月,公布基因组基本信息 2001年9月,HGP第十次战略大会在杭州召开,还有1%的难测序列,约700个疑难点 2003年4月,完成人类基因测序工作
人类基因组的组成(3×109 bp)
二、基因组研究基本策略 1、对基因组进行划界和标记 将每条染色体划分为长臂、 短臂、带、亚带和亚亚带,并对基因和特定DNA标记进行定位。 3、建立遗传图谱、物理图谱和基因图谱(转录图谱) 4、进行全序列测定 5、确定每一个基因结构和功能
人类基因组4张图谱之间的关系
三、基本内容 (一)遗传图谱(genetic map)是通过计算连锁的遗传标记 之间重组频率而确定它们相对距离的遗传图,一般用厘摩 (cM)来表示,又称连锁图谱(linkage map)。 1、第一代遗传标记 70年代,RFLP 2、第二代遗传标记 1985年,小卫星、微卫星标记(短串联重复STR) 3、第三代遗传标记 1996年,SNP(single nucleotide polymorphism),共300万个
遗传图谱的建立方法 遗传学距离:在减数分裂事件中,两个位点之间进行交换重组的百分率,1 %重组率称为1 cM。 规律:1、重组百分率是遗传距离的量度 2、重组百分率不超过50% 3、Y染色体不发生交换,没有遗传图谱
遗传图谱(genetic map) 两对等位基因之间重组互换的频率即遗传距离 A E D b A E d B A E d b D B 10% 两对等位基因之间重组互换的频率即遗传距离
遗传图谱举例: 重组频率用于X染色体上基因的连锁和定位 17 cM 11 cM Xg(血型基因) ich (普通鱼鳞病) OA (眼白化症)
遗传图谱的意义: 1996年以来,已建立6000个STR为主体的遗传图谱,分辨率以达0.7 cM。 遗传图谱是定位基因以及研究基因组 遗传和变异的重要工具。
(二)物理图谱(physical map ) 确立各遗传标记之间的物理距离,以碱基对(bp)为单位: 1、获得分布于整个基因组的30,000个序列标记位点(sequence tagged site, STS); 2、包括构建覆盖每条染色体的相互重叠的大片段DNA克隆群或称跨叠克隆群(contig)图;
3、根据contig的大小估算STS间的距离。
跨叠克隆群由一个线性系列含部分重叠的DNA克隆构成
DNA 切下的片段插入(连接)到载体中 大量的重叠片段 叠连群测序后得出一致序列 gtatgtacatttttaa tttaaaaggccagtta agttaaaatgg ttttaaaatctcattttaa gtatgtacatttttaaaatctcattttaaaaggccagttaaaatgg
构建contig的运载体(vector) 1、第一代 质粒(plasmid) 2、第二代 λ噬菌体(Lambda phage) 3、第三代 粘粒(cosmid) 4、第四代酵母人工染色体(yeast artificial chromosome, YAC) 细菌人工染色体(Bacterial artificial chromosome, BAC) 噬菌体人工染色体(P1 bacteriophage artificial chromosome, PAC)
运载体(Vector) 运载体是能将外源目的DNA导入受体细胞,并可自我复制和增殖的工具。 分子量小。 有多种限制酶切位点。 有可供选择的标记基因或报道基因。 克隆载体有复制起点,表达载体有启动子。
运载体 运载体(Vector)是能将外源目的DNA导入受体细胞,并可自我复制和增殖的工具。 插入型 & 置换型 克隆载体 & 表达载体
质粒(plasmid) 质粒是存在于许多细菌中,独立于染色体外的双链闭合环状DNA分子。
质粒(plasmid) LacZ pUC19 2686 bp Ori ApR EcoRⅠ SacⅠ KpnⅠ SmaⅠ XbaⅠ BamHⅠ SalⅠ SphⅠ PstⅠ HindⅢ agtgaattCGAGCTCGGTACCCGGGGATCCTCTAGAGTCGACCTGCAGGCATGCAAGCTTGGcgtaatcatggtcat LacZ pUC19 2686 bp Ori ApR
λ噬菌体(Lambda phage) λ噬菌体是一种可在体外包装的细胞病毒,能高效感染细菌细胞并在其中克隆中等长度的DNA片段的载体。 Cos site 裂解 & 溶源 λ噬菌体置换载体 λ噬菌体插入载体
4、将连接物体外包装后感染细菌,制备基因库(用于基因库构建) 噬菌体载体 1、噬菌体; 2、噬菌体DNA; 3、噬菌体DNA中间 基因簇; 4、将连接物体外包装后感染细菌,制备基因库(用于基因库构建) 2 4 6 1 3 5
粘粒(cosmid) 粘粒是将质粒和λ噬菌体改建的一种人工载体。 cosmid只含有λ噬菌体的复制起点,抗性标记(来自质粒)以及cos粘性末端,多用于构建高等生物的基因文库。
粘粒(cosmid) 可环化,不会裂解宿主细胞 (λphage ) 可自我复制 (plasmid) 45 kb外源DNA 可与同源序列质粒重组
粘粒(cosmid) pJB8 5.4 kb BamHⅠ Hind Ⅲ ClaⅠ cos Ori AmpR Sal Ⅰ
大片段DNA克隆载体 P1噬菌体 & PAC,噬菌体人工染色体 BAC, 细菌人工染色体 YAC, 酵母人工染色体 着丝粒 端粒 自主复制元件(autonomously replication sequences,ARS)
细菌人工染色体载体pBAC108L及其多克隆位点
酵母人工染色体(YAC)
运载体 载体 插入片段大小 Plasmid 0~10 kb Insertion λ vector Replacement λ vector Cosmid 33~44 kb P1 phage 70~100 kb PAC 130~150 kb BAC 300 kb YAC 0.2~2.0 Mb
Digestion of DNA with the restriction endonuclease EcoRI and gene cloning. In this example, a small amount of foreign DNA (a few nanograms) is digested with EcoRI. The nucleotide sequence of this stretch of DNA contains the recognition sequence for EcoRI, GAATTC (boxed). EcoRI cuts the DNA in both strands between the indicated nucleotides, resulting in fragments with 5′ single-stranded tails. This foreign DNA can come from any source, the only requirement being that it contains the same restriction endonuclease recognition sites as the vector. Plasmid vector is also digested with EcoRI to create a linear DNA molecule. The “sticky” single-stranded ends of the foreign DNA can align and base-pair with the complementary “sticky ends” of the plasmid, after which DNA ligase covalently bonds foreign DNA to plasmid DNA. This recombinant DNA is introduced into Escherichia coli by a process called transformation. Because the bacteria themselves are not resistant to ampicillin, growth in ampicillin will select only those bacteria that have taken up the plasmid DNA (which carries an ampicillin resistance gene). (Cancer Medicine)
General procedure for cloning a DNA fragment in a plasmid vector General procedure for cloning a DNA fragment in a plasmid vector. Although not indicated by color, the plasmid contains a replication origin and ampicillin-resistance gene. Uptake of plasmids by E. coli cells is stimulated by high concentrations of CaCl2. Even in the presence of CaCl2, transformation occurs with a quite low frequency, and only a few cells are transformed by incorporation of a single plasmid molecule. Cells that are not transformed die on ampicillin-containing medium. Once incorporated into a host cell, a plasmid can replicate independently of the host-cell chromosome. As a transformed cell multiplies into a colony, at least one plasmid segregates to each daughter cell. (Molecular Cell Biology)
粘粒(cosmid): Cloning by cosmids. The cosmid is cut at a BglII site next to the cos site. Donor genomic DNA is cut by using Sau3A, which gives sticky ends compatible with BglII. A tandem array of donor and vector DNA results from mixing. Phage is packaged in vitro by cutting at the cos site. The cosmid with insert recircularizes after it is in the bacterial cell. (From J. D. Watson, M. Gilman, J. Witkowski, and M. Zoller, Recombinant DNA, 2d ed. Copyright © 1992 by Scientific American Books.) (An Introduction to Genetic Analysis)
物理图谱的意义: 物理图谱是进行DNA序列分析和基因组结构研究的基础。
(三)转录图谱(transcription map)。 构建转录图的前提条件是获得大量基因转录的mRNA,通过逆向转录,即可得到cDNA,表达序列标鉴(expressed sequence tag,EST),为部分cDNA序列,300-500 bp。 将mRNA和EST与基因组DNA序列对比,就可找出同源序列,再将其进行标示即成转录图谱。
转录图谱的意义 1、能为估计人类基因的数目提供可靠的依据。 2、提供不同组织、不同时期基因表达的信息(数目、种类及结构功能)。 3、提供结构基因的标记,可以作为筛选基因的探针。
(四)序列图谱 最终目标:30亿bp的全序列图。 起始材料:跨叠克隆群(contig) 全序列测定的基本路线: 1、将所有染色体DNA片段一次性克隆进入YAC或BAC 人工染色体,建立相连片段群。 2、先用流式细胞仪将24条染色体逐一分开,然后将其分 别克隆,建立染色体特异的相连片段群。 3、利用STS或EST将各克隆排序、定位。 4、大规模DNA序列分析。
大规模测序的基本策略 1、逐个克隆法(clony by clony): 将YAC、BAC克隆逐一序列分析,然后排列组装。 2、鸟枪法(shotgun approach): 随机挑取克隆测序,然后通过计算机排序并连接,Celera公司首创。
(五)基因的鉴定和分析 通过基因的表现型来鉴定基因是最有效的手段之一。 这些技术主要包括以下几类: 1、定位克隆(positional cloning): Obesity基因和Huntington舞蹈症的基因 2、功能克隆 (functional cloning): 镰刀状贫血基因
定 位 克 隆 1、通过疾病家系,进行连锁分析将基因定位在染色体上。 2、利用邻近的DNA标记,构建contig。 3、编码序列的筛选: 可采用cDNA文库直接筛选的方法或外显子捕获(exon trapping)。 4、疾病基因的鉴定: 分析基因突变以及突变的规律。 5、用基因敲除(knock-out)技术来验证基因的功能。
寻找遗传疾病基因的常规流程
通过定位候选克隆法识别的疾病基因举例 成对盒基因PAX3 Waardenburg综合症1型 外周蛋白,视紫红质 色素沉着性视网膜炎 受体酪氨酸激酶RET 多发性内分泌肿瘤2A型 原纤蛋白 马凡综合症 Ryanodine 恶性高热 hMSH2,hMLH1,hPMS1,hPMS2 遗传性非息肉病性结直肠癌 P16 家族性黑色素瘤 周围髓鞘蛋白22 Charcot-Marie-Tooth病1B型 髓鞘蛋白P0 Charcot-Marie-Tooth病1A型 β淀粉样蛋白前体,apoE Alzheimer病 受 累 蛋 白 疾 病
功 能 克 隆 最早采用的基因克隆策略。生化缺陷可能与某一类蛋白的功能缺陷有关,从相关的蛋白质氨基酸序列资料,可推测其mRNA序列,设计特异的寡核苷酸探针杂交而筛选cDNA文库,从而获得全基因cDNA。 镰刀状贫血病基因的发现是功能克隆的例子。若可获得纯的蛋白质或有这些蛋白质的抗体,这种方法仍为克隆基因的首选策略。
怎样获取DNA序列? (如何享受HGP的成果) http://www.ncbi.nlm.nih.gov/ NCBI: national center for biotechnology information.