Download presentation
Presentation is loading. Please wait.
1
第一章 基因与基因组
2
主要内容 第一节 基因的概念及其发展 第二节人类基因组计划 第三节 基因组
3
第一节 基因的概念及其发展 (一)基因概念的提出 (二)基因结构与功能的探索 (三)现代分子遗传学关于基因的概念
4
(一)基因概念的提出 孟德尔(Mendel)的遗传因子:一个因子决定一个性状(1865年)。
约翰森(Johannsen):首先提出基因一词(1909年)。
5
基因的前奏——遗传因子 1857年,奥地利神父孟德尔进行长达8年的豌豆杂交实验。
1865年,发表了著名的论文《植物杂交试验》,提出了两个重要遗传学规律——分离规律和自由组合规律。 Johann Gregor Mendel (1822~1884)
6
孟德尔的遗传因子 孟德尔提出: ●生物的遗传性状是通过“遗传因子” (hereditary factor)进行传递的
●遗传因子是一些独立的遗传单位 遗传因子作为基因的雏形名词诞生了
7
“重新发现”孟德尔 1900年,是遗传学史乃至生物科学史上划时代的一年,来自三个国家的三位学者独立地“重新发现”了孟德尔的遗传规律。 他们是
荷兰的德弗里斯(Hugo De Vries,1848~1935) 德国的柯灵斯(Carl Erich Correns,1864~1933) 澳大利亚的契马克(Erich von Tschermak-Seysenegg,1871~1962)。 从此,遗传学进人了孟德尔时代。
8
重新发现孟德尔的生物学家 Hugo De Vries (1848~1935) Carl Erich Correns
(1864~1933) Erich von Tschermak (1871~1962) 重新发现孟德尔的生物学家
9
Wilhelm Ludwig Johannsen
1909年,丹麦遗传学家约翰逊根据希腊语“给予生命”之义,创造“基因”(gene) 基因便成为遗传因子的代名词一直沿用至今。不过此时的基因仍然是一个未经证实的、仅靠逻辑推理得出的概念。 Wilhelm Ludwig Johannsen (1857~1927)
10
(二)基因结构和功能的探索 随着遗传学、分子生物学、生物化学的发展,人们对基因本性的认识逐渐深入,基因的概念和涵义也不断地发展和丰富。
11
1、基因与染色体 在孟德尔的成果获得承认后,生物界都知道是遗传因子(即基因)决定了生物的遗传。但是,基因究竟在细胞内的什么地方?
摩尔根以果蝇为试验对象回答了这一问题,基因在染色体上。
12
不仅是决定性状的功能单位,也是一个突变单位和交换单位。
摩尔根的答案: 基因存在于染色体上 呈线性排列 不仅是决定性状的功能单位,也是一个突变单位和交换单位。 1933年获诺贝尔生理学医学奖 Thomas Hunt Morgan (1866~1945) 至此,人们对基因概念的理解更加具体和丰富了。
13
2、 基因与DNA 基因是何物? 基因的物质结构和化学组成怎样? 基因是如何决定遗传性状的? 这些问题在摩尔根时代仍然是谜。
14
在研究基因的化学本质上,细胞化学起了重要作用。
染色体的主要成分是蛋白质和核酸。基因究竟是蛋白质还是核酸? 蛋白质作为生命物质的主要成分和生命活动的体现者,它不仅参与所有的生命过程,而且它的化学结构也有多样性和可塑性。 所以在相当一段时间里,学术界认为基因是蛋白质,认为只有像蛋白质这样复杂的大分子才能决定细胞的特征和遗传 .
15
◆认识到基因的化学本质是核酸而不是蛋白质,经历了一段漫长的历史过程。
◆发现DNA的遗传功能,始于1928年格里菲斯(P.Griffith)所做的用肺炎双球菌感染小鼠的实验。 通过Griffith, Avery, Hershey等人的工作,最终确定DNA是遗传信息的载体。 DNA分子双螺旋结构模型的发现,为DNA复制提供了构型上的解释,使人们对DNA作为基因的物质基础不再怀疑.
16
从1857年孟德尔进行豌豆杂交实验算起,经过无数科学家近百年的探索,蒙在生命遗传奥秘上的面纱正在一层层地剥去。
科学探索的道路是螺旋式的,科学家们在阶梯上不断攀登,一个新的螺旋展现在他们的眼前,而这将引起一场生命科学的革命。
17
(三)现代分子遗传学关于基因的概念 1、 现代基因概念
基因(gene):是决定一定功能产物的DNA序列。这种 功能产物主要是蛋白质和RNAs。除了编码特定功能产物的DNA序列外, 还包括这个特定产物表达所需的调控序列。
18
与基因功能相关的结构 编码区序列(coding region sequence ) 非编码序列(non-coding sequence)
在细胞内表达为蛋白质或功能RNA的DNA序列 非编码序列(non-coding sequence) 基因表达需要的调控区(regulatory region)序列,包括启动子(promoter)、增强子(enhancer)等。
19
真核基因结构 真核基因结构不连续,为断裂基因(split gene)。 外显子(exon);在基因序列中,出现在成熟mRNA分子上的序列。
内含子(intron):外显子之间、与mRNA剪接过程中被删除部分相对应的间隔序列。
20
真核生物绝大部分编码蛋白质的基因都有内含子。编码rRNA和一些tRNA的基因也都有内含子。
内含子的数量和大小决定了真核基因的大小。不同种属中,外显子序列通常比较保守,而内含子序列则变异较大。 外显子与内含子接头处有一段高度保守的序列,这一共有序列是真核基因中RNA剪接的识别信号。
21
基因的5端称之为上游,3端称为下游 基因序列中开始RNA链合成的第一个核苷酸所对应的碱基记为+1,此碱基上游的序列记为负数,下游的序列记为正数。
22
调控序列参与真核基因表达调控 基因的调控区(顺式作用元件)
位于基因转录区前后,对基因表达起调控作用的区域,因其是紧邻的DNA序列,又称旁侧序列。
23
修饰点 上游启动子元件 剪接加尾 启动子 结构基因 翻译起始点 外显子 转录起始点 内含子 转录终止点 增强子 TATA盒 OCT-1
+1 AATAAA 翻译起始点 外显子 转录起始点 内含子 转录终止点 增强子 TATA盒 OCT-1 CAAT盒 OCT-1:ATTTGCAT八聚体 GC盒
24
顺式作用元件 启动子 上游调控元件 增强子 加尾信号 细胞信号反应元件
25
1. 启动子提供转录起始信号 启动子是DNA分子上能够介导RNA聚合酶结合并形成转录起始复合体的序列。 多数启动子位于真核细胞基因转录起点的上游,启动子本身通常不被转录。 少数启动子(如编码tRNA基因的启动子)位于转录起始点的下游,这些DNA序列可以被转录。
26
真核生物有3类启动子,分别对应于细胞内存在的三种不同的RNA聚合酶和相关蛋白质。
UPE upstream promoter element DPE downstream promoter element Inr initiator element rInr ribosomal initiator
27
增强子是增强真核基因启动子工作效率的顺式作用元件,是真核基因中最重要的调控序列,决定着每一个基因在细胞内的表达水平。
2. 增强子增强邻近基因的转录 增强子是增强真核基因启动子工作效率的顺式作用元件,是真核基因中最重要的调控序列,决定着每一个基因在细胞内的表达水平。 能够在相对于启动子的任何方向和位置(上游或者下游)上发挥这种增强作用,大部分位于上游。 增强子序列距离所调控基因距离近者几十个碱基对,远的可达几千个碱基对。 通常数个增强子序列形成一簇。 有时增强子序列也可位于内含子之中。 不同的增强子序列结合不同的调节蛋白。
28
3. 沉默子是负调节元件 沉默子(silencer)是抑制基因转录的特定DNA序列,当其结合一些反式作用因子时对基因的转录起阻遏作用,使基因沉默。
29
断裂基因(split gene) ※ 断裂基因:指基因的编码序列(外显子)在DNA分子上是不连续排列的,而是被不编码的序列(内含子)所隔开。
※ 编码的序列称为外显子(exon),对应于mRNA序列的 区域,是一个基因表达为多肽链的部分。 ※ 不编码的间隔序列称为内含子(intron),内含子只转 录,在前mRNA(pre—mRNA)时被剪切掉。 ※ 大多数真核生物的基因为不连续基因(interrupted或 discontinuous gene)或断裂基因(split gene)。
30
EM studies of mRNA-DNA hybrids for the chicken ovalbumin gene (the R-looping technique)
31
真核mRNA前体转录后加工(以卵清蛋白mRNA的转录为例)
内含子 外显子 真核mRNA前体转录后加工(以卵清蛋白mRNA的转录为例)
32
内含子的删除机理: GT-AG(或GU-AG)法则 真核基因中RNA剪接的识别信号
5′ 3′ exon3 exon1 exon2 GT AG GT AG 内含子的 5′端以GT(供体位点)开始, ′端以AG(受体位点)结束。 intron1 intron2
33
Pairing of wrong junctions would remove exons
Correct splicing removes 3 introns by pairwise recognition of the junctions Pairing of wrong junctions would remove exons
34
核内RNA完成剪接所需的只是5`位点、3`位点和分支位点(branch site) UACUAAC 的三个短的一致性序列。
分支位点位于内含子3`剪接位点18~40个核苷酸处。
35
Splicing proceeds through a lariat
36
snRNA (small nuclear RNA)是GU-AG型内含子剪接所必需的
snRNA 和几种蛋白质形成snRNP 。 参与剪接过程的5个snRNP是U1,U2,U4,U5和U6。 snRNP和其他一些辅助蛋白共同构成剪接体。
37
不论拼接过程如何,拼接必须极为精确,否则会导致遗传信息传递障碍,合成的蛋白质可能丧失其正常的功能。
我国南方广大地区是β-地中海贫血的高发区,这是由于β-珠蛋白链的合成受到部分或完全抑制所引起的一种血红蛋白病。 实验表明β-珠蛋白基因中核苷酸的点突变改变了正常拼接部位的碱基顺序,结果造成错误部位的拼接。 加工成熟的mRNA虽能翻译,但产物不是正常的β-珠蛋白,结果引起血红蛋白高级结构和功能的改变。
40
由于真核生物的绝大多数结构基因都含有内含子
所以--真核生物基因又称为 Split gene Interrupted gene 间隔基因,断裂基因 真核生物基因的转录物又称为 Precursor mRNA (pre-mRNA),前体mRNA Heterogeneous nuclear RNA (HnRNA),核内不均一 RNA
41
断裂基因的分布 Split gene 并非真核生物所特有 a) 真核生物中: 绝大部分结构基因 tDNA, rDNA mtDNA
b) 原核生物中: SV40 大T 抗原gene 小t 抗原 gene T4 噬菌体的胸苷合成酶 gene 1017 bp intron Split gene 并非真核生物所特有
42
c) 并非真核生物所有的结构基因均为split gene
组蛋白基因家族 干扰素 不是split gene 酵母中多数基因
43
第二节 人类基因组计划 人类基因组计划(human genome project, HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一30亿美元的人类基因组计划。 这一计划旨在为30多亿个碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息。与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。
44
20世纪人类科技发展史上的三大创举 90年代人类基因组计划 60年代人类首次登上月球 40年代第一颗原子弹爆炸
45
1、缘起: 科学家的胆略 诺贝尔奖获得者 Renato Dulbecco(杜尔伯克)1986 年发表于《 Science(科学)》杂志 的短文《 肿瘤研究的转折点:人类基因组测序 》中指出: “如果我们想更多地了解肿瘤,我们从现在起必须关注细胞的基因组 。…… 从哪个物种着手努力 ?如果我们想理解人类肿瘤,那就应从人类开始 … … 。 人类肿瘤研究将因对 DNA 的详细知识而得到巨大推动。”
46
1975年,获诺贝尔生理医学奖
47
人类基因组计划大事记 1986年3月,诺贝尔奖获得者雷纳托·杜贝科在《科学》杂志上撰文,呼吁早日实施人类基因组(HGP)测序计划
1990年10月,美国政府决定正式启动HGP,预计用15年时间,投入 30 亿美元,完成 HGP。 1992年10月,美国和法国研究小组分别完成首个 Y 染色体和第二代 20 号染色体的物理图 1998年10月,完成 1.8×108bp,占计划的 6%。 2000年6月,完成并公布人类基因组工作框架图(90%)。 2001 年 2 月,人类基因组计划公立阵营在 15 日出版的《自然》杂志、塞莱拉公司在 16 日出版的《科学》杂志上公布各自的人类基因组 “精细图” (99%)。 2003年4月14日,人类基因组序列图亦称“完成图”(99.99%),提前绘制成功。
48
1999 年 12 月用“逐个克隆法”获得第一条人类染色体 —22号染色体完成序列
49
2000 年3 月用“全基因组鸟枪法”获得果蝇全基因组序列。
50
2000年6月公共领域测序计划工作框架图
51
人类基因组草图基本信息 (2000.6) 人类基因组 人类蛋白质 由31.65亿bp组成 61%与果蝇同源 含3~3.5万基因
43%与线虫同源 46%与酵母同源 由31.65亿bp组成 含3~3.5万基因 与蛋白质合成有关 的基因占2%
52
2000 年 12 月美、英等国科学家宣布绘出拟南芥基因组的完整图谱,这是人类首次全部破译出一种植物的基因序列。
53
2001. 2,美、英同时发表论文,公布各自的人类基因组 “精细图” 美国 Science, Vol. 291, No
2001.2,美、英同时发表论文,公布各自的人类基因组 “精细图” 美国 Science, Vol. 291, No 英国Nature , Vol.409, p.860
54
DAN测序胶图
55
中国的HGP指导思想:参与、分享,重点是利用我们的资源,依靠我们自己的力量,为我们的子孙克隆我们自己的基因。
人类基因组研究国内研究进展: 中国的HGP指导思想:参与、分享,重点是利用我们的资源,依靠我们自己的力量,为我们的子孙克隆我们自己的基因。 1999年7月,中国科学院遗传所人类基因组中心在国际人类基因组HGSI注册,承担了其中1%,即3号染色体上3000万个碱基的测序任务,使我国成为继美、英、德、日、法之后第六个参与该计划的国家,也是唯一的发展中国家。 2001年8月,经过来自中国科学院基因组信息学中心、国家人类基因组南方中心以及国家人类基因组北方中心的科学家和工作人员的共同努力,国际人类基因组计划中国部分"完成图"提前两年绘就。
56
六国科学家公布人类基因组细节研究成果 一、基因数量少得惊人。基因数目为3-4万,只比果蝇多大约1.3万个基因。95%以上的基因含有内含子结构,平均外显子数为7个;平均基因长度为16.3kb。 二、人类基因组中存在“热点”和大片“荒漠”。所谓的“荒漠”就是包含极少或根本不包含基因的部分,基因组上大约1/4的区域是长长的、没有基因的片段。基因密度在第17、第19和第22号染色体上最高,在X染色体、第4、第18号和Y染色体上相对贫瘠。 三、35.3%的基因组包含重复的序列。科学家还鉴定了210万个人与人之间不同的基因序列,这些序列被称为“单核苷酸多态性”,它们通常是无害的。 四、地球上人与人之间99.99%的基因密码是相同的。来自不同人种的人比来自同一人种的人在基因上更为相似。在整个基因组序列中,人与人之间的变异仅为万分之一。
57
— 冷泉港 人类基因组完成图发布会
58
HGP的基本任务可用4张图谱来概括: 遗传图谱, 物理图谱, 转录图谱, 序列图谱。 遗传图谱 转录图谱 0.7 cM 或 kb 序列图谱
STS map HGP的基本任务可用4张图谱来概括: 遗传图谱, 物理图谱, 转录图谱, 序列图谱。
59
通过遗传图谱,可大致了解各个基因或DNA片断之间的相对距离与方向,如哪个基因更靠近着丝粒,哪个更靠近端粒等。
1) 遗传图谱(genetic map) / 遗传连锁图(linkage map) 是指基因或DNA标志在染色体上的相对位置与遗传距离。 遗传距离用重组率来衡量。 通过遗传图谱,可大致了解各个基因或DNA片断之间的相对距离与方向,如哪个基因更靠近着丝粒,哪个更靠近端粒等。
60
2) 物理图谱 以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site,STS)为“路标”,以碱基对(Mb、kb、bp)作为基本测量单位(图距)的基因组图。 可以确定两个遗传标记之间的实际(绝对)距离。
61
3)转录图谱/表达图谱 所有生物性状和疾病都是由蛋白质决定的,而所有蛋白质都是mRNA依照遗传密码编码的,若把mRNA通过反转录合成cDNA,就抓住了基因的转录部分。然后大规模测序,进行基因的分离、定位。 转录图亦称cDNA图或“表达序列”图。
62
表达图谱的意义: 通过这张图我们可以了解某一基因在不同时间、不同组织、不同水平的表达。它能有效的反映在正常或受控条件中表达的全基因的时空图。 有了“正常”的基因图谱,就奠定了构建特定生理条件下(如受外源的病原体、药物、食物、精神的刺激)与“异常”病理情况下,cDNA差异图的基础,以此为21世纪的基因医学绘制出指导的蓝图。
63
序列图是指整个人类基因组的核苷酸序列图,也是最详尽的物理图。 是转录序列、调节序列和功能未知序列的总和。
4)序列图谱(分子水平的物理图) 序列图是指整个人类基因组的核苷酸序列图,也是最详尽的物理图。 是转录序列、调节序列和功能未知序列的总和。 当时的策略是把庞大的基因组分成若干有路标的区域后,进行测序分析。将测出的每一个DNA片段按其染色体位置进行准确的排列, 从而得到人类基因组DNA序列的全貌。
64
DNA的鸟枪法序列分析技术 DNA的鸟枪法测序原理
65
HGP对人类的重要意义 1)HGP对人类疾病基因研究及医学的贡献 基因诊断、基因治疗和基于基因组信息的疾病预 防、疾病易感基因的识别、风险人群生活方式、环 境因子的干预。 2) HGP对生物技术的贡献 基因工程药物-制药工业,对细胞、胚胎、组织工 程的推动: 3) HGP对社会经济的重要影响 发现新功能基因的社会和经济效益;转基因食品; 转基因药物(如减肥药,增高药) 4) HGP对生物进化研究的影响
66
5) HGP带来的负面作用 基因组计划的实施会带来许多伦理学、法学和社会学问题。
基因专利战:现在美国好几家大公司均参入人类基因组计划,每克隆鉴定一个基因,他们就将整个基因申请专利,占为己有。 基因资源的掠夺战;种族选择性灭绝性生物武器等。 基因与个人隐私:致病基因的鉴定将使人们得知自己患某些癌症的概率,如欧美血统的妇女有八分之一的概率患乳腺癌。但若某妇女其近亲有一人患乳腺癌,则她患乳腺癌的概率剧增至85%。同时还具有患卵巢癌的45%的危险。这样,某人的基因鉴定结果常会导致保险公司拒绝保险或恣意提高投保金额的依据,造成严重的社会问题。
67
2 功能基因组学研究 研究内容: 基因功能鉴定、表达调控和突变检测等 人类基因组多样性的研究 模式生物体的研究 生物信息学的研究等
68
第三节 基 因 组
69
主要目标 认识基因组的结构、功能和进化; 阐明整个基因组所包含的遗传信息和相互关系; 充分利用有效资源,预防和治疗人类疾病。
70
主要内容 基因组的概念 原核生物基因组 真核生物基因组 病毒基因组
71
基因组 一套完整单倍体中遗传物质的总和。 单倍体细胞核、细胞器或病毒粒子所含的全部DNA或RNA分子。
如人类基因组:包含22条染色体和X、Y两条性染色体上的全部遗传物质(核基因组)以及胞浆线粒体上的遗传物质(线粒体基因组)。 人类基因组DNA总量:3× 109 bp
72
基因组大小和C值 C值 (C Value):生物体的单倍体基因组的DNA总量。 每种生物各有其特定的C值,不同物种的C值差别很大。
1950年,H. Swift创造该词, C:classes。 每种生物各有其特定的C值,不同物种的C值差别很大。 有时C值和基因组大小两个词可替换使用。
73
不同类别生物C值差异极大; 同类生物中,C值可相差很大。 在低等生物中,生物体结构与功能越复杂,C值就越大。
74
C值矛盾(C—Value paradox)
显花植物和两栖类动物的基因组最大,软骨鱼、硬骨鱼甚至昆虫和软体动物的基因组都大于包括人类在内的哺乳动物的基因组。 C值矛盾:生物基因组的大小同生物在进化上所处地位的高低无关,这种现象称为C值矛盾。
75
C值矛盾意味着有些DNA是不编码的。 那么90%以上的DNA功能何在?? 比较人类与E.coli编码基因数目
E.coli × 106bp,编码约3000种基因 人类 × 109 bp,是E.coli.的700多倍 有上百万个基因??? 人类编码基因约为2-2.5 万个 那么90%以上的DNA功能何在??
76
某些生物的基因组数据 物种 基因组大小 基因数目 基因长度 ΦX174 0.7kb 10 λ噬菌体 45Kb 100
物种 基因组大小 基因数目 基因长度 ΦX kb λ噬菌体 Kb 大肠杆菌 Mb kb 酿酒酵母 Mb kb 果蝇 Mb kb 人 Gb kb 拟南芥 Gb
77
一、原核生物基因组 原核生物基因组的结构特点 1、常仅由一条环状双链DNA分子组成(类核)。 2、只有一个复制起始点。
3、具有操纵子(operon)结构,所转录的RNA常为多顺反子。 4、基因密度非常高,编码区在基因组中所占比例远远大于真核基因组,小于病毒基因组。 5、基因多是连续的,无内含子,转录后不需剪接。 6、基因组中重复序列少。一般为单拷贝,但编码rRNA的基因往往是多拷贝。 7、细菌基因组中存在可移动的DNA序列,包括插入序列和转座子。 8、非编码区主要是调控序列,如复制起始区、复制终止区、转录启动区、终止区等。
78
以大肠杆菌(Escherichia coli)为例
细菌染色体DNA 质粒DNA
79
类核(nucleoid):细菌染色体在 细胞内形成的一个致密区域
质粒plasmid 大肠杆菌细胞结构
80
大肠杆菌染色体结构 蛋白质核心 超螺旋DNA环
81
(一)由一条环状双链DNA分子组成, 通常只有一个DNA复制起点。
C-Value: 4.6×106bp 大肠杆菌 大肠杆菌染色体DNA
82
(二) 结构基因大多组成操纵子 原核生物的mRNA是多顺反子mRNA 多顺反子mRNA (polycistronic mRNA):
Promoter Gene 1 Gene 2 Gene 3 Terminator DNA Transcription mRNA 3′ 1 2 3 5′ 多顺反子mRNA (polycistronic mRNA): 原核生物的一个mRNA分子带有几个 结构基因的遗传信息,利用共同的启动 子及终止信号,组成操纵子的基因表达 调控单元。 Translation Proteins 1 2 3
83
乳糖操纵子 lac operon t a y z p structural gene promoter terminator
operator ß-galactosidase半乳糖苷酶 z ß-galactoside permease透酶 y ß-galactoside transacetylase 半乳糖苷乙酰转移酶 a 乳糖操纵子 lac operon
84
单顺反子mRNA(monocistronic mRNA):
Translation Transcription mRNA DNA Protein Promoter Gene 3′ 5′
85
(三)其它结构特点 1.基因密度非常高,编码区在 基因组中所占比例大; 基因数:4288 基因大小:950bp/gene
1.基因密度非常高,编码区在 基因组中所占比例大; C 值:4,639,221 bp 基因数:4288 基因大小:950bp/gene 基因间隔:118bp/2gene 2.结构基因没有内含子,多为 单拷贝,rRNA基因为多拷贝; 3.重复序列很少,重复片段为 转座子;
86
4.不同的原核生物基因组的GC含量 (GC content)变化很大(25%-75%)
大肠杆菌 Escherichia coli 志贺氏杆菌(痢疾) Shigella flexnerl 鼠伤寒沙门菌 Salmonella typhimurium 肺炎克雷伯士氏杆菌 Klebsiella pneumoniae 粘质沙雷菌 Serratia marcescens 枯草杆菌 Bacillus subtilis 支原体 Mycopiasma capricolum 藤黄微球菌 Micrococcus luteus
87
(四)非编码区主要是调控序列: 复制起始区(OriC) 复制终止区(TerC) 转录启动区 转录终止区
88
复制起始区(OriC)
89
Initiation of Replication at oriC
DNA replication is initiated by the binding of DnaA proteins to the DnaA box sequences causes the region to wrap around the DnaA proteins and separates the AT-rich region
90
大肠杆菌强启动子 TTGACA TATAAT 转录起始 -10 -35 UP ß’ ß DNA
91
终止子: GC丰富区、AT丰富区 强终止子:有反向重复顺序,可形成茎环结构,其后面为poly(T)结构,转录终止无需ρ因子。 DNA RNA
5’…GCCGCCAGTTCGGCTGGCGGCATTTT… 3’ DNA 5’…GCCGCCAGUUCGGCUGGCGGCAUUUU…3’ RNA G A C C U G A U U U U-OH 3’ 5’ U 强终止子:有反向重复顺序,可形成茎环结构,其后面为poly(T)结构,转录终止无需ρ因子。
92
(五)具有转座现象 转座,或称移位(transposition): 转座因子在基因组 不同位置间的移动。
Barbara McClintock 转座,或称移位(transposition): 转座因子在基因组 不同位置间的移动。
93
1.转座因子的类别 插入序列(insertion sequence, IS) 转座子(transposon,Tn) 可转座的噬菌体
94
(1)插入序列(insertion sequence,IS)
小于2000bp,末端都有一段反向重复序列(IR序列),只编码转座酶。 IS因子可四处活动,几乎可插入大肠杆菌的任何位置。
95
(2) 转座子(transposon,Tn) 2-20kb,常带抗菌素抗性基因,易于鉴定。
Tn3系转座子:每个转座子都带有3个基因:一个是编码对氨苄青霉素抗性的β–内酰胺酶(β-lactamase)基因,其它二个是编码与转座作用有关的基因(TnpA和TnpR)。
96
(3) 可转座的噬菌体 Mu噬菌体:Mu能够整合进寄主染色体,催化一系列染色体的重新排列。
能引起突变,故用诱变者(mutator)的头两个字母命名。 转座酶 头尾部蛋白 结合位点 转座酶 结合位点 宿主DNA 37 kb A B
97
2.转座因子的遗传效应 复制型转座:转座因子复制出一个新拷贝转移到基因组新的位置
供体DNA 转座子 受体DNA 复制和转座 切除和连接 新的DNA 复制型转座:转座因子复制出一个新拷贝转移到基因组新的位置 非复制型转座:转座因子从原来位置上切除并转移到基因组新的位置
98
转座的结果使靶点序列倍增 transposon transposon transposon Host DNA Target site
T A C A T G C A C A G A T G T A C G T G T C transposon TAC ATGCA ATG CAG TACGTGTC transposon Direct Repeats TAC ATGCA ATG TACGT ATGCA CAG TACGT GTC 促使染色体畸变
99
引起插入突变 转座子 F E A B C D 复制 插入 转座子新拷贝 F E A B C D 基因F被隔断而失去功能
100
携带标志基因使受体增添新基因 Tn3 转座酶 氨苄青霉素抗性 Tn10 转座酶 四环素抗性
101
(六)质粒(plasmid) 质粒是存在于细菌染色体外的,具有自主复制能力的环状双链DNA分子;大小为2-3 kb。
102
质粒的特性 在宿主细胞内可自主复制; 细胞分裂时稳定地传给子代; 所携带的遗传信息能赋予宿主特 定的遗传性状; 质粒可以转移。
103
细菌基因组学的研究意义 更好地了解病原微生物的致病机制 加快重要基因的发现速度 寻找病原菌特异的DNA序列 为筛选有效药物及疫苗研制提供参考
104
二真核生物基因组 染色体DNA线粒体DNA
105
真核生物基因组结构的特点 1、二倍体,含两份同源的基因组 2、结构复杂,基因数庞大,具有多个复制起点,每个复制子大小不一。
3、真核基因由一个结构基因与相关的调控区组成,转录产物为单顺反子。 4、含有大量重复序列。 5、非编码序列占90%以上。 6、断裂基因(split gene)。 7、基因家族:功能相关的基因构成各种基因家族,可串联在一起,也可相距很远。 8、跳跃基因
106
(一) 重复序列(repetitive sequences)
真核生物细胞基因组中重复出现的核苷酸序列。根据出现频率的不同,大体可分成3大类: 单拷贝序列:在基因组中只出现一次或少数几 次,大多数编码蛋白质的结构基因属此类,如珠蛋白基因、卵清蛋白基因、丝心蛋白基因等。 中度重复序列: 重复次数10-105,如rRNA基因、tRNA基因和某些蛋白质(如组蛋白、肌动蛋白、角蛋白等)的基因。 高度重复序列:重复次数>105,如异染色质上的卫星DNA。
107
1. 单拷贝序列(single copy DNA)
单拷贝序列在人类基因组中大于50%。 结构基因 (蛋白质基因)大多是单拷贝序列。
108
2.中度重复序列: 重复次数10~105,约占基因组的35% 与基因调控相关的序列
编码tRNA、rRNA、组蛋白及免疫球蛋白的结构基因:往往以基因家族的形式组织,成簇的重复排列(clustered repetitive sequence) 与基因调控相关的序列
109
2 中度重复序列 短分散重复片段 平均长度约300 bp~500 bp,与长度约为1000 bp的单拷贝序列间隔排列。拷贝数可达数十万。如Alu家族、KpnI家族、Hinf家族。 长分散重复片段 平均长度为3500 bp~5000bp,与长度约为13000bp的单拷贝序列间隔排列。
110
Alu家族 重复达30~50万次,每个成员的长度约300 bp。
每个单位长度中一个限制性内切酶Alu的切点(AG↓CT),将其切成长130bp和170bp的两段。
111
真核生物的 Alu family 300bp 6000bp 300,000 copies 广泛分布于非重复序列间
112
真核生物的 Alu family 功能: 可能参与hnRNA的加工与成熟。 与遗传重组及染色体不稳定性有关。 有形成Z-DNA的能力。
可能具有转录调节作用。
113
KpnI家族 Hinf家族 仅次于Alu家族的第二大家族, 重复序列中含有限制性内切酶KpnⅠ的位点
呈散在分布,拷贝数约为3000~4800个 Hinf家族 以319bp长度的串联重复存在于人基因组中 重复序列中含有限制性内切酶Hinf I的位点。
114
rRNA基因重复序列属于中度重复序列 各重复单位中的rRNA基因都是相同的。 rRNA基因集中成簇存在,这样的区域称为rDNA区。
5SrRNA基因似乎全部位于1号染色体,每个单倍体基因组约有1000个5SrRNA基因。
115
rDNA gene family Histone gene family 组蛋白基因家族
组蛋白基因家族 rDNA gene family Schematic representation of the yeast rDNA locus
116
3. 高度重复序列DNA (highly repetitive DNA) 重复次数>105次 卫星DNA(satellite DNA) 反向重复序列 (inverted repeats)
117
1) 卫星DNA (satellite DNA)
卫星DNA:在氯化铯密度梯度离心时,对于真核生物基因组DNA片断,可看到在一条主带外还有一个或多个小的卫星带。这些卫星带中的DNA被称为卫星DNA。 卫星DNA的GC含量一般少于主带中的DNA,浮力密度也低。 是一类高度重复序列 DNA。 成串排列,重复数百万次,约占基因组5%。 浮力密度 等密度梯度离心法
118
卫星DNA的分类 (1) 大卫星DNA:长串联重复序列,位于染色体上的异染色区域。在人群中多态性不显著。
(2) 小卫星DNA重复序列(minisatellite) :中等大小的串联重复序列,位于染色体末端,或其他部位。呈高度多态性。 可变数目串联重复序列(variable number of tandem repeat,VNTR):重复单位约9~24bp,核心序列GGGCAGGAXG, 近端粒部位; 端粒DNA: 由重复序列(TTAGGG)n组成的2~20kb的DNA区段。染色体复制,末端保护
119
卫星DNA的分类 (3) 微卫星 DNA(micro-satellite, MS) 又称短串联重复序列(short tandem repeats STR,)或者简单重复序列 (simple sequence repeats,SSR), 由更简单的重复单位组成的小序列,一般为2~6个碱基重复,如(AC)n, (TG)n等。人类基因组中以(CA/GT)n,简称(CA)n重复序列最多,总共约有5× 个,即平均每6-60kbDNA就存在一个(CA)n,重复次数约15~16次; 在染色体DNA中散在分布, 呈高度多态性,是目前最有用的遗传标记。
120
(2)反向重复序列 两个相同顺序的互补拷贝在同一DNA链上反向排列而成,重复单位长度约300 bp。多数散在于基因组中,重复单位之间的平均距离约12kb。总长度约占人基因组的5% 。常见于基因调控区。 5`AAACCACCGCTGGTAGCGGTGGTTT3` 3`TTTGGTGGCGACCATCGCCACCAAA5` 倒位重复 5`AAACCACCGCTAGCGGTGGTTT3`3`TTTGGTGGCGATCGCCACCAAA5` 回文结构
121
不同生物的重复序列占基因组的比例差别很大;
原核生物无重复序列 低等真核生物 % repetitive sequence 高等植物 % 高等动物 %
122
,内含子、启动子
123
1.单核苷酸多态性(single nucleotide polymorphism,SNP)
(二)基因组序列多态性 1.单核苷酸多态性(single nucleotide polymorphism,SNP) 等位型1 等位型2 两个同源DNA序列中同一碱基位置含有不同的核苷酸。有助于解释个体的表型差异及对疾病的易感性等。
124
单核苷酸多态性(SNP) 人类99.9%的基因密码是相同的,差异不到0.1%,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础。
125
2. 限制性片段长度多态性 (restriction fragment length polymorphism,RFLP)
↓ DNA1-1 ↓ DNA1-2 用一种限制性内切酶消化不同个体的同一段DNA时,由于碱基组成的变化而改变限制性内切酶识别位点,从而会产生长度不同的DNA片段。
126
限制性片段长度多态性(RFLP)
127
DNA 指纹鉴定技术 (DNA Fingerprinting) 誰是親生父親?
128
DNA指纹图谱的特点 1.高度的特异性:两个随机个体具有相同DNA图谱的概率仅3×10-11;如果同时用两种探针,两个个体完全相同的概率小于5×10-19。全世界人口约50亿,即5×109。因此,除非是同卵双生子女,否则几乎不可能有两个人的DNA指纹图谱完全相同。 2.稳定的遗传性:DNA指纹图谱中几乎每一条带纹都能在其双亲之一的图谱中找到,这种带纹符合经典的孟德尔遗传规律,即双方的特征平均传递50%给子代。 3.体细胞稳定性:即同一个人的不同组织,如血液、肌肉、毛发、精液等,产生的DNA指纹图谱完全一致。
129
(三) 多基因家族(multigene family)
指核苷酸序列或编码产物的结构具有一定程度同源性的基因,其编码产物常具有相似的功能。 基因家族的不同成员常成簇地分布于一条或几条不同染色体上,其间由间隔顺序隔开,编码一组关系密切的蛋白质。
130
1.核酸序列相同: 多拷贝基因形成的基因簇, rRNA、tRNA、组蛋白基因家族。 非洲爪蟾的5SRNA基因结构
组蛋白基因家族
131
2.核酸序列高度同源 生长激素(GH)与绒毛膜生长催乳激素(CS) 氨基酸序列比对:有85%的同源性,说明它们来自于一个共同的祖先基因。
217 生长激素(GH)与绒毛膜生长催乳激素(CS) 氨基酸序列比对:有85%的同源性,说明它们来自于一个共同的祖先基因。
132
3.编码产物的功能或功能区相同 基因全长序列的相似性可能较低,但其编码产物具有高度保守的功能区。
133
4. 基因超家族(supergene family)
由多基因家族及单基因组成,它们的结构有不同程度的同源性,但功能不一定相同。 免疫球蛋白超家族(Immunogloblin super-family, IGSF) IGSF的成员均含有1~7个Ig样功能区
134
(四)假基因(pseudogene,Ψ) 与有功能的基因结构相似,但不能表达基因产物的基因。 由于突变失去了原有功能 珠蛋白基因簇中的假基因
由mRNA反转录成cDNA,然后整合在基因组中,缺少基因表达所需的调控区。 G A 2 1 Alu 10 kb 珠蛋白基因簇中的假基因
135
三、病毒基因组 SARS-冠状病毒 子弹状的狂犬病毒 Ebola 病毒
136
病毒的分类(核酸性质与复制方式) DNA病毒 RNA病毒 双链DNA病毒(dsDNA virus,多数)
单链DNA病毒(ssDNA virus, 很少) DNA病毒 单股正链RNA病毒((+)ssRNA virus) 单股负链RNA病毒((-)ssRNA virus) 双链RNA病毒(dsRNA virus) 逆转录病毒 RNA病毒
137
病毒基因组的结构特征 1. 基因组大小差别很大, 3.2kb ~ 300kb 2. 基因组可以是DNA或RNA,每种病毒只含一 种核酸
4. 受到体积最小化的压力,基因组中有重叠基因现象 5. 基因组绝大多数序列用于编码蛋白质 相关基因有簇集现象 多顺反子mRNA的不同剪接 单顺反子mRNA翻译后的切割 7. 真核细胞的病毒基因组可有内含子
138
(一)DNA病毒基因组 类型 特点 代表种类
139
1.线性双链DNA病毒 腺病毒 adenovirus 早期蛋白(E) 晚期蛋白(L) ITR E1A E1B E3 E4 E2B E2A
% L2 L3 L4 L5 L1 ITR ITR(inverted terminal repeats): 反向末端重复序列 早期蛋白(E) 晚期蛋白(L)
140
基因组:线性双链DNA,编码两大类蛋白 早期蛋白(E)、晚期蛋白(L)
反向末端重复序列 (inverted terminal repeat,ITR) AT丰富区保守序列:ATAATATACC GC丰富区保守序列:GGGCGG,TGACGT bp,在病毒复制过程有重要作用
141
2.双链环状DNA病毒 乳头瘤病毒 papillomavirus URR
中断细胞生长周期 乳头瘤病毒 papillomavirus URR 上游调节区转录 与复制 衣壳蛋白 基因组:双链环状DNA,可分为早期区(E)、晚期区(L)、上游调节区(upstream regulatory region, URR,调节转录与复制 DNA复制 膜信号蛋白 组装与释放
142
2008年诺贝尔生理学或医学奖: (德)Harald zur Hausen
(德)Harald zur Hausen 因发现人类乳头瘤病毒(HPV)导致子宫颈癌而获奖;
143
3.单链环状DNA病毒 5387nt 噬菌体φX174 基因重叠 5387 nt 编码 2500 AA 1977,Sanger
144
4. 开环部分双链DNA病毒 乙型肝炎病毒(HBV) 聚合酶 HBsAg HBcAg
145
开环部分双链DNA病毒 乙型肝炎病毒(HBV) HBsAg 逆转录酶 HBcAg HBeAg HBxAg
146
(二)RNA病毒基因组 类型 特点 代表种类
147
1.单股正链RNA病毒 包膜蛋白(E) 病毒RNA聚合酶 SARS冠状病毒 SARS coronavirus 核衣壳蛋白(N)
膜蛋白(M) 核衣壳蛋白(N) 刺突蛋白(S) SARS冠状病毒 SARS coronavirus
148
单股正链RNA、不分节段, 5′端有甲基化帽, 3′端有poly(A)结构。 脊髓灰质炎病毒、鼻病毒、 多数RNA噬菌体、冠状病毒
149
2.单股负链RNA病毒 血凝素(HA) 8节段-ssRNA 神经氨酸酶(NA)
禽流感病毒(H5N1) avian influenza A virus
150
流感病毒(Influenzavirus, IV)
属正黏病毒科,流感病毒属。根据抗原性的不同,可分为A、B、C三型。A型流感病毒可见于人类、多种禽类、猪和马及其他哺乳动物,B型和C型一般只见于人类。 根据血凝素(HA)和神经氨酸酶(NA)的抗原特性,将A型流感病毒分成不同的亚型。目前可分为15个H亚型(H1~H15)和9个N亚型(N1~N9)。H5与H7为高致病型。 感染人的禽流感病毒亚型主要为H5N1、H9N2、H7N7,其中感染H5N1的患者病情重,病死率高。
151
单股负链RNA、8节段,均编码蛋白质, 5′端由相同的13个核苷酸组成,
3′端有12个保守的核苷酸序列。 流感病毒、滤泡性口腔炎病毒、 狂犬病毒
152
3.双链RNA病毒 呼肠孤病毒 reovirus 外衣壳蛋白 内衣壳蛋白 11节段dsRNA
153
呼肠孤病毒(Reoviridae)的命名,是由respiratory enteric orphan virus各取其第一个字母而来
正负双链RNA,10-12节段、每段编码一个蛋白质 呼肠孤病毒、轮状病毒、 噬菌体Φ6 轮状病毒
154
4.逆转录病毒(retrovirus) Cap 核心蛋白 逆转录酶 膜蛋白 poly(A)
核心蛋白 逆转录酶 膜蛋白 poly(A) 单股正链RNA,有三个基本的结构基因:gag、pol、env。 gap编码病毒衣壳蛋白;pol编码蛋白酶、逆转录酶和整合酶;env编码包膜蛋白。 人类免疫缺陷病毒(HIV)
155
5′端有甲基化帽,3′端有poly(A),另有多个基因表达调控位点。
白血病病毒、肉瘤病毒、人类免疫缺陷病毒
156
(法)Françoise Barré-Sinoussi 和Luc Montagnier 因发现人类免疫缺陷病毒(HIV)而获奖
157
病毒比病毒学家更聪明。病毒在自然界的历史比人类要久远的多,它们更清楚如何在这个世界上生存
---赖明诏 “冠状病毒研究之父”赖明诏, 美国的冠状病毒教科书不少出自他手。 1975年以来,他一直从事冠状病毒的研究,对牛、猪、鸡、猫、老鼠等多种动物体内的冠状病毒有比较深入的了解。
158
思考题 名词解释: 断裂基因 跳跃基因 基因组 C-值矛盾 基因家族 卫星DNA RFLP 问答题: 1. 比较原核和真核生物基因组的特点。
2. 人类基因组计划的主要内容及其意义。
Similar presentations