第九节 基因的结构和功能 基因(gene):具有特定功能的核酸片断。
基因组和染色体组的概念
染色体组(chromosome):生物单倍体细胞中完整的一套所含的全部染色体。 基因组(genome): 泛指一个生命体、病毒或细胞器的全部遗传物质;在真核生物,基因组是指染色体组(单倍体)的DNA。 基因组学(genomics) 就是发展和应用DNA制图、测序新技术以及计算机程序,分析生命体(包括人类)全部基因组结构及功能。
基因组学包括3个不同的亚领域 结构基因组学(structural genomics) 功能基因组学(functional genomics) 比较基因组学(comparative genomics) 基因组学概念
(一) 病毒生物基因组 乙型肝炎病毒(HBV)基因组(长约3.2kb )
编码序列具有重叠现象
(二)原核生物基因组 与病毒的基因组有相似特点,又有其独特的结构和功能。 (1)细菌的基因组通常仅由一条环状双链DNA分子 (2)具有操纵子结构,数个功能相关的结构基因串联在一起,受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因(regulatorygene)所调控。 (3) 结构基因在细菌染色体基因组中都是单拷贝但是编码rRNA的基因往往是多拷贝的,有利于核糖体的快速组装,在急需蛋白质细胞时在短时间内有大量核糖体生成。
(4)和病毒的基因组相似,不编码的DNA部份所占比例比真核细胞基因组少得多 (5)具有编码同工酶的同基因(isogene) 例如,在大肠杆菌基因组中有两个编码分支酸(chorismicacid)变位酶的基因 两个编码乙酰乳酸(acetolactate)合成酶的基因。 (6)和病毒基因组不同的是,在细菌基因组中不会出现基因重叠现象。
(二)真核生物基因组
人类基因组 10万个基因 2.5万个基因 7万多个基因? 原有预测 现在预测
1、真核生物基因组的特点: (1)真核生物基因组DNA与蛋白质结合形成染色质,储存于细胞核内 (2)真核细胞一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。 (3)单一序列为主,存在大量重复序列。 (4)基因组中不编码的区域多于编码区域。 (5)大部分基因含有内含子,因此,基因是不连续的。 (6)远远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较短。 (7) 存在多基因家族和超基因家族
2.真核基因组中DNA序列的分类 (1)单一序列(unique sequence) (2)中度重复序列: (3)高度重复序列
单拷贝序列(一次或数次) 重复序列 即一个编码基因转录生成一个mRNA分子,经翻译生成一条多肽链。 高度重复序列(106 次) 多拷贝序列 中度重复序列(103 ~ 104次) 多拷贝序列 即一个编码基因转录生成一个mRNA分子,经翻译生成一条多肽链。 重复序列
Types of repeat We will now look at the various types of repeated DNA. The basic facts are: - They may be tandem (i.e. arranged in blocks) or interspersed (distributed all around the genome) (see diagram). - They may be coding or non-coding - Copies may be perfect or imperfect - Origin is via duplication, amplification and/or transposition of the prototype sequence Tandem repeats within genes Some protein-coding genes are composed of tandemly repeated segments, e.g: Collagen genes. Collagen is the major structural protein in vertebrates, and is made up of 3 polypeptide chains forming a triple helix. The protein structure is a repeat: (gly-X-Y)n The alpha 2(1) collagen gene is 38kb long with over 50 exons. Each exon is 54 or 108bp long, i.e. an exact multiple of the 3 amino-acid repeat; 6 or 12 copies.
106以上20% (hight repetitive sequence) 卫星DNA(随体DNA 、主缢痕区、端粒、 Y染色体长臂异染色质区): 2~10bp,用梯度离心法将它与主体DNA分开,其序列成串排列,简单重复。 微卫星DNA,2~6bp为重复单位,长度10~60bp,高度重复,表现为高度多态。 高度重复序列 106以上20% (hight repetitive sequence) DNA分子双链的某些部分,碱基排列呈反向序列相同现象。 如: 反向重复序列: 灵长类动物特有,重复顺序由交替变化嘌呤、嘧啶组成多种重复结构共存的的重复顺序。 复杂重复序列:
终止子结构及转录形成的发夹结构
高度重复顺序的功能: 参与复制水平的调节、基因表达的调控,有些反向重复顺序可以形成发夹结构,这对稳定RNA分子免遭分解有重要作用。
平均长度小于500bp,两个片段间隔约1000 bp的单拷贝序列。 例如人类Alu家族(Alu family),占人类基因组的3%-6%,由300bp构成,在第170位附近都是AGCT顺序,可被内切酶AluⅠ。重复达30-50万次,平均5kbDNA就有一个Alu顺序。 短分散元件(SINEs): 中度重复序列 103~104 10% (intermediate repetitive sequence) 长分散元件(LINEs): 重复序列长度大于1000 bp重复序列之间间隔10~30 bp单拷贝序列。在人类基因组可重复几十次串联在一起形成基因簇有称串联重复基因。
3.多基因家族(multi gene family) 真核基因组的特点之一。 多基因家族是指由某一祖先基因经过重复和变异所产生的一组基因。
多基因家族分类 多基因家族大致可分为两类: 一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内。 另一类是一个基因家族的不同成员成簇地分布不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族、HLA基因家族
假基因(pseudo gene) 在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。 假基因与有功能的基因同源,原来可能也是有功能的基因,但由于缺失,倒位或突变点等,使这一基因失去活性,成为无功能基因。 可能是基因经过转录后生成的RNA前体通过剪接失去内含子形成mRNA,如果mRNA经反复逆转录产生cDNA,再整合到染色体DNA中去,便有可能成为假基因。 与相应的正常基因相比,假基因往往缺少正常基因的内含子,两侧有顺向重复序列。
4、基因组中的转座因子—“移动的控制基因学说” 转座子(transposable element):基因组中存在的能够自发地在基因组内移动,从染色体的一个区段转移到另一区段或从一条染色体转入另一条染色体的DNA片段。 转座因子转座后能够改变转座部位基因的结构和功能。 1951年Barbara Mclintock首先在玉米中发现。
转座子可以分为两大类: 以DNA-DNA方式转座的转座子和反转录转座子(retrotransposon)。 第二类转座子又称为返座元(retroposon) 是近年新发现的由RNA介导转座的转座元件,在结构和复制上与反转录病毒类似,只是没有病毒感染必须的env基因,它通过转录合成mRNA,再逆转录合成新的元件整合到基因组中完成转座,每转座1次拷贝数就会增加1份,因此它是目前所知高等植物中数量最大的一类可活动遗传成分。
二、真核生物的断裂基因 断裂基因(split gene) :真核细胞的结构基因包含了编码序列和非编码序列,编码序列被非编码序列隔开,形成镶嵌排列的断裂形式,称为断裂基因。 外显子内含子接头的“GT—AG”法则
人类珠蛋白基因结构图 3 5 外显子:具有编码意义 编 码 区 内含子:无编码意义( 5'GT、 3'AG; GT -AG法则) 转录起始点 转录终止信号 GC框 GC框 3 5 外显子 1 (E1) 1 30 外显子 2 (E2) 31 104 外显子 3 (E3) 105 146 CAAT框 RNA聚合酶结合 控制转录频率 TATA框 RNA聚合酶结合 决定转录起始点 AATAAA 回文顺序 内含子1(I1) 内含子2(I2) 外显子:具有编码意义 编 码 区 内含子:无编码意义( 5'GT、 3'AG; GT -AG法则) TATA框 结构基因 前导区 启动子 CAAT框 非编码区 尾部区 GC框:调节转录的活动。 增强子 调 控 区 mRNA裂解信号(AATAAA) 终止子 回文结构
三、基因表达的调控 基因表达 调控的生 物学意义 适应环境、维持生长和增殖 维持个体发育与分化
基因表达调控的基本原理 基因表达的多级调控 基因激活 转录起始 转录后加工 mRNA降解 转录起始 蛋白质降解等 蛋白质翻译 翻译后加工修饰
(一) 原核生物基因表达调控 1.操纵子概念、结构及功能 操纵子(operon)是指功能上相关的一组基因,在染色体上串联在一起的一个转录单位。
操纵子的结构 调节基因(Regulatory gene):阻遏蛋 白编码基因。 控制区 启动基因(Promotor)为cAMP受体、蛋白和RNA聚合酶结合区。 操纵子 操纵基因(Operator):阻遏蛋白结合点 信息区: 由一个或数个结构基因串联在一起
乳糖操纵子调节机制 Z Y A O P 1.乳糖操纵子(lac operon)的结构 调控区 结构基因 DNA 操纵序列 启动序列 CAP结合位点 启动序列 操纵序列 结构基因 Z: β-半乳糖苷酶 Y:通透酶 A:乙酰基转移酶 Z Y A O P DNA
TGTTGACATTTATTTGTTATAATG CAT 负调节蛋白(阻遏物)将基因关闭,使其不能转录的调节方式。 负调节: 大肠杆菌乳糖操纵子 LacZ (半乳糖苷酶) 3510bp LacY (半乳糖苷通透酶) 780bp LacA (半乳糖乙酰酶) 825bp 启动子 (P) TGTTGACATTTATTTGTTATAATG CAT 6~9bp 4~7bp 操纵基因 (O) 5 3 调节基因(R) 1040bp 转录 翻译 阻 遏物 关闭状态
TGTTGACATTTATTTGTTATAATG CAT LacZ (半乳糖苷酶) 3510bp LacY (半乳糖苷通透酶) 780bp LacA (半乳糖乙酰酶) 825bp 启动子 (P) TGTTGACATTTATTTGTTATAATG CAT 6~9bp 4~7bp 操纵基因 (O) 5 3 调节基因(R) 1040bp + + + RNA聚合酶 转录 RNA聚合酶 翻译 半乳糖苷酶 通透酶 乙酰化酶 阻 遏物 乳糖 半乳糖 打开状态
(二)真核细胞的基因表达调控 1.环境因素对基因表达调控的影响 2.激素、蛋白质因子等对基因表达 真核细胞 调控的影响 基因的调控 3.染色质结构的变化
转录前及转录水平的调节:基因数量,结构 组蛋白转位模型
基因突变
突变(mutation): 是指遗传物质发生的可遗传的变异。 染色体畸变(chromosome aberration):染色体数目和结构的改变。 突变 基因突变(gene mutation):狭义的突变,所指基因的核苷酸顺序或数目发生改变。
一、基因突变的基本概念 基因突变(gene mutation):基因组DNA分子在结构上发生碱基对组成或排列顺序的改变 。 突变基因(mutation gene):突变后在原座位上出现的新的基因。。
根据突变发生的条件分类: 自发突变(spontaneous mutation) :在自然条件下,有机体由于与环境随机相互作用或偶然的复制错误而发生的突变 。 诱发突变(induced mutation) :使用诱变剂处理生物体而产生的突变 。
各据突变发生的细胞分类: 生殖细胞突变 :发生在生殖细胞中的基因突变,可通过有性生殖遗传给后代,并存在于子代的每个细胞中。 体细胞突变 :发生在体细胞中的基因突变,不会传递给子代,但可传递给由突变细胞分裂所形成的子细胞,在局部形成突变细胞群,它可能成为病变甚至癌变的基础。
各据突变发生的遗传物质分类: 核基因组DNA发生突变
正向突变(forward mutation):A→a 突变的方向 负向突变(suppresor mutation):a →A 非条件型突变(nonconditional mutation) 对外界环境的依赖 条件型突变(conditional mutation) 转换 点突变:碱基置换 颠换 DNA序列改变 缺失 多点突变:碱基序列的改变 插入
二、基因突变的类型及其分子机制 静态突变 (一)碱基替代 (二)碱基的插入与缺失 (三)动态突变
(一)碱基替代 一个碱基被另一碱基取代而造成的突变 转换(transition) 颠换(transversion) :嘌呤→嘌呤,嘧啶→嘧啶 :嘌呤→嘧啶,嘧啶→嘌呤 T G C A
化学因素
① 诱发DNA分子化学结构改变,使复制后出现碱基替换 。 机制
② 核苷酸类似物的掺入,造成碱基错配 。 机制
碱基替代引起的基因突变的效应 1、同义突变(same-sense or synonymous mutation):碱基的改变并未引起编码的氨基酸改变。例如,CCA→脯氨酸,当A→G后,CCG→脯氨酸。 2、错义突变(missense mutation) :碱基的改变引起编码的氨基酸改变。例如,GAG→谷氨酸,A→T,GUG→缬氨酸。 例:正常血红蛋白β链的第6位氨基酸 GAG → GTG 谷氨酸 缬氨酸 HbA HbS (导致镰形细胞性贫血)
3、无义突变(non-sense mutation):碱基的改变使该三联体不再构成任何氨基酸的密码子,而形成终止信号。例如:TAC→酪氨酸,C → A,TAA → mRNA → UAA →终止信号 4、终止密码突变(termination codon mutation):当DNA分子中一个终止密码发生突变,成为编码氨基酸的密码子时,多肽链的合成将继续进行下去,肽链延长直到遇到下一个终止密码子时方停止,因而形成了延长的异常肽链。也称延长突变(elongtion mutation)
5、抑制基因突变(suppressor gene mutation):当基因内部不同位置上的不同碱基发生了两次突变,其中一次抑制了另一次突变的遗传效应。 例如,Hb Harlem是 β链第6位谷氨酸→缬氨酸,死亡。第73位天冬氨酸→天冬酰胺;但Hb Harlem临床表现却较轻,即β73的突变抑制了β6突变的有害效应。
(二)碱基的插入与缺失
1、移码突变 移码突变(frame-shift mutation)是指DNA链上插入或丢失1个、2个甚至多个碱基(但不是三联体密码子及其倍数),在读码时,由于原来的密码子移位,导致在插入或丢失碱基部位以后的编码都发生了相应改变。
2、整码突变 整码突变(codon mutation)在DNA链的密码子之间插入或丢失一个或几个密码子,则合成的肽链将增加或减少一个或几个氨基酸,但插入或丢失部位的前后氨基酸顺序不变,又称为或密码子插入或丢失(codon insertion or deletion)
A C T G A C T G A C T G C G 移码突变 A T G C A C T G C G 整码突变
3、染色体错误配对不等交换 染色体错误配对不等交换(mispaired synapsis and unequal crossing-over)减数分裂期间,同源染色体间的同源部分发生联会和交换,如果联会时配对不精确,会发生不等交换,造成一部分基因缺失和部分基因重复。这种突变常用解释大段多核苷酸的丢失和重复。 adefg abc bcdefg abcdefg adefg abcbcdefg
(三)动态突变 脆性X综合症:由于三核苷酸(CCG)重复序列的拷贝数随传递次数的增加而重复数增加而造成。 动态突变(dynamic mutation):DNA分子中碱基重复序列拷贝数随着世代的传递发生扩增而导致的突变。 脆性X综合症:由于三核苷酸(CCG)重复序列的拷贝数随传递次数的增加而重复数增加而造成。
三、基因突变的后果 (一)不产生有害影响 例如,血清蛋白类型、ABO血型、HLA类型及各种同工酶型等都是基因突变形成的。有少数情况下,基因突变还可产生有利于机体生存的积极效应。这些无害或有利的突变是生物多样性与进化发展的重要源泉。
三、基因突变的后果 (二)引起遗传性疾病 编码结构蛋白的基因突变可产生分子病,如血红蛋白病;编码酶的基因突变,导致酶功能异常,导致代谢紊乱,产生遗传性酶病。
三、基因突变的后果 (三)与肿瘤形成密切相关 目前认为与癌症发生直接相关的基因有癌基因(oncogene)及抑癌基因(tumor suppressor genes)。基因突变一方面可使原癌基因激活另一方面可使抑癌基因缺失或失活,这两方面的变化都可导致细胞的恶性转化。
四、DNA损伤的修复 修复(repairing) 修复的主要类型 是对已发生分子改变的补偿措施,使其回复为原有的天然状态。 光修复(light repairing) 切除修复(excision repairing) 重组修复(recombination repairing) SOS修复
物理因素 紫外线(ultra violet, UV)、各种辐射
(一)、光修复 波长300~600nm的可见光 光复活酶 修复
缺口 (二)、切除修复
(三)、复制后修复 复制 重组 再合成
(四)SOS修复 当DNA损伤广泛难以继续复制时,由此而诱发出一系列复杂的反应。 在E. coli,各种与修复有关的基因,组成一个称为调节子(regulon)的网络式调控系统。 这种修复特异性低,对碱基的识别、选择能力差。通过SOS修复,复制如能继续,细胞是可存活的。然而DNA保留的错误较多,导致较广泛、长期的突变。
基因突变与肿瘤 (一)二次突变假说:20世纪70年代Knudson提出 正常细胞必须经过两次或两次以上突变才能转化为癌细胞。而且细胞在以后的发展中如果形成增殖优势而形成克隆,便构成恶性肿瘤。 如果两次突变都发生在同一体细胞,发生的肿瘤是不遗传的。 如两次突变中,第一次发生于生殖细胞,突变可能传给后代,后代再经一次突变即可形成遗传性肿瘤。
癌基因、抑癌基因与生长因子的关系 抑癌基因 负调控 细胞 癌基因 正调控 产物 生长因子
(二)癌基因 细胞癌基因(cellular-oncogene, c-onc) 癌基因(oncogene) 细胞内控制细胞生长和分化的基因,它的结构异常或表达异常,可以引起细胞癌变。 病毒癌基因(virus oncogene,v-onc) 细胞癌基因(cellular-oncogene, c-onc)
病毒癌基因(virus oncogene,v-onc) 存在于病毒基因组中的癌基因,它不编码病毒的结构成分,对病毒复制也没有作用,但可以使细胞持续增殖。 调节和 启动转录 LTR gag pol env src 长末端 重复序列 癌基因 正常的病毒基因 产生病毒 核心蛋白 产生逆转录 酶和整合酶 外膜蛋白 产生酪氨酸 激酶
细胞癌基因 细胞癌基因(cellular-oncogene, c-onc) 存在于生物正常细胞基因组中的癌基因,或称原癌基因 (proto-oncogenes , pro-onc) 。 细胞癌基因的特点: 广泛存在于生物界中; 基因序列高度保守; 作用通过其产物蛋白质来体现; 被激活后,形成癌性的细胞转化基因。
癌基因的激活
癌基因被激活的结果 出现新的表达产物 出现过量的正常表达产物 出现异常、截短的表达产物
癌基因的激活方式 1.基因突变:编码取得突变造成基因编码的癌基因一级结构发生改变。人肺癌细胞系HS242的癌基因GRAS1与正常人细胞癌基因C-HRAS比较,仅16位密码由CAA →CTA,谷氨酰胺 → 亮氨酸。 2.启动子插入:癌基因附近插入一个强有力的启动子,使其激活,转录增强。例如病毒基因整合到细胞癌基因的适当位置。鸟类白细胞增生病毒(ALV)LTR整合到细胞癌基因C-ERBB上游0.5kb后,激活该基因,引起细胞增殖优势,形成鸡红细胞增多症。
3.基因扩增: DNA不断复制使其拷贝数在基因组中大量增加,成为基因扩增(gene amplification)。基因拷贝数增加,使其基因产物过量,而促进细胞恶性转化。 成胶质细胞瘤中,癌基因ERBB的扩增量达正常人的50倍。 神经细胞瘤中N-myc扩增达正常的140-250倍。
4.染色体易位: Burkitt淋巴瘤75%有染色体易位t(8,14)在8q24处有癌基因c-myc,而14q32处有免疫球蛋白基因复合体IGH,易位后免疫球蛋白基因激活癌基因,使其过量表达导致Burkitt淋巴瘤。 慢性粒细胞性白血病的发病原因:易位使9号染色体长臂(9q34)上的原癌基因abl和22号染色体(22q11)上的bcr(break point cluster region)基因重新组合成融合基因。后者具有增高了的酪氨酸激酶活性。