The Human Perspective Sequencing the Human Genome 作者:张 瑜 李 佳
Key Words HGP: Human Genome Project 人类基因组计划 Overlapping fragment 重复片段 Nucleotide 核苷酸 autosomes 常染色体 Vertebrate Evolution 脊椎动物的进化 Polymorphisms 多型现象
人类基因组计划的确定 1986年,世界上的许多科学家聚在美国,讨论破解存在于人类染色体内的遗传信息的可能性。 A few years later,美国、欧洲和亚洲决定成立HGP。 人类基因组中大约有30亿个碱基序列,如果把每个碱基看做是这本书中的一个字,那么人类基因组中的信息,将可以写一本100万页厚的书!
前期准备 在HGP开始的几年中,主要是收集数据,进行详细而准确的准备工作: 150,000个碱基序列的重复片段被克隆到细菌上,再将其切成更小的片段进行测序。 当这些序列的测序工作完成后,将结果输入到基因银行的数据库中,供人们查询。 将测过序的小片段重新组装成线状DNA分子。
新突破 1999年,人类常染色体中最小的两条——21号和22号的基因序列以它们最后完成时的形式被公布。 (1)每个位点平均都被测过10次,以确保高精确度。 (2)这两条序列中包含一个不超过150,000个碱基的缺口。
人类基因组草图完成 2000年6月,HGP公布了人类基因组草图。 这张“草图”与21号和22号染色体完成时的版本不同: (1)“草图”没有21号和22号染色体那样精确,因为个别位点只做过平均四次测序; (2)“草图”中有大量的缺口。 这张“草图”覆盖了人类基因组的90%。
DAN测序胶图
DNA测序 峰 形 图
私人公司的加入 人类基因组“草图”并不是像HGP最初计划的那样,是由于一间叫做Celera Genomics 的私人公司提前完成了人类基因组测序的工作。 新方法: HGP采用的方法是将染色体上的基因逐个做克隆,但Celera Genomics 采用了新方法,缩短了测序的过程。 Celera Genomics将基因破碎成上百万个小段,利用超级计算机和基因库中的数据,对这些小序列进行逐个测序,再将它们从新组装成DNA分子。
AU系统超声波细胞粉碎仪/匀质仪 JG-1A/JG-2型高压细胞破碎机
人类基因组计划的完成 预计2002~2003年Celera Genomics及HGP将联合公布一份完整的人类基因组图谱,但其中仍将含有一些很有意义的但无法通过现有技术进行测序的缺口。
2001年2月16日 人类基因组计 划(HGP)完成
人类基因组的价值 由上百万的碱基组成的序列对于遗传并没有太大的价值,但是存在于这些序列中的未经加工的数据信息却是非常有价值的。 利用计算机验证这些基因的序列,并预测它们的作用,最终确定它们是如何在基因外表达和调控的。 2002年2月,Celera Genomics和HGP共同公布了有关人类基因组的初步信息。 在这些信息公布之前,认为人类基因组中包含50,000~150,000个不同的基因,但实际只有30,000个不同的基因,比螺纹线虫多50%~75%。
人类的一些基因与细菌的非常相似,这可能是在进化中形成的。 虽然人类的基因组与细菌的有很多相似之处,但人类却比细菌复杂得多,是因为基因的表达有很多种,如连接的方式及重组,使得其表达的产物也千变万化。 这样,由于基因表达的多样性,便会有更多形式的有机个体出现。
人类基因组研究的应用 研究人类基因组最终是为了分析触发人类疾病,如高血压、精神病等和癌症的基因序列的变化,并将研究成果运用到临床诊断中。 例如,利用人类基因组的数据,与一个人的基因相比对,发现这个人有一些基因座位上的等位基因有变化,使他患心脏病的机率提高了,医生就可以建议这个人在饮食和生活方式上多注意,防止患心脏病的机率继续提高。
1、在医学领域中的应用 (1)对特殊疾病基因的确定 人体的各种器官系统和组织常受到各种特殊疾病的侵袭,这些疾病对人类健康关系重大,但通过常规医疗手段无法进行诊断和治疗。 通过认识这些疾病的基因序列及确定发生了规律性改变的DNA片段,为这类疾病的诊断和治疗提供了可能。 比如,杜兴肌营养不良、慢性肉芽肿、视网膜母细胞瘤、亨廷顿氏舞蹈症和家族性早老年痴呆症等基因就是依赖于人类基因组计划的实施。 注:亨廷顿氏舞蹈症是由于维持生命体基本活动的脑神经节中的神经大量死亡引起,这一区域控制着人的行为和认识。其基因在第4号染色体的上部。
慢性肉芽肿性疾病指的是一组其吞噬细胞不能表现出呼吸爆发的遗传性疾病,而且可以常染色体隐性遗传方式传递给下一代。该病主要表现为各种部位的感染。
视网膜母细胞瘤
各种人类基因组图谱会使寻找与特定遗传疾病有关的基因的工作变得容易。以限制性内切酶酶切片段长度多态性(RFLPs)为基础的精细遗传连锁图谱将很快地使与疾病有关的位点定位在染色体亚区上成为可能。 利用DNA克隆库和限制酶切图谱,人们可以对正常的患者的DNA进行有效的分析比较,达到对某一疾病的基因进行定位的目的 。 人类基因组的DNA全序列将有助于证实假定存在的所有基因,可为分析病人DNA样品的序列提供一个数据库。
(2)有利于优生和产前诊断 人类对基因组的了解会推动对遗传性疾病的诊断和预防。随着分离到的疾病基因的增多,以DNA为基础的诊断会更为普遍。医生和遗传学家可以通过基因检测,识别出带有遗传疾病的胚胎细胞。 比如:囊性纤维变性和镰状细胞性贫血。 在不久的将来,胎儿期的检测也许能够预测一般的常见病。 比如:肥胖症、抑郁症和心脏病等。 应用遗传座位专一性的分子探针,可检测出疾病基因的携带者,将使父母了解其子女出现遗传缺陷的危险程度。
镰刀状红细胞 囊性纤维变性
(3)加强对癌症的认识和治疗 癌症的高死亡率严重地威胁着人类生命。癌症是由于细胞生长失控造成的。分子遗传学研究表明,细胞分裂的失控是因为特定基因的异常造成的。遗传的缺陷通常会使人体对特定的癌症具有高的易感性。寻找与癌症相关的基因的研究是当前医学研究的热点之一。人类基因组计划将会大大地促进这方面的研究。一旦确定了易感基因,就可以进行癌前或早期癌症的特殊监护和治疗。
(4)有利于医学生物学的研究 ①确定人类基因组中的转座子(transposon)、逆座子(retroposon)和病毒残余序列的分布,了解有关病毒基因组侵染人类基因组的情况,可指导人类有效地利用病毒载体进行基因治疗。 ②对染色体和个体之间的多样性的研究结果可被广泛用于基因诊断、个别识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究中。 ③研究DNA的突变、重排和染色体断裂等, 了解疾病的分子机制,包括遗传性疾病、易感性疾病、放射性疾病和感染性疾病引发的分子病理学改变及其进程,为这些疾病的预后以及分子水平上的诊断、预防和治疗提供依据。
2、在基础理论研究方面的应用 (1)确定人类基因组中基因的序列、组织和物理位置,有利于研究基因的功能以及它们相互之间在表达和调控机制方面的联系。 (2)了解转录和剪接调控元件的结构与位置,有助于从整个基因组结构的宏观水平上理解基因转录与转录后的调控。 (3)从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小。了解各种重复序列和非转录序列在染色体结构、DNA复制、基因转录和表达调控中的影响和作用。
双向电泳
(4)研究空间结构对基因调控的作用。有些基因表达的调控序列与被调控基因从直线距离上看,似乎相距较远,但若从整个染色体的空间结构上看则恰恰处于最佳的调控位置。因此有必要从三维空间的角度来研究真核基因的调控。 (5)研究正常基因与突变基因的差别,会帮助阐明与正常的生理学和疾病发生都有关的新的生化和细胞学机制。尽快地确定出疾病基因,能使研究者对该基因的蛋白产物及其细胞生物学效应进行深入的研究。
等电聚焦(isoelectric focusing)
(6)有利于确立有重要功能意义的基因组组构的特征。 人类染色体含有许多不是基因的片段, 一些特定片段对细胞分裂前染色体复制和确保染色体组正确地分配到两个子细胞中是不可缺少的。 这些片段的性质及行使功能的机制鲜为人知,人类基因组的物理图谱将为探讨这些特定片段性质及作用的实验打下基础。 (7)发现新的基因和蛋白质。迄今仅有少数参与正常和疾病的人类基因被确定。对人类基因组作图和测序将会确定出大量新的人类基因及其编码的蛋白质。另外,物理图谱将有助于对那些已大体定位在染色体上,但尚未分离出的基因进行精确定位。
3、在生物学研究领域的应用 (1)生物进化研究 人类基因组记载着人类的进化史。如果知道了人和其它生物基因组的全序列,就有可能追溯出人类基因的起源。因为所有哺乳动物有着相似的蛋白质谱,所以哺乳动物之间的差异主要表现在受控的基因表达的时间、表达的水平,以及细胞类型专一的调控信号等方面。人胚胎的有序发育需要特定的场所和时间的活化,使多潜能细胞成为新类型的细胞,这一过程至少部分地受控于位于基因附近的调节顺序。这些顺序在其活化的基因中大多是同源的。对人类基因组进行顺序分析,并将与其它哺乳动物进行比较,将使我们能确定出大量的调节顺序。此外,我们将了解基因调控的规律,及其在人从其它哺乳动物分化出来的过程中在分子水平上所发生的变化。
人类基因组研究的目的,不是为了单纯地积累数据,而是要揭示大量数据中所蕴藏的内在规律,从而更好地认识和保护生命。对基因和蛋白质结构数据的大量分析表明,生命体基因组所含的基因数量与基因编码的蛋白质的基本结构单位数存在着较大的差距,前者为105,后者仅为103左右。说明数量有限的蛋白质编码区段的倍增、重排和融合,产生了大量含有多个模块的复合基因,构成了庞大而复杂的人类基因组所编码序列。如果把一个基因比作一个个体,那些起源于同一祖先,在不同生物体中行使同一功能的基因群就可比作为一个门类,这些类似的基因被称为“直向同源物(Ortholog)”。 另一方面,同一生物体中由同一基因复制而产生的多个蛋白质的基因称为“横向同源物(Paralog)”。α-珠蛋白、β-珠蛋白和肌红蛋白的基因就是典型的Paralog的例子,它们是由脊椎动物中的祖先珠蛋白基因复制而来的。近年来, 由于基因资料的骤增,人们发现所有生物体中都富含Paralog的关系。
(2)分子考古研究 真核生物基因组中,编码序列仅占一小部分,而绝大部分的序列是非编码序列。其中相当于转座元件的重复序列家族又占据了相当大的一部分。转座元件可以通过RNA中间产物的逆转录,或DNA自身的切割和整合来完成转座功能。已知的转座因子可分为四类:短散在元件(SINE)、长散在元件(LINE)、长末端重复顺序逆转录病毒样元件和DNA转座子。
研究表明,在人类基因组中存在着11x105个Alu顺序(一种SINE)和59x104个Linel顺序(一种LINE)。另外,基因组中某些不确定的系列可能也是由散在的重复系列组成,只是这些重复系列已相当退化而难以识别。有人推测,若能识别出退化的重复系列,则有可能50%的人基因组和50%以上的鼠基因组是由重复序列组成的。重复序列可能具有以下功能: (1)作为特异组织表达基因调控区内的重复序列; (2)通过易化同源重组、转座或倒位重塑基因组结构; (3)可能与基因组外现象(亲代印迹、位置作用的多样性等)有关。 由于重复序列出现和持续的年代可由种系之间的比较来确定,它们可作为一种很有价值的时间标志,用于分子考古学的有关复杂基因位点的研究。
争 论 人类基因组图谱的公布,在人类社会中引起了许多争论。 争 论 人类基因组图谱的公布,在人类社会中引起了许多争论。 保险公司与被保人之间的争论。已有法律禁止保险公司利用人类基因组图谱对被保人的隐私进行侵犯。 关于DNA序列的专利权之争。许多公司、大学和个人纷纷申请DNA序列的专利权,争论的焦点在于破译了多少个基因序列才能申请专利。 一些科学家认为不应该为了DNA序列的破译而申请专利,只有发现基因在蛋白质中的正确表达的才能申请专利。即使这样,依然有争论,因为一个基因有可能有多种表达,仍有可能许多人为了同一个基因的不同表达而申请专利。
结束语 虽然人类基因组图谱的绘制已经完成,但其在生产和生活中还没有得到广泛的应用,还有许多方面的工作需要我们去实践。 虽然人类基因组图谱的公布引起了许多争论,但就科学研究本身,我们应该相互团结,才能在崎岖的科研道路上走得更远。
谢 谢!!!