人类基因组计划(human genome project,HGP)是由美国科学家、诺贝尔奖获得者Renato dulbecco于1986年在杂志《Science》上发表的文章中率先提出的,旨在阐明人类基因组脱氧核糖核酸(DNA)3×109核苷酸的序列,阐明所有人类基因并确定其在染色体的位置,从而破译人类全部遗传信息。美国于1990年正式启动人类基因组计划,估计到2003年完成人类基因组全部序列测定。欧共体、日本、加拿大、巴西、印度、中国也相继提出了各自的基因组研究计划。由于各国政府和科学家的共同努力,HGP目前已在为全球范围的合作项目;随着数理化、信息、材料等学科的渗透和工业化管理模式的引进,HGP已真正成为生命科学领域的科学工程,基因组(genomics)作为一门新兴学科也应运而生。
与此同时,科学界也在思索人类基因组计划完成后的下一步工作,因此就有了“后基因组计划”(post-genome project)的提法。大多数科学家认为原定于2003年所完成的人类基因组计划只是一个以测序为主的结构基因组学(structural genomics)研究,而所谓的“后基因组计划”应该是对基因功能的研究,即所谓的功能基因组学(functional genomics)。此外,一些新的概念如:“蛋白质组(proteome)”、“环境基因组学(environmental genomics)”和“肿瘤基因组解剖学计划(cancer genome anatomy project,CGAP)”等等也在不断向外延伸。
一、结构基因组学 (一)人类基因组作图 人类基因组作图根据使用的标记和手段不同,初期的作图有二种:一是通过计算连锁的遗传标记之间重组频率而确定它们相对距离的遗传连锁图,一般用厘摩(cM)来表示;二是确定各遗传标记之间物理距离的物理图,一般用碱基(bp)或千碱基(kb)或兆碱基(Mb)来表示。1cM的遗传距离大致上相当于1Mb的物理距离。随着研究工作的进展,遗传图和物理图逐渐发生整合,在此基础上大量引入基因标记,从而形成了新一代的转录图。
1.遗传连锁图 遗传连锁图(genetic map)绘制需要遗传标记,早期的遗传标记主要为生化标记,20世纪80年代中期以限制性片段长度多态性(RFLP)、串联重复序列拷贝多态性和小卫星重复顺序等遗传标记为主,这类标记的数量较少,信息也较低;20世纪80年代后期发展的短串联重复序列(short tandem repeat,STR)也称微卫星(microsatellite,MS)标记,主要为二核苷酸重复序列,如:(CA)n,它们在染色体上分布较均匀,信息含量明显高于RFLP,因而成为遗传连锁分析极为有用的标记;近年来,单个碱基的多态性(single nucleotide polymorphism,SNP)标记又被大量使用,其意义已超出了遗传作图的范围,而成为研究基因组多样性和识别、定位疾病相关基因的一种新标记。
2.物理图 物理图(physical map)包含了两层意义,一是获得分布于整个基因组的30000个序列标签位点(sequence tagged site,STS),这可使基因组每隔100kb距离就有一个标记;二是在此基础上构建覆盖每条染色体的大片段DNA克隆,如:酵母人工染色体(yeast ar tificial chromosome,YAC)或细菌人工染色体(bacterial artificial chromosome,BAC)、人工附加染色体(human artificial episomal chromosome,HAEC)和人工噬菌体染色体(P1 bacteriophage artificial chromosome,PAC)等连续克隆。这些图谱的制作进一步定位其它基因座提供了详细的框架。
3.转录图 构建转录图的前提条件是获得大量基因转录本即信使核糖核酸(mRNA)的序列,人类基因组中的基因数目约在10万左右,构建转录图首先需要获得人类基因的表达序列标签(expressed sequence tag,EST),以此建立一张人类的转录图,并与遗传图的交叉参照。
4.DNA序列的生物信息学 HGP一开始就与信息高速公路和数据库技术形成了同步发展。迄今,国际上四个大的生物信息中心即美国的国家生物技术信息中心(NCBI)、基因组序列数据库(GSDB)、欧洲分子生物实验室(EMBL)和日本DNA数据库(DDBJ)已经建立和维持了源自数百种生物的互补DNA(cDNA)和基因组DNA序列的大型数据库。这些中心和全球的基因组研究实验室通过网点、电子邮件或者直接与服务器和数据库联系而获得的搜寻系统,使得研究者可以在多种不同的分析系统中对序列数据库提出质询,这些分析包括基因的发现、蛋白质模体的鉴别、调控元件的分析、重复序列的鉴别、相似性的分析、核苷酸组成的分析以及物种间的比较等。
(二)基因组的基本结构和进化 人类基因组研究的目的,不仅为了单纯地积累数据,而且要提示数据中所蕴藏的内在规律,从而更好地认识生命体。近年来,随着模式生物体测序的相继完成和人类基因组测序速度的加快(到1999年12月已宣布完成人类第22号染色体的完全测序),特别是生物信息所提供的强有力的分析和综合手段,使人人能够逐渐透过浩瀚的基因组序列信息,去探索一些更为本质的问题,如:基因组的复杂度与生物进化、基因组编码序列的结构、基因和蛋白家族、基因家族的大小及其进化。
(三)疾病的基因组学 HGP的直接始动因素是要解决包括肿瘤在内的人类疾病的分子遗传学问题,因此与人类健康密切相关。另一方面,8000多种单基因遗传病和多种大面积危害人群健康的多基因疾病(如:肿瘤、心血管病、代谢性疾病、神经疾病、精神疾病、免疫性疾病)的致病基因和疾病相关基因占人类基因组中相当大的一部分。因此,疾病基因的定位、克隆和鉴定是HGP的核心部分。
20世纪90年代之前,绝大多数人类遗传性疾病的原发生化基础尚不清楚,无法用表型-蛋白质-基因的传统途径进行研究。在HGP的遗传和物理作图带动下,出现了最初被称为“反求遗传”、90年代初又改称为“定位克隆法”的全新思路。该思路的关键内容是:应用细胞遗传学定位和家第连锁分析方法,首先将疾病基因定位于染色体的特定位置,然后通过进一步的遗传和物理作图,使相关区域压缩至1Mb之内,此时即可构建YAC、BAC、PAC、HAEC或粘粒(comid)等克隆重叠样,从中分离基因,并在正常人和患者的DNA中进行结构比较,最终识别出疾病基因。包括囊性纤维化、Huntington舞蹈病、遗传性结肠癌、乳腺癌等一大批重要疾病的基因是通过“定位克隆”发现的,从而为这些疾病的基因诊断和未来的基因治疗奠定了基础。随着人类基因图的日臻完善,一旦某个疾病位点被定位,即可从局部的基因图中遴选出结构、功能相关的基因进行分析,将大大提高疾病基因发现的效率。
目前,人类疾病的基因组学研究,已深入到多基因疾病这一难点。多基因疾病难以用一般的家系遗传连锁分析取得突破,需要在人群和遗传标记的选择、数学模型的建立、统计方法的改进等方面进行不断的探索。
二、功能基因组学 HGP当前的整体发展使功能基因组学提到了议事日程,出现了结构和功能基因组学向功能基因组学过渡、转化的过程。一般认为,在功能基因的组研究中可能的核心科学问题有基因组的多样性和进化规律;基因组的 表达及其调控;模式生物体基因组研究等。
(一)基因组多样性 人类是一个具有多样性的群体,不不同群体和个体在生物学性状以及在对疾病的易感性/抗性上的差别,反映了进化过程中基因组与内、外环境相互作用的结果。开展人类基因组多样性的系统研究,无论是对于了解人类的起源和进化,还是对于医学均会产生重大的影响。各种常见多因素疾病(如:高血压、糖尿病和精神分裂症等)相关基因的研究将成为功能基因组时代的研究热点。除了利用多态性遗传标记进行精细定位这一传统途径,也将采用基因组水平再测序的方法直接识别变异序列,即选取一定数量的受累和未受累个体,对所有疾病相关或候选基因的全序列(或其编码区)进行再测序,准确定位其变异相关标记位点。同样,肿瘤研究也需要对肿瘤相关基因进行大规模的再测序。
(二)识别人类基因的共同变异 已知大多数人类基因的等位基因数量是有限的,常仅有2~3种。形成这种遗传多样性局限性的原因,很有可能是因为现代人类来源于一个相当小的群体,这有助于揭开许多疾病敏感性的奥秘。如:载脂蛋白E基因有三种主要变型(E2、E2和E4),可以解释老年痴呆症和心血管疾病的风险性;血管紧张素原转换酶(ACE)与心血管疾病一定相关性;化学趋化因子受体CKR-5在一定程度上影响对人类免疫缺陷病毒(HIV)的敏感性等。非编码区对评价疾病风险也是重要的,精确定位非编码区变异的方法可以是对调控区域变异的系统性筛查,也可利用精密遗传图在人类群体中识别祖先染色体节段。
三、药物基因组学 基因组多样性也在一定程度上决定了人体对药物的反应,通过对影响药物代谢或效应通路有关基因的编码序列的再测序,有可能提示个体对药物反应差异的遗传学基础,这就是“药物基因组学”(pharmacogenomics)的主要内容;以此作为延伸,提示个体对环境反应差异的遗传学基础的环境基因组学也已露端倪。
四、蛋白质组学 蛋白质组学是要从整体上研究蛋白质及其修饰状态。目前正在发展标准化和自动化的二维蛋白质凝胶电泳的工作体系,包括用一个自动系统来提取人类细胞的蛋白质,继而用色谱仪进行部分分离,再用质谱仪检测二维修饰,如:磷酸化和糖基化。此外,也有人在设计和制作各种蛋白质生物芯片;蛋白质的另一个重要工作内容是建立蛋白质相互作用的系统目录。生物大小即蛋白-蛋白和蛋白-核酸之间的互作构成了生命活动的基础,这些互作有可能以通用的或特殊的“陷井”(如:酵母双杂交系统)加以识别。 总之,基因组学正方兴未艾,其现实意义和深远意义已得到全体人类的共识,预期在不远的将来,人类基因组学将对人类的健康、计划生育、优生优育产生重大影响。