HGP——人类基因组计划 张挺
HGP(Human Genome Project)是了解人类自身奥秘的计划
1985年,美国能源部(DOE)率先提出,旨在阐明人类基因组 DNA长达3×109碱基对( base pair,bp)的序列。发现所有人类基因并阐明其在染色体上的位置,从而在整体上破译人类遗传信息。1986年美国宣布启动"人类基因组启动计划";1989年,美国国家卫生研究院(NIH)建立国家人类基因组研究中心(NCHGR);1990年,NIH和DOE联合提出美国人类基因组计划,正式启动HGP,计划于15年内提供30亿美元的资助,在2005年完成人类基因组全部序列的测定。
这无疑是一项探索生命奥秘的伟大计划,曾被称为"跨世纪的曼哈顿工程"。
最后一个五年计划的主要目标是:①得到标记间距为1厘摩(1厘摩=重组频率为1%的两个基因间的遗传距离)的遗传图谱;②得到至少有30万个序列标记位点(STS)的物理图谱,1998年10月实际已经有5.2万个 STS被作图;
③2001年得到人类基因组序列的"草稿",2003年得到最后"定稿";④测序能力要达到每年500Mb(1Mb=1000kb),每个碱基对的分析费用要少于25美分,支持毛细管阵列电泳、DNA芯片等的测序技术的发展;⑤增加测定人类基因组变异的内容,得到10万个作图定位了的单核苷酸多态性(SNP);
⑥得到所有基因的全长c DNA;⑦发展在基因组尺度上分析生物功能的技术;⑧在模式生物基因组研究方面,大肠杆菌、酵母菌、短小丽杆线虫的全基因组序列已经全部完成并发表公布,到2002年完成果蝇的全基因组序列,2005年完成小鼠的全基因组序列。
除了具体的测序目标外,HGP的另一个重要内容是研究人类基因组计划的论理学、法学和社会学影响与后果,发展生物信息学和计算生物学也是HGP的重要内容。
我国的人类基因组计划(CHGP)是于1993年启动,由国家自然科学基金委员会、国家高技术计为J(863)和国家重点基础研究计划(973)所共同资助的。
根据实际情况,我国HGP的初期目标主要是充分利用我国丰富的人类遗传资源,进行基因组多样性和疾病基因识别的研究。
格雷(H.Gray) 绘制了第一张人体解剖图,解开了许多人体奥秘,为近代医学的发展奠定了基础。人类基因组计划将最终绘制出人体的第二张解剖图,从基因水平上揭示出人体的奥秘,奠定21世纪医学和生物学飞跃发展的基础。
这张解剖图将包括4张小图,包括了人类基因组计划的全部主要内容,它们分别是遗传图(连锁图)、物理图、序列图和转录图
第一张图是遗传图,又叫连锁图。它是以在某个遗传位点上具有多个等位基因的遗传标记作为"路标",以遗传学上的距离即两个遗传位点之间进行交换、重组的百分率cM作为"图距",反映基因遗传效应的基因组图。
建立人类遗传图的关键是要有足够的高度多态的遗传标记。但是,目前所知的具多态性的性状不多,等位基因的数目有限,信息量不足。这样,就限制了人类基因组的遗传分析工作。所幸DNA重组技术的建立提供了新一代的遗传标记。
第一代的DNA标记是RFLP(限制性片段长度多态性)分析。这些RFLP片断可被某些限制性内切酶特异识别并切割。DNA序列的改变甚至是一个碱基的改变,将会改变限制性内切酶酶切片段的长度变化,并可通过一种称为凝胶电泳的方法来方便地显示这种长度的"多态性"。RFLP在整个基因组中都存在,根据对RFLP片段的多态性分析,可对某些疾病进行诊断并将与疾病有关的基因进行定位。但RFLP提供的信息量有限,在检测RFLP片段时需用到放射性同位素,不太安全。
第二代遗传标记是被称为简短串联重复片段的STR。在检测RFLP的过程中,人们发现有一种类型是由于DNA重复序列造成的。这些DNA重复序列在人类基因组中有很多拷贝,它们可以头对头或头对尾地串联成一簇,分布于基因组的各个位点。在某一位点上,不同数量的重复序列(VNTR)也可以提供不同的长度片断。有的VNTR重复单位长度为6-12个碱基,称为小卫星;有的VNTR重复单位为2-6个碱基,称为微卫星或简短串联重复(STR)。STR具有高度多态性,同一遗传位点数目变化很大,在群体中也可形成多达几十种的等位基因,这是其他遗传标记所不能比拟的;此外,还可以利用PCR的DNA体外扩增技术, 实现操作机器自动化。
1996年初,所建立的遗传图已含有6000多个以STR为主体的遗传标记,平均分辨率即两个遗传标记间的平均距离为0 1996年初,所建立的遗传图已含有6000多个以STR为主体的遗传标记,平均分辨率即两个遗传标记间的平均距离为0.7分摩,这个距离大致对应于0.7Mb的物理距离。
有6000多个遗传标记作为路标,把基因组分成6000多个区域,只要以连锁分析的方法,找到某一表现型的基因与其中一种遗传标记邻近(即紧密连锁)的证据,就可以把这一基因图定位于这一标记所界定的区域内。这样,如果想确定与某种已知疾病有关的基因,即可根据决定疾病性状的位点与选定的遗传标记间的遗传距离,来确定与疾病相关的基因在基因组中的位置。
物理图是基因组计划的第二张图。物理图以一个"物理标记"作为路标,以Mb、Kb、bP作为图距的基因组图。物理图与遗传图相互参照就可以把遗传学的信息转化为物理学信息。
如某一区域的大小为多少CM可以基本折算为某一区域大小为多少Kb。物理图的绘制需要筛选大量的物理标记以及进行大量复杂和繁琐的分析。1995年,第一张以称为序列标签位点STS为物理标记的物理图谱问世,它包括了94%的基因组和1500多个标记位点,平均间距为200Kb(这就是所谓的分辨率)。这样,物理图就把人类庞大基因组分成具有界标的1500个小区域。
人类基因组物理图的问世是基因组计划中的一个重要里程碑,被遗传学家誉为20世纪的"生命(生物学)周期表"。
利用一张遗传图,研究人员可将一种特定的遗传病的遗传模式同标记顺序的遗传模式进行比较,迅速确定引起该遗传病的基因的位置。然后,计算机把数据固定在物理图框架内。遗传图与物理图结合在一起,就能迅速确定与疾病有联系的基因。物理图的问世标志着离人类基因组全序列测定仅有一步之遥了。
第三张图是序列图,可以说它是人类基因组在分子水平上最高层次、最为详尽的物理图。测定总长为1米、由30亿对核昔酸组成的基因组全部DNA序列,是基因组计划中最为明确、最为艰巨的定时、定量、定质的硬任务。
首先让我们来了解一下DNA序列分析的原理和基本技术
目前,主要采用桑格(Sanger)于对年代发明的"双脱氧核糖核酸链末端终止法"进行测定。测序反应事实上就是一个在DNA聚合酶作用下的DNA复制过程。
以一条链为模板,在一个测序引物的牵引下,新的DNA链得以不断延伸。但如果加人一些双脱氧核糖核苷酸即ddNTPs,就不能使延伸反应继续下去,最终随机产生许多大小不等的末端是双脱氧核苷酸的DNA片段,这些片段之间大小相差一个碱基,在电压驱动下,从一种由聚丙烯酰胺做成的凝胶上可间接地读出这些有差异的代表其末端终止位置处碱基种类的片段,那么一系列的连续片段就代表了整个模板DNA的全部序列。
用机器进行自动测序,一次可读400-800个碱基。尽管全自动测序较为方便省时,但由于测定的序列长度有一定限制,相对于庞大的人类基因组来说可谓"老虎吃天,无从下口"。因此,测序的策略问题就被提出来了。
目前,常用的测序策略是"鸟枪法"。形象地说,就是将较长的基因片段打断,构建一系列的随机亚克隆,然后测定每个亚克隆的序列,用计算机分析以发现重叠区域,最终对大片段的DNA定序。
测序技术也在不断地发展和提高。过去两年内,通过在一个测序的电泳胶上增加电泳泳道和测序胶的长度,使自动测序仪的通读水平提高了2-3倍。此外,一些不依赖于电泳技术来分离DNA片段的方法如质谱分析也正在或已经建立。杂交测序也是一项非电泳类方法。目前还有一种可用电子显微镜直接观察的方法。
第四张图是转录图。
我们知道,生物性状是由结构或功能蛋白决定的,功能蛋白是由信使RNA(mRNA)编码的,mRNA又是由编码蛋白功能基因转录而来的。转录图就是测定这些可表达片段(EST)的标记图。
事实上,整个人类基因组中有97%的部分由不被转录的DNA组成,只有2%-3%的DNA序列具有编码蛋白质的功能。在人体某一特定的组织中仅有10%的基因被表达。也就是说,只有不足1万个不同类型的RNA分子(只有在胎儿的脑组织中,可能有30%-60%)的基因被表达。如果将这些mRNA通过一种反转录的过程构建成CDNA文库,然后再测定这些DNA的序列,最终绘制成一张可表达基因图--转录图。
有了一张总的转录图,我们就可以了解某基因在不同的时间、不同组织的表达情况;可以了解不同组织中不同基因的表达;还可以了解正常条件下与异常状况下基因表达的差异。
关于EST的序列是否应公布于众,EST序列能否申请专利问题的争论也近乎白热化。
本来基因是不应申请专利的,被授于专利的只限于发明,而不是发现。
但是,每克隆一个与疾病有关的基因,搞清它的作用机制、并制成基因药物用于临床,平均要投入1亿美元。有投入就必须有回报,如果投入者的成果最后大家都能享用,那么经过商业竞争新产品就只能以略高于成本的价格出售。如果是这样,投入者的先期投入将无法收回。其后果一是打击了投入者的积极性,二是限制了投入者对新项目投入的能力。
所以,人类基因现在也被授予了专利。如肥胖基因,该基因的克隆曾被一家生物制药公司以3000万美元收购;但该公司并未自己生产减肥药物,而是在第二年以7000万美元的高价转手获利,年利率高达250%。可见,与基因有关的买卖将会在今后大量涌现。
1997年11月11日联合国教科文组织在巴黎召开大会,通过了《人类基因宣言 》。宣言指出:每个人身上的基因物质是"人类的共同遗产",不应成为盈利的手段。这就是说,科学研究应该与商业行为分开,科学研究可以从商业机构那里得到资助,但科学成果应该是人类的共同财富。