比较基因组学 中英联合实验室
比较基因组学的产生 伴随着基因组的研究, 相关信息出现了爆炸性 增长, 迫切需要对大量基因组数据进行处理, 比 较基因组学作为一门重要的工具学科应运而生。 比较基因组学是通过对系统发育中的代表性 物种之间的全方位基因和基因家族的比较分析, 构建系统发育的遗传图谱, 来揭示基因、基因 家族的起源和功能及其在进化过程中复杂化和 多样化的机制。
果蝇基因组 果蝇基因组全长 180mb , 2/3 是 euchromatin , 1/3 是 heterochromatin ; Blast Search 确定有 个转录产物(功能基因)。 Science, 287: (2000)
比较基因组学定义 利用不同物种基因组之间功能区域顺序上、 组织结构上的同源性 克隆新基因 揭示基因功能 阐明物种进化关系、基因组的内在结构
比较基因组学的应用 揭示非编码功能序列 发现新基因 发现功能性 SNP 阐述物种间的进化史 阐明人类疾病过程的分子机制
比较基因组学与进化 古细菌 --- 产甲烷球菌 与原核生物共同之处: 染色体组织与结构:环状基因组、基因的操纵子结构等 能量产生和固氮基因与有很高的同源性 与细胞分裂有关的蛋白质、 20 多个编码无机离子运输蛋白的 ORF 与细菌基因同源 调控模式类似于原核生物 与真核生物共同之处: 细胞遗传信息传递,尤其是转录和翻译系统 分泌系统 说明该细菌与真核生物亲缘关系较近。
比较基因组学与进化 比较基因组学提供的结果表明,在进 化系统树上,古细菌与真核生物亲缘关系 比原核生物更近。 自养生物的三个分支,细菌、古细菌 和真核生物中,细菌的分化发生较早。
比较基因组学的具体应用方法 和策略 序列的比对分析 确定基因组序列的进化关系 基因共线性 synteny : 染色体片段的分析 物种序列的优化选择 对 DNA 序列的信息注释
基因组成的相似性 基因共线性 synteny :基因排列顺序的一致性 宏观共线性:遗传连锁图上锚定标记排列次序的一致 性 微观共线性:物理图上基因序列的一致排列 进化距离非常近的物种间保持很好的微观共线性 在进化过程中,基因共线性被各种因素所破坏,进化 距离越远的物种之间基因共线性越差, 两个物种之间的共线性程度可以作为衡量它们之间进 化距离的尺度
高度保守和高度变异 X 染色体极为保守,人类和猫的 X 染色体具有 纵贯全条的共线性 在保守性较低的区段,基因进化速率快于整个 基因组的平均进化速率 它们在种间基因组中很少表现共线性,甚至在 同一物种的不同生态型之间这些区段也会发生 较大变异 当用基因共线性程度估算物种分化年代时,应 当注意避免高度保守和高度变异的区段
破坏基因组共线性的因素 转座 插入 染色体重排 区段加倍和缺失
跨物种基因克隆 -- 图位克隆 在基因组较小的模式植物中,分离被精确定 位在大基因组中的基因 避免大量重复序列的干扰,减少染色体步移 的次数
基因岛和基因协同进化 基因岛:区段基因密度远远高于全基因 组的平均密度。 sh2 与 A1 两个基因在玉 米中的距离大约是水稻或高粱中的 7 倍 基因岛中的基因群通常具有功能上的相关性 协同丢失和协同进化
直系同源集簇 由 1 个共同的祖先基因衍生的 1 组基因, 包括不同基因组中执行同一生物学功能 的种间同源物,也包括同一基因组中因 基因加倍产生的种内同源物(平行基因) 预测新基因功能
比较基因组学研究举例 原核模式生物比较基因组学 酿酒酵母基因组 人类基因组
模式生物比较基因组研究特点 模式生物基因组一般都比较小,但编码基因的比 例较高,重复序列和非编码序列较少,是 “ 压缩 ” 的基因组。 模式生物基因组中 G+ C% 含量高,同时 CpG 岛的 比例也比较高。 一些模式生物,特别在人的基因组中发现了重复 ( duplication) 。 各种不同的物种中,大多数重要生物学功能是由 相当数量的同源序列基因 ( Orthologous) 蛋白承担。
模式生物比较基因组研究特点 同线 ( synteny) 连锁的同源基因在不同物种基因组中有 相同连锁关系。 生物体的复杂性一般表现在 “ 生物学 ” 的复杂性,与基因 组的 C 值大小及基因数量未必一定呈线性关系 。
模式生物基因组的研究 尿殖道支原体是已知最小的基因组 0.58Mb , 由此可能确定能自我复制的细胞必需的一套 最少的核心基因。 流感嗜血杆菌的基因组为 1.83Mb 基因组大小影响了基因数目还是基因尺度?
模式生物基因组的研究 流感嗜血杆菌基因大小平均 900 bp ,尿殖道 支原体的基因为 1040bp ,基因大小差不多; 流感嗜血杆菌中平均 1042 bp 有 1 个基因, 尿殖道支原体中平均 1235 bp 有 1 个基因。 可见基因组尺度减小并不引起基因密度的增 加和基因尺寸的减小。 二者差别在于基因数量上,流感嗜血杆菌基 因组有 1743 个 ORF ,尿殖道支原体只有 470 个 ORF 。
模式生物基因组的研究 通过对尿殖道支原体与流感嗜血杆菌 这两个亲缘关系较远的生物基因组的比 较,选取其共同的基因(共 240 个), 再加上一些其他基因,最后组成一套含 256 个基因的最小基因组。
最简单的真核生物 -- 酿酒酵母 基因组 基因组为 12,068 kb ,比单细胞的原核生物和古细 菌大一个数量级。 共有 5887 个 ORF ,比原核生物和古细菌要多很多。 酿酒酵母的基因密度为 1 个基因 /2kb ,密度小于流 感嗜血杆菌和尿殖道支原体。 酿酒酵母 -- 最小的真核基因组,裂殖酵母其次(密 度是 1/2.3kb ),简单多细胞生物线虫的基因密度 为 1/30kb 。 酿酒酵母只有 4% 的编码基因有内含子,而裂殖酵 母有 40% 编码基因有内含子。
人类基因组的一个片段
人类染色体组型 上图显示的是经姬母萨染色后的 G 带模式图, 染色体号在染色体结构下面标注,带号在左边。
人类基因组基因的三条推测依据 1. 根据已测定大片段 DNA 中 ORF 的比例; 2. CpG island 的个数( 56% 的已知基因 5' 都与 CpG 相连,而人基因组 中有 个 Islands ) 3. ESTs 已经报道的是第 22 染色体和第 21 染色体。第 21 染色体全长 Mb , 长臂上有 Mb ,仍有 7 个缺口,长约 3kb , 99.7% 。 The DNA sequence of human chromosome 22, Nature 402, (1999). The DNA sequence of human chromosome 21, Nature 405, (2000). 21q 上有 127 个已知基因, 98 个推测的基因 59 个 pseudo genes 。 Chromosome22 中有 545 个编码基因 第 染色体共占 2% 的人类总 DNA ,共有 77% 基因 Nature , 406 ,
模式生物基因组研究对人类基因组研 究的促进作用 1 利用基因序列上的同源性克隆人类疾病 基因 当人类 cDNA 与已知功能的模式生物 基因高度相关,当该表型的候选基因定 位于与 cDNA 相同的位置上,就有助于 识别该基因。
模式生物基因组研究对人类基因组研 究的促进作用 2 模式生物基因组研究揭示了人类疾病基 因的功能。 由于某些模式生物基因的功能已知, 这 就对人类疾病基因的功能研究有很大的 促进作用。这一跨种关系使模式生物基 因的有效功能数据立刻用于研究它的高 等生物的同源体。
模式生物基因组研究对人类基因组研 究的促进作用 3 充分利用模式生物实验系统上的优越性 模式生物实验上的优越性成为人类疾病 状态下分子机制的阐明和基因功能分析 的有效手段。 以酵母为例,它就是一个很好的实验系 统。
以酵母为例 首先它是一个单细胞,可以在特定的培养基上生 长,这样就可能完全控制其化学和物理环境。 其次酵母的生命周期也很适合被用来作遗传分析, 有可能构建一套 16 条染色体单倍型的详尽的图谱。 第三,现今的技术可以将其 6000 个基因中的任何 一个用突变的等位基因替代或准确地从基因组中缺 失。
模式生物基因组研究对人类基因组研 究的促进作用 4 比较基因组作图在人类基因组研究中的应用。 应用之一是使连锁信息和基因组资源从作图 较为详尽的物种转移到作图不完善的物种。例 如:通过定位一套在哺乳动物中进化上保守的 位点,把这些保守位点作为出发点,使连锁信 息从人、鼠等物种扩展到牛、猪、羊等物种, 以 促进基因组研究。
模式生物基因组研究对人类基因组研 究的促进作用 另一个应用是把比较基因组作图用于复杂 性状的分析。许多遗传性状是由一个以上的 基因控制的,这些基因的识别通常在老鼠中 比在人中来得容易。一旦一个候选疾病基因 或疾病区域被在老鼠中确认,我们就可以筛 选同源基因或同源区域,看看是否与人类遗 传病相对应。
模式生物基因组研究加深了对基因组 结构的认识 人类的基因很大,在人类基因组全部测序完成 之前,已有一些 cDNA 上测序。所以其基因组 结构可能尚属未知。 利用低等模式生物基因组较小、呈压缩状态, 就可能用节约的方法在基因组水平上测序。展 示基因组的结构,包括内含子和外显子的边界 和周围顺序,还可能包括调节因子,如启动子 和增强子。 不但为基因结构的研究,也为相关基因的进化 提供了信息。
利用模式生物基因组研究信息研 究人类疾病基因的可行性 定位克隆是一项有效的疾病基因克隆的手 段。但是如果仅仅依靠位置信息进行定位 克隆,将十分费时费力。 比较生物学这个名词在许多文献中出现, 模式生物基因组研究的结果被大量地用于 人类基因组的研究,成为人类疾病基因克 隆的一条捷径。
结语 基因组研究的最终目的是希望对生命的本质有 更新更深刻的认识,更主要的是了解疾病机制, 造福人类。 模式生物在人类疾病研究领域作出了许多的贡 献,特别是疾病基因的同源体或家族成员在模式 生物中被功能定性时,使我们能更多地了解疾病 基因。 基因组计划的成功正在越来越多、越来越深刻 地影响着生物学各个领域研究者的思想, 它为新 世纪的生物学研究打开了一扇门。