第十一章 动物基因组学 (Animal Genomics)
主要内容 第一节 人类基因组计划 第二节 比较基因组与功能基因组 第三节 生物信息学 第四节 表观遗传学 第五节 分子遗传标记
(Human Genome Project) 第一节 人类基因组计划 (Human Genome Project)
人类基因组计划(1) * 1990年多国合作小组启动,2001年在Nature上公布结果; * Craig Venter博士采用散弹法于Science上发表结果。 * 人基因组测序的完成可与人类登月媲美。
人类基因组计划(2) * 耗时10载,耗费20余亿美圆; * 基因组大小30亿碱基; * 1%为外显子,99%为内含子和重复序列; * 表达蛋白质的基因组数量约为3万; * 约含100万个SNP标记。
序列测定方法 1 全基因组鸟枪法: 在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司)。
序列测定方法 2
人类基因组计划的意义
基因组大小的比较(1)
基因组大小的比较(2)
基因组与基因组学 基因组(Genome)就是指生物体染色体、细胞器中所含的全套遗传物质;一种生物全部基因的集合称为“基因组”。 基因组学(Genomics)就是研究基因组结构和功能的科学。
基因组学的分类 功能基因组学是指应用整体的研究技术阐明这些基因和蛋白的生物学功能. 基因组学可以分为结构基因组学和功能基因组学。 对基因组物理结构的作图和测序的研究称为结构基因组学; 功能基因组学是指应用整体的研究技术阐明这些基因和蛋白的生物学功能. 结构基因组学 功能基因组学
后基因组时代 ( Postgenome era) * 人类基因组计划完成之后,生物学被重新划分为前基因组和后基因组两部分。 * 科学研究已开始进入“后基因组时代”。主要是开展蛋白质组的研究。 * 有科学家形象地说道:即使基因测序全部完成,也只好像是一本没有姓名、只有号码的电话簿。“后基因组时代”的最终目标,是要把深奥的DNA语言变成一本基因大百科全书。
(Comparative Genome & Functional Genome) 第二节 比较基因组与功能基因组 (Comparative Genome & Functional Genome)
遗传图谱与物理图谱 遗传图谱:又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。 物理图谱:物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
序列图谱与基因图谱 随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。 基因图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占具2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。
什么是比较基因组学? 利用生物在进化上的亲缘关系,来比较它们与人类之间的相似与相异,即比较基因组学。
蛋白组学与功能基因组学 * 蛋白组(Proteome) * 蛋白组学(Proteomics) * 蛋白组学与功能基因组学息息相关。 蛋白质组是指“一种基因组所表达的全套蛋白质”。 * 蛋白组学(Proteomics) 一门在整体水平上研究细胞内蛋白质的组成及其活动规律的新兴学科。 * 蛋白组学与功能基因组学息息相关。
蛋白质组学的研究内容 1.蛋白质分离和鉴定: 2.翻译后修饰:翻译后修饰是蛋白质调节功能的重要方式,因此对蛋白质翻译后修饰的研究对阐明蛋白质的功能具有重要作用。 3.蛋白质功能确定:如分析酶活性和确定酶底物,细胞因子的生物分析/配基-受体结合分析。可以利用基因敲除和反义技术分析基因表达产物-蛋白质的功能。另外对蛋白质表达出来后在细胞内的定位研究也在一定程度上有助于蛋白质功能的了解。 4.对人类而言,蛋白质组学的研究最终要服务于人类的健康,主要指促进分子医学的发展。如寻找药物的靶分子。很多药物本身就是蛋白质,而很多药物的靶分子也是蛋白质。药物也可以干预蛋白质-蛋白质相互作用。
生物芯片 1
生物芯片 2
第三节 生物信息学 (Bioinformatics)
背景知识 包括人、鸡、水稻等动植物以及大肠杆菌等原核生物的数十种模式生物的基因组序列的成功获得;以及更多生物基因组序列的即将获得。 生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。
什么是生物信息学? 生物信息学是以生物大分子为研究对象,以计算机为工具,运用数学和信息科学的观点、理论和方法去研究生命现象、组织和分析呈指数级增长的生物信息数据的一门科学.
主要研究内容 1 1、生物信息的收集、存储、管理与提供 2、基因组序列信息的提取和分析 包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。 2、基因组序列信息的提取和分析 包括基因的发现与鉴定;基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。
主要研究内容 2 3、功能基因组相关信息分析 4、生物大分子结构模拟和药物设计 包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。 4、生物大分子结构模拟和药物设计 包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。
主要研究内容 3 5、生物信息分析的技术与方法研究 6、应用与发展研究 包括发展软件、数据库工具;改进现有的理论分析方法;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。 6、应用与发展研究 汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。
基因和基因组数据库 1 EMBL、GenBank和DDBJ是国际上三大主要核酸序列数据库。 EMBL是由European Molecular Biology Laboratory于1982年创建的,目前由欧洲生物信息学研究所负责管理。数据库网址是:http://www.ebi.ac.uk/embl/。
基因和基因组数据库 2 美国国家健康研究院NIH也于80年代初委托洛斯阿拉莫斯国家实验室建立GenBank,后移交给国家生物技术信息中心NCBI,隶属于NIH下设的国家医学图书馆。NCBI的网址是:http://www.ncbi.nlm.nih.gov。
基因和基因组数据库 3 DDBJ是DNA Data Base of Japan的简称,创建于1986年,由日本国家遗传学研究所负责管理。DDBJ的网址是:http://www.ddbj.nig.ac.jp/。 1988年,EMBL、GenBank 与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。
蛋白质数据库 1 1. PIR和PSD 2. SWISS-PROT PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。PIR和PSD的网址是:http://pir.georgetown.edu/。 2. SWISS-PROT SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。SWISS-PROT的网址是:http://www.ebi.ac.uk/swissprot/。
蛋白质数据库 2 3. PROSITE PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。PROSITE的网址是:http://www.expasy.ch/prosite/。 4. PDB 蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。 RCSB的PDB数据库网址是:http://www.rcsb.org/pdb/。
功能数据库 1. KEGG 京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。http://www.genome.ad.jp/kegg/。 2. DIP 相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质-蛋白质相互作用。http://dip.doe-mbi.ucla.edu/。
3. ASDB 可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB的网址是:http://cbcg.nersc.gov/asdb。 4. TRRD 转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。 5. TRANSFAC TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。 http://transfac.gbf.de/TRANSFAC/。
常用操作举例 基因组序列信息分析 序列比对和数据库搜索(BLAST) 核酸与蛋白质结构和功能的预测分析 蛋白质的三维结构预测 分子进化分析(序列进化树) 功能基因组相关信息分析
第四节 表观遗传学 (Epigenetics)
什么是表观遗传学 在基因组中除了DNA和RNA序列以外,还有许多调控基因的信息,它们虽然本身不改变基因的序列,但是可以通过基因修饰,蛋白质与蛋白质、DNA和其它分子的相互作用,而影响和调节遗传的基因的功能和特性,并且通过细胞分裂和增殖周期影响遗传的一门新兴学科。因此表观遗传学又称为实验遗传学、化学遗传学、特异性遗传学、后遗传学、表遗传学和基因外调节系统,它是生命科学中一个普遍而又十分重要的新的研究领域。
表观遗传学与表观基因组学 表观遗传学(epigenetics)则是指基于非基因序列改变所致基因表达水平变化,如DNA甲基化和染色质构象变化等。 表观基因组学(epigenomics)则是在基因组水平上对表观遗传学改变的研究。
表观遗传学的分子机制 1、DNA甲基化; 2、 RNA干扰; 3、组蛋白修饰; 4、染色质改型;
DNA甲基化 DNA 甲基化:DNA的甲基化是生物关闭基因表达的一种有效手段,也是印迹遗传的主要机制之一;基因的去甲基化可能使得印迹丢失,基因过度表达,甚至引起肿瘤或癌症的发生,如促肿瘤生长因子IGF2基因过度表达引发大肠癌。
RNA干扰 RNA干扰(RNA interference,RNAi)是正常生物体内抑制特定基因表达的一种现象,它是指当细胞中导入与内源性mRNA编码区同源的双链RNA(double stranded RNA,dsRNA)时,该mRNA发生降解而导致基因表达沉默的现象,这种现象发生在转录后水平,又称为转录后基因沉默。
RNA干扰的作用机制 长片段dsRNA在细胞内被Ⅲ型RNA酶Dicer切成长度大约为19-23nt的小片段干扰 RNA (small interfering RNA,siRNA),由siRNA参与构成复合物RISC(RNA-induced silence complex)。siRNA通过与同源mRNA的特异配对,引导RISC特异地降解同源mRNA,导致基因表达的抑制。因此小片段的siRNA也可以诱导高效的基因沉默。
RNA干扰的应用 1、研究基因功能的新工具; 2、病毒性疾病的治疗; 3、遗传性疾病的治疗; 4、肿瘤病的治疗
组蛋白修饰 组蛋白的修饰可通过影响组蛋白与DNA双链的亲和性,从而改变染色质的疏松或凝集状态,或通过影响其它转录因子与结构基因启动子的亲和性来发挥基因调控作用。组蛋白修饰对基因表达的调控有类似DNA遗传密码的调控作用。
染色质改型
(Molecular Genetic Marker) 第二节 分子遗传标记 (Molecular Genetic Marker)
什么是遗传标记? 遗传标记genetic marker:指可追踪染色体、染色体某一节段、某个基因座在家系中传递的任何一种遗传特性。 它具有两个基本特征,即可遗传性和可识别性; 因此生物的任何有差异表型的基因突变型均可作为遗传标记。
遗传标记的类型 形态学标记(morphological marker) 细胞学标记(cytological marker) 生化标记(biochemical marker) 分子标记(molecular marker):DNA分子遗传标记,或DNA标记。
形态学标记 形态标记即个体的外部形态特征。 形态标记简单直观、经济方便;但其数量在多数有限、多态性较差,表现易受环境影响,并且有一些标记与不良性状连锁。此外形态标记的获得需要通过诱变、分离纯合的过程,周期较长。 主要在早期使用。
细胞遗传标记 细胞学标记即植物细胞染色体的变异。 包括染色体核型(染色体数目、结构、随体有无、着丝粒位置等)和带型(C带、N带、G带等)的变化。 与形态标记相比,细胞学标记的优点是能进行一些重要基因的染色体或染色体区域定位。 但细胞学标记材料需要花费较大的人力和较长时间来培育,难度很大;同时某些物种对染色体变异反应敏感;还有些变异难以用细胞学方法进行检测。
生化标记 生化标记包括同工酶和等位酶标记。同工酶是指一个以上基因座位编码的酶的不同形式,而等位酶是指由一个基因座位的不同等位基因编码的酶的不同分子形式。分析方法是电泳和组织化学染色法将酶的多种形式转变成肉眼可辩的酶谱带型。 生化标记具两个方面的优点:一是表现近中性,对生物经济性状一般没有大的不良影响;二是直接反映了基因产物差异,受环境影响较小。 生化标记的应用有限:一是可用标记数量少,二是染色方法和电泳技术有一定难度。
分子标记 分子标记指能反映生物个体或种群间基因组中某种差异特征的DNA片段,它直接反映基因组DNA间的差异。分子标记的优越性表现为:(1)直接以DNA的形式表现,在生物体的各个组织、各个发育阶段均可检测到,不受季节、环境限制,不存在表达与否等问题;(2)数量极多,遍布整个基因组,可检测座位几乎无限;(3)多态性高,自然界存在许多等位变异,无须人为创造;(4)表现为中性,不影响目标性状的表达;(5)许多标记表现为共显性的特点,能区别纯合体和杂合体。
分子标记的三个阶段 随着分子生物学技术发展和研究水平的深入,分子标记的发展经历了三个阶段,也称为三代DNA分子标记。 第一代分子标记:RFLP; 第二代分子标记:微卫星(ms); 第三代分子标记:SNP;
目前的分子标记类型 目前的分子标记有三类: 第一类是以分子杂交为核心的分子标记技术,包括RFLP、DNA指纹技术(DNA Fingerprinting)、原位杂交(in situ hybridization)等; 第二类是以PCR为核心的分子标记技术,包括RAPD、简单序列重复标记SSR或简单序列长度多态性(Simple sequence length polymorphism, 简称SSLP标记)、扩展片段长度多态性标记AFLP、序标位STS、序列特征化扩增区域SCAR等; 第三类是一些新型的分子标记,如:SNP标记、表达序列标签EST标记等。
1、RFLP 基本原理:特定生物类型的基因组DNA经限制性内切酶切后,产生分子量不同的同源等位片段,再通过电泳的方法分离和检测这些片段。
特点:(1)遍布于整个基因组,数量几乎是无限的;(2)无表型效应,不受发育阶段及器官特异性限制;(3)共显性,可区分纯合子和杂合子;(4)结果稳定、可靠;(5)DNA需要量大,检测技术繁杂,难以用于大规模的育种实践中。
2、RAPD 基本原理:用一个(有时用两个)随机引物(一般8-10个碱基)非定点地扩增基因组DNA,然后用凝胶电泳分开扩增片段。 RAPD标记的特点有:(1)不需DNA探针,设计引物也无须知道序列信息;(2)显性遗传(极少数共显性),不能鉴别杂合子和纯合子;(3)技术简便,不涉及分子杂交和放射性自显影等技术;(4)DNA样品需要量少,引物价格便宜,成本较低;(5)实验重复性较差,结果可靠性较低。
3、AFLP 基本原理:AFLP标记是选择性扩增基因组DNA酶切片段所产生的扩增产物的多态性,其实质也是显示限制性内切酶酶切片段的长度多态性,只不过这种多态性是以扩增片段的长度不同被检测出来。 AFLP标记的特点有:(1)由于AFLP分析可以采用的限制性内切酶及选择性碱基种类、数目很多,所以该技术所产生的标记数目是无限多的;(2)典型的AFLP分析,每次反应产物的谱带在50-100条之间,所以一次分析可以同时检测到多个座位,且多态性极高;(3)表现共显性,呈典型孟德尔式遗传;(4)分辩率高,结果可靠;(5)目前该技术受专利保护,用于分析的试剂盒昂贵,实验条件要求较高。 。
4、微卫星标记ms 基本原理:ms是一类由几个(多为1-5个)碱基组成的基序串联重复而成的DNA序列,其长度一般较短,广泛分布于基因组的不同位置,如(CA)n、(AT)n、(GGC)n等重复。不同遗传材料重复次数的可变性,导致了SSR长度的高度变异性,这一变异性正是SSR标记产生的基础。 ms标记的特点有:(1)数量丰富,广泛分布于整个基因组;(2)具有较多的等位性变异;(3)共显性标记,可鉴别出杂合子和纯合子;(4)实验重复性好,结果可靠;(5)由于创建新的标记时需知道重复序列两端的序列信息,因此其开发有一定困难,费用也较高。
5、序列标签位点STS 基本原理:STS是指基因组中长度为200-500bp,且核苷酸顺序已知的单拷贝序列,通过PCR可将其专一扩增出来。其基本原理是,依据两端序列,设计合适的引物,进行PCR扩增,电泳显示扩增产物多态性。 STS标记的主要特点有:(1)标记来源广,数量多;(2)共显性遗传,可区分纯合子和杂合子;(3)技术简便,检测方便;(4)与SSR标记一样,开发依赖于序列分析及引物合成,成本较高;(5)多态性常常低于相应的RFLP标记。
6、染色体原位杂交 染色体原位杂交技术是DNA探针与染色体上的DNA杂交,并在染色体上直接进行检测的分子标记技术,现在常用的是荧光原位杂交(FISH)技术。
分子标记技术的应用 分子遗传图谱的构建; 2 遗传多样性与种质鉴定 3 重要经济性状相关基因的定位 4 分子标记辅助选择 2 遗传多样性与种质鉴定 3 重要经济性状相关基因的定位 4 分子标记辅助选择 5 重要经济性状的图位克隆
基本概念 标记辅助选择(marker assisted selected ,MAS)是指与特定的数量性状相关的遗传标记为工具,以标记信息作为辅助信息,对该数量性状进行选择,以在育种中获得较大的遗传进展。 图位克隆(map-based cloning):目标基因在染色体遗传图谱及物理图谱中的位置,采用染色体步移法(chromosomal walking)进行基因克隆,称为图位克隆。
动物的标记辅助选择应用 1 猪的应激基因检测; 2 猪的ESR基因与多仔性状; 3 鸡的羽速自别雌雄; 4 矮小基因与矮小鸡 1 猪的应激基因检测; 2 猪的ESR基因与多仔性状; 3 鸡的羽速自别雌雄; 4 矮小基因与矮小鸡 5 肌肉生长抑制素 Myostatin基因与肉牛生产