Chaper 3 结构基因组学的核心研究技术 ——基因组测序、序列组装与基因的鉴定
结构基因组学的核心内容之一是基因组测序。随着人类基因组图谱的完成,人类基因的定位克隆、鉴定分析直至全基因组测序均取得了突破性进展,测序策略的成熟、测序方 法的改进、自动测序仪的广泛应用、计算机数据分析系统的扩展以及测序分析能力的提高, 大大推进了大规模DNA测序的进程。
一、 DNA测序的基本方法 链终止法测序 化学降解法测序 自动化测序 非常规DNA测序
1、 链终止法测序(the chain termination method) 1)基本原理: 1977年Sanger提出了“终止法”。其反应体系包含单链模板、引物、4种dNTP和DNA聚合酶,分四组进行,每组按一定比例加入一种2 ’ ,3’双脱氧核苷三磷酸,它能随机掺入合成的DNA链,一旦掺入合成即终止,于是各种不同大小片段的末端核苷酸必定为该核苷酸,经变性胶电泳,可从自显影图谱上直接读出DNA序列。
2)技术路线与要求 制备单链模板 ↓ 将单链模板与一小段引物退火 加入DNA多聚酶 4种脱氧核苷酸 分别加入少量4种双脱氧核苷酸 A 克隆于质粒中DNA→用碱或热变性 B M13克隆单链DNA C 噬粒克隆DNA D PCR产生单链DNA 制备单链模板 ↓ 将单链模板与一小段引物退火 加入DNA多聚酶 4种脱氧核苷酸 分别加入少量4种双脱氧核苷酸 将4种反应产物分别在4条泳道电泳 根据4个碱基在4条泳道的终止位置读出基因序列 A 高酶活性 B 无5’→3´外切酶活性 C 无3´→5´外切酶活性 ddATP/ddCTP/ddGTP/ddTTP 的3’碳原子连接的是氢原子,不是羟基
2 化学降解法测序(Maxam和Gibert于1977年发明) 1)基本原理: 在选定的核苷酸碱基中引入化学基团,再用化合物处理,使DNA分子在被修饰的位置降解.
2)技术路线 将双链DNA样品变为单链 ↓ 每个单链的同一方向末端都用放射性同位素标记,以便显示DNA条带
3)Maxam-Gilbert 法所用的化学技术 ①先用限制性内切酶把DNA切成10-200bp 的测序材料; ②用碱性磷酸化酶处理该片段,消除5′末端上的磷酸; ③在5′OH端标记 32P,用多核苷酸磷酸激酶催化; ④标记片段变性为单链; ⑤用特异的化学试剂作用于不同的碱基进行修饰,然后用哌啶切断反应碱基的多核苷酸链,紧接着用四组不同的特异反应可以使末端标记的DNA分子切成不同长度的片段, 产生一组其末端都是该特异碱基的长度不等的DNA片段; ⑥经电泳和放射性自显影后,从4个反应系统统一阅读,待测DNA的全部核苷酸序列就可直接读出。
● 4组特异反应 碱基 特异修饰方法 G pH8.0,用硫酸二甲酯对 N7进行甲基化,使 C8-C9键对碱基裂解有特殊敏感性 A+G C+T 肼可打开嘧啶环,后者重新环化成五元环后易除去 C 1.5mol/L NaCl存在时,可用肼除去胞嘧啶
● 测序流程
3 自动化测序 1)基本原理 与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光, ddTTP标记绿色荧光,ddCTP标记蓝色荧光, ddGTP标记黄色荧光,.由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基.
2)基本流程
3)自动化测序结果
4 、非常规测序及未来测序方法 1)光点测序 脱氧三磷酸核苷酸连接到DNA 3’-末端时会释放1个焦磷酸(PPi) ,焦磷酸在磷酸化酶的作用下转化为化学能,并发出光亮.由此,往反应液中每次只加入1种核苷酸,如加入的核苷酸结合则反应液发出亮点,并记录核苷酸种类;如核苷酸未结合则反应液中的核苷酸酶迅速分解此核苷酸,按此规律来测定DNA序列.
2)单分子测序法(single-molecule seguencing) 单分子测序法是美国Los Alames国家实验室(LANL )发展的一种通过检测标记在单个分子上的荧光进行DNA快速测序的方法。模板DNA分子首先通过酶法修饰或合成,使不同的荧光素标记不同的碱基,然后,用两个激光束(或称激光镊子lasertweezer)夹住标记的DNA分子,将其置于液流系统,从被固定的核苷酸上游端开始用外切酶逐一切下被标记的核苷酸, 通过单分子荧光探测器检测液流中切下的标记核苷酸,再根据检测到的信号顺序确定DNA顺 序。
3)DNA芯片测序 基本原理 将各种排列顺序的寡核苷酸点播在芯片上, 每个点播的寡核苷酸在排列的方阵中都有指定的位置.待检测的DNA分子与芯片温浴,凡是能杂交的寡核苷酸都会在确定位置发出信号,然后根据获取的信息将寡核苷酸的顺序进行对比组装,拼接成完全的DNA顺序.
利用基因芯片进行杂交测序的原理
4) 质谱法(mass spectrometry) 新型的电离技术如电喷雾离子化和基质辅助激光吸收技术使利用质谱法分析大片段DNA 成为可能,其中四极离子捕获效果更好。Fourier转型质谱或飞行时间质谱可进行极为敏感的进行DNA测序。
●基质辅助激光吸收技术
DNA sequence analysis by MALDI mass Spectrometry ——Finn Kirpekar,et al, 2554–2559, Nucleic Acids Research, 1998, Vol. 26, No. ABSTRACT:Conventional DNA sequencing is based on gel electrophoretic separation of the sequencing products. Gel casting and electrophoresis are the time limiting steps, and the gel separation is occasionally imperfect due to aberrant mobility of certain fragments, leading to erroneous sequence determination. Furthermore, illegitimately terminated products frequently cannot be distinguished from correctly terminated ones, a phenomenon that also obscures data interpretation. In the present work the use of MALDI mass spectrometry for sequencing of DNA amplified from clinical samples is implemented. The unambiguous and fast identification of deletions and substitutions in DNA amplified from heterozygous carriers realistically suggest MALDI mass spectrometry as a future alternative to conventional sequencing procedures for high throughput screening for mutations. Unique features of the method are demonstrated by sequencing a DNA fragment that could not be sequenced conventionally because of gel electrophoretic band compression and the presence of multiple non-specific termination products. Taking advantage of the accurate mass information provided by MALDI mass spectrometry, the sequence was deduced, and the nature of the non-specific termination could be determined. The method described here increases the fidelity in DNA sequencing, is fast, compatible with standard DNA sequencing procedures, and amenable to automation.
5)原子探针显微镜测序法(atomic probe microscopy) 扫描隧道显微镜(STM)和原子力显微镜(AFM)的发展使直接检测DNA分子结构成为可能。 其中STM是用一个直接大约相当于一个原子大小的导电探针扫描DNA分子表面,通过检测探针和DNA分子表面之间形成的隧道电流来确定DNA分子的三维形状。STM还可分辩单链DNA分子上的单个核苷酸。通过STM可观察双链DNA分子的双螺旋结构以及单个碱基对。 AFM通过检测扫描探针和分子表面间的作用力来确定分子表面形状。 虽然原子探针显微镜为直接描述DNA组成提供了美好前景,但就目前来说,如何定位DNA分子以便于检测是一个难题。
●An overview of current and emerging technologies for genomic sequencing. ——Neil Hall . J. Exp. Biol., May 2007; 210: 1518 - 1525
Sequencing can be classified into four main strategies: in vitro cloning, in vivo cloning, amplification and mass spectrometry, and single-molecule approaches. In vivo cloning followed by Sanger sequencing is the workhorse method of most current genome sequencing projects. The mass spectrometry and single-molecule approaches are still either very specialized or in the developmental stages, although mass spectrometry methods such as the MassArray method is commonly used for single nucleotide polymorphism (SNP) analysis (Jurinke et al., 2002). The in vitro cloning technologies can be further divided into methods that employ sequencing by synthesis, such as the 454 and Solexa methods, or those that use hybridization and ligation of oligonucleotides, such as MPSS (massively parallel signature sequencing) and polony methods.
二、基因组测序策略与序列的组装 1、定向测序策略 定向测序策略是从一个大片段DNA的一端开始按顺序进行分析 。 1)传统方法 传统的方法是用高分辨率限制酶切图谱确定小片段的排列顺序,然后将小片段亚克隆进合适的克隆载体并进行序列分析。
2)新方法 近年来以下几种方法得到发展: (1)引物引导的序列分析:第一轮DNA分析以载体的通用引物进行酶法测序,接下来每一轮测序反应的引物由上一轮测序反应所获得的DNA片段末端序列确定,这样通过“行走”便可进行大规模测序。最近有人主张建立引物文库以弥补每次“行走”均需进行引物合成的不足,计算表明,4000种小引物便可满足大规模测序的需要。
(2)外切酶制造缺失片段法 克隆的DNA片段在末端特异的外切酶如Bal Ⅲ等不同时间长度处理下,可产生具有共同末端的不同长度的DNA片段。于是便可用共同引物从缺失末端开始进行测序。
(3)转座子插入分析法 从同源克隆中产生一批克隆,使每一批克隆仅含随机插入的单一转座子。然后从中挑选转座子间距离进行比较,对转座子间片段长度适于测序的克隆进行测序,引物由转座子的末端序列决定,这样可用一对共用引物完成所有序列分析。
2、 随机测序策略与序列组装 1)随机测序原理 随机测序战略又称鸟枪战略(shotgun strategy),此策略是将基因组DNA用机械方法随机切割成2Kb左右的小片段,把这些DNA片段装入适当载体,建立亚克隆文库,从中随机挑取克隆片段。最后通过克隆片段的重叠组装确定大片段DNA序列。 优点:不需预先了解任何基因组的情况.
2)序列组装 A A B B C C 小片段测序 计算机拼装 A A B B C C
3)随机测序组装的问题 A B C 小片段测序 计算机拼装 CAATGCATTA… …GCAGCCAATGC 错装 GAP
4)实例:流感嗜血杆菌基因组的测序及顺序组装 超声波打断纯化的基因组DNA ↓ 琼脂糖电泳收集1.6∼2.0 kb的区段、纯化 构建到质粒载体中 随机挑选19687个克隆,进行28643次测序,得到可读顺序为11 631 485 bp 组装成140个覆盖全基因组范围的独立的顺序重叠群,
↓ ↓ 顺序间隙 物理间隙 各重叠群间仍有间隙 载体或宿主菌 选用不当而被丢失的顺序 测序时遗漏的测序 顺序间隙 物理间隙 ↓ ↓ 载体或宿主菌 选用不当而被丢失的顺序 测序时遗漏的测序 解决办法:通过相邻已知顺序作为探针筛选已有的基因组文库 解决办法:利用其它宿主菌与载体重新构建文库
5)基于“随机测序”原理的最新测序策略 (1)指导测序 它是一种建立在基因组图谱(如遗传图谱、物理图谱)基础上的“鸟枪法”,即所谓“指导鸟枪法”或”指导测序” A、原理 先将染色体打成比较大的片段(几十~几百Kb), 利用分子标记将这些大片段排成重叠的克隆群(Contig), 分别测序后拼装. 这种策略也叫基于克隆群(contig-based)的策略.
B、序列组装 A B C 大片段contig 小片段测序拼装 A B C
C、与传统随机测序策略的比较 传统随机策略 指导测序策略 不需背景信息 构建克隆群 (遗传、物理图谱) 时间短 需要几年的时间 传统随机策略 指导测序策略 不需背景信息 构建克隆群 (遗传、物理图谱) 时间短 需要几年的时间 需要大型计算机 得到的是草图(Draft) 得到精细图谱
(2)多路测序战略 多路测序战略(Multiplex method)是鸟枪法的一种发展策略,是通过多个随机克隆同时进行电泳及阅读,快速分析DNA序列的一种技术。这种方法的复合随机克隆文库来源于相同的基因组DNA。 将DNA片段克隆到20种不同的质粒载体上,这些载体有一个共同引物结合位点和一段独特的“识别序列”(taq sequnece)。然后从每一载体的克隆库中挑选1个克隆,组成混合池,每一混合池通过酶法或化学法进行测序,测序产物在4个相邻的变性凝胶泳道中分离,然后用与每一载体上特异的“识别序列”互补的标记探针依次杂交,每次杂交便可显示相应载体上的插入片段序列。每次杂交读片后洗去探针,换另一种探针杂交,如此重复下去便可获得所有待测片段的DNA序列。用此方法可在一张膜上重复杂交20多次,从而获得大量的信息。
●多路测序技术路线
3、其它测序策略路线 1)重要区域优先测序 人们对感兴趣的基因或与疾病相关的基因优先测序. 如:人类主要组织相容性复合体位于第6号染色体,其与人类免疫系统有关,因而优先测序.
2)EST (Expressed sequence tag) 测序 EST是一种重要的基因组转录图谱分子标记,以EST为探针很容易从 cDNA文库中筛选全基因,又可从BAC克隆中找到其基因组的基因序列. 优点: A mRNA 可直接反转录成cDNA,而且cDNA文库也比较容易构建; B 对cDNA文库大量测序,即可获得大量EST的序列; C EST为基因的编码区,不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因。
4、 示例:人类基因组测序策略 A. Celera Genomics 人类基因组的测序策略
采集5个自愿者的DNA样品 构建3种不同插入子大小的基因组文库2Kb, 10Kb和50Kb 完成约2700万次插入子末端测序,总长14800Mb 采用随机测序与序列组装方法和指导测序与序列组装方法相结合的策略进行序列组装
B 国际人类基因组测序策略 构建BAC克隆文库 ↓ 限制性酶处理获得指纹 根据指纹重叠方法组建BAC克隆重叠群 根据STS(sequencing tagged site, 序列标记位点 ) 标记,将BAC克隆重叠群标定在物理图上 每个BAC克隆内部采用鸟枪法测序,组装 将BAC插入顺序与BAC克隆指纹及重叠群对比,将已阅读的顺序锚定到物理图上
三、基因组序列诠释和基因的鉴定
1. 寻找基因 1) 根据开放读码框预测基因 A 起始密码子 ATG 第一个ATG的确定则依据Kozak规则; Kozak规则是基于已知数据的统计结果,所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律.
●Kozak规则 若将第一个ATG中的碱基A,T,G分别标为1, 2,3位,则Kozak规则可描述如下: (1)第4位的偏好碱基为G; (2)ATG的5’端约15bp范围的侧翼序列内不含碱基T; (3)在-3,-6和-9位置,G是偏好碱基; (4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。
B 终止密码子 终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次; 由于多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子。
C 3’端的确认 3’端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。
D 密码子偏爱性 编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。 不同种属间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用。
E 外显子-内含子边界 外显子和内含子的边界有一些明显的特征,如: 内含子的5‘端或称供体位(donor site)常见的顺序为 5’-AG↓GTTAAGT-3’; 3’端又称受体位(acceptor site), 多为5‘PyPyPyPyPyPyCAG-3’(“Py”嘧啶核苷酸,T或C);
F上游控制顺序 几乎所有基因(或操纵子)上游都有调控序列,它们可与DNA结合蛋白作用,控制基因表达。 另外个别生物的基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有CpG岛。
G 信号肽分析 信号肽分析软件(SignalP http://www.cbs.dtu.dk/ services/signalP ) 把预测过程中证实含完整mRNA 5’端的Contig翻译为蛋白序列; 然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽; 假如在该测试序列的第一个 Met 5’端存在终止密码子,该序列为信号肽的可能性更大。
H 软件预测 采用NCBI的ORF预测软件 ( ORF finder: http://www.ncbi.nlm.nih.gov/gorf/orfig.cgi )判断ORF的可能范围。
2)根据mRNA的5’端即转录起始位点区预测 运用与转录起始位点相关的数据库——真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/ ),通过预测mRNA的5’端确定基因。
3)同源查询预测 通过已存入数据库中的基因顺序与待查的基因组序列进行比较,查找可与之匹配的碱基顺序及其比例,预测待定基因,该方法称为同源查询。
同源有如下几种情况: A DNA序列某些片段完全相同; B 开放读码框(ORF)排列类似,如有长外显子; C 开放读码框翻译成氨基酸序列的相似性; D 模拟多肽高级结构相似.
4)试验分析 (1) Northern 杂交确定DNA片段是表达序列: 注意事项: b 必须考虑组织专一性和发育阶段等问题;
如果丰度较低,用拟Northern 杂交和动物园杂交(Zoo-blotting)分析。 拟Northern 杂交—— 根据已知的DNA顺序设计引物,从mRNA群体中扩增基因产物,再以DNA为探针与之杂交。 动物园杂交—— 根据亲缘关系相似的物种,其基因的编码区相似性较高,而非编码区的同源性很低的原理。如果某一物种的DNA 顺序与来自另一亲缘物种的DNA片段杂交产生阳性信号,该区段可能含有1个或多个基因,这种方法又称为动物园杂交。 C 基因表达产物丰度的问题
2 、获取基因全长cDNA序列 1)构建cDNA全长文库,用目的基因DNA片段筛选文库。 经典 cDNA 文库构建的基本原理是用 Oligo(dT) 作逆转录引物,或者用随机引物,给所合成的 cDNA 加上适当的连接接头,连接到适当的载体中获得文库。 经典 cDNA 文库的构建虽然高效、简便,但文库克隆的片段一般较小,单个克隆上的 DNA 片段太短,所能提供的基因信息很少,大多需要几个克隆才能覆盖一个完整的全基因的 cDNA。 为了克隆到真正的 cDNA 全长,建立富含全长的 cDNA 文库具有重要意义。全长 cDNA 文库,是指从生物体内一套完整的 mRNA 分子经反转录而得到的 DNA 分子群体,是 mRNA 分子群的一个完整的拷贝。 目前所报道的对全长文库的构建一般按照美国 CLONTECH 公司的 SMART cDNA Library Construction Kit 方法或 GeneRacer 试剂盒 (Invitrogen,USA) 使用说明进行。判断一个 cDNA 文库中的 cDNA 序列是否是全长基因的 cDNA,可通过序列分析或实验证实。
2)RACE技术 根据已知片段设计引物,RACE 技术(“快速扩增cDNA 末端” Rapid Amplification cDNA End)得到基因的全长cDNA序列。 RACE 只需知道 mRNA 内很短的一段序列即可扩增出其 cDNA 的5'(5' RACE )和3'端(3' RACE )。该法的主要是利用一条根据已知序列设计的特异性引物和一条与 mRNA 的 PolyA (3' RACE )或加至第一链 cDNA 3‘端的同聚尾(5’ RACE )互补的通用引物。
3 确定DNA顺序中基因的位置 A 通过对全长cDNA序列的测序、对比,以及与基因组DNA的比较,确定基因所在的区域; B 通过物种已建立遗传图和物理图来确定基因的位置.