DNA测序技术 DNA Sequencing 三峡大学医学院 盛 德 乔 shengdq@ctgu.edu.cn
人类基因组计划(Human genome project, HGP)用了10多年的时间,各国政府相继投入了近三十亿美元,才完成了人类个体全基因组序列的测序工作。 测序技术发展: 手工测序(效率低!) 第一台测序仪(80年代末,效率提高!) 2005年新一代测序技术出现(第二代、第三代)
2005年,新一代测序技术出现。可在1个月内,花费十几万美元就可完成一个人类个体全基因组序列的测序工作。 2010年之后,美国、欧洲等各大生物技术公司、大型生物医药研究机构等投入大量的人力物力开始了新一轮的下一代测序技术的技术竞赛,力争实现1000美元完成一个人的全基因组序列的测序,加速个人基因组时代的到来。
一、DNA测序技术概述 DNA测序——核酸DNA分子一级结构的测定,是现代分子生物学一项重要的技术。 核苷酸的排列顺序 碱基的排列顺序
1963年,Sanger和Thompson等人第一次完成胰岛素51个氨基酸的序列测定。 70年代后期,Sanger和Maxam----Gilbert等人又建立了核酸序列测定的方法,Sanger双脱氧末端终止法和Maxam----Gilbert化学裂解法将核酸序列测定技术推进到“直读”阶段,使核酸序列测定变得远比蛋白质氨基酸序列测定容易,这样人们可以通过核酸序列和遗传密码推导出蛋白质氨基酸的序列。
测序技术的发展历史 双脱氧末端终止法 (Sanger 测序法) 第二代测序(合成测序法) 第三代测序(单分子测序技术) 焦磷酸测序(Pyrosequencing, Roche/454) 合成测序(Sequencing-By-Synthesis, Illumina/Solexa) 连接测序(Sequencing-By-Ligation, ABI/SOLiD) 第三代测序(单分子测序技术) Helicos Pacific Biosciences Oxford Nanopore
代数 测序技术 特点 代表仪器 第一代 第二代 第三代 Sanger测序法 低通量 高成本 ABI 3730XL 第二代 循环芯片技术 高通量 高效率 低成本 Illumina GA ROCH-454 ABI-SOLID 第三代 单分子测序 更精确 成本更低 HeliScope
二、 第一代测序方法 1、末端终止法 2、化学裂解法 3、DNA测序自动化 使用特异性引物与单链模板DNA退火,在DNA聚合酶作用下进行延伸反应,用ddNTP终止,用PAGE区分长度仅相差1个核苷酸的ssDNA,从而完成测序的方法。 用化学试剂在A、G、C、T处特定的裂解DNA片段,产生一簇各种长度的短链,经过PAGE放射自显影可直读DNA顺序。 类似末端终止法,所不同的是用荧光染料标记,计算机自动读出。 优点 简便、迅速、应用广泛。 不需酶促反应,可以对寡核苷酸测序。 1、高负荷,1块胶可测16个样品;2、机读不需放射自显影;3、安全不用同位素;4、简单迅速8-10h。
测序的基本过程 制备待测DNA序列模板; 酶促或化学反应将其转变“等差数列”(n=1); 电泳PAGE; 读序。
第一代测序 高灵敏度相机 成象透镜 旋光镜/棱镜组件 聚焦透镜 样品槽 输入光学系统 激光器 computer analysis 凝胶中DNA移动方向 输入光学系统 激光器
Maxam-Gilbert化学裂解法 化学裂解是Maxam和Gilbert等人1977年创建的,用来测定DNA序列。化学法是用化学试剂在A、G、C、T处特定地裂解DNA片段,产生一簇各种长度的短链(等差数列 n=1),经过PAGE和放射自显影后,可以直接读出DNA的顺序。 某些试剂能修饰或破坏DNA链上特定核苷酸的碱基进而使N-糖苷键断裂,暴露出的糖环以β-消除反应,在3’和5’位上断裂磷酸二酯键。使戊糖脱落,用于嘌呤环的试剂是硫酸二甲酯,而联氨可用于肼解嘧啶环。4种核苷酸的特异裂解和鉴别方法如下:
反应体系 碱基修饰 试剂 反应 主链断裂 断裂点 G DMS G甲基化 六氢吡啶 G+A 甲酸 脱嘌呤 G or A C+T 肼 嘧啶开环 C or T C 肼(加盐) 胞嘧啶开环
原 理 用放射性核素标记待测DNA一侧末端 将标记DNA分为G、A+G、C+T、C 4个反应体系 原 理 用放射性核素标记待测DNA一侧末端 将标记DNA分为G、A+G、C+T、C 4个反应体系 用不同的化学试剂处理不同反应体系,随机断裂DNA片段某种碱基中的任何一个,产生一组一端为放射线标记的末端,另一端为不同大小的DNA片段的混合物 电泳分离,放射自显影得到互相错落的梯形图谱,即可读出DNA序列
反应产物电泳 放射自显影 阅读
Sanger双脱氧末端终止法 原理 经电泳分离,放射自显影,直接读出DNA的核苷酸序列 DNA链的合成反应,只不过反应体系中加入了四种双脱氧核糖核苷酸(ddNTP)中的一种。 在DNA链合成过程中ddNTP会代替部分dNTP作为底物进行DNA合成反应。 一旦ddNTP掺入到合成DNA链中,正在延伸的DNA链将终止。 经电泳分离,放射自显影,直接读出DNA的核苷酸序列
反应体系(合成新链) 体外DNA合成体系 模板:纯单链DNA和经过热变性或碱变性的双链DNA 引物:测序引物 DNA聚合酶:Klenow酶 ddNTP 标记——放射性同位素标记的dNTP:32P-dNTP、α-32S-dNTP 用于测序的变性凝胶电泳: 胶长40cm
Sanger双脱氧末端终止法 未知序列的单链DNA 反应混合物 凝胶电泳 较大片段 较小片段 读出模板互补序列 读出待测序列 Klenow酶 3´ 5´ CTGACTTCGACAAAGAA Klenow酶 Sanger双脱氧末端终止法 dNTP ddG ddGTP ddATP ddCTP ddTTP 反应混合物 凝胶电泳 GACTGAAGCTGTT 3´ 5´ CTGACTTCGACAA 5´ 3´ A C T G 较大片段 较小片段 读出模板互补序列 读出待测序列
ddNTP
化学降解法程序复杂 后来逐渐被Sanger法代替 这2种方法都需要放射性同位素标记 操作繁琐 不能自动化不能满足大规模测序的要求。 到了20世纪80年代末 研究人员逐渐利用荧光标记代替同位素标记测序 产物,经过平板电泳分离 荧光分子在激光的激发下可以发射出不同波长的荧 光,根据荧光信号可以确定DNA序 列。 无放射污染 易于计算机处理
目前所用自动测序技术的改进 同位素标记到荧光标记,平板电泳到毛细管电泳 目前所用自动测序技术的改进 同位素标记到荧光标记,平板电泳到毛细管电泳 同位素标记 平板电泳 单色荧光标记 平板电泳 多色荧光标记 毛细管电泳 A C G T A C G T 测序图谱 T A TTG CAT TG TC TGCATTG T C T
毛细管电泳 基本原理: 与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光,,ddTTP标记绿色荧光,ddCTP标记蓝色荧光, ddGTP标记黄色荧光,由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基。
DNA自动测序结果举例 目前商品化生产的测序仪ABI3730测序仪,最长可以测1200个碱基
DNA测序技术的应用 分析基因组核苷酸排列序列 寻找致病基因 基因定点诱变的基础 基础研究(基因表达、突变) 临床应用(基因诊断、基因治疗)
第一代测序技术的缺点 测序的原理是DNA链终止法,这注定了一个反应所测序列不可能太长,目前为1000个核苷酸左右; 测序反应费时费力——科学家们完成第一个人类基因组测序整整花了13年的时间,耗费了30亿美元的费用; 测序准确度不高—DNA聚合酶造成的碱基错配,DNA序列判读错误; 测序基于PCR反应,需要引物,并且有些些结构复杂的难于进行PCR反应的片段不能测序。
三、 第二代测序技术 第二代测序技术——循环阵列合成测序法 核心思想是边合成边测序(Sequencing by Synthesis),即通过捕捉新合成的末端的标记来确定DNA的序列。 在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。
先把基因组打断成100kb左右的小片段,每个片段单独测序,测完以后依靠大型计算机进行拼接,所以新一代测序仪测序简单,难在拼接。 测序时,以待测DNA片段为模板,进行互补链的合成,每延伸一个碱基就进行一次激光扫描,读出是哪种碱基(四种碱基事先进行不同标记,在激光下呈现不同颜色),很方便地就完成了测序。
代表技术为 罗氏公司(Roche)的454测序仪(Roche GS FLX sequencer) (2005) Illumina公司的Solexa基因组分析仪(Illumina Genome Analyzer) ABI的SOLiD测序仪(ABI SOLiD sequencer)(2007)
Next-generation sequencing technology Birthday Principle 2005 Pyrosequencing 2006 Sequencing-by-Synthesis 2007 Sequencing-by-Ligation
Illumina/Solexa Genome Analyzer测序的基本原理是边合成边测序。在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。
1. ROCH-454的优势 454平台的突出优势是读长。目前454系统的序列读长已超过400 bp。虽然454平台的测序成本比其他平台要高很多,不过对于那些需要长读长的应用,如从头拼接和环境微生物组学,它仍是最理想的选择。
2. Illumina GA的特性 可扩展的超高通量 Genome Analyzer系统目前每次运行后可获得超过20 GB的高品质过滤数据。经优化后通量还有望上升到95 GB,相当于人类基因组的30倍覆盖度。 需要样品量少 Genome Analyzer系统需要的样品量低至100ng,能应用在很多样品有限的实验(比如免疫沉淀、显微切割等)中。 简单、快速、自动化 Genome Analyzer系统提供了最简单和简洁的工作流程。制备样品文库可以在几小时内完成,一个星期内就能得到高精确度的数据。自动化的流程不减少了手工操作误差和污染可能性,也不需要机器人操作或洁净室。
3. ABI SOLID的特性 无以伦比的通量 目前SOLiD 3系统单次运行能产生50 GB的人基因组序列数据,相当于基因组的17倍覆盖度,这显然是其他任一台新一代测序系统都无法达到的 准确性 新的超精确检测模块(ECC模块)将提供高达99.99%的精确性;多达98%的可定位碱基的质量值高于45;更多标签以提高灵敏度和动态范围;高准确性的原始读序,支持无参考序列的数据分析。
第二代测序技术最显著的特征是高通量, 一次能对几十万到几百万条 DNA 分子进行序列测序, 使得对一个物种的转录组测序或基因组深度测序变得方便易行。
共同特点: 成了生物医学、计算机、微电子学、光学、材料科学和精密加工等多学科技术。例如,Roche GS FLX sequencer的图像采集技术就借鉴现代天文望远镜的光学系统技术,即超高分辨率的CCD集成光纤束技术。 测序策略主要基于循环芯片测序法(Cyclic-array sequencing),即制备DNA文库,单分子扩增,在固相载体上形成DNA簇阵列,并行地利用DNA聚合酶或者连接酶进行酶促反应(模板变性、引物退火杂交、延伸或连接),同时读取反应产生的特异性荧光信号,最终得到超大量的DNA序列信息。
高通量并行测序。例如,Roche GS FLX sequencer一次就可对上百万条DNA分子同时进行序列测定,一次运行通量达到400Mb以上,而传统测序(一代测序)一轮测序的通量仅为80Kb左右。
第二代测序技术的应用 从头测序 ( de-novo sequencing) 对于基因组未被测序过的生物, 其基因组测序需要从头测序。 重测序 SNP (Single Nucleotide Polymorphism)研究 转录组及表达谱分析 RNA测序 ( miRNA ) 转录调控研究 (ChIP-Seq)
目前使用最广泛的三大第二代测序平台测序能力统计信息(2010年年初数据) 厂商 Roche Illumina ABI 技术 454 Solexa GA SOLiD 测序仪 GS20 FLX Ti I II IIx 1 2 3 序列数目(百万) 0.5 1.25 28 100 250 40 115 320 单末端测序(Single-end) 读长(bp) 200 400 35 50 25 运行时间(天) 0.25 0.3 0.4 5 6 8 通量(Gb) 0.05 0.1 4 16 配对末端测序(Paired-end) 2×35 2×50 2×100 2×25 库序列长度(kb) 3.5 0.2 10 12 9 32 3个水稻基因组/天 12个水稻基因组/天 10个水稻基因组/天 读长增加——》所需时间越来越长 ——》单分子测序 Solexa和SOLiD配对末端测序所需时间和产出是单末端的两倍,454的配对末端和单末端差异在于建库方法,所需时间和测序量不变。 ABI SOLiD包含两张芯片,这里的数据是一张芯片的量。 http://www.politigenomics.com 40 40
第二代测序技术采用了高通量测序技术,使测序通量大大提高,从Sanger测序法一次读取一条序列到毛细管测序的一次读取96条序列再到现在的一次读取几百万条序列的实现,不得不说这是对第一代测序技术的一次革命性的变革。 然而第二代测序技术并不完美,由于其在测序前要通过PCR手段对待测片段进行扩增,因此增加了测序的错误率。并且其测序结果比较短,更适合重测序,而不太适用于没有基因组序列的全新测序。
四、 第三代测序技术 虽然第二代测序技术已经取得广泛应用,但是其必须基于PCR扩增,成本、准确性等关键问题仍然存在,科学家正在致力于新的测序解决方案。目前,以单分子测序为主要特征的第三代测序技术,也称为next-next-generation sequencing已经初现端 倪 。 第三代测序技术是指单分子测序技术。DNA测序时,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序。 终极目标——将人类基因组测序的成本降到1000美元以下。
第一大阵营是单分子荧光测序,代表性的技术为美国螺旋生物(Helicos)的SMS技术和美国太平洋生物(Pacific Bioscience)的SMRT技术。脱氧核苷酸用荧光标记,显微镜可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入DNA链的时候,它的荧光就同时能在DNA链上探测到。当它与DNA链形成化学键的时候,它的荧光基团就被DNA聚合酶切除,荧光消失。这种荧光标记的脱氧核苷酸不会影响DNA聚合酶的活性,并且在荧光被切除之后,合成的DNA链和天然的DNA链完全一样。
第二大阵营为纳米孔测序,代表性的公司为英国牛津纳米孔公司。新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔 来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而ATCG单个碱基的带电性质不一样,通过电信号的差异就能检测出通过的碱基类别,从而实现测序。
生物科学公司BioScience Corporation的HeliScope单分子测序技术 (2008) 太平洋生物科学公司PacBio的SMRT(single cell real time)技术 目标:1000美元测定一个人类基因组 牛津纳米孔技术公司Oxford Nanopore technologies的蛋白纳米孔测序技术 (流行趋势)
Pacific Biosciences公司发明了一种直径只有几十纳米的纳米孔[zero-mode waveguides (ZMWs)],单分子的DNA聚合酶被固定在这个孔内。在这么小的孔内,DNA链周围的荧光标记的脱氧核苷酸有限,而且由于A,T,C,G这四种荧光标记的脱氧核苷酸非常快速地从外面进入到孔内又出去,它们形成了非常稳定的背景荧光信号。而当某一种荧光标记的脱氧核苷酸被掺入到DNA链时,这种特定颜色的荧光会持续一小段时间,直到新的化学键形成,荧光基团被DNA聚合酶切除为止。
新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,因而可以在此基础上使用多种方 法来进行高通量检测。
纳米孔是比双链DNA分子略宽的空洞,宽度为4nm, DNA分子像一条线一样穿过纳米孔。理论上来说,每种碱基的化学性质差异会导致流经该纳米孔的电流值发生变化。纳米孔也可以设计成检测跨越空洞的隧道电流,因为每种碱基的电势不一样,这样就可以分辨出各种碱基。
纳米孔测序技术— 链测序(strand sequencing)
牛津纳米公司的生物纳米孔。 C. 外切酶测序法:外切酶分子附着到纳米孔的顶部,将目标DNA链上的单个核苷酸逐一切下来,再使它们通过纳米孔。 E. 链测序法: 单链DNA线性通过一个蛋白纳米孔,单个碱基得以区分开, 而DNA链保持完整。
Oxford Nanopore Technologies与牛津大学合作, 已设计另外一种基因工程蛋白质纳米孔 Oxford Nanopore Technologies与牛津大学合作, 已设计另外一种基因工程蛋白质纳米孔. 通过遗传工程改造, 他们已经可以构建一种将氨基化环糊精(Aminocyclodextrin)配体共价连接到位于脂双层膜中的α-溶血蛋白内生物纳米孔。 驱动4种核苷酸单磷酸(dNMPs)通过生物孔, 通过纳米孔的电流将分别减少到4种不同的状态, 每种状态都与一种核苷酸单磷酸相对应。 核酸外切酶将DNA链切成单个核苷酸。 GridION(2011) MinION (2012)即插即用、一次性
英国Oxford Nanopore Technologies公司2012年2月的发布了一款便携式的基因组测序仪MinION,约摸只有U盘大小,价格低于900美元,立即引发市场轰动。 https://nanoporetech.com/technology/the-minion-device-a-miniaturised-sensing-system/the-minion-device-a-miniaturised-sensing-system
第三代测序技术优点 它实现了DNA聚合酶内在自身的反应速度,一秒可以测10个碱基,测序速度是化学法测序的2万倍。 它实现了DNA聚合酶内在自身的processivity(延续性,也就是DNA聚合酶一次可以合成很长的片段),一个反应就可以测非常长的序列。 这为基因组的重复序列的拼接提供了非常好的条件。 它的精度非常高,达到99.9999%。
直接测RNA的序列(类似RT-PCR) 直接测甲基化的DNA序列:正常的C或者甲基化的C为模板,DNA聚合酶停顿的时间不同。根据这个不同的时间,可以判断模板的C是否甲基化。
测序技术发展…… 便捷; 低廉;免费? 应用: 疾病风险预测:(患上各种疾病的几率,以及您的性状如体育能力…)癌症筛查!精确治疗! 祖先分析:(性状从哪里继承的?) 其它:你喝酒会不会脸红?你会不会秃顶?……
HiSeq X Ten测序仪 HiSeq X Ten是Illumina于2014年推出的最新测序系统,其功能定位为工厂规模的测序系统。 HiSeq X Ten系统,全球首台也是唯一一台可以1000美元完成人类基因组30X测序深度的系统。 HiSeq X Ten系统由10台以上的HiSeq X组成。
HiSeq X Ten测序仪(测序工厂) 功能强大 价格昂贵
新一代基因组测序技术成本下降走势图
23andMe公司 1866年:格雷戈尔•孟德尔发现遗传学基本原理。 1953年:沃森和克里克揭示了DNA双螺旋结构。 2003年:人类基因组计划图谱完成。 2007年:23andMe 介绍第一个个人基因组服务给你。今天,揭示你自己的DNA秘密。 欢迎来到23andMe ,这是一项基于Web的服务,可以帮助您阅读和理解您的DNA 。您只需要使用一个试剂盒在家收集唾液并提供给我们,之后,就可以使用我们的互动工具,来重新了解您遥远的祖先,您的家人,最重要的是,您自己。 《时代》杂志2008年年度最佳发明奖就颁给了23andMe
https://www.23andme.com/
23andMe 是一家个人基因技术公司,其中联合创始人 Anne Wojcicki,是 Google 联合创始人 Sergey Brin 的妻子。支付一定费用之后,你只需在试管里吐口吐沫,然后寄给这家公司,大约 6 周之后你就可以通过 email 收到检测结果,和 PDF 报告。
23andMe DNA测试服务 检测报告分四个部分: 第一部分是高度遗传相关性疾病,一共50种; 第二部分是个体化药物反应,共可查21种,亚洲人可查11种; 第三部分是具有遗传因素的疾病,一共120种,但亚洲人只可查38种 ; 第四部分是体征和性状,其中查头发颜色,是否卷发,头发多少,其余类似秃头基因……
华大基因—全球最大基因组机构; 华大基因的CEO王俊预测,按照目前趋势发展,基因测序最终将会免费。再过4年,即到2019年将有可能变为现实; 2012年3月 成立深圳华大基因健康科技有限公司; 华大基因于2013年收购了美国Complete Genomics公司,将其测序仪更名为BGISEQ,并向国家食品药品监督管理总局提出了申报。
个人基因组及精准医疗时代的到来: 个性化治疗 遗传病的诊断 传染性疾病的快速诊断 食品安全
按照美国国立卫生研究院(NIH)对“精准医疗”的定义,“精准医疗”是一个建立在了解个体基因、环境以及生活方式的基础上的新兴疾病治疗和预防方法。 2016年,美国将在“精准医疗计划”上投资2.15亿美元 ,从逾百万名美国志愿者那里收集数据,找寻科学证据,将“精准医疗”从概念推进到临床应用。 用奥巴马的话说,“要在正确的时间,给正确的人,正确的治疗。而且要次次如此。”
精准医疗在中国…… 我国科技部曾于今年 3 月召开了国家首次精准医学战略专家会议。 目前,精准医疗已被列入 “ 十三五 ” 健康保障发展问题研究的重大专项之一,我国将在 “ 十三五 ” 期间启动 “ 精准医疗重点科技研发计划 ” ,着力推动发展精准医学,这将为我国医疗方式带来全新变革。