中科院计算所生物信息学研究组 华大-曙光生物信息学联合实验室 卜东波 2001/10/07 基因组测序流程介绍 中科院计算所生物信息学研究组 华大-曙光生物信息学联合实验室 卜东波 2001/10/07
第一部分:基础知识
1。细胞的结构(真核和原核)
2。细胞核中的染色体
3。染色体=DNA+相关蛋白质
4。DNA的双螺旋结构
5。碱基互补:A/T C/G
6。DNA复制
7。什么是基因组? 任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因,一个细胞中的全部基因序列及其间隔序列统称为genomes(基因组)。
8。什么是基因? DNA上具有特定功能的一个片断,负责一种特定性状的表达。一般来讲,一个基因只编码一个蛋白质。
9。DNA RNA与蛋白质 DNA:两条互补链。由ATCG四个字母(碱基)形成的字符串。 RNA:单链结构。由AUCG四个字母(碱基)形成的字符串。 蛋白质:一条或多条肽链。每个肽链是由20种氨基酸形成的长链,即20个字母(氨基酸)形成的字符串。 翻译:每3个碱基翻译成一个氨基酸。
10。DNA上的基因
11。什么是电泳? 在凝胶一端小槽中放入荧光标记的DNA片断,两端加电压,短DNA片断跑得快,长DNA片断跑得慢。 测序时需要区分长度只差一个碱基的片断
12。什么是PCR? DNA体外扩增方法的一种,能够将很少的试样(比如只有罪犯的一滴血),扩增成完全相同的无数拷贝。
第二部分:测序流程
1。什么是测序? 确定一条染色体片断上的碱基顺序。 Sanger法: 在PCR时加入荧光标记的复制终止剂,比如ddA,ddT,ddC,ddG(相应于4种碱基) ddX的两个作用: 可以当作正常碱基参与复制 一旦链入DNA中,其后就不能再继续连接 电泳 谁终止,碱基就是谁 此方法获1974年的Nobel奖
Sanger第一步:加入复制终止剂 电泳,看谁跑得快 荧光检测探头
Sanger第二步:荧光检测
Shotgun测序 DNA的提取和纯化 载体预备:和DNA片断结合,从而能够在细菌中扩增。 转化培养:小片断和载体结合,植入细菌中进行扩增。 提质粒:从细菌中提取出繁殖好的质粒 电泳检测:检测质量的好坏 测序:上测序仪测序
全自动的测序仪器:MegaBace
DNA整体 切成小段 小段和载体结合 结合后进行测序
Shotgun测序(2)——
还没有完!拼接!!! 因为整个基因组太长(上M),而每次只能测得一个500的小片断(read) 问题:如何根据read恢复原始顺序? 类比:10本圣经,都从随机点起始剪成500个字母左右的小纸条,问:给你这么一堆小纸条,你能读出圣经来吗? 转成图论问题:Hamilton和Euler路径 但是都会拼错!
Shotgun法序列拼接 Consensus Single Low Base Stranded Quality Region Sequence Gap Consensus Mis-Assembly (Inverted)
拼接错误:Repeat的存在
我们能干什么? 测序之前全是生物学问题。 测序之后就全形式化是计算机问题。 天然的形式化:ATCG 核心问题: 字符串比对:两个字符串的距离 拼接问题 蛋白质结构预测:如何从一维预测三维结构?
欢迎来中科院计算所生物信息 实验室参观! Tel: 62565533-5716 http://www.bioinfo.org.cn Email: bioinfo@software.ict.ac.cn