高通量测序应用与进展
报告纲要 高通量测序简介 高通量测序平台的介绍 高通量测序的应用范围及案例分析 相关生物信息学分析软件介绍
高通量测序简介 高通量测序:一次性对几百万到十亿条DNA分子进行并行测序,又称为下一代测序技术,其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析,所以又被称为深度测序。 High-throughput Sequencing Next Generation Sequencing Deep Sequencing 以下三个关键词指的是一种东西,在Google或者NCBI Pubmed上可以输入以下关键词就可找到高通量测序的相关文献和内容。 www.sangon.com
高通量测序流程 无需建立文库, 两端加测序接头 文库扩增 PCR扩增 并行测序 高通量 低通量 A Sanger测序 B 高通量测序 2、自动化程度高,简单易操作。 3、并行测序,高通量,一个Run可测最少百万级的序列。现在一个流程最高通量水平已经可以达到10亿条序列。 并行测序 高通量 低通量 A Sanger测序 B 高通量测序
报告纲要 高通量测序简介 高通量测序平台的介绍 高通量测序的应用范围及案例分析 相关生物信息学分析软件介绍
高通量测序技术的起源与发展 1992年Lynx Therapeutics MPSS 2003年Polony Sequencing(哈佛) 2005年454 Pyrosequencing 2006年Solexa Sequencing-by-Synthesis 2007年ABI SOLiD 2008年Helicos tSMS Sequencing 2010年Ion torrent Semiconductor Sequensing 2011年Pacific Biosciences SMRT Sequensing Lynx Therapeutics MPSS极其复杂,没有商业化,2004年并入solexa。Polony seq由哈佛George Church实验室开发,使用连接测序,后来并入ABI SOLiD平台。454焦磷酸测序由454 Life Sciences开发,是第一个商业化高通量测序平台,后被Roche收购。Solexa在lynx MPSS的基础上简化开化了Sequencing by Synthesis,后被Illumina收购。ABI SOLiD在Polony Seq基础上开发了连接测序。Helicos是单分子测序,其特点是没有PCR扩增过程。2010的Ion torrent和其他的不同,不是以荧光进行检测信号 www.sangon.com
高通量测序技术的传承关系图 Lynx MPSS Polony Seq 454 Solexa Roche 454 ABI SOLiD Illumina Solexa Helicos Ion Torrent ABI Ion Torrent SMRT
现有主要高通量测序仪开发商 测序仪品牌 技术原理 开发商 Roche 454 焦磷酸测序 Roche Illumina Solexa 边合成边测序 Illumina ABI SOLiD 基于磁珠的大规模并行连接测序 ABI Helicos 单分子荧光测序 Ion Torrent 半导体测序 SMRT 单分子实时测序 Pacific Bio 现在应用的比较多的是前三种机子,下面主要对这三种机子及其测序原理做一个简单介绍。
454 Pyrosequencing 基于磁珠的焦磷酸测序: A 磁珠制备设备 C 454测序原理 B 454测序仪 碱基聚合反应产生焦磷酸ppi,ppi在硫化酶催化下生成ATP,ATP在荧光酶催化下激发荧光,荧光强度和焦磷酸的量成正比。 C 454测序原理 B 454测序仪
454 测序流程 1)样品输入并片段化 2)序列两端接头连接,文库制备 3)磁珠吸附,乳化PCR扩增
454 测序流程与Base Calling 每次加入一种碱基,再对荧光强度进行读取,如果不能和加入碱基配对则没有信号,如果有单个碱基配对则可检测到一倍的信号,如果有连续多个可配对碱基则可检测到多倍强度的荧光信号,荧光强度和碱基个数成正比。
454 的特点与主要应用 读长较长,400-600bp 通量较低,1Run 1M 序列,400-600Mb 相对成本较高 主要应用:de novo测序
Illumina Solexa简介 桥式PCR 边合成边测序 可逆终止物 HiSeq 2000
Illumina Solexa 测序流程
Illumina Solexa 桥式PCR 2nd cycle denaturation 1st cycle annealing diol 2nd cycle denaturation 1st cycle annealing diol 1st cycle extension diol diol diol 1st cycle denaturation 2nd cycle annealing diol n=35 total diol 2nd cycle extension
Illumina Solexa Base Calling T G C T A C G A T … 1 2 3 7 8 9 4 5 6 T T T T T T T G T …
Solexa 的特点与主要应用 读长较短,100-150bp 通量高,25G每天,120-150G每Run 主要应用:RNA测序、表观遗传学研究
ABI SOLiD 简介 SOLiD Sequencing by Oligo Ligation/Detection Oligo连接测序:通过连接酶连接,再对oligo上荧光基团进行检测 SOLiD 5500xl
ABI SOLiD测序前期制备 A 样品片段化 磁珠连接 B 乳化PCR 3‘末端修饰 C 磁珠富集 转到测序玻片 前期测序文库构建和454类似。都有序列片段化后加接头,然后磁珠吸附做乳化PCR扩增。不同的是SOLiD序列要转到玻片上测序。 C 磁珠富集 转到测序玻片
ABI SOLiD测序原理 测序流程依次加入五种引物进行五次测序。加入测序引物及加入oligo连接酶连接,激发荧光检测,循环一个流程,换一种引物再循环一个流程,五个流程结果叠加分析出序列。
ABI SOLiD荧光结合和结果示例 B. SOLiD 测序结果示例(Color Space) A. SOLiD Oligo荧光基团模式图 @SRR029969.1 VAB_5551_12_381_F3 length=35 T11.0203.3.1113211010332111302330201 +SRR029969.1 VAB_5551_12_381_F3 length=35 !36!8/8:!:!462>@6=(<8>8.<;2:*9748078 @SRR029969.2 VAB_5551_13_468_F3 length=35 T202312302.3333130131131322113203131 +SRR029969.2 VAB_5551_13_468_F3 length=35 !9),4/3)&$!(&(573(96,'7&91>)43),(95, 根据以上颜色矩阵,总共有四种荧光,在测序结果里面以1234来表示。而四种碱基两两组合有十六种,所以一种颜色代表了四种组合。所以单凭单个颜色是无法确定碱基,只能和前一个位置的已知碱基来推算。不过我看右边的结果中,序列里有一些点,这些点表示碱基测错了,所以这样就无法把这条序列翻译成碱基,不过这条还是可以用来比对,只要把基因组翻译成color space,可以在比对过程把测错的碱基修正过来,这也是SOLiD的一个特点。 B. SOLiD 测序结果示例(Color Space) A. SOLiD Oligo荧光基团模式图
SOLiD 的特点与主要应用 读长较短,50-75bp 精度高,可达Q40 通量高, 20-30G每天,1Run 可达120G 主要应用:基因组重测序、SNP检测等
三种平台的技术差异 平台 454 Solexa SOLiD PCR 磁珠乳化PCR 桥式PCR 测序载体 磁珠 玻片 测序方式 焦磷酸、荧光 可逆终止物、荧光 连接酶、荧光 结果序列 FastQ CSFastQ
三种平台的效能参数差异 平 台 读长 通量 周期 精度 Solexa HiSeq 2000 Single-end: 1 x 35 bp Paired-end: 2 x 50 bp Paired-end: 2 x 100 bp 25 Gb/d ~1.5d ~4d ~8d •50 bp 85%以上 Q30 •100 bp 80%以上 SOLiD 5500xl Single-end: 75 bp Paired-end: 75 x 35 bp Mate-pair: 60 x 60 bp 20 – 30 Gb/d 1d/ 1lane 7d/ 12 lane Q40 454 GS FLX 400 - 600 bp 400 – 600 Mb/Run 10h Q20
报告纲要 高通量测序简介 高通量测序平台的介绍 高通量测序的应用范围及案例分析 相关生物信息学分析软件介绍
高通量测序应用范围 DNA测序 全基因组de novo测序 基因组重测序 宏基因组测序 人类外显子组捕获测序 RNA测序 转录组测序 小RNA测序 电子表达谱测序 表观基因组研究 ChIP-Seq DNA甲基化测序
基因组测序 基因组测序是对物种的基因组DNA打断后进行高通量测序,根据是否有已知基因组数据主要分为de novo全基因组测序和基因组重测序。 全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。
基因组测序策略 Paired-End Mate-End 基因组测序流程-两种测序策略 Paired-End方法,基因组打断后,选择一定长度(200-500bp)的序列连接两端接头进行两头测序。Mate-end建库较复杂,序列打断后,选取一定长度序列(3-5kb),需先连接生物素,再环化,再打断,生物素富集,连接两端接头进行两端测序。 Mate-End 基因组测序流程-两种测序策略
Paired-end 原理 100bps 3000bps www.sangon.com
Paired-end 基因组重排分析
Paired-end和测序深度对测序效果的影响 Hom error rate纯合子SNP错误率,HET error rate杂合子SNP错误率。 Jun Wang, et al. Nature 456, 60-65(6 November 2008)
基因组测序的生物信息学分析 数据产出处理:图像识别与Base Calling\去除接头序列、检测与去除污染序列等; 基因组组装:原始数据统计、测序深度分析、组装结果统计等; 基因组注释:Coding Gene注释、RNA分类注释、重复序列注释等; 基因功能注释:GO功能分类、Interpro功能分类等; 比较基因组及分子进化分析:SNP/InDel/CNV检测等。
References 1、Erin D. Pleasance, Philip J. Stephens, Sarah O’ Meara, et al.. A small-cell lung cancer genome with complex signatures of tobacco exposure. Nature, 2010, 463:184-190. 2、Michael James Clark, Nils Homer, Brain D. O’ Connor, et al.. U87MG Decoded: The Genomic Sequence of a Cytogenetically Aberrant Human Cancer Cell Line. PloS Genetics, 2010, 6(1):e1000832. 3、Wei Chen, Reinhard Ullmann, Claudia Langnick, et al.. Breakpoint analysis of balanced chromosome rearrangements by next-generation paired-end sequencing. European Journal of Human Genetics, 2010, 18: 539-543. 4、Van Tassell CP, Smith TP, Matukumalli LK, Taylor JF, Schnabel Rd, et al. Whole-genome sequencing and variant discovery in C. elegans. Nat Methods, 2008, 5(2): 183-188. 5、Jun Wang, Wei Wang, Ruiqiang Li, et al.. The diploid genome sequence of an Asian individual. Nature 456, 60-65(6 November 2008) 6、Huang SW, Li RQ, Wang J, et al. The Genome of the Cucumber (Cucumis sativus Linnaeus). Nature Genetics 2009; doi:10.1038/ng.475 7、David Hernandez, et al. De novo bacterial genome sequencing: Millions of very short reads assembled on a desktop computer. Genome Res. 2008.18: 802-809 www.sangon.com
基因组重测序案例分析 Erin D. Pleasance, et al. The compendium of somatic mutations in a small-cell lung cancer genome. Nature, 2010, 463:184-190. 此研究用高通量测序对一个小细胞肺癌细胞系NCI-H209基因组进行重测序,以探讨吸烟引发该细胞系基因组中特定碱基及其周围序列的突变及细胞损伤修复原理。
肺癌基因组变异情况统计图 a, Power calculations showing the number of true somatic substitutions detected (blue) and mis-calls (single nucleotide polymorphisms (SNPs) called as somatic mutations, burgundy, and sequencing errors called as mutations, green) for different levels of sequence coverage. Calculations are based on a true mutation prevalence of 1 per megabase (black line). b, Histogram of the actual coverage achieved per base of the tumour (blue) and normal (burgundy) genomes. c, Figurative representation of the catalogue of somatic mutations in the genome of NCI-H209. Chromosome ideograms are shown around the outer ring and are oriented pter–qter in a clockwise direction with centromeres indicated in red. Other tracks contain somatic alterations (from outside to inside): validated insertions (light-green rectangles); validated deletions (dark-green rectangles); heterozygous (light-orange bars) and homozygous (dark-orange bars) substitutions shown by density per 10 megabases; coding substitutions (coloured squares; silent in grey, mis-sense in purple, nonsense in red and splice site in black); copy number (blue lines); validated intrachromosomal rearrangements (green lines); and validated interchromosomal rearrangements (purple lines)
基因组重排和CNV分析
从头基因组测序案例 David Hernandez, et al. De novo bacterial genome sequencing: Millions of very short reads assembled on a desktop computer. Genome Res. 2008.18: 802-809 此研究对Staphylococcus aureus strain MW2和Helicobacter acinonychis strain Sheeba两种细菌基因组进行从头测序,并比较了几种拼接方法的效果。
多种拼接软件拼接结果比较
多种拼接软件拼接结果比较 五种拼接方法的拼接结果比对 Mapping of the contigs on the reference Staphylococcus aureus MW2 genome. (A) From external to internal, the circles correspond to the contigs produced by (1) Edena strict, (2) Velvet, (3) Edena nonstrict, (4) SSAKE, and (5) SHARCGS. The contigs are colored by alternating two different colors, which allows distinguishing contig boundaries. The last inner circle shows the coding sequences. The gaps in the Edena nonstrict assembly correspond to large misassembled contigs that did not properly map the reference genome. (B) The magnification of the region around the origin of replication provides a better view to compare the contigs length and layout between the different assembly methods. It can be seen that the contigs assembled by Edena and Velvet are long enough to reveal entire genes. More importantly, significant overlaps exist between the contigs assembled by the two programs, which also means that even larger contigs could be assembled by merging both approaches. The position of the SSCmec cassette of type IV.1 (Chongtrakool et al. 2006) is indicated by the red line. 五种拼接方法的拼接结果比对
宏基因组测序 宏基因组测序是对某一特定环境,如肠道、土壤、海水等中的所有微生物进行基因组测序。通过此方法可对该环境中的微生物种类和优势物种进行检测,揭示微生物群落多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系 。自然环境中很多微生物无法分离培养,而此方法无需对微生物进行分离培养。 宏基因组测序方法现在有全基因组的宏基因组测序和16S/18S rRNA宏基因组测序。
全基因组的宏基因组测序 通过高通量测序技术,对环境样品的总 DNA 直接进行全基因组的宏基因组测序,能够实现微生物群落的物种分类研究、群落结构、系统进化、功能注释以及物种间的代谢网络研究,挖掘具有应用价值的基因资源,开发新的微生物活性物质。与传统的 Sanger法相比,速度快,性价比高,周期短,单个样品的测序量可以接近饱和。
宏基因组测序信息分析主要内容 拼接组装 物种分类组成分析 基因预测和功能注释 生成Profiling table 主成分分析(PCA) 筛选与样品分组显著相关的因子 多样品间比较分析
16S/18S rRNA宏基因组测序 16S/18S rRNA是微生物群落分析和细菌进化研究以及分类研究最常用的靶分子,采用新一代测序技术,对16S/18S rDNA的可变区进行测序分析,不需进行克隆筛选,能全面的反映微生物群体的物种组成,真实的物种分布及丰度信息。
16S/18S rRNA测序信息分析内容 物种分类、物种丰度分析 OTU(Operational Taxonomic Units )分析 多样性分析 系统进化分析 多样品间的比较分析
References Meyer, F; Paarmann D, D'Souza M, Olson R, Glass EM, Kubal M, (2008). "The metagenomics RAST server - a public resource for the automatic phylogenetic and functional analysis of metagenomes". BMC Bioinformatics 9: 0. doi:10.1186/1471-2105-9-386. George I et al. (2010). "Application of Metagenomics to Bioremediation".Metagenomics: Theory, Methods and Applications. Caister Academic Press. Wong D (2010). "Applications of Metagenomics for Industrial Bioproducts".Metagenomics: Theory, Methods and Applications. Caister Academic Press. Nelson KE and White BA (2010). "Metagenomics and Its Applications to the Study of the Human Microbiome". Metagenomics: Theory, Methods and Applications. Caister Academic Press. CharlesT (2010). "The Potential for Investigation of Plant-microbe Interactions Using Metagenomics Methods". Metagenomics: Theory, Methods and Applications. Caister Academic Press. Allen, EE; Banfield, JF (2005). "Community genomics in microbial ecology and evolution". Nature Reviews Microbiology 3 (6): 489–498. Zheng, Hao; Wu, Hongwei (2010). "Short prokaryotic DNA fragment binning using a hierarchical classifier based on linear discriminant analysis and principal component analysis.". J Bioinform Comput Biol. 8 (6): 995–1011.
人类外显子组捕获测序 外显子组是指全部外显子区域的集合,该区域包含合成蛋白质所需要的重要信息,涵盖了与个体表型相关的大部分功能性变异。 与全基因组重测序相比,外显子组测序只需针对外显子区域的DNA,覆盖度更深、数据准确性更高,更加简便、经济、高效。 人类外显子组序列在基因组只占1%,但却包含着85%的变异。 www.sangon.com
人类外显子组捕获测序原理 外显子捕获是指用外显子芯片杂交,把基因组外显子序列进行捕获,然后对所捕获的序列进行测序。现在常用外显子芯片有Roche NimbleGen Sequence Capture 2.1M Human Exome Array 和Agilent SureSelect Target Enrichment System(Human Exome) .
人类外显子组捕获测序分析流程
检测序列变异分析示例 检测到SNP数统计 序列InDel检测
References 1、Wei X, Walia V, et al. Exome sequencing identifies GRIN2A as frequently mutated in melanoma. Nat Genet. 2011 Apr 15. [Epub ahead of print] 2、Janel O. Johnson, J. Raphael Gibbs,et al. Exome Sequencing in Brown-Vialetto-Van Laere Syndrome. Am J Hum Genet. 2010 October 8; 87(4): 567–569. 3、Teer JK, Mullikin JC.Exome sequencing: the sweet spot before whole genomes. Hum Mol Genet. 2010 Oct 15;19(R2):R145-51. Epub 2010 Aug 12. 4、Ley TJ, Mardis ER, Ding L, et al. DNA sequencing of a cytogenetically normal acute myeloid leukaemia genome. Nature 2008; 456(7218):66-72 5、Gnirke A, Melnikov A, Maguire J, et al. Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencing. Nat Biotechnology 2009; 27(2):182-9. 6、Murim Choia, Ute I. Scholla, Weizhen Jia, et al. (2010) Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. PNAS. 106: 19096-19101. 7、Sarah B Ng, Kati J Buckingham, Choli Lee, et al. (2010) Exome sequencing identifies the cause of a mendelian disorder. Nature Genetics 42, 30 - 35. www.sangon.com
人类外显子组捕获测序案例 Wei X, Walia V, et al. Exome sequencing identifies GRIN2A as frequently mutated in melanoma. Nat Genet. 2011 Apr 15. [Epub ahead of print] 黑色素瘤发生率一直在上升,此研究对黑色素瘤细胞进行外显子组捕获测序,发现了和其相关的高频突变基因。
七个新发现的非同义高频突变位点
单个基因中突变位点分析 基因GRIN2A模式图,箭头表示突变位点
转录组测序简介 转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA(Non-coding RNA)。 第二代测序系统可精确检测单个碱基,并且不受到研究中先验信息的干扰,科研人员能够快速地获得某一物种特定器官或组织在某一状态下几乎所有mRNA转录本序列,从而能够开展:UTRs区域界定、可变剪切研究、低丰度新转录本发现、融合基因鉴定、cSNP(编码序列单核苷酸多态性)研究等。
转录组测序测序流程 全转录组总RNA polyT富集mRNA 去除rRNA Non-coding RNA 转录组mRNA 连接两端接头序列 逆转录生成cDNA 选择适当长度cDNA进行扩增 纯化扩增产物,评估产量 上机进行高通量测序
转录组测序测序流程 无参考序列测序流程 有参考序列测序流程
转录组主要分析内容 无参考序列 转录组分析内容 有参考序列 1 测序数据产量统计,数据成分和质量评估; 1 测序数据产量统计,数据成分和质量评估; 2 Contig及Scaffold长度分布 3 Unigene的长度分布和功能注释,GO分类,Pathway分析,差异表达分析 4 蛋白功能预测与分类,差异表达基因GO富集和 Pathway富集分析。 1 基本数据统计,比对参考序列 2 序列在基因组上在分布 3 测序深度分析、随机性评估和基因差异表达分析 4 新基因预测,基因可变剪接鉴定和基因融合鉴定等。
References Maher CA, Kumar-Sinha C, Cao X, et al. Transcriptome sequencing to detect gene fusions in cancer. Nature, 2009 Mar 5;458(7234):97-101. Guojie Zhang, Guangwu Guo, Xueda Hu, et al. Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome. Genome Res. 2010 May;20(5):646-54. Murchison EP, Tovar C, Hsu A, et al. The Tasmanian devil transcriptome reveals Schwann cell origins of a clonally transmissible cancer. Science. 2010 Jan 1;327(5961):84-7. Brain B. Tuch, Rebecca R. Laborde, Xing Xu et al. Tumor Transcriptome Sequencing Reveals Allelic Expression Imbalances Associated with Copy Number Alterations. PloS ONE, 2010, 5(2):e9317 Fuchou Tang, Catalin Barbacioru, Ellen Nordman et al. RNA-Seq analysis to capture the transcriptome landscape of a single cell. Nature Protocols, 2010, ePub Febrary 25. Sohrab P. Shah, Ryan D. Morin, Jaswinder Khattra et al. Mutational evolution in a lobular breast tumor profiled at single nucleotide resolution. Nature, 2009, 461: 809-813 Zhao et al. Transcriptome-guided characterization of genomic rearrangements in a breast cancer cell line. PNAS 106(6): 1886-91. (2009) Gregory R, Darby AC, Irving H, et al. A de novo expression profiling of Anopheles funestus, malaria vector in Africa, using 454 pyrosequencing. PLoS One. 2011 Feb 25;6(2):e17418. Crawford JE, Guelbeogo WM, Sanou A, Traoré A, Vernick KD, et al. (2010) De NovoTranscriptome Sequencing in Anopheles funestus Using Illumina RNA-Seq Technology. PLoS ONE 5(12): e14202. doi:10.1371/journal.pone.0014202
有参考序列转录组测序案例 Maher CA, Kumar-Sinha C, Cao X, et al. Transcriptome sequencing to detect gene fusions in cancer. Nature, 2009 Mar 5;458(7234):97-101. 此研究使用454和Solexa两种高通量测序平台对前列腺癌细胞系VcaP和LNCaP转录组进行测序,以检测和研究前列腺癌细胞系中基因融合表达情况。
基因融合分析 基因嵌合分析流程 MIPOL1-DGKB 基因融合模式 Figure 1 | Using massively parallel sequencing to discover chimaeric transcripts in cancer. a, Schema representing our use of transcriptome sequencing to identify chimaeric transcripts. ‘Long-read’ sequences compared with the reference database are classified as ‘mapping’, ‘partly aligned’ and ‘non-mapping’ reads. Partly aligning reads are considered putative chimaeras and are categorized as inter- or intra-chromosomal chimaeras. Integration with short-read sequence data are used for shortlisting candidate chimaeras and assessing the depth of coverage spanning the fusion junction. b, ‘Re-discovery’ of TMPRSS2–ERG fusion on chromosome (chr) 21. Short reads (Illumina) are overlaid on the corresponding long-read (454) represented by coloured bars. Sequences spanning the fusion junction are indicated by the partition in the short reads. Chromosomal context of the fusion genes is represented by coloured bars punctuated with black lines. Inset displays histogram of qRT–PCR validation of the TMPRSS2–ERG transcript. 基因嵌合分析流程 MIPOL1-DGKB 基因融合模式
无参考序列转录组测序案例 Crawford JE, Guelbeogo WM, Sanou A, Traoré A, Vernick KD, et al. (2010) De NovoTranscriptome Sequencing in Anopheles funestus Using Illumina RNA-Seq Technology. PLoS ONE 5(12): e14202. doi:10.1371/journal.pone.0014202 此研究通过对3个按蚊样品进行高通量测序,通过拼接组装后,和相近物种进行比较基因组学分析。
De novo 序列拼接、组装和比对流程 拼接和变异检测分析流程图 拼接结果统计
比较基因组分析 进化关系分析 差异同源蛋白GO分类 各类功能基因中氨基酸在物种间差异比例
电子表达谱测序 对特定处理条件下的全基因组基因表达谱进行分析,已被广泛用于功能基因组学和医学等研究领域。 电子表达谱测序(Digital Gene Expression, DGE)又称为基因表达标签测序(mRNA tag profiling),其原理是通过两种酶切作用对基因中一段长度为21nt的序列标签进行测序。由于其测序只针对表达的基因进行测序,产生的数据量相对较小,是研究基因表达谱的经济而快速的研究手段。 又称Tag-SAGE
电子表达谱测序流程图 NlaIII限制性酶切
电子表达谱分析内容 图像识别与原始碱基数据读取。 去污染、去接头,标签序列计数统计。 基因组比对与统计,基因序列比对获得所表达的基因列表 基因差异表达分析。 聚类与表达类型分析。 GO基因富集与分类分析。 Pathway富集与分类分析。 蛋白相互作用网络分析。 反义链转录本与新转录本检测。
References Morrissy AS, et al. Next-generation tag sequencing for cancer gene expression profiling. Genome Res. 2009.19 (10): 1825-1835. 't Hoen PA, et al. Deep sequencing-based expression analysis shows major advances in robustness, resolution and inter-lab portability over five microarray platforms. Nucleic Acids Res, 2008. 36(21): e141 (1-11).style7"> 3. Hegedus Z, et al. Deep sequencing of the zebrafish transcriptome response to mycobacterium infection. Mol Immunol, 2009. 46(15): 2918-2930. Audic S and Claverie JM. The significance of digital gene expression profiles. Genome Res.1997. 7(10): 986-995. Zhenhua Jeremy Wu, Clifford A. Meyer, Sibgat Choudhury, et al. Gene expression profiling of human breast tissue samples using SAGE-Seq. Genome Res. 2010. 20: 1730-1739 AndreaL.Eveland,NamikoSatoh-Nagasawa ,AlexanderGoldshmidt, et al. Digital Gene Expression Signatures for Maize Development. Plant Physiol., 2010 154: 1024-1039 Peter Ruzanov and Donald L. Riddle. Deep SAGE analysis of the Caenorhabditis elegans transcriptome. Nucleic Acids Research, 2010, Vol.38, No.10 Saurabh Saha, Andrew B. Sparks, Carlo Rago, et al. Using the transcriptome to annotate the genome. Nature Biotechnology (2002)20, 508 - 512
电子表达谱测序案例分析 Morrissy AS, et al. Next-generation tag sequencing for cancer gene expression profiling. Genome Res. 2009. 19 (10): 1825-1835. 此研究用高通量电子表达谱测序(Tag-SAGE)和传统LongSAGE测序方法对癌症细胞进行研究,比较两种方法效果,揭示了电子表达谱在基因发现中的诸多优势,可发现更多的基因,减少GC偏好。
两种方法所检测到的基因数比较
GC偏好性和低丰度转录本检测效果
小RNA测序 小 RNA是指长度在21-31nt的内源性非蛋白质编码RNA,广泛存在于高等和低等生物体内,其对mRNA的转录及转录后水平等生命过程起到调节作用。 现已知小RNA可归纳成三类:微RNA (miRNA),小干扰RNA(siRNA)和与piwi相互作用的RNA(piRNA)。 miRNA长度为21~24nt,产生于有典型茎环二级结构的原转录本(pri-miRNA),在动植物的目标mRNA的降解与抑制方面发挥重要作用。siRNA,长度在19~25nt,产生于长双链RNA,同样在动植物的目标mRNA的降解与抑制方面发挥重要作用。piRNA,长度26~31nt,由与其相互作用的Piwi蛋白定义,目前研究表明其在配子形成的过程中起作用。
小RNA测序流程图
小RNA测序分析内容 基本分析: 原始数据读取,去接头、去污染序列,长度分布统计,基因组比对等。 高级分析: Small RNA的分类注释 miRNA / siRNA / piRNA的鉴定 新miRNA预测 差异表达miRNA聚类分析等
References 1、Eugene Berezikov, Nicolas Robine, Anastasia Samsonova, et al. Deep annotation of Drosophila melanogaster microRNAs yields insights into their processing, modification, and emergence. Genome Res. 2011. 21: 203-215 2、Mi S, Cai T, Hu Y, Chen Y, Hodges E, et al. (2008) Sorting of Small RNAs into Arabidopsis Argonaute Complexes is Directed by the 5’ Terminal Nucleotide. Cell. 3、Montgomery TA, Howell MD, Cuperus JT, Li D, Hansen JE, et al. (2008) Specificity of ARGONAUTE7-miR390 Interaction and Dual Functionality in TAS3 Trans-Acting siRNA Formation. Cell 4、Morin RD, O’ Connor MD, Griffith M, Kuchenbauer F, Delaney A, et al. (2008) Application of massively parallel sequencing to microRNA profiling and discovery in human embryonic stem cells. Genome Res. 5、Hafner M, Landgraf P, Ludwig J, Rice A, Ojo T, et al. (2008) Identification of microRNAs and other small regulatory RNAs using cDNA library sequencing. Methods 44(1): 3-12.
小RNA测序案例分析 Eugene Berezikov, Nicolas Robine, Anastasia Samsonova, et al. Deep annotation of Drosophila melanogaster microRNAs yields insights into their processing, modification, and emergence. Genome Res. 2011. 21: 203-215 此研究对黑腹果蝇miRNA进行深度测序,通过对其测序结果的注释和分析,揭示了黑腹果蝇中miRNA的编辑、修饰等机制。
果蝇三种组织中MiRNA表达情况
MiRNA表达模式分析
新miRNA预测
miRNA编辑情况分析与统计
ChIP-Seq ChIP-Chromatin Immunoprecipitation染色质免疫共沉淀,是指通过蛋白免疫相互作用,用抗体把和染色质相互作用的蛋白,如组蛋白、转录因子等,沉淀下来,从而所获取与其相结合的DNA序列。 ChIP-Seq就是通过高通量测序对ChIP所得到的序列进行测序,从而进行蛋白和DNA相互作用相关研究。
ChIP-Seq测序流程
ChIP-Seq分析内容 ChIP Sequencing结果与参考基因组序列进行比对 ChIP Sequencing reads 在全基因组的分布 唯一比对reads 在repeats 区域的分布 唯一比对reads 在各基因功能元件上的分布 唯一比对reads 的全基因组覆盖深度 全基因组peak 扫描 peak 扫描 peak 长度分布统计 peak 的全基因组覆盖度 peak 在基因功能元件上的分布特征 Peak相关基因分析筛选与GO功能富集分析 多个样品的差异分析 基于peak 相关基因的差异分析 基于peak 的差异分析
ChIP-Seq分析流程 原始数据 数据清理 Unique Mapped 序列比对 序列分布分析 Peak 扫描 Genome Browser可视化 Peak 分布 Peak相关基因 GO功能分析 多个样品的差异分析
ChIP-Seq 分析结果示例
ChIP-Seq分析结果示例
References Johnson DS, Mortazavi A et al. (2007) Genome-wide mapping of in vivo protein–DNA interactions. Science 316: 1497–1502 Jothi et al. (2008) Genome-wide identification of in vivo protein–DNA binding sites from ChIP-Seq data. Nucl Acids Res 36(16) 5221–5231. Bernstein, BE et al. (2005) Genomic maps and comparative analysis of histone modifications in human and mouse. Cell 120, 169–181. Robertson G et al.(2007) Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nature Methods 4: 651–657. Schmid et al. (2007) ChIP-Seq Data reveal nucleosome architecture of human promoters. Cell 131: 831–832
DNA甲基化测序 DNA甲基化对机体发育和基因表达有很重要的调控作用,和各种癌症的发生和发展也有很大相关性,所以对基因组DNA甲基化进行研究是一直来的热门课题。 通过高通量测序来研究DNA甲基化现在主要有两种方法,一种是MeDIP,是通过与DNA甲基化位点相结合的抗体,进行免疫共沉淀,然后对所得DNA序列进行测序。另一种是Bisulfite Sequencing,是通过Bisulfite处理基因组来区分甲基化位点。
MeDIP 原理
MeDIP-Seq分析内容 1. MeDIP-seq 序列与参考序列的比对 2. MeDIP-seq 序列数据在全基因组的分布趋势 2.1 MeDIP-seq 测序reads 在全基因组上每条染色体上的分布 2.2 MeDIP-seq 测序reads 在全基因组上的覆盖深度 2.3 MeDIP-Seq 测序reads 在CG、CHG和CHH位点上的覆盖深度 2.4 MeDIP-Seq 测序reads 在不同基因功能元件上的分布 2.5 MeDIP-Seq 测序reads 在不同OE含量区域中的分布 3. 统计MeDIP-seq 序列富集区域(peak)的信息 3.1 Peak 扫描 3.2 Peak 长度数量及比例分布统计 3.3 单个样品Peak 的OE含量分布统计 3.4 寻找Peak 相关基因 3.5 统计Peak 在不同基因功能元件上的分布 4. 基于Peak 的多样品间差异分析 4.1 分析两个样品间的Peak 相关差异基因 4.2 对两个样品间的差异基因进行GO功能富集分析及pathway 功能分析
Bisulfite Sequencing原理
Bisulfite Sequencing分析内容 2. 深度和覆盖度分析 2.1 C碱基有效测序深度的累积分布 2.2 不同reads 测序深度下的基因组覆盖度 3. 计算C碱基的甲基化水平 4. 全基因组甲基化数据分布趋势分析 4.1 甲基化C碱基中CG, CHG 与CHH的分布比例(H=A、C or T,以下同) 4.2 CG、CHG和CHH中的所有C的甲基化水平 4.3 各条染色体中CG、CHG和CHH中C的甲基化水平(该项分析目前只用于“人”) 4.4 统计不同基因区域内CG、CHG和CHH中C的甲基化水平 4.5 不同基因元件区域中CG、CHG和CHH中C的甲基化水平 4.6 CHG,CHH中甲基化C附近的9bp序列的序列特征分析 5. 全基因组DNA 甲基化图谱 5.1 染色体水平的甲基化C碱基的密度分布(该项分析目前只用于“人”) 5.2 Scaffold的甲基化C碱基密度分布(该项分析针对物种:非人) 5.3 不同基因组区域的甲基化分布特征 5.4 基因组不同转录元件中的DNA甲基化水平 6. 差异甲基化区域(DMR)分析
References Weber et al. Determined that the inactive X-chromosome in females is hypermethylated on a chromosome wide level using MeDIP coupled with microarray. Nature Genet 2005. 37:853–862. Keshet I, Schlesinger Y, Farkash S, et al. Evidence for an instructive mechanism of de novo methylation in cancer cells. Nat. Genet. 2006. 38(2): 149–53. Zhang X, Yazaki J, Sundaresan A, et al. Genome-wide high-resolution mapping and functional analysis of DNA methylation in arabidopsis. Cell 2006.126 (6): 1189–201. Novak P, Jensen T, Oshiro MM, et al.Epigenetic inactivation of the HOXA gene cluster in breast cancer. Cancer Res. 2006. 66 (22): 10664–70. Ehrich M, Zoll S, Sur S, van den Boom D. A new method for accurate assessment of DNA quality after bisulfite treatment. Nucleic Acids Res 2007. 35 (5): e29 Kristen H. Taylor, Robin S. Kramer, J. Wade Davis, et al. Ultradeep Bisulfite Sequencing Analysis of DNA Methylation Patterns in Multiple Gene Promoters by 454 Sequencing. Cancer Res. 2007. 67; 8511
报告纲要 高通量测序简介 高通量测序平台的介绍 高通量测序的应用范围及案例分析 相关生物信息学分析软件介绍
常用生物信息学分析平台与资源 常用编程分析平台: Perl / BioPerl Python / BioPython R / Bioconductor JAVA / BioJava 常用网上资源: NCBI SRA – Sequence Read Archive UCSC Genome Browser SEQanswers – WiKi & Forum for NGS
常用基因组拼接软件 Velvet Ray ABySS SOAPdenovo SSAKE SHARCGS MIRA Edena
基因组比对软件 BLAST BLAT MAQ SOAP Bowtie BWA SSAHA ELAND
SNP 分析软件 SAMTools SOAPsnp NGS-Backbone MAQ SeqMan NGen CLCBio Genomics
谢谢大家!