16S-rDNASeq: one-stop pipeline for microbial community diversity analysis based on 16S-rDNAseq 何 飞
基本问题 问题1: 针对一个或者多个细古菌菌落,鉴定其成员和定量其成员的丰度 问题2: 针对多个细古菌菌落, 检验是否有差别和分析其差别
实验方法 方法1: 细古菌落鸟抢法测序, 数据来源小部分已知或者大部分未知的细古菌全基因组片断,分析复杂和困难 方法2:16S rDNA测序, 数据来自大部分已知细古菌的16S rDNA片断, 分析简易
16S rRNA 16s rRNA基因是进化遗传研究的重要对象, 相对于细菌的表型鉴定, 16s rRNA基因检测技术已成为细菌检测和鉴定的使用广泛和快速的工具 16S rRNA基因是存在于原核生物基因组上编码rRNA相对应的DNA序列。 16S rRNA基因长度是1.5kb, 具有高度保守性区域和高度特异性区域,特异性区域成为物种特异的标志序列。
实验步骤 细古菌基因组DNA提取 16S rRNA特定区域扩增引物设计 PCR扩增 PCR产物纯化 Roche454测序
数据产生 Roche454测序仪产生.sff数据文件 从.sff数据文件提取.fna数据文件和.qual数据文件 .fna数据文件保存碱基序列 >HKSD5CR01D6P3I length=70 xy=1599_2828 region=1 run=R_2012_03_15_01_23_26_GGAGTAGCATGCGTGACGAATCGTAGTTCCGACCATAACGATGCCGACCTTTGACCACGA .qual数据文件保存质量分数序列 >HKSD5CR01D6P3I length=70 xy=1599_2828 region=1 run=R_2012_03_15_01_23_26_40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 39 39 39 40 40 40 34 34 34 34 40 30 30 30 40 39 39 39 38 38 37 40 40 38 38 32 24 17 17 20 20 26 30 30 36 36 37 40 40 4040 40 40 40 40 40 40 39 39 39 测序长度分布统计
长度分布统计
收录16S rRNA序列的常用数据库 NCBI Nucleotide database(NT库) 网址: ftp://ftp.ncbi.nih.gov/blast/db/ GreenGenes database 网址: http://greengenes.lbl.gov/cgi-bin/nph-index.cgi Ribosomal database project database 网址: http://rdp.cme.msu.edu/ Silva: comprehansive ribosomal RNA database 网址: http://www.arb-silva.de/
16S rRNA数据分析常用软件 Mothur 网址:http://www.mothur.org/ QIIME(Quantitative Insights Into Microbial Ecology) 网址:http://qiime.sourceforge.net/tutorials/tutorial.html GreenGenes database 网址: http://greengenes.lbl.gov/cgi-bin/nph-index.cgi Ribosomal database project database 网址: http://rdp.cme.msu.edu/
数据分析内容 序列预处理 序列聚类操作分类单元(OTU) Alpha多样性分析 赋予物种分类单元 Beta多样性分析 组间物种分类单元筛选
序列预处理 识别和去除序列起始8个碱基样本标记Barcode (perl script) 去出引物序列 下载地址:http://compbio.dfci.harvard.edu/tgi/software/ 执行命令:./seqclean *.fna -v primer.fa 和 ./cln2qual *.fna.cln *.qual 去除序列中的低质量区域 下载地址: http://lucy.sourceforge.net/ 执行命令:/lucy *.fna.clean *.qual.clean -e 0.03 0.03 -w 30 0.03 10 0.1 –b 4 0.03
序列聚类操作分类单元(OTU) 操作分类单元(OTU): 多条序列相似性为0.97被认为可能属于同一个属(genus), 相似性为0.99被认为可能属于同一个种(species) 软件下载地址: http://www.drive5.com/uclust/downloads1_1_579.html 执行命令:./uclust --sort *.fa --output *.sort.fa 执行命令:./uclust -input *.sort.fa -uc *.uc
Alpha多样性分析 Alpha多样性指标:丰富度(richness)、香农指数(Shannon index) 软件下载地址: http://www.mothur.org/wiki/Download_mothur 执行命令: ./mothur “collect.single(list=*.txt, freq=10);”
丰富度指数稀疏分析图
香农指数稀疏分析图
赋予物种分类单元 物种分类单元分为6层, 它们依次为domain、phylum、class、order、family、genus 软件下载地址: http://sourceforge.net/projects/rdp-classifier/ 执行命令: java –jar rdp_classifier-2.4.jar -q *.fa -o *.output 画物种分类单元丰度比例图, genus的域值设置为0.8
物种分类单元丰度比例图
Beta多样性分析 取uclust聚类生成的代表性序列进行多序列比对, 多序列比对需要参考核心16S rDNA多序列队列文件:core_set_aligned.fasta.imputed 下载地址: http://pynast.sourceforge.net/ 多序列队列文件:http://greengenes.lbl.gov/Download/Sequence_Data/Fasta_data_files/ 执行命令:./pynast -p 0 -l 0 -i *.fa -t core_set_aligned.fasta.imputed 构建代表性序列为节点的进化树 下载地址:http://microbesonline.org/fasttree/ 执行命令./FastTree –gtr -nt *.tree Beta多样性分析: 样本距离计算 , 需要序列丰度信息 网站访问地址: http://bmf2.colorado.edu/fastunifrac/
样本距离矩阵
样本聚类和PCA
组间物种分类单元筛选 物种分类单元特征包括5层, 分别是phylum、class、order、family、genus。根据RDP分类器的样本和物种分类单元丰度矩阵结果, 利用统计检验筛选组间的差异物种分类单元特征 , 如果每个样本组只有一个样本, 采用Fisher精确检验, 如果每个样本组大于等于两 个样本, 采用T检验。 软件下载地址http://metastats.cbcb.umd.edu/
谢 谢!