第四章 核苷酸和蛋白质序列为 基础的数据库检索 (I) 生物信息学
检索数据库的方法 用关键词或词组进行数据库检索 (Text-based database searching) 用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene name Author Accession number … Database
核苷酸和蛋白质序列为基础的数据库检索 序列对位排列( sequence alignment ) 将两条或多条序列对位排列,突出相似的结构 区域 序列 1 序列 2 Function Structure Sequence
表示序列的字符
两条 DNA 序列对位排列分析
两条蛋白质序列对位排列分析
基因预测 分析基因或蛋白质的功能 分析物种进化 检测突变、插入或缺失 序列延长 序列定位 基因表达谱分析 序列比对的用途
序列对位排列分析的种类 序列对库对位排列分析 多序列对位排列分析 从数据库中寻找同源序列 主要涉及核苷酸数据库和蛋白质数据库 两序列对位排列分析
(一)序列对位排列分析的基本原理 1 、记分矩阵( scoring matrix ) 记分矩阵中含有两条序列对位排列时具体使用 的分值 长度一定时,分数越高,两条序列匹配越好 DNA 序列对位记分 序列 1 A C G T T A 序列 2 A C T T T G 记分 =2
蛋白质序列对位排列分析记分复杂 一致氨基酸的记分不同 稀有氨基酸( C ),分值高 普通氨基酸( S ),分值低 相似氨基酸也记分,如 R-K 蛋白质序列对位记分 序列 1 V D S C Y 序列 2 V N W C Y 记分 =18 1 、记分矩阵( scoring matrix ) 序列的排列方式影响总分值
蛋白质有多种记分矩阵 PAM 矩阵(如 PAM30 、 PAM70, ) BLOSUM 矩阵(如 BLOSUM62 、 BLOSUM80 ) BLOSUM62 amino acid scoring matrix BLAST 默认 scoring matrix 1 、记分矩阵( scoring matrix ) 大致关系: BLOSUM80 PAM1 BLOSUM62 PAM120 BLOSUM45 PAM250
基因进化过程中产生突变 序列对位排列分析时允许插入空位 空位罚分涉及两个参数 插入 缺失 空位开放( gap opening ) 空位延伸( gap extension ) 序列 1 A T G C T G A 序列 2 A T G - - G A = 3 Indel 序列 1 A T G C T G A 序列 2 A T G G A 原始序列 A T G T G A 2 、空位(间隔)罚分( gap penalty ) 此例子中: gap opening: -3 gap extension: -2
3 、对位排列的方法 词或 K 串方法( BLAST, FASTA ) 点阵分析( Dot-matrix ) 动态规划( Dynamic programming )
BLAST algorithm (a)(b) (c) 词或 K 串方法( BLAST, FASTA )
第四章 核苷酸和蛋白质序列为 基础的数据库检索 (II) 生物信息学
(二)序列对库对位排列分析 BLAST FASTA Other methods 主要检索体系 用待分析序列对数据库进行相似性分析 重复许多次的两两序列对位排列分析 从数据库中找出所有同源序列
1 、基本概念 ( 1 ) Sequence identity 和 sequence similarity Sequence identity 和 sequence similarity Identity: 两条序列在同一位点上的核苷酸或 氨基酸残基完全相同 The extent to which nucleotide or protein sequences are related. The extent of similarity between two sequences can be based on percent sequence identity and/or conservation. In BLAST similarity refers to a positive matrix score The extent to which two (nucleotide or amino acid) sequences are invariant. Similarity (positive): 两条序列在同一位点上的 氨基酸残基的化学性质相似
Homology 同源 Identity 相同 Similarity 相似 A is 80% identical to B A is 80% similar to B × Homology A is 80% homologous to B If your sequences are more than 100 amino acids long (or 100 nucleotides long), you can label proteins as “homologous” if 25 percent of the amino acids are identical, for DNA you will require at least 70 percent identity
( 2 ) Global alignment 和 local alignment Query Subject Query Subject Global alignment: 两条完整的序列相比较 Query Subject Local alignment: 两条序列中相似程度最高的部分 相比较
( 3 ) Gapped alignment 和 ungapped alignment Query Subject Query Subject Query Subject Gapped alignment: 为达到最佳 alignment ,序列中加入空位 Query Subject Ungapped alignment : 相比较序列的核苷酸或氨基酸序列连续
( 4 ) Alignment score 和 E (expect) value Alignment score 和 E (expect) value 衡量两条相比较序列相似程度的标准 (bits) Score: 分值越大,两个比较序列相似程度越高 E value: 期望得到的、完全由机会造成的、相当于或大于目 前分值的 alignment 次数 E 值取决于 alignment 分值、相比较序列的长短 和数据库中数据的数量 Blast 中 E 的阈值为 10 。 1e - 66 = 1 E 值越小越好 E value 类似于 P value ,如:试验组存活率比对 照组高 20% ( p<0.05 )
( 5 ) Low-complexity regions (LCRs) 核苷酸和蛋白质序列中短的重复序列或由少数 几种核苷酸或氨基酸残基组成的序列(如 Poly-A ) 数据库中半数以上的序列至少带有一个 LCR Sequence alignment 时应避免 LCR 相互配对得分 BLAST 用 Filter 功能避免比较 LCR 在比对结果的 query 序列中用小写字母或 x 和 n (分别代表氨基酸和核苷酸)代表 LCR小写字母或 x 和 n
2.BLAST (Basic Local Alignment Search Tool) 检索 Help Basic BLAST Specialized BLAST Guide
BLAST programs blastn 用核苷酸序列检索核苷酸数据库 blastp 用蛋白质序列检索蛋白质数据库 blastx 将核苷酸序列通过 6 种阅读框翻译成不同的蛋白 质序列检索蛋白质数据库6 种阅读框 tblastn 用蛋白质序列检索核苷酸数据库(数据库中的序 列被翻译出不同的蛋白质序列) tblastx 将核苷酸序列通过 6 种阅读框翻译成不同的蛋白 质序列检索核苷酸数据库(数据库中的序列也被 翻译出不同的蛋白质序列)
BLAST databases Human genomic plus transcript 人基因组和 mRNA 序列 Mouse genomic plus transcript 小鼠基因组和 mRNA 序列 nucleotide collection (nr/nt) GenBank ( 无 EST, STS, GSS, HTGS) refseq-rna Reference mRNA sequences refseq-genomic Reference genomic sequences chromosome NCBI genomes est EST 数据库 gss GSS 数据库 htgs HTGS 数据库 dbsts STS 数据库 wgs whole-genome shotgun reads alu_repeats Alu 重复序列数据库
BLAST databases non-redundant protein sequences (nr) 非冗余蛋白质数据库(现 已无法保证非冗余) refseq-protein Reference protein sequences pdb 蛋白质三维结构数据库 swissprot swissprot 蛋白质数据库 pat Patented protein sequences env_nt Environmental samples (nt) env_nr Environmental samples (pro)
( 1 ) BLASTN BLASTN 将要查询的序列直接粘贴到序列框中或输入登陆号, GI 号 选择 database 、 organism 选择 Blast Algorithm (megablast, discontiguous megablast, blastn) 可进行其它项目的选择用于分析 进一步选择检索范围: Limit by entrez query ( 如 protease NOT hivI [organism]) Filter (Human repeats) :遮盖重复序列可加快检索速度 (特别是 > 100 kb 的片段) 结果页面 注意:不熟悉各种参数时,使用默认的参数
BLAST 结果解读 Sequence
BLAST 结果解读 Hit list Score (Bit score) High bit score = good match E-Value Low E-value = good match Red: very good Green: acceptable Black: bad E-values higher than 1e-4 require extra evidence to support homology E-values lower than 1e-4 indicate possible homology 1e-03 = borderline E-value 1e-04 = good E-value 1e-10 = very good E-value 实际应用中主要看 E-value ,同时要求 Score 大于一定值(比如 >100 )
( 2 ) BLASTP BLASTP 基本操作同 blastn
( 3 ) PSI-BLAST (Position Specific Iterated BLAST) PSI-BLAST 氨基酸序列检索 重复检索数据库 第一步 检索数据库 新的 alignment sequences 新的 alignment sequences 第二步 可继续检索循环 被查询序列( query ) BLASTP 标准检索 点击 Run PSI-Blast iteration 2
( 4 ) PHI-BLAST (Pattern Hit Initiated BLAST) PHI-BLAST 蛋白质序列,并带有特殊区域( pattern ) 具有同样的特殊区域同样的特殊区域 其它区域与查询序列相似 可与 PSI - BLAST 相连,重复检索 在数据库中检索到的蛋白质 可查询检测到的特殊区域 检索前需输入 PROSITE 数据库的 结构句法( pattern syntax ) pattern syntax 如: [IVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]
( 5 ) Translated BLAST blastx, tblastn, tblastx blastxtblastntblastx 基本操作同 blastn
第四章 核苷酸和蛋白质序列为 基础的数据库检索 (III) 生物信息学
( 6 ) Conserved Domain SearchConserved Domain Search 检索 conserved domain database 只适用于蛋白质序列的检索分析 检测被检索的序列中是否含有保守结构域保守结构域 点击 “Search for similar domain architectures” 查看相关结构域相关结构域 点击结构域图标查 看多序列对位排列多序列对位排列
( 7 ) Primer-BLAST 设计 PCR 引物 分析引物特异性 在 GenBank 检索结果页面中提供了链接 在 GenBank 检索结果页面中提供了链接 结果 结果
( 8 ) Constraint-based Multiple Alignment Tool 多重比对 进化分析 在 blast 检索结果页面中提供了链接 在 blast 检索结果页面中提供了链接 结果 结果
3 、 FASTA 检索 Programs 一些特殊设计的序列 检索体系在发现基因 和蛋白质家族成员方 面可能更为可靠 BLAST 和 FASTA 检 索体系有时不能检测 出某些远缘序列的相 关性
(三)两序列对位排列分析 NCBI 的分析工具 对任意两条序列进行对位排列分析 允许空位 Specialized BLAST Align two (or more) sequences using BLAST (bl2seq) Needleman-Wunsch Global Sequence Alignment Tool
序列来源 输入 Accession number 直接粘贴序列 适用于 blastn, blastp, blastx, tblastn, tblastx blastn: 两条核苷酸序列相比较 blastp: 两条蛋白质序列相比较 tblastn: 比较蛋白质序列( sequence 1 )和核苷酸序列 (翻译成蛋白质序列)( sequence 2 ) blastx: 比较核苷酸序列(翻译成蛋白质序列) ( sequence 1 )和蛋白质序列( sequence 2 ) tblastx: 两条核苷酸序列(翻译成蛋白质序列)比较 BLAST 2 sequences
结果格式 两种图形 两序列对位排列 Seq2 Seq1 BLAST 2 sequences
结果格式 两种图形 两序列对位排列 Needleman-Wunsch Global Sequence Alignment Tool Seq2 Seq1
(四)序列比对的其他应用 - 利用 BLAST 方法分析 miRNA 利用 miRBase 数据库 ( ) 在数据库主页点击 “searching”数据库主页 在 miRBase::Sequences 网页的 “By sequence” 栏目粘贴序列(小于 1000 bp ),在 “Search sequences” 栏目中选择检索 “Mature miRNAs” 或 “Stem-loop sequences” ,点击 “Search miRNAs” miRBase::Sequences 检索结果结果
( ) 在 “RNAfold WebServer” 网站粘贴序列 判断是否可能是 hairpin precursor miRNA 分析结果结果 不同图示展示结果图示 (四)序列比对的其他应用 - 分析 RNA 或 DNA 的二级结构
编码区的比对 应以密码子为单位 勿改变编码框 注意: Nucl. Acids Res. (2003) 31:
eTBLAST Duplication Plagiarism Nature : A text similarity-based engine for searching literature collections a database of highly similar citations in the scientific literature
* 由美国德克萨斯大学西南医学中心开发,可以输入整句对 Medline 进行检索。 * “ However, two of these countries, China and Japan, have estimated duplication rates that are roughly twice that expected for the number of publications they contribute to Medline, Perhaps the complexity of translation between different scripts, differences in ethics training and cultural norms contribute to elevated duplication rates in these two countries ”
第四章 核苷酸和蛋白质序列为基础 的数据库检索 ( 上机操作 ) 生物信息学
(四) 上机操作 1. 了解 BLAST Help 中的内容。 BLAST Help 2. 以大麦 Mlo 基因( Z83834 )为查询序列 (1) 用 Blastn 能在 nr/nt 数据库中检索到多少条与之同源的序 列( E-value<1e-30 )?有多少条是禾本科中的? (2) 换用 megablast 或 discontiguous megablast ,观察检索结 果的改变。 (3) 尝试修改 Blastn 的参数,观测对检索结果的影响。 (4) 找出 Mlo 基因的编码蛋白序列,用 Blastp 检索到的与 Mlo 蛋白同源的序列与用 PSI-Blast 检索到的同源序列是否有差 别? (5) 使用 BlastX 预测 Mlo 基因的编码蛋白。 3. 用 bl2seq 分析大麦和小麦 Mlo 基因 mRNA 序列编码区和蛋白 质产物的同源性
G F C N * F F T * L N ? W L L Q L I L N L A * C M A S A T N S S L S L M ? 5’ ATGGCTTCTGCAACTAATTCTTCACTTAGCTTAATGC 3’ 3’ TACCGAAGACGTTGATTAAGAAGTGAATGCAATTACG 5’ ? P L Q W * N L V * T L A H S R C S I R * L R * H ? A E A V L E E S V N I Blastx 的 6 种阅读框架
plain structure drawing structure drawing encoding base-pair probabilities structure drawing encoding positional entropy 三种不同的图示显示