Download presentation
Presentation is loading. Please wait.
1
Basic Local Alignment Search Tool
NCBI-BLAST: Basic Local Alignment Search Tool
2
Outline Summary of key points about pairwise alignment
Introduction to BLAST: practical guide to database searching The BLAST algorithm BLAST search strategies
3
BLAST BLAST (Basic Local Alignment Search Tool)
allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and web-accessible.
4
Why use BLAST? BLAST 是NCBI中用来将一个蛋白质或DNA序列和各种数据库中的其他序列进行比对的主要工具。 BLAST搜索是研究一个蛋白质和基因的最基本的方法之一。
5
Why use BLAST? BLAST 具有非常广泛的应用:
确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列。除了RBP外,还有哪些其他的脂质运载蛋白是我们所知道的?当一个新的细菌的基因组被测序后,几千种蛋白质被确定,其中有多少蛋白质是同源的?从这里面测出的基因中有多少是在GenBank中找不到显著性同源物的? 确定哪些蛋白质和基因在特定的物种中出现。植物中是否也存在像RBP这样的脂质运载蛋白?鱼类中是否有反转录酶基因(HIV-1 pol 基因)?
6
Why use BLAST? BLAST 具有非常广泛的应用:
确定一个DNA或蛋白质序列身份。如可能通过一个负杂交实验或芯片实验发现一个特殊的DNA序列中你所使用的实验条件下是被显著调控的,那么就可以通过将这个DNA序列在一个蛋白质数据库中进行搜索,来寻找哪些蛋白质是与你的DNA序列所编码的蛋白质相关性最高的。 发现新基因。如一个对于全基因组DNA的BLAST搜索可能会发现一个DNA所编码的蛋白质是以前所没有报道过的 确定一个特定基因或蛋白质有哪些已经发现了的变种。例如,很多病毒都具有极强的突变能力;HIV-1pol有哪些已知的变异体?
7
Why use BLAST? BLAST 具有非常广泛的应用:
研究可能存在多种剪切方式的表达序列标签。有专门用于BLAST搜索的EST数据库。实际上有许多用来进行搜索专门的数据库,如专门的包含同一个特定的物种、一种组织、一个染色体、一种DNA或一个蛋白质功能类的序列数据库。 寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基。一次BLAST搜索的结果可以放在一起比对,这时候,就会发现其中像半胱氨酸残基这样可能具有重要生物学功能的保守残基。
8
Four components to a BLAST search
(1) Choose the sequence (query) (2) Select the BLAST program (3) Choose the database to search (4) Choose optional parameters Then click “BLAST”
10
NP_006735
12
Step 1: Choose your sequence
三种主要的输入方式: 剪切然后粘贴DNA或蛋白质序列 使用FASTA格式的序列 简单地使用索引号码(如一个RefSeq或GenBank (GI)的序号)。 Sequence can be input in FASTA format or as accession number
13
Example of the FASTA format for a BLAST query
在一个BLAST搜索中输入accession number通常要容易些。BLAST程序可以识别和忽略出现在你的输入序列字母中间的数字。
14
Step 2: Choose the BLAST program
15
Step 2: Choose the BLAST program
blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)
17
Step 2: Choose the BLAST program
blastn (nucleotide BLAST):将一个核酸的查询序列与一个核酸序列数据库相比较。 blastp (protein BLAST):将一个氨基酸的查询序列与一个蛋白质序列数据库相比较。这类搜索有专门与蛋白质搜索相关的可选参数,如对各种PAM和BLOSUM打分矩阵的选择。 tblastn (translated BLAST):将一个蛋白质查询序列与一个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行比较。可以用此程序来判断一个DNA数据库是否编码所感兴趣的查询蛋白。用RBP查询是否可以在某个已测序的DNA数据库中找到匹配项呢?
18
Step 2: Choose the BLAST program
blastx (translated BLAST):将一个核酸的查询序列按所有可能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。如若有一个DNA序列,想知道它编码什么蛋白质,用此程序进行搜索。它会自动将DNA翻译成6种可能的蛋白质。然后此程序就会将翻译的6个蛋白质序列逐一与蛋白质序列数据库中的各个成员进行比较。 tblastx (translated BLAST):将一个核酸查询序列的6种框架的翻译结果与一个核酸序列数据库的6种框架翻译产物进行比较。该程序不能使用BLAST网页上提供的主要的去冗余(nr)数据库,因这一操作很消耗计算机资源。
19
Choose the BLAST program
Program Input Database 1 blastn DNA DNA blastp protein protein 6 blastx DNA protein tblastn protein DNA 36 tblastx DNA DNA
20
DNA potentially encodes six proteins
5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’ 5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
21
Step 3: choose the database
BLAST搜索可使用的数据库会列在每一个BLAST页面上,对于蛋白质数据库搜索(blastp和blastx),两个主要的选择即nr数据库和SwissProt。 nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
22
Step 3: choose the database
nr数据库是合并了若干个主要的蛋白质或DNA数据库得到的。这些数据库中经常包含有相同的序列,但nr数据库只收录其中的一个序列(即使在nr数据库中出现看上去一样的序列,实际上还是具有一些细节上的区别)。 nr数据库是在要搜索现有的绝大多数序列时典型和常用的数据库。
23
去冗余GenBank编码序列PDB + SwissProt + PIR + PRF
24
Step 4a: 选择可选的搜索参数Select optional search parameters
当确定了要输入的序列和要搜索的数据库之后,还有10个其他的可选参数要确定。 ① Limit by Entrez Query:任何NCBI BLAST 搜索的范围都可以用在Entrez搜索中使用的任何一种范围限定词来限定。
25
Step 4a: 选择可选的搜索参数Select optional search parameters
26
Step 4a: 选择可选的搜索参数Select optional search parameters
27
Step 4a: 选择可选的搜索参数Select optional search parameters
② Max target sequences:比对之后显示的最大的比对序列的数目。
28
Step 4a: 选择可选的搜索参数Select optional search parameters
29
Step 4a: 选择可选的搜索参数Select optional search parameters
③ 期望expect:期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。这个数值表示你仅仅因为随机性造成获得这一联配结果的可能次数。对于blastn、blastp、blastxt和blastn期望值的默认设置是10。在这个E值下,随机出现得分等于或高于比对得分S的期望数为10个(这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。当将期望选项值调小时,返回的数据库搜索结果将变少,匹配被搜索到的概率也会变小。增大E值将返回更多的结果。
30
Step 4a: 选择可选的搜索参数Select optional search parameters
31
Step 4a: 选择可选的搜索参数Select optional search parameters
④ 字段长度word size:BLAST程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短 序列(定义为“word”,即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分:如果碱基对完全相同(如A与A),得某一正值;如果碱基对不很匹配(W与A或T),则得某一略小的正值;如果两个碱基不匹配,则得一负值。总的合计得分便决定了序列间的相似程度。 对于蛋白质搜索,窗口大小可以被设定为3(默认值)或者2。当用一个查询序列来进行数据库搜索时,BLAST算法首先将查询序列分割成一系列具有特定长度(字段长度)的小的序列段(字段)。 对于blastp,更大的字段长度将得到更高的搜索精度。对于任意的字段长度,每个字段的匹配结果将被延伸以得到BLAST的输出结果。实际应用中对于蛋白质搜索很少需要改变字段的长度。 对于核酸序列,默认的字段长度是11,BLAST的字长缺省值为11,即BLASTN将扫描数据库,直到发现那些与未知序列的11个连续碱基完全匹配的11个连续碱基长度片段为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和几乎所有随机产生的显著联配。它可以被增大(15)或减小(7)。降低字段长度将会使搜索变得更准确同时也会变得更慢。
32
Step 4a: 选择可选的搜索参数Select optional search parameters
33
Step 4a: 选择可选的搜索参数Select optional search parameters
⑤ 矩阵matrix:对于blastp的蛋白质-蛋白质搜索有5种氨基酸替代矩阵:PAM30,PAM70,BLOSUM45,BLOSUM62(默认值)以及BLOSUM80.一些其他的BLAST服务器还提供了很多其他的替代矩阵,如PAM250。通常情况下明智的选择是在一次BLAST搜索中使用几种不同的打分矩阵。
34
Step 4a: 选择可选的搜索参数Select optional search parameters
PAM1矩阵:Dayhoff和同事利用可接受点突变的数据和每个氨基酸的发现频率产生突变概率矩阵M。矩阵元素Mij表示在一给定进化时期内氨基酸j(列)替换成氨基酸i(行)的概率。进化时期为一个PAM(PAM定义为进化趋异的单位,表示两个蛋白1%氨基酸发生变化的时间)。 PAM1矩阵基于紧密相关蛋白质的比对,这些蛋白质家族内的序列一致程度至少有85%。 除PAM1矩阵外的其他PAM矩阵是如何得来的? Dayhoff等用PAM1矩阵乘以自身数百次,得到其他PAM矩阵。如PAM250矩阵就是PAM1矩阵乘以自身250次产生,是BLAST搜索数据库的常用矩阵之一。
35
Dayhoff’s PAM1 mutation probability matrix
原始氨基酸 替代氨基酸 Each element of the matrix shows the probability that an original amino acid (top) will be replaced by another amino acid (side)
36
PAM250 mutation probability matrix
Top: original amino acid Side: replacement amino acid
37
Step 4a: 选择可选的搜索参数Select optional search parameters
⑤ PAM0矩阵:矩阵将成为单位矩阵,因没有氨基酸发生变化。 PAM∝矩阵: PAM相当大(如PAM>2000或矩阵和自己相乘无数次)。每种氨基酸等概率出现,每行的所有值都接近于一个数值,这个数值就是氨基酸的出现频率。
38
Dayhoff’s PAM0 mutation probability matrix:
the rules for extremely slowly evolving proteins Top: original amino acid Side: replacement amino acid
39
Dayhoff’s PAM2000 mutation probability matrix:
the rules for very distantly related proteins PAM A Ala R Arg N Asn D Asp C Cys Q Gln E Glu G Gly 8.7% 4.1% N 4.0% D 4.7% C 3.3% Q 3.8% E 5.0% G 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% Top: original amino acid Side: replacement amino acid
40
Step 4a: 选择可选的搜索参数Select optional search parameters
41
Step 4a: Select optional search parameters
43
Step 4a: 选择可选的搜索参数Select optional search parameters
44
Step 4a: 选择可选的搜索参数Select optional search parameters
⑥ Compositional adjustments:这个选项是默认选择的,一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目)。
46
Step 4a: 选择可选的搜索参数Select optional search parameters
⑦ 选择过滤条件Filter:过滤器将锁定诸如组成低复杂(low compositional complexity)序列区(如Alu序列),用一系列N(NNNNNN)替代这些程序。N代表任意碱基(IUB-code)。只有未知待检序列被过滤替代,而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的,“Filter”项的缺省选项为ON。例如,多A碱基的尾部和脯氨酸富积的序列,会得到人为的高联配得分而误导分析。这是因为这类序列数量极大,遍布整个基因组,直至整个数据库。
47
Step 4a: 选择可选的搜索参数Select optional search parameters
⑦ 选择过滤条件Filter: 过滤选项的调整对于BLAST搜索的结果将会产生显著的影响。当使用blastp nr来查询一个人类富含脯氨酸的蛋白质(NP_036522)时,会得到8个数据库中的匹配项,而其中两个具有统计显著性。而当关掉过滤选项后,就会得到包含其他一些富含脯氨酸的蛋白质在内的23个匹配。一般来讲,过滤可以帮助避免那些假的数据库匹配,但在某些情况下一些可信的匹配也可能会被过滤掉。
49
filtering
50
以一种富含脯氨酸的人类唾液蛋白NP_036522作为查询项使用blasstp nr进行搜索的结果。该蛋白质的大部分没有在数据库中的匹配,这是由于该蛋白的中间区域被默认的过滤功能给过滤掉了
51
关掉过滤选项后搜索的结果。这次得到了更多的与在蛋白质的全序列范围内相匹配的数据库返回结果。第一个比对显示了该蛋白极度富含脯氨酸的特点
52
NCBI blast now offers masking as lowercase/colored
53
Step 4a: 选择可选的搜索参数Select optional search parameters
Entrez! Expect Word size Scoring matrix Filter
54
BLAST: optional parameters
You can... • choose the organism to search • turn filtering on/off • change the substitution matrix • change the expect (e) value • change the word size • change the output format
55
Step 4b: 选择可选格式参数optional formatting parameters
BLAST搜索有很多控制输出格式的参数: Alignment view Descriptions Alignments
56
Step 4b: 选择可选格式参数optional formatting parameters
BLAST搜索结果的顶部 顶部提供关于该搜索的详细信息:BLAST搜索的类型、关于查询内容和所搜索的数据库的描述以及一个分类连接可以将结果按照物种进行分类。
57
结果网页 query database program taxonomy
58
taxonomy
59
Step 4b: 选择可选格式参数optional formatting parameters
BLAST搜索结果的中间部分 显示的是数据库中序列与查询序列相匹配的项的列表。 简明图形提供了用不同颜色表示的搜索结果的概况。图下面的每一个条带表示数据库中的一个与查询序列相匹配的蛋白质或核酸序列,被标以不同颜色表示亲缘关系的远近(根据比对的分),最接近匹配用红色表示。每条线的长度对应于该序列与查询序列比对上的区域大小。 所有比对用一个被称为“描述”的单行小结列表描述。按照E值增加的顺序排列。显著性最强的匹配将位于顶端。
60
结果的图示输出 数据库序列的列表 High scores low e values
61
Step 4b: 选择可选格式参数optional formatting parameters
BLAST搜索结果的靠下面部分 显示的是一系列的两两序列比对 可检查查询序列(输入序列)与对象序列(如和查询序列比对的的特定的数据库匹配)之间的比对情况。 4种衡量的分数:比特分数、期望分数、一致性百分比、正性(相似性百分比)
63
Step 4b: 选择可选格式参数optional formatting parameters
可以不用整体地进行BLAST搜索而仅通过改变格式选项来提供一些不同的输出结果 一些选项可以把比对序列显示成多序列比对的形式,这对于确定一个蛋白质或DNA家族中的保守的或趋异的氨基酸残基非常有用。
65
BLAST format options
66
BLAST format options
69
EVD parameters BLOSUM matrix gap penalties 10.0 is the E value Effective search space = mn = length of query x db length threshold score = 11 cut-off parameters
70
BLAST 搜索的一些策略 如何评价搜索结果的显著性 如何处理过多的结果 如何处理过少的结果
多结构域蛋白HIV-1 pol的BLAST 检索 BLAST 检索脂质运载蛋白 lipocalins :改变打分矩阵的作用
71
BLAST搜索策略总图.
72
BLAST 搜索的一些策略 如何评价搜索结果的显著性
真正有亲缘关系的蛋白质的序列可以有很大的差别,即使是那些有相近三维结构的蛋白质。因此,认为数据库搜索和蛋白质比对可能会得出一定数量的假阴性匹配。如脂质运载蛋白家族很多成员如RBP4和气味分子结合蛋白OBP只有非常有限的序列一致性,但它们的三维结构关系非常近,而且它们作为疏水性配体的载体的功能也被认为是相同的。
73
Sometimes a real match has an E value > 1
74
Sometimes a similar E value occurs for a
short exact match and long less exact match
75
如何评价搜索结果的显著性 决定两个蛋白质或DNA序列是否同源,可以问下面的问题: 期望值究竟是不是显著? 两个蛋白质是不是具有近似的大小?实际上同源蛋白质不要求具有相同的大小,两个蛋白质可能只共享有限的一个相同的结构域。但是,产生一个对两个蛋白质同源的可能性的生物学上的直觉是非常重要的。比如一个1000个氨基酸具有跨膜结构域的蛋白质不太可能与RBP蛋白同源,因绝大多数脂质运载蛋白长度都近似200aa(20-25kD)。
76
如何评价搜索结果的显著性 决定两个蛋白质或DNA序列是否同源,可以问下面的问题: 这两个蛋白是否有共同的基序或信号序列?是。孕激素相关子宫内膜蛋白和RBP4蛋白都含有一个GXW载脂蛋白标签。 这两个蛋白质是不是一个合理的多序列比对的一部分? 这两个蛋白质是否共有一个相似的生物学功能?就像所有的载脂蛋白一样,这两个蛋白都是小的、亲水性的含量丰富的分泌分子。 这两个蛋白质是否具有相似的三维结构?虽然载脂蛋白序列多种多样,它们却共享一个显著的非常保守的结构。这个结构(一个杯状的盂)可使它们将疏水性配体运输通过一个水环境区间。 载脂蛋白
77
如何评价搜索结果的显著性 决定两个蛋白质或DNA序列是否同源,可以问下面的问题: 如果BLAST搜索得到一个对另一个蛋白质的边缘匹配,以这个具有较远亲缘关系的蛋白质作为查询项再进行一次新的搜索。如用孕激素相关子宫内膜蛋白进行blastp nr搜索可得到一些在RBP4蛋白的搜索中也检测到的蛋白。这个发现增加了认为这两个蛋白实际上是一个蛋白超家族中的同源成员的信心。 载脂蛋白
78
Assessing whether proteins are homologous
RBP4 and PAEP: Low bit score, E value 0.49, 24% identity (“twilight zone”). But they are indeed homologous. Try a BLAST search with PAEP as a query, and find many other lipocalins.
79
BLAST search with PAEP as a query finds many other lipocalins
80
BLAST 搜索的一些策略 如何处理过多的结果
在“limit Entrez query”窗口输入“refseq”,这样所有返回结果都带有一个refseq号,可去掉冗余的数据库匹配结果。 利用生物体的种类对数据库返回结果作出限制。 利用序列的一部分进行搜索。如利用独立的结构域序列就可进行多结构域蛋白的检索。 调整打分矩阵使其更恰当地体现你的query和数据库匹配之间的相似度。 调整期望值。降低E值可减少返回的数据库中的匹配项。
81
BLAST 搜索的一些策略 如何处理过少的结果
很多基因或蛋白在数据库中没有或只有极少数的匹配项。当新的微生物基因组测序完成时,预测到的蛋白质有一半不和其他任何蛋白相匹配。 用于提高BLAST搜索得到的数据库匹配项数目的策略: 去掉Entrez限制,提高期望值,尝试更高PAM值或更低BLOSUM值的打分矩阵。还可从更多附加数据库中搜索。在NCBI站点上,可搜索所有可提供的数据库如HTGS和GSS,很多基因组序列中心保存着不同的数据库可通过BLAST 进行搜索。
82
BLAST 搜索的一些策略 多结构域蛋白HIV-1 pol的BLAST 检索
83
Searching with a multidomain protein, pol
84
使用HIV-1 pol进行blastp nr搜索得到了非常多的看上去像是HIV-1变体的数据库匹配,这里所有显示的E值都是0。这个结果掩盖了那些不是来自HIV-1的可能的匹配
85
使用HIV-1 pol进行blastp nr搜索的部分结果。这种平铺并与查询序列一起列出的结果输出格式表示出了那些被置换的氨基酸残基以及那些保留的不变氨基酸残基
86
Searching bacterial sequences with pol
将搜索范围限制在细菌中时使用HIV-1 pol进行blastp nr搜索的结果。图形化的BLAST搜索结果使很容易确定HIV-1中那些具有细菌中同源物的区域。
87
Searching bacterial sequences with pol
由一个使用使用HIV-1 pol进行blastp nr搜索确定的细菌蛋白质。包括转座酶和核酸酶H蛋白。
89
BLAST 搜索的一些策略 BLAST 检索脂质运载蛋白 lipocalins :改变打分矩阵的作用
默认的scoring matrice 是BLOSUM62,若使用适合关系较近蛋白的PAM矩阵,将得到更少的结果。
90
BLOSUM62
91
PAM30 PAM70 当使用PAM30时亲缘关系较远的蛋白如载脂蛋白D会得到很差的打分。 PAM70矩阵被设计来从数据库中找到更多的亲缘关系较远的匹配,得到的一些蛋白在使用PAM30或BLOSUM62 矩阵时都是没有出现的
Similar presentations