第四章核苷酸和蛋白质序列为基础的数据库检索 (I) 生物信息学. 检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene.

Slides:

Advertisements

Similar presentations

第七章 -2 蛋白质结构预测主讲人：孙啸制作人：刘志华东南大学吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?

Advertisements

第四节 RNA 的空间结构与功能. RNA 的种类和功能核糖体 RNA （ rRNA ）：核蛋白体组成成分转移 RNA （ tRNA ）：转运氨基酸信使 RNA （ mRNA ）：蛋白质合成模板不均一核 RNA （ hnRNA ）：成熟 mRNA 的前体小核 RNA （ snRNA ）：

第九章核酸序列的其他分析方法生物信息学. 1. 确定 DNA 序列的分子量和碱基组成  分子量（ molecular weight ）  单链 DNA （ single strand DNA ， ssDNA ）  双链 DNA （ double strand DNA ， dsDNA ） 

选修3 现代生物技术专题第三节蛋白质工程.

第八章互换的运用.

第十七章基因组学与医学 GENOMICS AND MEDICINE 刘新文北京大学医学部生化与分子生物学系.

一次数据库的查寻.

龙星课程—肿瘤生物信息学上机课程曹莎

DNA多态性分析基础.

分子生物学软件介绍刘吉平讲师

第10章生物信息学基础.

一种基于结构序列藕合模块辨别人类 miRNA前体的新方法

RNA i 及其应用实例苏踊跃

英国医生 Jenner 在 1796 年首创接种牛痘预防天花。

彻底搞清楚promoter, exon, intron, and UTR

生物信息学数据库.

海藻多糖降解酶的研究胡忠

尖孢镰刀菌致病相关物质β-D-葡萄糖苷酶基因的克隆与序列分析

生物信息学艾对元: QQ:

生命特殊吗？ “生命物质” 特殊吗？生命活动的物质基础：化学家所知的生命物质.

第十四章基因诊断和基因治疗表型的改变是由基因异常造成的表型的改变是由基因异常造成的.

酵母双杂交系统 Yeast Two-hybrid System(interaction trap)

ISI Web of Science 7.0 加速学术信息交流推动科学研究发展

基因组数据注释和功能分析陈启昀陈辰丁文超张增明浙江加州国际纳米技术研究院（ZCNI）

生物資訊 bioinformatics 林育慶.

生物信息学第三章基因组学与序列分析张高川生物信息学教研室 (Department of Bioinformatics)

Web of Science ——Science Citation Index（SCI）网络版

生物信息学第二章数据库(III).

Sequence analysis.

第31章 DNA的重组 DNA分子内或分子间遗传信息的重新组合重组的形式多种多样：真核生物减数分裂时染色体的交换

5、利用EST数据库发现新基因 EST (expressed sequence tags),是从基因表达的短的序列，携带着完整基因某些片断的信息，称为表达序列标签获得一个EST的途径有三种：1 大规模测序；2 比较同源性；3 差异显示或基因芯片法获得与某一性状相关的EST 电脑克隆第一步，找到与待克隆基因相关的EST；第二步.

Basic Local Alignment Search Tool

普通高等教育 “十二五”规划教材生物信息学 Bioinformatics 第五章：真核生物基因组的注释.

SOA – Experiment 3: Web Services Composition Challenge

第二章数据搜索与两两比对本章描述了如何比对两条或多条相关核苷酸或多肽序列，如何搜索存储序列信息的数据库。

GenBank数据库检索及其应用 ——Entrez检索功能

GenBank数据库检索及其应用 ——Entrez检索功能

Medline, CINAHL, Pubmed 醫學護理資料庫介紹

双序列比对.

Authors: Saumil Mehta and Deendayal Dinakarpandian

以ISI平台为例，为您演示一下如何在Endnote文献中查看该文献的References

iPhone/iPod Touch/Android

生物信息学第六章基因预测和基因结构分析（II）.

生物信息学第六章基因预测和基因结构分析（I）.

毕业论文资料查找技能辅导讲座（二）获取全文的方法.

第8章遗传密码 8.1 遗传密码的基本特性.

第十一章动物基因组学（Animal Genomics）.

Science and technology report service systemUsage method

第二章商业银行资本管理.

序列分析（一）一一序列比对.

第二节、真核生物基因结构及功能一、基因的概念基因的概念随着分子遗传学、分子生物学、生物化学领域的进展而不断完善。从遗传学角度看：

ASP New and other UIs: Medical Videos Searchasaurus

毕业论文资料查找技能辅导讲座之二获取全文的方法.

CHAPTER 6 Ribosome and Ribozyme.

Computational Thinking & Programming

VB与Access数据库的连接.

中国国家标准文献共享服务平台检索信息检索与利用 2019/4/29 王婧怡图书馆615室科技信息研究所

超越自然还是带来毁灭 “人造生命”令全世界不安

Interactome data and databases: different types of protein interaction

NCBI Blastn 安裝程序.

OVID Medline vs. PubMed 邱子恒

生物数据库.

基因信息的传递.

多序列比对和系统进化分析 ——以镰刀形贫血症为例浙江大学生物信息实验室.

Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷陳靜儀謝仁傑林敬恆.

生物結構期末報告學生:葉雅如 M 老師: 鄒文雄教授.

科研必备技能许忠平.

Presentation transcript:

第四章核苷酸和蛋白质序列为基础的数据库检索 (I) 生物信息学

检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene name Author Accession number … Database

核苷酸和蛋白质序列为基础的数据库检索  序列对位排列（ sequence alignment ）  将两条或多条序列对位排列，突出相似的结构区域序列 1 序列 2 Function Structure Sequence

表示序列的字符

两条 DNA 序列对位排列分析

两条蛋白质序列对位排列分析

 基因预测  分析基因或蛋白质的功能  分析物种进化  检测突变、插入或缺失  序列延长  序列定位  基因表达谱分析序列比对的用途

序列对位排列分析的种类  序列对库对位排列分析  多序列对位排列分析从数据库中寻找同源序列主要涉及核苷酸数据库和蛋白质数据库  两序列对位排列分析

（一）序列对位排列分析的基本原理 1 、记分矩阵（ scoring matrix ）  记分矩阵中含有两条序列对位排列时具体使用的分值  长度一定时，分数越高，两条序列匹配越好 DNA 序列对位记分序列 1 A C G T T A 序列 2 A C T T T G 记分 =2

 蛋白质序列对位排列分析记分复杂  一致氨基酸的记分不同  稀有氨基酸（ C ），分值高  普通氨基酸（ S ），分值低  相似氨基酸也记分，如 R-K 蛋白质序列对位记分序列 1 V D S C Y 序列 2 V N W C Y 记分 =18 1 、记分矩阵（ scoring matrix ）  序列的排列方式影响总分值

 蛋白质有多种记分矩阵  PAM 矩阵（如 PAM30 、 PAM70, ）  BLOSUM 矩阵（如 BLOSUM62 、 BLOSUM80 ） BLOSUM62 amino acid scoring matrix BLAST 默认 scoring matrix 1 、记分矩阵（ scoring matrix ）大致关系： BLOSUM80 PAM1 BLOSUM62 PAM120 BLOSUM45 PAM250

 基因进化过程中产生突变  序列对位排列分析时允许插入空位  空位罚分涉及两个参数  插入  缺失  空位开放（ gap opening ）  空位延伸（ gap extension ）序列 1 A T G C T G A 序列 2 A T G - - G A = 3 Indel 序列 1 A T G C T G A 序列 2 A T G G A 原始序列 A T G T G A 2 、空位（间隔）罚分（ gap penalty ）此例子中： gap opening: -3 gap extension: -2

3 、对位排列的方法  词或 K 串方法（ BLAST, FASTA ）  点阵分析（ Dot-matrix ）  动态规划（ Dynamic programming ）

BLAST algorithm (a)(b) (c)  词或 K 串方法（ BLAST, FASTA ）

第四章核苷酸和蛋白质序列为基础的数据库检索 (II) 生物信息学

（二）序列对库对位排列分析  BLAST  FASTA  Other methods  主要检索体系  用待分析序列对数据库进行相似性分析  重复许多次的两两序列对位排列分析  从数据库中找出所有同源序列

1 、基本概念（ 1 ） Sequence identity 和 sequence similarity Sequence identity 和 sequence similarity Identity: 两条序列在同一位点上的核苷酸或氨基酸残基完全相同 The extent to which nucleotide or protein sequences are related. The extent of similarity between two sequences can be based on percent sequence identity and/or conservation. In BLAST similarity refers to a positive matrix score The extent to which two (nucleotide or amino acid) sequences are invariant. Similarity (positive): 两条序列在同一位点上的氨基酸残基的化学性质相似

Homology 同源 Identity 相同 Similarity 相似 A is 80% identical to B A is 80% similar to B × Homology A is 80% homologous to B If your sequences are more than 100 amino acids long (or 100 nucleotides long), you can label proteins as “homologous” if 25 percent of the amino acids are identical, for DNA you will require at least 70 percent identity

（ 2 ） Global alignment 和 local alignment Query Subject Query Subject Global alignment: 两条完整的序列相比较 Query Subject Local alignment: 两条序列中相似程度最高的部分相比较

（ 3 ） Gapped alignment 和 ungapped alignment Query Subject Query Subject Query Subject Gapped alignment: 为达到最佳 alignment ，序列中加入空位 Query Subject Ungapped alignment ：相比较序列的核苷酸或氨基酸序列连续

（ 4 ） Alignment score 和 E (expect) value Alignment score 和 E (expect) value 衡量两条相比较序列相似程度的标准 (bits) Score: 分值越大，两个比较序列相似程度越高 E value: 期望得到的、完全由机会造成的、相当于或大于目前分值的 alignment 次数  E 值取决于 alignment 分值、相比较序列的长短和数据库中数据的数量  Blast 中 E 的阈值为 10 。 1e - 66 = 1  E 值越小越好 E value 类似于 P value ，如：试验组存活率比对照组高 20% （ p<0.05 ）

（ 5 ） Low-complexity regions (LCRs) 核苷酸和蛋白质序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列（如 Poly-A ）  数据库中半数以上的序列至少带有一个 LCR  Sequence alignment 时应避免 LCR 相互配对得分  BLAST 用 Filter 功能避免比较 LCR  在比对结果的 query 序列中用小写字母或 x 和 n （分别代表氨基酸和核苷酸）代表 LCR小写字母或 x 和 n

2.BLAST (Basic Local Alignment Search Tool) 检索 Help Basic BLAST Specialized BLAST Guide

BLAST programs blastn 用核苷酸序列检索核苷酸数据库 blastp 用蛋白质序列检索蛋白质数据库 blastx 将核苷酸序列通过 6 种阅读框翻译成不同的蛋白质序列检索蛋白质数据库6 种阅读框 tblastn 用蛋白质序列检索核苷酸数据库（数据库中的序列被翻译出不同的蛋白质序列） tblastx 将核苷酸序列通过 6 种阅读框翻译成不同的蛋白质序列检索核苷酸数据库（数据库中的序列也被翻译出不同的蛋白质序列）

BLAST databases Human genomic plus transcript 人基因组和 mRNA 序列 Mouse genomic plus transcript 小鼠基因组和 mRNA 序列 nucleotide collection (nr/nt) GenBank ( 无 EST, STS, GSS, HTGS) refseq-rna Reference mRNA sequences refseq-genomic Reference genomic sequences chromosome NCBI genomes est EST 数据库 gss GSS 数据库 htgs HTGS 数据库 dbsts STS 数据库 wgs whole-genome shotgun reads alu_repeats Alu 重复序列数据库

BLAST databases non-redundant protein sequences (nr) 非冗余蛋白质数据库（现已无法保证非冗余） refseq-protein Reference protein sequences pdb 蛋白质三维结构数据库 swissprot swissprot 蛋白质数据库 pat Patented protein sequences env_nt Environmental samples (nt) env_nr Environmental samples (pro)

（ 1 ） BLASTN BLASTN  将要查询的序列直接粘贴到序列框中或输入登陆号， GI 号  选择 database 、 organism  选择 Blast Algorithm (megablast, discontiguous megablast, blastn)  可进行其它项目的选择用于分析  进一步选择检索范围： Limit by entrez query ( 如 protease NOT hivI [organism])  Filter (Human repeats) ：遮盖重复序列可加快检索速度（特别是 > 100 kb 的片段）  结果页面注意：不熟悉各种参数时，使用默认的参数

BLAST 结果解读 Sequence

BLAST 结果解读 Hit list Score (Bit score) High bit score = good match E-Value Low E-value = good match Red: very good Green: acceptable Black: bad E-values higher than 1e-4 require extra evidence to support homology E-values lower than 1e-4 indicate possible homology 1e-03 = borderline E-value 1e-04 = good E-value 1e-10 = very good E-value 实际应用中主要看 E-value ，同时要求 Score 大于一定值（比如 >100 ）

（ 2 ） BLASTP BLASTP  基本操作同 blastn

（ 3 ） PSI-BLAST (Position Specific Iterated BLAST) PSI-BLAST  氨基酸序列检索  重复检索数据库第一步检索数据库新的 alignment sequences 新的 alignment sequences 第二步可继续检索循环被查询序列（ query ） BLASTP 标准检索点击 Run PSI-Blast iteration 2

（ 4 ） PHI-BLAST (Pattern Hit Initiated BLAST) PHI-BLAST  蛋白质序列，并带有特殊区域（ pattern ）  具有同样的特殊区域同样的特殊区域  其它区域与查询序列相似  可与 PSI － BLAST 相连，重复检索  在数据库中检索到的蛋白质  可查询检测到的特殊区域  检索前需输入 PROSITE 数据库的结构句法（ pattern syntax ） pattern syntax 如： [IVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]

（ 5 ） Translated BLAST  blastx, tblastn, tblastx blastxtblastntblastx  基本操作同 blastn

第四章核苷酸和蛋白质序列为基础的数据库检索 (III) 生物信息学

( 6 ) Conserved Domain SearchConserved Domain Search  检索 conserved domain database  只适用于蛋白质序列的检索分析  检测被检索的序列中是否含有保守结构域保守结构域点击 “Search for similar domain architectures” 查看相关结构域相关结构域点击结构域图标查看多序列对位排列多序列对位排列

（ 7 ） Primer-BLAST  设计 PCR 引物  分析引物特异性  在 GenBank 检索结果页面中提供了链接在 GenBank 检索结果页面中提供了链接  结果结果

（ 8 ） Constraint-based Multiple Alignment Tool  多重比对  进化分析  在 blast 检索结果页面中提供了链接在 blast 检索结果页面中提供了链接  结果结果

3 、 FASTA 检索  Programs 一些特殊设计的序列检索体系在发现基因和蛋白质家族成员方面可能更为可靠 BLAST 和 FASTA 检索体系有时不能检测出某些远缘序列的相关性

（三）两序列对位排列分析  NCBI 的分析工具  对任意两条序列进行对位排列分析  允许空位 Specialized BLAST Align two (or more) sequences using BLAST (bl2seq) Needleman-Wunsch Global Sequence Alignment Tool

 序列来源  输入 Accession number  直接粘贴序列  适用于 blastn, blastp, blastx, tblastn, tblastx  blastn: 两条核苷酸序列相比较  blastp: 两条蛋白质序列相比较  tblastn: 比较蛋白质序列（ sequence 1 ）和核苷酸序列（翻译成蛋白质序列）（ sequence 2 ）  blastx: 比较核苷酸序列（翻译成蛋白质序列）（ sequence 1 ）和蛋白质序列（ sequence 2 ）  tblastx: 两条核苷酸序列（翻译成蛋白质序列）比较 BLAST 2 sequences

 结果格式  两种图形  两序列对位排列 Seq2 Seq1 BLAST 2 sequences

 结果格式  两种图形  两序列对位排列 Needleman-Wunsch Global Sequence Alignment Tool Seq2 Seq1

（四）序列比对的其他应用 - 利用 BLAST 方法分析 miRNA  利用 miRBase 数据库（）在数据库主页点击 “searching”数据库主页在 miRBase::Sequences 网页的 “By sequence” 栏目粘贴序列（小于 1000 bp ），在 “Search sequences” 栏目中选择检索 “Mature miRNAs” 或 “Stem-loop sequences” ，点击 “Search miRNAs” miRBase::Sequences 检索结果结果

（）在 “RNAfold WebServer” 网站粘贴序列  判断是否可能是 hairpin precursor miRNA 分析结果结果不同图示展示结果图示（四）序列比对的其他应用 - 分析 RNA 或 DNA 的二级结构

 编码区的比对  应以密码子为单位  勿改变编码框注意： Nucl. Acids Res. (2003) 31:

eTBLAST Duplication Plagiarism Nature : A text similarity-based engine for searching literature collections a database of highly similar citations in the scientific literature

＊由美国德克萨斯大学西南医学中心开发，可以输入整句对 Medline 进行检索。＊ “ However, two of these countries, China and Japan, have estimated duplication rates that are roughly twice that expected for the number of publications they contribute to Medline, Perhaps the complexity of translation between different scripts, differences in ethics training and cultural norms contribute to elevated duplication rates in these two countries ”

第四章核苷酸和蛋白质序列为基础的数据库检索 ( 上机操作 ) 生物信息学

（四）上机操作 1. 了解 BLAST Help 中的内容。 BLAST Help 2. 以大麦 Mlo 基因（ Z83834 ）为查询序列 (1) 用 Blastn 能在 nr/nt 数据库中检索到多少条与之同源的序列（ E-value<1e-30 ）？有多少条是禾本科中的？ (2) 换用 megablast 或 discontiguous megablast ，观察检索结果的改变。 (3) 尝试修改 Blastn 的参数，观测对检索结果的影响。 (4) 找出 Mlo 基因的编码蛋白序列，用 Blastp 检索到的与 Mlo 蛋白同源的序列与用 PSI-Blast 检索到的同源序列是否有差别？ (5) 使用 BlastX 预测 Mlo 基因的编码蛋白。 3. 用 bl2seq 分析大麦和小麦 Mlo 基因 mRNA 序列编码区和蛋白质产物的同源性

G F C N * F F T * L N ? W L L Q L I L N L A * C M A S A T N S S L S L M ? 5’ ATGGCTTCTGCAACTAATTCTTCACTTAGCTTAATGC 3’ 3’ TACCGAAGACGTTGATTAAGAAGTGAATGCAATTACG 5’ ? P L Q W * N L V * T L A H S R C S I R * L R * H ? A E A V L E E S V N I Blastx 的 6 种阅读框架

plain structure drawing structure drawing encoding base-pair probabilities structure drawing encoding positional entropy 三种不同的图示显示