第四章 核苷酸和蛋白质序列为 基础的数据库检索 (I) 生物信息学. 检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene.

Slides:



Advertisements
Similar presentations
第七章 -2 蛋白质结构预测 主讲人:孙 啸 制作人: 刘志华 东南大学 吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?
Advertisements

第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
第九章 核酸序列的其他分析方法 生物信息学. 1. 确定 DNA 序列的分子量和碱基组成  分子量( molecular weight )  单链 DNA ( single strand DNA , ssDNA )  双链 DNA ( double strand DNA , dsDNA ) 
选修3 现代生物技术专题第三节 蛋白质工程.
第八章 互换的运用.
第十七章 基因组学与医学 GENOMICS AND MEDICINE 刘新文 北京大学医学部生化与分子生物学系.
一次数据库的查寻.
龙星课程—肿瘤生物信息学上机课程 曹莎
序列分析.
DNA多态性分析基础.
分子生物学软件介绍 刘吉平讲师
第10章 生物信息学基础.
一种基于结构序列 藕合模块辨别人类 miRNA前体的新方法
RNA i 及其应用实例 苏踊跃
英国医生 Jenner 在 1796 年首创接种牛痘预防天花。
彻底搞清楚promoter, exon, intron, and UTR
生物信息学数据库.
海藻多糖降解酶的研究 胡 忠
尖孢镰刀菌致病相关物质β-D-葡萄糖苷酶基因的克隆与序列分析
生物信息学 艾对元: QQ:
生命特殊吗? “生命物质” 特殊吗? 生命活动的物质基础:化学家所知的生命物质.
第十四章 基因诊断和基因治疗 表型的改变是由基因异常造成的 表型的改变是由基因异常造成的.
酵母双杂交系统 Yeast Two-hybrid System(interaction trap)
ISI Web of Science 7.0 加速学术信息交流 推动科学研究发展
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
生物資訊 bioinformatics 林育慶.
生物信息学 第三章 基因组学与序列分析 张高川 生物信息学教研室 (Department of Bioinformatics)
Web of Science ——Science Citation Index(SCI)网络版
生物信息学 第二章 数 据 库(III).
Sequence analysis.
第31章 DNA的重组 DNA分子内或分子间遗传信息的重新组合 重组的形式多种多样: 真核生物减数分裂时染色体的交换
5、利用EST数据库发现新基因 EST (expressed sequence tags),是从基因表达的短的序列,携带着完整基因某些片断的信息,称为表达序列标签 获得一个EST的途径有三种:1 大规模测序;2 比较同源性;3 差异显示或基因芯片法获得与某一性状相关的EST 电脑克隆 第一步,找到与待克隆基因相关的EST;第二步.
电 子 克 隆.
Basic Local Alignment Search Tool
普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第五章:真核生物基因组的注释.
SOA – Experiment 3: Web Services Composition Challenge
第二章 数据搜索与两两比对 本章描述了 如何比对两条或多条相关核苷酸或多肽序列, 如何搜索存储序列信息的数据库。
GenBank数据库检索及其应用 ——Entrez检索功能
SQL Injection.
GenBank数据库检索及其应用 ——Entrez检索功能
Medline, CINAHL, Pubmed 醫學護理資料庫介紹
双序列比对.
Authors: Saumil Mehta and Deendayal Dinakarpandian
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
iPhone/iPod Touch/Android
生物信息学 第六章 基因预测和基因结构分析 (II).
生物信息学 第六章 基因预测和基因结构分析 (I).
毕业论文资料查找技能辅导讲座(二) 获取全文的方法.
第8章 遗传密码 8.1 遗传密码的基本特性.
第十一章 动物基因组学 (Animal Genomics).
Science and technology report service systemUsage method
第二章 商业银行资本管理.
序列分析(一) 一一序列比对.
第二节、真核生物基因结构及功能 一、基因的概念 基因的概念随着分子遗传学、分子生物学、生物化学领域的进展而不断完善。 从遗传学角度看:
ASP New and other UIs: Medical Videos Searchasaurus
毕业论文资料查找技能辅导 讲座 之二 获取全文的方法.
CHAPTER 6 Ribosome and Ribozyme.
Computational Thinking & Programming
VB与Access数据库的连接.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
超越自然还是带来毁灭 “人造生命”令全世界不安
Interactome data and databases: different types of protein interaction
NCBI Blastn 安裝程序.
OVID Medline vs. PubMed 邱子恒
生物数据库.
基因信息的传递.
多序列比对和系统进化分析 ——以镰刀形贫血症为例 浙江大学生物信息实验室.
Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷 陳靜儀 謝仁傑 林敬恆.
生物結構期末報告 學生:葉雅如 M 老師: 鄒文雄 教授.
科研必备技能 许忠平.
Presentation transcript:

第四章 核苷酸和蛋白质序列为 基础的数据库检索 (I) 生物信息学

检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene name Author Accession number … Database

核苷酸和蛋白质序列为基础的数据库检索  序列对位排列( sequence alignment )  将两条或多条序列对位排列,突出相似的结构 区域 序列 1 序列 2 Function Structure Sequence

表示序列的字符

两条 DNA 序列对位排列分析

两条蛋白质序列对位排列分析

 基因预测  分析基因或蛋白质的功能  分析物种进化  检测突变、插入或缺失  序列延长  序列定位  基因表达谱分析 序列比对的用途

序列对位排列分析的种类  序列对库对位排列分析  多序列对位排列分析 从数据库中寻找同源序列 主要涉及核苷酸数据库和蛋白质数据库  两序列对位排列分析

(一)序列对位排列分析的基本原理 1 、记分矩阵( scoring matrix )  记分矩阵中含有两条序列对位排列时具体使用 的分值  长度一定时,分数越高,两条序列匹配越好 DNA 序列对位记分 序列 1 A C G T T A 序列 2 A C T T T G 记分 =2

 蛋白质序列对位排列分析记分复杂  一致氨基酸的记分不同  稀有氨基酸( C ),分值高  普通氨基酸( S ),分值低  相似氨基酸也记分,如 R-K 蛋白质序列对位记分 序列 1 V D S C Y 序列 2 V N W C Y 记分 =18 1 、记分矩阵( scoring matrix )  序列的排列方式影响总分值

 蛋白质有多种记分矩阵  PAM 矩阵(如 PAM30 、 PAM70, )  BLOSUM 矩阵(如 BLOSUM62 、 BLOSUM80 ) BLOSUM62 amino acid scoring matrix BLAST 默认 scoring matrix 1 、记分矩阵( scoring matrix ) 大致关系: BLOSUM80 PAM1 BLOSUM62 PAM120 BLOSUM45 PAM250

 基因进化过程中产生突变  序列对位排列分析时允许插入空位  空位罚分涉及两个参数  插入  缺失  空位开放( gap opening )  空位延伸( gap extension ) 序列 1 A T G C T G A 序列 2 A T G - - G A = 3 Indel 序列 1 A T G C T G A 序列 2 A T G G A 原始序列 A T G T G A 2 、空位(间隔)罚分( gap penalty ) 此例子中: gap opening: -3 gap extension: -2

3 、对位排列的方法  词或 K 串方法( BLAST, FASTA )  点阵分析( Dot-matrix )  动态规划( Dynamic programming )

BLAST algorithm (a)(b) (c)  词或 K 串方法( BLAST, FASTA )

第四章 核苷酸和蛋白质序列为 基础的数据库检索 (II) 生物信息学

(二)序列对库对位排列分析  BLAST  FASTA  Other methods  主要检索体系  用待分析序列对数据库进行相似性分析  重复许多次的两两序列对位排列分析  从数据库中找出所有同源序列

1 、基本概念 ( 1 ) Sequence identity 和 sequence similarity Sequence identity 和 sequence similarity Identity: 两条序列在同一位点上的核苷酸或 氨基酸残基完全相同 The extent to which nucleotide or protein sequences are related. The extent of similarity between two sequences can be based on percent sequence identity and/or conservation. In BLAST similarity refers to a positive matrix score The extent to which two (nucleotide or amino acid) sequences are invariant. Similarity (positive): 两条序列在同一位点上的 氨基酸残基的化学性质相似

Homology 同源 Identity 相同 Similarity 相似 A is 80% identical to B A is 80% similar to B × Homology A is 80% homologous to B If your sequences are more than 100 amino acids long (or 100 nucleotides long), you can label proteins as “homologous” if 25 percent of the amino acids are identical, for DNA you will require at least 70 percent identity

( 2 ) Global alignment 和 local alignment Query Subject Query Subject Global alignment: 两条完整的序列相比较 Query Subject Local alignment: 两条序列中相似程度最高的部分 相比较

( 3 ) Gapped alignment 和 ungapped alignment Query Subject Query Subject Query Subject Gapped alignment: 为达到最佳 alignment ,序列中加入空位 Query Subject Ungapped alignment : 相比较序列的核苷酸或氨基酸序列连续

( 4 ) Alignment score 和 E (expect) value Alignment score 和 E (expect) value 衡量两条相比较序列相似程度的标准 (bits) Score: 分值越大,两个比较序列相似程度越高 E value: 期望得到的、完全由机会造成的、相当于或大于目 前分值的 alignment 次数  E 值取决于 alignment 分值、相比较序列的长短 和数据库中数据的数量  Blast 中 E 的阈值为 10 。 1e - 66 = 1  E 值越小越好 E value 类似于 P value ,如:试验组存活率比对 照组高 20% ( p<0.05 )

( 5 ) Low-complexity regions (LCRs) 核苷酸和蛋白质序列中短的重复序列或由少数 几种核苷酸或氨基酸残基组成的序列(如 Poly-A )  数据库中半数以上的序列至少带有一个 LCR  Sequence alignment 时应避免 LCR 相互配对得分  BLAST 用 Filter 功能避免比较 LCR  在比对结果的 query 序列中用小写字母或 x 和 n (分别代表氨基酸和核苷酸)代表 LCR小写字母或 x 和 n

2.BLAST (Basic Local Alignment Search Tool) 检索 Help Basic BLAST Specialized BLAST Guide

BLAST programs blastn 用核苷酸序列检索核苷酸数据库 blastp 用蛋白质序列检索蛋白质数据库 blastx 将核苷酸序列通过 6 种阅读框翻译成不同的蛋白 质序列检索蛋白质数据库6 种阅读框 tblastn 用蛋白质序列检索核苷酸数据库(数据库中的序 列被翻译出不同的蛋白质序列) tblastx 将核苷酸序列通过 6 种阅读框翻译成不同的蛋白 质序列检索核苷酸数据库(数据库中的序列也被 翻译出不同的蛋白质序列)

BLAST databases Human genomic plus transcript 人基因组和 mRNA 序列 Mouse genomic plus transcript 小鼠基因组和 mRNA 序列 nucleotide collection (nr/nt) GenBank ( 无 EST, STS, GSS, HTGS) refseq-rna Reference mRNA sequences refseq-genomic Reference genomic sequences chromosome NCBI genomes est EST 数据库 gss GSS 数据库 htgs HTGS 数据库 dbsts STS 数据库 wgs whole-genome shotgun reads alu_repeats Alu 重复序列数据库

BLAST databases non-redundant protein sequences (nr) 非冗余蛋白质数据库(现 已无法保证非冗余) refseq-protein Reference protein sequences pdb 蛋白质三维结构数据库 swissprot swissprot 蛋白质数据库 pat Patented protein sequences env_nt Environmental samples (nt) env_nr Environmental samples (pro)

( 1 ) BLASTN BLASTN  将要查询的序列直接粘贴到序列框中或输入登陆号, GI 号  选择 database 、 organism  选择 Blast Algorithm (megablast, discontiguous megablast, blastn)  可进行其它项目的选择用于分析  进一步选择检索范围: Limit by entrez query ( 如 protease NOT hivI [organism])  Filter (Human repeats) :遮盖重复序列可加快检索速度 (特别是 > 100 kb 的片段)  结果页面 注意:不熟悉各种参数时,使用默认的参数

BLAST 结果解读 Sequence

BLAST 结果解读 Hit list Score (Bit score) High bit score = good match E-Value Low E-value = good match Red: very good Green: acceptable Black: bad E-values higher than 1e-4 require extra evidence to support homology E-values lower than 1e-4 indicate possible homology 1e-03 = borderline E-value 1e-04 = good E-value 1e-10 = very good E-value 实际应用中主要看 E-value ,同时要求 Score 大于一定值(比如 >100 )

( 2 ) BLASTP BLASTP  基本操作同 blastn

( 3 ) PSI-BLAST (Position Specific Iterated BLAST) PSI-BLAST  氨基酸序列检索  重复检索数据库 第一步 检索数据库 新的 alignment sequences 新的 alignment sequences 第二步 可继续检索循环 被查询序列( query ) BLASTP 标准检索 点击 Run PSI-Blast iteration 2

( 4 ) PHI-BLAST (Pattern Hit Initiated BLAST) PHI-BLAST  蛋白质序列,并带有特殊区域( pattern )  具有同样的特殊区域同样的特殊区域  其它区域与查询序列相似  可与 PSI - BLAST 相连,重复检索  在数据库中检索到的蛋白质  可查询检测到的特殊区域  检索前需输入 PROSITE 数据库的 结构句法( pattern syntax ) pattern syntax 如: [IVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]

( 5 ) Translated BLAST  blastx, tblastn, tblastx blastxtblastntblastx  基本操作同 blastn

第四章 核苷酸和蛋白质序列为 基础的数据库检索 (III) 生物信息学

( 6 ) Conserved Domain SearchConserved Domain Search  检索 conserved domain database  只适用于蛋白质序列的检索分析  检测被检索的序列中是否含有保守结构域保守结构域 点击 “Search for similar domain architectures” 查看相关结构域相关结构域 点击结构域图标查 看多序列对位排列多序列对位排列

( 7 ) Primer-BLAST  设计 PCR 引物  分析引物特异性  在 GenBank 检索结果页面中提供了链接 在 GenBank 检索结果页面中提供了链接  结果 结果

( 8 ) Constraint-based Multiple Alignment Tool  多重比对  进化分析  在 blast 检索结果页面中提供了链接 在 blast 检索结果页面中提供了链接  结果 结果

3 、 FASTA 检索  Programs 一些特殊设计的序列 检索体系在发现基因 和蛋白质家族成员方 面可能更为可靠 BLAST 和 FASTA 检 索体系有时不能检测 出某些远缘序列的相 关性

(三)两序列对位排列分析  NCBI 的分析工具  对任意两条序列进行对位排列分析  允许空位 Specialized BLAST Align two (or more) sequences using BLAST (bl2seq) Needleman-Wunsch Global Sequence Alignment Tool

 序列来源  输入 Accession number  直接粘贴序列  适用于 blastn, blastp, blastx, tblastn, tblastx  blastn: 两条核苷酸序列相比较  blastp: 两条蛋白质序列相比较  tblastn: 比较蛋白质序列( sequence 1 )和核苷酸序列 (翻译成蛋白质序列)( sequence 2 )  blastx: 比较核苷酸序列(翻译成蛋白质序列) ( sequence 1 )和蛋白质序列( sequence 2 )  tblastx: 两条核苷酸序列(翻译成蛋白质序列)比较 BLAST 2 sequences

 结果格式  两种图形  两序列对位排列 Seq2 Seq1 BLAST 2 sequences

 结果格式  两种图形  两序列对位排列 Needleman-Wunsch Global Sequence Alignment Tool Seq2 Seq1

(四)序列比对的其他应用 - 利用 BLAST 方法分析 miRNA  利用 miRBase 数据库 ( ) 在数据库主页点击 “searching”数据库主页 在 miRBase::Sequences 网页的 “By sequence” 栏目粘贴序列(小于 1000 bp ),在 “Search sequences” 栏目中选择检索 “Mature miRNAs” 或 “Stem-loop sequences” ,点击 “Search miRNAs” miRBase::Sequences 检索结果结果

( ) 在 “RNAfold WebServer” 网站粘贴序列  判断是否可能是 hairpin precursor miRNA 分析结果结果 不同图示展示结果图示 (四)序列比对的其他应用 - 分析 RNA 或 DNA 的二级结构

 编码区的比对  应以密码子为单位  勿改变编码框 注意: Nucl. Acids Res. (2003) 31:

eTBLAST Duplication Plagiarism Nature : A text similarity-based engine for searching literature collections a database of highly similar citations in the scientific literature

* 由美国德克萨斯大学西南医学中心开发,可以输入整句对 Medline 进行检索。 * “ However, two of these countries, China and Japan, have estimated duplication rates that are roughly twice that expected for the number of publications they contribute to Medline, Perhaps the complexity of translation between different scripts, differences in ethics training and cultural norms contribute to elevated duplication rates in these two countries ”

第四章 核苷酸和蛋白质序列为基础 的数据库检索 ( 上机操作 ) 生物信息学

(四) 上机操作 1. 了解 BLAST Help 中的内容。 BLAST Help 2. 以大麦 Mlo 基因( Z83834 )为查询序列 (1) 用 Blastn 能在 nr/nt 数据库中检索到多少条与之同源的序 列( E-value<1e-30 )?有多少条是禾本科中的? (2) 换用 megablast 或 discontiguous megablast ,观察检索结 果的改变。 (3) 尝试修改 Blastn 的参数,观测对检索结果的影响。 (4) 找出 Mlo 基因的编码蛋白序列,用 Blastp 检索到的与 Mlo 蛋白同源的序列与用 PSI-Blast 检索到的同源序列是否有差 别? (5) 使用 BlastX 预测 Mlo 基因的编码蛋白。 3. 用 bl2seq 分析大麦和小麦 Mlo 基因 mRNA 序列编码区和蛋白 质产物的同源性

G F C N * F F T * L N ? W L L Q L I L N L A * C M A S A T N S S L S L M ? 5’ ATGGCTTCTGCAACTAATTCTTCACTTAGCTTAATGC 3’ 3’ TACCGAAGACGTTGATTAAGAAGTGAATGCAATTACG 5’ ? P L Q W * N L V * T L A H S R C S I R * L R * H ? A E A V L E E S V N I Blastx 的 6 种阅读框架

plain structure drawing structure drawing encoding base-pair probabilities structure drawing encoding positional entropy 三种不同的图示显示