生物信息学第二章数据库(III).

生物信息学第二章数据库(III)

（10）ENA (European Nucleotide Archive)
EBI (European Bioinformatics Institute) 管理与GenBank收集的数据相同序列数据展示方式与 GenBank 不同（网页，纯文本）数据库主页“Text search”输入关键词 EMBL格式: 检索到的条目每一条目详细内容

发表文章要提供 Accession number（在三大核苷酸数据库中通用）
（11）DDBJ (DNA Data Bank of Japan) 与GenBank收集的序列数据相同数据库主页提供基于关键词及序列的搜索服务打开“ARSA”输入关键词检索到的条目每一条目详细内容与GenBank一致发表文章要提供 Accession number（在三大核苷酸数据库中通用）

EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/
（12）启动子数据库 EPD (Eukaryotic Promoter Database) 由Weizmann Institute of Science in Rehovot (Israel) 开创收集数据的转录起始位点（TSS）通过实验确定包括部分cis-element信息同一个基因可以具有多个启动子原版（EPD）包含4809条真核生物聚合酶II（eukaryotic POL II）启动子序列新版（EPDnew）主要包含人类、小鼠和果蝇的大量启动子信息，总数超过20万

（13）miRNA数据库 miRNA gene microRNA (miRNA)的形成转录RNA 折叠形成 pri-miRNA
pre-miRNA miRNA RISC携带有活性的miRNA miRNA gene microRNA (miRNA)的形成 Science 309:1522 (2005)

（13）miRNA数据库 miRBase 收集了21264条 hairpin precursor miRNA 序列（第19版，2012.8）来源于>100个物种可以通过miRNA名称、关键词、染色体位置等信息检索数据库分析一条DNA序列中是否可能包含miRNA（第四章介绍）

利用miRNA编号或关键词检索（1）在数据库主页点击“searching” 在“Search miRBase”网页的“By miRNA identifier or keyword”栏目输入miRNA编号，点击“提交查询内容” 检索结果目录查看详细信息

利用染色体位置检索miRNA（2）在数据库主页点击“searching” 在“Search miRBase”网页的“By genomic location”栏目选择物种和染色体，输入染色体上的核苷酸位置范围（如1000至 )，点击“Get sequences” 检索结果目录查看详细信息

检索miRNA群（cluster)（3）在数据库主页点击“searching” 在“Search miRBase”网页的“For clusters”栏目选择物种，输入希望查询的miRNA之间的距离（核苷酸数目），点击“Get clusters” 检索结果目录批量获取mature miRNA序列：在结果目录网页的“Fetch”列选择miRNA，在该网页的底部选择“Mature sequence”，点击“Fetch Sequences”

生物信息学第二章数据库(IV)

2、蛋白质数据库（1）UniProt http://www.uniprot.org/
由PIR、EBI 和SIB于2002年创办，统一了PIR、 TrEMBL和Swiss-Prot三个蛋白质数据库分为两个部分：来源于实验的有详细注释的序列（SwissProt）和自动注释序列（TrEMBL）与100多个数据库相互参照（cross-reference）可用关键词（Text search）和序列比对（BLAST similarity search）进行检索在2002年, PIR和欧洲生物信息学研究所EBI (European Bioinformatics Institute) 及瑞士的生物信息学研究所SIB(Swiss Institute of Bioinformatics),一起得到美国NIH资助建立UniProt, 这是单一的世界范围的蛋白质序列和功能的数据库, 它统一了PIR, Swiss-Prot, 和TrEMBL三家的数据库。

UniProt蛋白质数据库的结构 UniRef100：非冗余的UniProt蛋白质序列
UniRef The UniProt Reference Clusters (UniRef) provide clustered sets of sequences from the UniProt Knowledgebase(including isoforms) and selected UniParc records in order to obtain complete coverage of the sequence space at several resolutions while hiding redundant sequences (but not their descriptions) from view. Unlike in UniParc, sequence fragments are merged in UniRef: The UniRef100 database combines identical sequences and sub-fragments with 11 or more residues from any organism into a single UniRef entry, displaying the sequence of a representative protein, the accession numbers of all the merged entries and links to the corresponding UniProtKB and UniParc records. UniRef90 is built by clustering UniRef100 sequences with 11 or more residuesusing the CD-HIT algorithm (Li W. and Godzik A., Bioinformatics, 22: , 2006) such that each cluster is composed of sequences that have at least 90% sequence identity to and 80% overlap with the longest sequence (a.k.a. seed sequence) of the cluster. Similarly, UniRef50 is built by clustering UniRef90 seed sequences that have at least 50% sequence identity to and 80% overlap with the longest sequence in the cluster. Prior to 2013 there was no overlap threshold, so clusters were more heterogeneous in length. UniRef90 and UniRef50 yield a database size reduction of approximately 58% and 79%, respectively, providing for significantly faster sequence similarity searches. The seed sequences are the longest members of the cluster. However, the longest sequence is not always the most informative. There is often more biologically relevant information (name, function, cross-references) available on other cluster members. All the proteins in a cluster are therefore ranked as follows to facilitate the selection of a biologically relevant representative for the cluster: quality of the entry: manually reviewed entries (from the UniProtKB/Swiss-Prot section) are preferred meaningful name: entries with names that do not contain words such as hypothetical, probable, etc. are preferred organism: entries from model organisms are preferred length of the sequence: longest sequence is preferred UniRef100：非冗余的UniProt蛋白质序列 UniRef90：聚类UniRef100中一致性超过90%且80% 重叠的蛋白质，取最长的一条（序列数压缩58%） UniRef50：聚类UniRef90中一致性超过50%且80% 重叠的蛋白质，取最长的一条（序列数压缩79%）

在数据库主页搜索框选择“Protein Knowledgebase”库，使用关键词检索
（1）UniPROT 在数据库主页搜索框选择“Protein Knowledgebase”库，使用关键词检索结果页面，reviewed (Swiss-Prot)，unreviewed (TrEMBL) Browse by taxonomy, keyword, gene ontology, enzyme class or pathway 条目详细内容

（2）PIR (Protein Information Resource)
由National Biomedical Research Foundation 创办信息整合的蛋白质序列数据库（iProClass），内容/编号与UniProtKB相同，但额外提供到超过170个数据库的链接蛋白质序列分类数据库（PIRSF），提供不同层级的蛋白质家族分类（Superfamily、 Homeomorphic Family和Homeomorphic Subfamily）

（2）PIR (Protein Information Resource)
检索某一蛋白质的注释信息数据库主页“Search/Analysis”菜单  “Text Search”  选择数据库“iProClass”后输入关键词或注册号 检索结果列表 查看详细内容检索某一蛋白质分类的信息数据库主页“Search/Analysis”菜单  “Text Search”  选择数据库“PIRSF”后输入关键词或注册号 检索结果列表 查看详细内容

（3）PRF (Protein Research Foundation)
由日本的 Protein Research Foundation 创办已发表在杂志上的蛋白质序列修饰位点、S－S键等两月更新一次

（4）PDBSTR (Re-Organized Protein Data Bank)
蛋白质序列和二级结构  碳结构

（5）Prosite 蛋白质家族结构域

3、结构数据库（1）PDB (Protein Data Bank) http://www.rcsb.org
由 Brookhaven National Laboratories 创办 90,206个结构图（2013.4）蛋白质核酸其它可通过关键词或BLAST 系统检索（第四章介绍）

PDB Content Growth Total Yearly

（1） PDB (Protein Data Bank)
(2013.4) 使用关键词或注册号检索PDB 数据库主页“Search”框  “Everything”  输入关键词或注册号 检索结果列表 查看详细内容

（2）NDB (Nucleic Acid Database) http://ndbserver.rutgers.edu
包含6,561个核酸分子的结构（2013.5）（3）PDIdb (Protein-DNA Interface Database) DNA-蛋白质复合体的 X 射线衍射结构及分类

4、酶和代谢数据库 KEGG (Kyoto Encyclopedia of Genes and Genomes) 各种代谢、遗传等路径图
可检索参于各种路径的基因检索Metabolism（1） KEGG主页 PATHWAY” “PATHWAY”网页点击任一代谢路径（Metabolism），如糖酵解/糖原异生途径（Glycolysis/Gluconeogenesis)

KEGG主页点击“KEGG PATHWAY”
检索Genetic Information Processing（2） KEGG主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何遗传信息（Genetic Information Processing）路径，如 Protein export 路径可以查看参加这一路径蛋白质的信息

检索Environmental Information Processing（3） KEGG主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何Environmental Information Processing 路径，如 MAPK signaling pathway 路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息

检索Cellular Processes（4） KEGG主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何Cellular Processes 路径，如 Cell cycle 路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息

（2）PKR (Protein Kinase Resource)
多种检索内容已知蛋白激酶的序列比较蛋白激酶分类蛋白激酶的三维结构与疾病相关的蛋白激酶其它内容

5、物种分类数据库物种分类 Mouse：Mus musculus 动物界（Animal）脊索动物门（Chordata）
脊椎动物亚门（Vertebrata）哺乳纲（Mammalia）啮齿目（Rodentia）鼠科（Muridae）小家鼠属（Mus）小家鼠种（musculus）界（Kingdom）门（Phylum）纲（Class）目（Order）科（Family）属（Genus）种（Species）每一分类等级下可加设亚级（Sub-），如亚门、亚纲、亚科等。每一分类等级上可加设总级（Super-），如总纲、总目、总科等。

在Taxonomy 主页输入物种学名检索“Homo sapiens” 在Taxonomy 主页输入物种俗名检索“pig”
拟南芥（Arabidopsis thaliana）系谱检索某一物种的系谱（lineage）：在Taxonomy 主页输入物种学名检索“Homo sapiens” 在Taxonomy 主页输入物种俗名检索“pig” lineage lineage

（1） http://www.ncbi.nlm.nih.gov/PubMed/
6、文献数据库（1）美国国家医学图书馆的数据库医学、分子生物学、基础生物学 5400多种刊物，来源于80多个国家文献年限：1947年至今提供摘要，全文链接免费全文收集在PubMed Central

OMIM (Online Mendelian Inheritance in Man)
（2）其它类型的文献数据库 OMIM (Online Mendelian Inheritance in Man) NCBI 的数据库，每天更新数据人类基因、遗传疾病在NCBI 主页选择OMIM后输入关键词（疾病、基因名称等）进行检索  条目 Agricola 美国农业部农业图书馆的数据库农业类刊物

7、更多的数据库

生物信息学第二章数据库(V)

8、向数据库提交和修改核苷酸和蛋白质序列提交：Submission 数据库中的数据由大家无偿提供，共同享用修改：Update
Accuracy？？

（1）向 GenBank提交或修改核苷酸序列
GenBank主页菜单“Submit”  BankIt 功能提交序列 BankIt 网上直接提交，简单方便提交后立刻得到临时编号二天内得到 Accession number 用 Sequin 方法提交序列可下载的电子表格自动确定 CDS、ORF 和查找重复序列用Update 功能修改 GenBank 中的序列和相关信息 Accession number不变，修改一次，version 的编号就进一位

（2）向 UniProtKB提交或修改蛋白质序列
使用SPIN网上直接操作，网页先注册（Register），然后登陆（Login）填写电子表格只接收用蛋白质直接测序的序列质谱数据通过提交到PRIDE 由核苷酸序列翻译得到的蛋白质序列将进入 TrEMBL

http://www.ncbi.nlm.nih.gov/guide/howto/submit- sequence-data/
More… 递交数据到NCBI sequence-data/ 递交数据到ENA 大规模数据往往需要邮件联系需要提及大规模数据的提交： SRA（Sequence Read Archive, Archive、GEO

9、常用序列格式 FASTA(Pearson) Genbank EMBL 数据库后台存储格式ASN.1 其他格式介绍格式转换

生物信息学第二章数据库(上机操作)

上机操作熟悉本课件所列的各种数据库的功能和适用范围
浏览核酸研究（Nucleic Acids Research）收录数据库列表，了解数据库分类和内容了解常用序列格式并学习格式转换了解如何提交和修改序列

New BankIt

FASTA格式序列（使用“> id”分隔不同序列）
Xa26 nucleic acid sequence (DQ426646,6000 bp): > Xa26, mRNA ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCA GGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATG GATGGAGCCGGCAGCCGGCGATCCTATTTAA … Xa26 amino acid sequence (ABD84047,1103 aa): > Xa26, protein MALVRLPVWIFVAALLIASSSTVPCASSLGPIASKSNSSDTDLAALLAFKAQLSDPNNILAGNWTTGTPF CRWVGVSCSSHRRRRQRVTALELPNVPLQGELSS…

生物信息学第二章数据库(III).

Similar presentations

Presentation on theme: "生物信息学第二章数据库(III)."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

生物信息学 第二章 数 据 库(III).

Similar presentations

Presentation on theme: "生物信息学 第二章 数 据 库(III)."— Presentation transcript:

Similar presentations

About project

反馈

生物信息学第二章数据库(III).

Presentation on theme: "生物信息学第二章数据库(III)."— Presentation transcript: