生物信息学 第二章 数 据 库(III)
(10)ENA (European Nucleotide Archive) http://www.ebi.ac.uk/ena/ EBI (European Bioinformatics Institute) 管理 与GenBank收集的数据相同 序列数据展示方式与 GenBank 不同(网页,纯文本) 数据库主页“Text search”输入关键词 EMBL格式: http://www.ebi.ac.uk/ena/about/embl_bank_format 检索到的条目 每一条目详细内容
发表文章要提供 Accession number(在三大核苷酸数据库中通用) (11)DDBJ (DNA Data Bank of Japan) 与GenBank收集的序列数据相同 数据库主页http://www.ddbj.nig.ac.jp/index-e.html 提供基于关键词及序列的搜索服务 打开“ARSA”输入关键词 检索到的条目 每一条目详细内容与GenBank一致 发表文章要提供 Accession number(在三大核苷酸数据库中通用)
EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ (12)启动子数据库 EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ 由Weizmann Institute of Science in Rehovot (Israel) 开创 收集数据的转录起始位点(TSS)通过实验确定 包括部分cis-element信息 同一个基因可以具有多个启动子 原版(EPD)包含4809条真核生物聚合酶II(eukaryotic POL II)启动子序列 新版(EPDnew)主要包含人类、小鼠和果蝇的大量启 动子信息,总数超过20万
(13)miRNA数据库 miRNA gene microRNA (miRNA)的形成 转录RNA 折叠形成 pri-miRNA pre-miRNA miRNA RISC携带 有活性的miRNA miRNA gene microRNA (miRNA)的形成 Science 309:1522 (2005)
(13)miRNA数据库 miRBase http://www.mirbase.org/ 收集了21264条 hairpin precursor miRNA 序列(第19版,2012.8) 来源于>100个物种 可以通过miRNA名称、关键词、染色体位置等信息检索数据库 分析一条DNA序列中是否可能包含miRNA(第四章介绍)
利用miRNA编号或关键词检索(1) 在数据库主页点击“searching” 在“Search miRBase”网页的“By miRNA identifier or keyword”栏目输入miRNA编号,点击“提交查询内容” 检索结果目录 查看详细信息
利用染色体位置检索miRNA(2) 在数据库主页点击“searching” 在“Search miRBase”网页的“By genomic location”栏目选择物种和染色体,输入染色体上的核苷酸位置范围(如1000至1000000),点击“Get sequences” 检索结果目录 查看详细信息
检索miRNA群(cluster)(3) 在数据库主页点击“searching” 在“Search miRBase”网页的“For clusters”栏目选择物种,输入希望查询的miRNA之间的距离(核苷酸数目),点击“Get clusters” 检索结果目录 批量获取mature miRNA序列:在结果目录网页的“Fetch”列选择miRNA,在该网页的底部选择“Mature sequence”,点击“Fetch Sequences”
生物信息学 第二章 数 据 库(IV)
2、蛋白质数据库 (1)UniProt http://www.uniprot.org/ 由PIR、EBI 和SIB于2002年创办,统一了PIR、 TrEMBL和Swiss-Prot三个蛋白质数据库 分为两个部分:来源于实验的有详细注释的序列(SwissProt)和自动注释序列(TrEMBL) 与100多个数据库相互参照(cross-reference) 可用关键词(Text search)和序列比对(BLAST similarity search)进行检索 在2002年, PIR和欧洲生物信息学研究所EBI (European Bioinformatics Institute) 及瑞士的生物信息学研究所SIB(Swiss Institute of Bioinformatics),一起得到美国NIH资助建立UniProt, 这是单一的世界范围的蛋白质序列和功能的数据库, 它统一了PIR, Swiss-Prot, 和TrEMBL三家的数据库。
UniProt蛋白质数据库的结构 UniRef100:非冗余的UniProt蛋白质序列 http://pir.georgetown.edu/pirwww/dbinfo/uniprot.shtml UniRef The UniProt Reference Clusters (UniRef) provide clustered sets of sequences from the UniProt Knowledgebase(including isoforms) and selected UniParc records in order to obtain complete coverage of the sequence space at several resolutions while hiding redundant sequences (but not their descriptions) from view. Unlike in UniParc, sequence fragments are merged in UniRef: The UniRef100 database combines identical sequences and sub-fragments with 11 or more residues from any organism into a single UniRef entry, displaying the sequence of a representative protein, the accession numbers of all the merged entries and links to the corresponding UniProtKB and UniParc records. UniRef90 is built by clustering UniRef100 sequences with 11 or more residuesusing the CD-HIT algorithm (Li W. and Godzik A., Bioinformatics, 22: 1658-1659, 2006) such that each cluster is composed of sequences that have at least 90% sequence identity to and 80% overlap with the longest sequence (a.k.a. seed sequence) of the cluster. Similarly, UniRef50 is built by clustering UniRef90 seed sequences that have at least 50% sequence identity to and 80% overlap with the longest sequence in the cluster. Prior to 2013 there was no overlap threshold, so clusters were more heterogeneous in length. UniRef90 and UniRef50 yield a database size reduction of approximately 58% and 79%, respectively, providing for significantly faster sequence similarity searches. The seed sequences are the longest members of the cluster. However, the longest sequence is not always the most informative. There is often more biologically relevant information (name, function, cross-references) available on other cluster members. All the proteins in a cluster are therefore ranked as follows to facilitate the selection of a biologically relevant representative for the cluster: quality of the entry: manually reviewed entries (from the UniProtKB/Swiss-Prot section) are preferred meaningful name: entries with names that do not contain words such as hypothetical, probable, etc. are preferred organism: entries from model organisms are preferred length of the sequence: longest sequence is preferred UniRef100:非冗余的UniProt蛋白质序列 UniRef90:聚类UniRef100中一致性超过90%且80% 重叠的蛋白质,取最长的一条(序列数压缩58%) UniRef50:聚类UniRef90中一致性超过50%且80% 重叠的蛋白质,取最长的一条(序列数压缩79%)
在数据库主页搜索框选择“Protein Knowledgebase”库,使用关键词检索 (1)UniPROT 在数据库主页搜索框选择“Protein Knowledgebase”库,使用关键词检索 结果页面,reviewed (Swiss-Prot),unreviewed (TrEMBL) Browse by taxonomy, keyword, gene ontology, enzyme class or pathway 条目详细内容
(2)PIR (Protein Information Resource) http://pir.georgetown.edu 由National Biomedical Research Foundation 创办 信息整合的蛋白质序列数据库(iProClass), 内容/编号与UniProtKB相同,但额外提供到 超过170个数据库的链接 蛋白质序列分类数据库(PIRSF),提供不同 层级的蛋白质家族分类(Superfamily、 Homeomorphic Family和Homeomorphic Subfamily)
(2)PIR (Protein Information Resource) 检索某一蛋白质的注释信息 数据库主页“Search/Analysis”菜单 “Text Search” 选择数据库“iProClass”后输入关 键词或注册号 检索结果列表 查看详细内 容 检索某一蛋白质分类的信息 数据库主页“Search/Analysis”菜单 “Text Search” 选择数据库“PIRSF”后输入关键 词或注册号 检索结果列表 查看详细内容
(3)PRF (Protein Research Foundation) http://www.prf.or.jp/ 由日本的 Protein Research Foundation 创办 已发表在杂志上的蛋白质序列 修饰位点、S-S键等 两月更新一次
(4)PDBSTR (Re-Organized Protein Data Bank) http://www.genome.jp/dbget-bin/www_bfind?pdbstr 蛋白质序列和二级结构 碳结构
(5)Prosite http://www.expasy.org/prosite 蛋白质家族 结构域
3、结构数据库 (1)PDB (Protein Data Bank) http://www.rcsb.org 由 Brookhaven National Laboratories 创办 90,206个结构图(2013.4) 蛋白质 核酸 其它 可通过 关键词或BLAST 系统检索(第四章介绍)
PDB Content Growth Total Yearly
(1) PDB (Protein Data Bank) (2013.4) 使用关键词或注册号检索PDB 数据库主页“Search”框 “Everything” 输入关 键词或注册号 检索结果列表 查看详细内容 http://www.rcsb.org/pdb/statistics/holdings.do
(2)NDB (Nucleic Acid Database) http://ndbserver.rutgers.edu 包含6,561个核酸分子的结构(2013.5) (3)PDIdb (Protein-DNA Interface Database) http://melolab.org/pdidb http://floresta.eead.csic.es/3dfootprint/ DNA-蛋白质复合体的 X 射线衍射结构及分类
4、酶和代谢数据库 KEGG (Kyoto Encyclopedia of Genes and Genomes) 各种代谢、遗传等路径图 可检索参于各种路径的基因 检索Metabolism(1) KEGG主页http://www.genome.ad.jp/kegg/点击“KEGG PATHWAY” “PATHWAY”网页点击任一代谢路径(Metabolism),如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis)
KEGG主页点击“KEGG PATHWAY” 检索Genetic Information Processing(2) KEGG主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何遗传信息(Genetic Information Processing)路径,如 Protein export 路径 可以查看参加这一路径蛋白质的信息
KEGG主页点击“KEGG PATHWAY” 检索Environmental Information Processing(3) KEGG主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何Environmental Information Processing 路径,如 MAPK signaling pathway 路径 可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息
KEGG主页点击“KEGG PATHWAY” 检索Cellular Processes(4) KEGG主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何Cellular Processes 路径,如 Cell cycle 路径 可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息
(2)PKR (Protein Kinase Resource) http://pkr.genomics.purdue.edu/pkr/ 多种检索内容 已知蛋白激酶的序列比较 蛋白激酶分类 蛋白激酶的三维结构 与疾病相关的蛋白激酶 其它内容
5、物种分类数据库 物种分类 Mouse:Mus musculus 动物界(Animal) 脊索动物门(Chordata) 脊椎动物亚门(Vertebrata) 哺乳纲(Mammalia) 啮齿目(Rodentia) 鼠科(Muridae) 小家鼠属(Mus) 小家鼠种(musculus) 界(Kingdom) 门(Phylum) 纲(Class) 目(Order) 科(Family) 属(Genus) 种(Species) 每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。 每一分类等级上可加设总级(Super-),如总纲、总目、总科等。
在Taxonomy 主页输入物种学名检索“Homo sapiens” 在Taxonomy 主页输入物种俗名检索“pig” http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html 拟南芥(Arabidopsis thaliana)系谱 检索某一物种的系谱(lineage): 在Taxonomy 主页输入物种学名检索“Homo sapiens” 在Taxonomy 主页输入物种俗名检索“pig” lineage lineage
(1) http://www.ncbi.nlm.nih.gov/PubMed/ 6、文献数据库 (1) http://www.ncbi.nlm.nih.gov/PubMed/ 美国国家医学图书馆的数据库 医学、分子生物学、基础生物学 5400多种刊物,来源于80多个国家 文献年限:1947年至今 提供摘要,全文链接 免费全文收集在PubMed Central
OMIM (Online Mendelian Inheritance in Man) (2)其它类型的文献数据库 OMIM (Online Mendelian Inheritance in Man) http://www.ncbi.nlm.nih.gov/omim NCBI 的数据库,每天更新数据 人类基因、遗传疾病 在NCBI 主页选择OMIM后输入关键词(疾病、基因名称等)进行检索 条目 Agricola http://agricola.nal.usda.gov/ 美国农业部农业图书馆的数据库 农业类刊物
7、更多的数据库 http://www.oxfordjournals.org/nar/database/c/
生物信息学 第二章 数 据 库(V)
8、向数据库提交和修改核苷酸和蛋白质序列 提交:Submission 数据库中的数据由大家无偿提供,共同享用 修改:Update Accuracy??
(1)向 GenBank提交或修改核苷酸序列 GenBank主页菜单“Submit” BankIt 功能提交序列 BankIt 网上直接提交,简单方便 提交后立刻得到临时编号 二天内得到 Accession number 用 Sequin 方法提交序列 可下载的电子表格 自动确定 CDS、ORF 和查找重复序列 用Update 功能修改 GenBank 中的序列和相关信息 Accession number不变,修改一次,version 的编号就进一位
(2)向 UniProtKB提交或修改蛋白质序列 http://www.uniprot.org/help/submissions 使用SPIN网上直接操作,网页先注册 (Register),然后登陆(Login)填写电子表格 只接收用蛋白质直接测序的序列 质谱数据通过email提交到PRIDE 由核苷酸序列翻译得到的蛋白质序列将进入 TrEMBL
http://www.ncbi.nlm.nih.gov/guide/howto/submit- sequence-data/ More… 递交数据到NCBI http://www.ncbi.nlm.nih.gov/guide/howto/submit- sequence-data/ 递交数据到ENA http://www.ebi.ac.uk/ena/about/submit_and_update 大规模数据往往需要邮件联系 需要提及大规模数据的提交: SRA(Sequence Read Archive, http://www.ncbi.nlm.nih.gov/sra/)/Trace Archive、GEO
9、常用序列格式 FASTA(Pearson) Genbank EMBL 数据库后台存储格式ASN.1 其他格式介绍 格式转换 http://www.ebi.ac.uk/cgi-bin/readseq.cgi http://www-bimas.cit.nih.gov/molbio/readseq/ http://redb.ncpgr.cn/modules/redbtools/readseq.php
生物信息学 第二章 数 据 库(上机操作)
上机操作 熟悉本课件所列的各种数据库的功能和适用范围 浏览核酸研究(Nucleic Acids Research)收录数据库列表,了解数据库分类和内容 了解常用序列格式并学习格式转换 了解如何提交和修改序列
New BankIt
FASTA格式序列(使用“> id”分隔不同序列) Xa26 nucleic acid sequence (DQ426646,6000 bp): > Xa26, mRNA ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCA GGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATG GATGGAGCCGGCAGCCGGCGATCCTATTTAA … Xa26 amino acid sequence (ABD84047,1103 aa): > Xa26, protein MALVRLPVWIFVAALLIASSSTVPCASSLGPIASKSNSSDTDLAALLAFKAQLSDPNNILAGNWTTGTPF CRWVGVSCSSHRRRRQRVTALELPNVPLQGELSS…