生物数据库
什么是数据库 生物数据库分类 常用数据库介绍
什么是数据库 数据库是一类用于存储和管理数据的计算机文档,是统一管理的 相关数据的集合,其存储形式有利于数据信息的检索与调用 数据库开发的主要任务就是将数据以结构化记录的形式进行组织 以便于信息的检索 关系型数据库,非关系型数据库 关系型数据库:把复杂的数据结构归结为简单的二元关系,MySQL 非关系数据库(NoSQL): not only MySQL, 键值存储数据库(key-value): Redis 列存储(Column-oriented)数据库: Hbase 面向文档(Document-Oriented)数据库 : Mongodb 图形数据库 : Neo4J
生物数据库 数量多,目前已有超过4000个生物数据库 种类全,包含生物研究的各个方面 《Nucleic Acids Research》杂志每年的第一期中详细介绍最新 版本的各种数据库 https://academic.oup.com/nar/issue/47/D1
http://bigd.big.ac.cn/databasecommons/#
生物数据库分类 一级数据库:数据库中的数据直接来源于实验获得的原始数据, 只经过简单的分类整理和注释 二级数据库:对原始生物分子数据进行整理、分类的结果,在一 级数据库、实验数据和理论分析的基础上建立
生物数据库分类 Literature Databases Nucleotide Sequence Databases RNA sequence Databases Protein sequence Databases Metabolic and Signaling Pathways Gene Expression Databases Other Databases Ontology Images …… Nucleotide Sequence Databases : 基因结构,序列,注释,SNP RNA sequence databases : 序列,注释,结构 Protein sequence databases: 注释,序列,定位,结构 Metabolic and Signaling Pathways: 代谢通路,interaction
常用生物学数据库 NCBI/DDBJ/EBI SWISS-PROT PIR TrEMBL UniProt PDB KEGG
NCBI 由美国国立卫生院于1988年 创立,包含多个数据库,提 供数据分析和资源检索 Entrez 跨数据库搜索引擎 Pubmed 文献 序列,Gene,Nucletide 表达信息,GEO
https://www.ncbi.nlm.nih.gov/
UniProt 整合Swiss-Prot、TrEMBL和PIR-PSD三大数据库的数据而成, 是信息最丰富、资源最广的蛋白质序列数据库,包含3部分: UniProtKB、UniRef、UniParc https://www.uniprot.org/
PDB 美国Brookhaven国家实验室于1971年创建的,由结构生物信息学研究 合作组织(RCSB)维护,是目前最主要的收集生物大分子(蛋白质、核 酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库,是通 过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、 多糖、核酸、病毒等生物大分子的三维结构数据库 http://www.rcsb.org/
KEGG 全称京都基因与基因组百科全书,是关于基因、蛋白质、生化反应 以及通路的综合生物信息数据库,包含多个子库 http://www.genome.jp/
GO Further Database Atlas Database Development DaTo2 Database Commons NAR database list Database Development SQL NoSQL
练习 查找2019年Nucleic Acids Research 的Database issue并下载 综合评述 查找生科院2019年4月3号发表在Nature关于遗传补偿效应的文 章 PMID,DOI信息 斑马鱼UPF3A在人类中的同源蛋白,Entrez ID,Uniprot ID,序列,功 能,蛋白质结构,Interaction,通路,GO注释,表达谱等信息