Presentation is loading. Please wait.

Presentation is loading. Please wait.

生物信息学 Bioinformatics 丁乃峥 山东师范大学生命科学学院

Similar presentations


Presentation on theme: "生物信息学 Bioinformatics 丁乃峥 山东师范大学生命科学学院"— Presentation transcript:

1 生物信息学 Bioinformatics 丁乃峥 山东师范大学生命科学学院 信箱:nzding@sdnu.edu.cn
生物信息学 丁乃峥 山东师范大学生命科学学院 QQ群:

2 第三章 生物信息学数据库资源 第一节 生物信息学数据库简介 第二节 生物信息学数据库查询 一、PubMed的使用介绍
第一节 生物信息学数据库简介 第二节 生物信息学数据库查询 一、PubMed的使用介绍 二、GenBank的使用介绍 三、UCSC基因组浏览器的使用介绍 四、序列数据信息检索实例

3 第一节 生物信息学数据库简介 一、生物信息数据库基本概况 二、生物信息数据库分类(视频) 三、数据库专业组织 四、全球生物数据库概览

4 一、生物信息数据库基本概况

5 1、数据库应满足的主要需求 时间性:新发表的数据,应该能够在很 短的时间内(几个小时至几天)通过国际 互连网访问。
2017/9/13 1、数据库应满足的主要需求 时间性:新发表的数据,应该能够在很 短的时间内(几个小时至几天)通过国际 互连网访问。 注释:每一个基本数据(如序列),应附 加一致的、深层次的辅助说明信息 支撑数据:提供访问原始数据 从数据库使用的角度来看,公共生物分子数据库应满足以下 5 个方面的主要需求: (1) 时间性 对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连 网访问。 (2) 注释 对于每一个基本数据(如序列) ,应附加一致的、深层次的辅助说明信息。 (3) 支撑数据 在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始 数据的方法。数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数 据。 (

6 1、数据库应满足的主要需求 数据质量:数据库管理机构对数据来源 进行检查
2017/9/13 1、数据库应满足的主要需求 数据质量:数据库管理机构对数据来源 进行检查 集成性 :例如,从某个核酸序列出发, 通过交叉索引,可进一步得到对应的基因 、蛋白质序列、蛋白质结构,得到蛋白质 功能的信息。 4) 数据质量 必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且 关注数据库用户和专家提出的意见。 (5) 集成性 三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用 户来说是非常重要的。对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联 系起来, 这样可以从某些分子数据出发得到一系列的相关信息。 例如, 从某个核酸序列出发, 通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能 的信息。 分子生物学研究领域虽各有重点, 但是研究对象之间存在着密切的联系, 比如 DNA 序列与蛋白 质序列之间的联系,基因调控信息与基因表达数据之间的联系。因而实验数据之间就必然存在着关 联,一个方面的相关数据可能会影响或促进另一个方面的研究工作。现有的各类数据库已经成为分 子生物学各方面交叉研究的桥梁。 一般而言,生物分子数据库可以分为一级数据库和二级数据库。

7 2、生物分子数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释
一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

8 一级数据库 基本数据库、初始数据库 数据库管理系统 大型计算机服务器 Oracle/sybase 大容量磁盘空间
来自X-衍射和核磁共振结构测定 DNA序列 来自序列测定 序列数据库 结构数据库 蛋白质结构 蛋白质序列 基因组数据库 来自基因组作图 人类基因组以及 其它生物基因组 数据库管理系统 Oracle/sybase 大型计算机服务器 大容量磁盘空间

9 专门数据库、专业数据库、专用数据库、复合数据库
二次数据库 文献数据库 专家 序列数据库 结构数据库 根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,是数据库开发的有效途径。 也称专门数据库、专业数据库、专用数据库、复合数据库 基因组数据库

10 特点比较 一级数据库的数据量大,更新速度快,用户面 广,通常需要高性能的计算机硬件、大容量的 磁盘空间和专门的数据库管理系统支撑。
二级数据库的容量则要小得多,更新速度也不 象一次数据库那样快,也可以不用大型商业数 据库软件支撑。

11

12 生物信息数据库分类 常用的数据库分类类型 序列数据库 结构数据库 以上述数据库和文献资料为基础构建的二次数据库 基因组 核酸和蛋白质 核酸
分生物信息数据库种类繁多----- 基因组数据库 一级结构序列数据库(核酸和蛋白质) 生物大分子三维空间结构数据库(蛋白质) 二次数据库以上述三类数据库和文献资料为基础构建的 “”

13 序列数据库——基因组 基因组数据库是分子生物信息数据库的重要组成部分,主要包括人、模式生物、微生物、细胞器、植物和病毒等。 UCSC
NCBI的genome Ensembl

14 UCSC Genome Browser http://genome.ucsc.edu
UCSC Genome Browser是由加州大学圣克鲁斯分校(University of California Santa Cruz ,UCSC) 创立和维护的,是基因组数据收集、整理、检索、可视化和辅助研究的重要工具。

15 UCSC-GDB---人类基因组数据库 UCSC可以在一个窗口内显示所有与某一基因组区域相关的信息:
基因定位和序列信息、已知基因和预测基因、表型和文献支持、EST、mRNA、调控(CpG岛)、比较基因组信息、序列变异(SNP)、基因组重复元件等。

16 NCBI http://www.ncbi.nlm.nih.gov/genome
Genome Contains sequence and map data from the whole genomes of over 1000 organisms. The genomes represent both completely sequenced organisms and those for which sequencing is in progress. All three main domains of life (bacteria, archaea, and eukaryota) are represented, as well as many viruses, phages, viroids, plasmids, and organelles. 基因组 包含超过1000个有机体的整个基因组的序列和地图数据。的基因组代表两个完全测序的生物体和那些的测序正在进行中。所有三个主要领域的生活(细菌,古菌和真核生物)表示,以及作为许多病毒,噬菌体,类病毒,质粒,和细胞器。

17 Ensembl Genome Browser http://www.ensembl.org/index.html
Ensembl 是一项生物信息学研究计划,旨在开发一种能够对真核生物基因组进行自动诠释(automatic annotation)并加以维护的软件。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室(EMBL)所属分部欧洲生物信息学研究( EBI)所共同协作运营 Ensembl 是一项生物信息学研究计划,旨在开发一种能够对真核生物基因组进行自动诠释(automatic annotation)并加以维护的软件。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室所属分部欧洲生物信息学研究所共同协作运营。 软件及数据 该计划开放所有源信息,所有由该计划所产生的数据及软件都可以免费及自由地从网络上获取并使用。 该计划所开发并使用的大部分软件是用Perl语言编写的,并基于BiopPerl的基础框架。其他基因组计划亦可轻易使用Perl语言的应用程序接口(Application programming interface,API)。

18 生物信息数据库分类 常用的数据库分类类型 序列数据库 结构数据库 以上述数据库和文献资料为基础构建的二次数据库 基因组 核酸和蛋白质 核酸

19 1. 序列数据库(核酸和蛋白质) 核酸序列数据库 蛋白质序列数据库 UniProt GENBANK PIR EMBL SWISS-PROT
DDBJ 蛋白质序列数据库 PIR SWISS-PROT TrEMBL UniProt 1982: GenBank第3版本正式发行; 1983: 数据库相似序列搜索算法; 1986: 日本核酸序列数据库DDBJ诞生; 1986: 蛋白质数据库SWISS-PROT诞生; 1988: 美国国家生物技术信息中心NCBI诞生; 1988: 成立欧洲分子生物学网络(EMBNet),EMBL数据库诞生; ExPasy 是个数据库的集合,主要专注的领域是蛋白质分子和蛋白质组学.Swiss-Prot知识库是一个经过人工验证的蛋白质序列数据库.致力于提供高质量的注释,最少的冗余,以及和其他数据库的高度集成.TrEMBL是对Swiss-Prot的补充,EMBL中没集成进Swiss-Prot数据库的所有序列都经过计算机进行注释并集成进TrEMBL.Swiss-Prot和TrEMBL由SIB(瑞士生物信息学研究所)和EBI(欧洲分子生物学研究所)共同维护.目前,Swiss-Prot,TrEMBL和PIR数据库已经联合起来组成了Universal Protein Knowledgebase(UniProt)联

20 三大 基 因 数 据 库 http://www.ebi.ac.uk/ Genbank EMBL核酸序列数据库 DDBJ数据库
包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。 NCBI建立和维护的,查询检索是Entrez检索系统。 EMBL核酸序列数据库 由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过网上的序列提取系统(SRS)服务完成。 DDBJ数据库 日本DNA数据库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。

21 GenBank Home

22 EMBL

23 DDBJ

24 1. 序列数据库(核酸和蛋白质) 核酸序列数据库 蛋白质序列数据库 UniProt GENBANK PIR EMBL SWISS-PROT
DDBJ 蛋白质序列数据库 PIR SWISS-PROT TrEMBL UniProt

25 PIR http://pir.georgetown.edu/
60年代“蛋白质信息资源”(Protein Information Resource,简称PIR)雏形产生 History The Protein Information Resource (PIR) is an integrated public bioinformatics resource to support genomic, proteomic and systems biology research and scientific studies (Wu et al., 2003). PIR was established in 1984 by the National Biomedical Research Foundation (NBRF) as a resource to assist researchers in the identification and interpretation of protein sequence information. Prior to that, the NBRF compiled the first comprehensive collection of macromolecular sequences in the Atlas of Protein Sequence and Structure, published from under the editorship of Margaret O. Dayhoff. Dr. Dayhoff and her research group pioneered in the development of computer methods for the comparison of protein sequences, for the detection of distantly related sequences and duplications within sequences, and for the inference of evolutionary histories from alignments of protein sequences. Dr. Winona Barker and Dr. Robert Ledley assumed leadership of the project after the untimely death of Dr. Dayhoff in In 1999 Dr. Cathy H. Wu joined NBRF, and later on Georgetown University Medical Center (GUMC), to head the bioinformatics efforts of PIR, and has served first as Principal Investigator and, since 2001, as Director. For over four decades, beginning with the Atlas of Protein Sequence and Structure, PIR has provided protein databases and analysis tools freely accessible to the scientific community including the Protein Sequence Database (PSD). In 2002 PIR, along with its international partners, EBI (European Bioinformatics Institute) and SIB (Swiss Institute of Bioinformatics), were awarded a grant from NIH to create UniProt, a single worldwide database of protein sequence and function, by unifying the PIR-PSD, Swiss-Prot, and TrEMBL databases. In 2009 Dr. Wu accepted the Edward G. Jefferson Chair of Bioinformatics and Computational Biology at the University of Delaware (UD). Today, PIR maintains staff at UD and GUMC and continues to offer world leading resources to assist with proteomic and genomic data integration and the propagation and standardization of protein annotation. 蛋白质信息资源( PIR)是一家综合性的公共生物信息学资源,以支持基因组学,蛋白组学和系统生物学研究和科学研究( Wu等, 2003 ) 。 PIR成立于1984年,由国家生物医学研究基金会( NBRF )作为一种资源来协助研究人员在蛋白质序列信息的识别和解释。在此之前,该NBRF编译大分子序列的第一个全面收集在蛋白质序列和结构的地图集,玛格丽特澳Dayhoff的编辑工作从下发布的 。 Dayhoff博士和她的研究小组率先在计算机方法蛋白质序列的比较发展,对序列中关系较远的序列和重复的检测,并从蛋白质序列比对进化历史的推断。 薇诺娜·巴克博士和罗伯特·莱德利博士Dayhoff博士于1983年英年早逝后,假设该项目的领导。 1999年,凯蒂H.吴博士加入NBRF ,后来就乔治敦大学医学中心( GUMC ) ,头PIR的生物信息学的努力,并先后担任首席研究员,并自2001年以来,为董事。 在过去的四十年中,与蛋白质序列和结构的阿特拉斯开始, PIR提供了蛋白质数据库和分析工具免费向科学界,包括蛋白质序列数据库( PSD) 。 2002年PIR ,随着其国际合作伙伴, EBI (欧洲生物信息研究所)和SIB (瑞士生物信息研究所) ,被授予赠款来自美国国立卫生研究院建立的UniProt蛋白质序列和功能的单一全球数据库,通过统一的PIR- PSD , SWISS-PROT ,和TrEMBL数据库。 2009年吴博士接受生物信息学和计算生物学在特拉华大学( UD )的爱德华G.杰斐逊讲座。 今天, PIR在UD和GUMC维护人员,并继续提供全球领先的资源,以协助蛋白质组学和基因组数据集成和蛋白质注释的传播和标准化。 1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。 1988年,美国的NBRF、日本的国际蛋白质信息数据库JIPID和德国的慕尼黑蛋白质序列信息中心MIPS合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR。 60年代“蛋白质信息资源”(PIR)雏形产生,1984年诞生。1988年,美国的NBRF、日本的国际蛋白质信息数据库JIPID和德国的慕尼黑蛋白质序列信息中心MIPS合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR。

26 SwissProt ExPasy 是个数据库的集合,主要专注的领域是蛋白质分子和蛋白质组学.Swiss-Prot知识库是一个经过人工验证的蛋白质序列数据库.致力于提供高质量的注释,最少的冗余,以及和其他数据库的高度集成.TrEMBL是对Swiss-Prot的补充,EMBL中没集成进Swiss-Prot数据库的所有序列都经过计算机进行注释并集成进TrEMBL.Swiss-Prot和TrEMBL由SIB(瑞士生物信息学研究所)和EBI(欧洲分子生物学研究所)共同维护.目前,Swiss-Prot,TrEMBL和PIR数据库已经联合起来组成了Universal Protein Knowledgebase(UniProt)联 SwissProt数据库由瑞士日内瓦大学于1986年创建,由瑞士生物信息学研究所SIB和欧洲生物信息学研究所 EBI共同维护和管理。

27 Universal Protein Resource
UniProt Universal Protein Resource 蛋白质序列数据库 UniProt is a comprehensive resource for protein sequence and annotation data. EMBL-EBI and SIB together used to produce Swiss-Prot and TrEMBL, while PIR produced the Protein Sequence Database (PIR-PSD). UniProt is a collaboration between the European Bioinformatics Institute (EMBL- EBI), the Swiss Institute of Bioinformatics (SIB) and the Protein Information Resource (PIR). (2002) The Universal Protein Resource (UniProt) is a comprehensive resource for protein sequence and annotation data. The UniProt databases are the UniProt Knowledgebase (UniProtKB), the UniProt Reference Clusters (UniRef), and the UniProt Archive (UniParc). The UniProt Metagenomic and Environmental Sequences (UniMES) database is a repository specifically developed for metagenomic and environmental data. 通用蛋白质资源(的UniProt )是蛋白质序列和注释数据的综合资源。所述的UniProt数据库是所述的UniProt知识库( UniProtKB ) ,所述的UniProt参考集群( UniRef )和的UniProt档案( UniParc ) 。在宏基因组的UniProt和环境序列( UniMES )数据库是专门为宏基因组学和环境数据开发了一个资料库。 UniProt is a collaboration between the European Bioinformatics Institute (EMBL-EBI), the SIB Swiss Institute of Bioinformatics and the Protein Information Resource (PIR). Across the three institutes more than 100 people are involved through different tasks such as database curation, software development and support. 的UniProt是欧洲生物信息研究所( EMBL - EBI ) ,生物信息学的SIB瑞士研究所和蛋白质信息资源( PIR)之间的合作。跨越三个研究所100多人通过不同的任务,如策展的数据库,软件开发和支持参与 EMBL-EBI and SIB together used to produce Swiss-Prot and TrEMBL, while PIR produced the Protein Sequence Database (PIR-PSD). These two data sets coexisted with different protein sequence coverage and annotation priorities. TrEMBL (Translated EMBL Nucleotide Sequence Data Library) was originally created because sequence data was being generated at a pace that exceeded Swiss-Prot's ability to keep up. Meanwhile, PIR maintained the PIR-PSD and related databases, including iProClass, a database of protein sequences and curated families. In 2002 the three institutes decided to pool their resources and expertise and formed the UniProt consortium. 。EMBL - EBI和SIB一起使用,以产生SWISS-PROT和TrEMBL ,而PIR产生的蛋白质序列数据库(PIR - PSD) 。这两个数据集共存与不同的蛋白质序列覆盖率和注释的优先级。 TrEMBL中(翻译EMBL核苷酸序列数据库)最初创建,因为曾经在超出SWISS-PROT的跟上能力的步伐生成的序列数据。同时, PIR保持PIR- PSD和相关数据库,包括iProClass ,蛋白质序列和策划的家庭的一个数据库。在2002年这三个机构决定集中资源和专业知识,形成了财团的UniProt 。

28 UniParc (UniProt Archive)
UniProtKB (UniProt Knowledgebase ) UniParc (UniProt Archive) UniRef (UniProt Reference Clusters) UniMES (UniProt Metagenomic and Environmental Sequences) 是专门为宏基因组学和环境数据开发了一个资料库。 The Universal Protein Resource (UniProt) is a comprehensive resource for protein sequence and annotation data. The UniProt databases are the UniProt Knowledgebase (UniProtKB), the UniProt Reference Clusters (UniRef), and the UniProt Archive (UniParc). The UniProt Metagenomic and Environmental Sequences (UniMES) database is a repository specifically developed for metagenomic and environmental data. 通用蛋白质资源(的UniProt )是蛋白质序列和注释数据的综合资源。所述的UniProt数据库是所述的UniProt知识库( UniProtKB ) ,所述的UniProt参考集群( UniRef )和的UniProt档案( UniParc ) 。在宏基因组的UniProt和环境序列( UniMES )数据库是专门为宏基因组学和环境数据开发了一个资料库。 UniProt is a collaboration between the European Bioinformatics Institute (EMBL-EBI), the SIB Swiss Institute of Bioinformatics and the Protein Information Resource (PIR). Across the three institutes more than 100 people are involved through different tasks such as database curation, software development and support. 的UniProt是欧洲生物信息研究所( EMBL - EBI ) ,生物信息学的SIB瑞士研究所和蛋白质信息资源( PIR)之间的合作。跨越三个研究所100多人通过不同的任务,如策展的数据库,软件开发和支持参与 EMBL-EBI and SIB together used to produce Swiss-Prot and TrEMBL, while PIR produced the Protein Sequence Database (PIR-PSD). These two data sets coexisted with different protein sequence coverage and annotation priorities. TrEMBL (Translated EMBL Nucleotide Sequence Data Library) was originally created because sequence data was being generated at a pace that exceeded Swiss-Prot's ability to keep up. Meanwhile, PIR maintained the PIR-PSD and related databases, including iProClass, a database of protein sequences and curated families. In 2002 the three institutes decided to pool their resources and expertise and formed the UniProt consortium. 。EMBL - EBI和SIB一起使用,以产生SWISS-PROT和TrEMBL ,而PIR产生的蛋白质序列数据库(PIR - PSD) 。这两个数据集共存与不同的蛋白质序列覆盖率和注释的优先级。 TrEMBL中(翻译EMBL核苷酸序列数据库)最初创建,因为曾经在超出SWISS-PROT的跟上能力的步伐生成的序列数据。同时, PIR保持PIR- PSD和相关数据库,包括iProClass ,蛋白质序列和策划的家庭的一个数据库。在2002年这三个机构决定集中资源和专业知识,形成了财团的UniProt 。

29 UniProtKB (UniProt Knowledgebase )
UniProtKB/Swiss-Prot :包含检查过 的、手工注释的条目 UniProtKB/TrEMBL :包含未校验 的、自动注释的条目 UniProtKB/Swiss-Prot 高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。有质量保证的数据才被加入该数据库! UniProtKB/TrEMBL 该数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。他能注释所有可用的蛋白序列。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。

30 UniParc (UniProt Archive)
每条序列提供稳定的、唯一的编号 UPI。 只有蛋白质的序列信息,而没有注释 数据。 UniParc是一个综合性的非冗余数据库,他包含了所有主要的、公开的数据库的蛋白质序列。 由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniParc对每条唯一的序列只存一次!无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。该数据库值含有蛋白质的序列信息,而没有注释数据。

31 UniRef (UniProt Reference Clusters)
UniRef 根据蛋白质序列在不同物种中的序列相似性进行分簇(cluster),它包括三个子库:UniRef100、UniRef90和UniRef50,分别表示跨物种100%、90%和50%以上相似性的蛋白质序列集合。这三个数据库的数据量分别减少10%40%和70%。 Uniprot参考资料库,是全球蛋白资源数据库UniProt的组成部分。 UniProt参考资料库可以通过序列同一性对最相近的序列进行回并,加快搜索速度。 UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总,还从UniParc中选取了一些数据以求能完整的、没有遗漏的收录所有数据,同时也保证没有冗余数据,该数据库的同一性(identity)分为三个级别:100%、90%和50%。 UniRef里的数据是按照级别来分类的,在UniRef数据库的每一个同一性级别中,每一条序列只会属于其中的一个聚类,这条序列在其它的同一性级别中也只会有一条父集(parent cluster)序列和子集(child cluster)序列。UniRef100数据库将相同的序列数据和亚片断数据整合在一起,使用一个检索进口进行检索。 UniRef90数据库建立在UniRef100数据库的基础之上,而UniRef50数据库又是以UniRef90为基础。UniRef100、UniRef90和UniRef50这三个数据库的数据量分别减少10%、40%和70%。每一个聚类记录都包含下列信息:数据来源、蛋白质名称、分类学信息(但只会举一个蛋白质为代表)、聚类下条目数等。UniRef100是目前最全面的非冗余蛋白质序列数据库。UniRef90和UniRef50数据量有所减少是为了能更快地进行序列相似性搜索以减少结果的误差。UniRef现在已广泛用于自动基因组注释、蛋白质家族分类、系统生物学、结构基因组学、系统发生分析、质谱分析等各个研究领域。UniRef中的聚类信息是会随着UniProtKB的更新而同步更新的。

32

33 生物信息数据库分类 常用的数据库分类类型 序列数据库 结构数据库 功能数据库 其他专业数据库 基因组 核酸和蛋白质 核酸 蛋白质
分生物信息数据库种类繁多----- 基因组数据库 一级结构序列数据库(核酸和蛋白质) 生物大分子三维空间结构数据库(蛋白质) 二次数据库以上述三类数据库和文献资料为基础构建的 “”

34 结构数据库——核酸 NDB:核酸结构数据库 Rfam:一个RNA家族数据库 http://rfam.sanger.ac.uk/
Rfam:一个RNA家族数据库

35 结构数据库——蛋白质 蛋白质结构数据库 PDB (美国) 蛋白质结构分类数据库 SCOP (英国) CATH (英国) NCBI 分子模型数据库 MMDB 蛋白质结构分类是蛋白质结构研究的一个重要方向。蛋白质结构分类数据库,是三维结构数据库的重要组成部分。蛋白质结构分类可以包括不同层次,如折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构等。已经上网的蛋白质分类数据库很多,此处简单介绍两个主要的蛋白质结构分类数据库SCOP和CATH。

36 PDB(protein data bank)
目前最主要的蛋白质分子结构数据库;PDB 通过X射线晶体衍射和NMR测定的结构数据 1970年代建立,美国Brookhaven国家实验室 维护管理;1988年,由美国RCSB(research collaboratory for structural biology)管理; 以文本格式存放数据,包括原子坐标、物种 来源、测定方法、提交者信息、一级结构、 二级结构等; 早在序列数据库诞生之前的70年代,蛋白质结构数据库(Protein Data Bank,简称PDB)就已经问世。PDB数据库原来由美国Brookhaven国家实验室负责维护和管理。为适应结构基因组和生物信息学研究的需要,1998年,由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物学合作研究协会(Research Collaboratory for Structural Bioinformatics,简称RCSB)。PDB数据库改由RCSB管理[Berman HM,2000],目前主要成员为Rutger大学、圣地亚哥超级计算中心(San Diego Supercomputer Center,简称SDSC)和国家标准化研究所(National Institutes of Standards and Technology,简称NIST)。和核酸序列数据库一样,可以通过网络直接向PDB数据库递交数据。 PDB是目前最主要的蛋白质分子结构数据库。随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。90 年代以来,多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计,PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽和病毒,共1万多套。此外,还有核酸、蛋白和核酸复合物以及少量多糖分子。近年来,核酸三维结构测定进展迅速,PDB数据库中已经收集了800多套核酸结构数据。 PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。除了原子坐标外,还包括物种来源、化合物名称、结构递交着以及有关文献等基本注释信息。此外,还给出分辨率、结构因子,温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。PDB数据库以文本文件格式存放,可以用文字编辑软件查看。显然,用文字编辑软件查看注释信息不太方便,更无法直观地了解分子的空间结构。RCSB开发的基于Web的PDB数据库概要显示系统,只列出主要信息。用户如须进一步了解详细信息,或查询其它蛋白质结构信息资源,可点击该页面左侧窗口中的按钮。此外,英国伦敦大学开发的PDBsum数据库[Laskowski等, 1997]是基于网络的PDB注释信息综合数据库,用于对PDB数据库的检索,使用十分方便。并将RasMol、CN3D等分子图形软件综合在一起,同时具有分析和图形显示功能。 必须指出的是,与EMBL和PIR等序列数据库一样,结构数据库PDB也属于一次数据库,其中包括许多冗余的数据,乃至错误。PDBCheck合作研究组对PDB数据库进行了全面的检验,并把结果存放在PDBReport数据库中,用户在使用PDB数据库中的某个文件时,可先查阅该数据库。

37 SCOP(Structural Classification Of Proteins)
偏重于进化角度分类。 SCOP分类数据库 蛋白质结构分类数据库SCOP(Structural Classification Of Proteins)是由英国医学研究委员会(Medical Research Council,简称MRC)的分子生物学实验室和蛋白质工程研究中心开发和维护。该数据库对已知三维结构的蛋白质进行分类,并描述了它们之间的结构和进化关系(Murzin等, 1995)。鉴于目前结构自动比较程序尚不能可靠地鉴别所有的结构和进化关系,SCOP数据库的构建除了使用计算机程序外,主要依赖于人工验证。由于蛋白质结构种类繁多,大小不一,有的只有一个结构域,有的则有许多结构域组成,构建结构分类数据库是一项十分复杂的工作。对于某些蛋白质,有时需要同时从单个结构域和多个结构域水平加以考虑。 SCOP数据库从不同层次对蛋白质结构进行分类,以反映它们结构和进化的相关性。可以把蛋白质分成许多层次,但通常将它们分成家族,超家族和折叠类型。当然,不同层次之间的界限并不十分严格,但通常层次越高,越能清晰地反映结构的相似性。 家族 SCOP数据库的第一个分类层次为家族,其依据为序列相似性程度。通常将相似性程度在30%以上的蛋白质归入同一家族,即它们之间有比较明确的进化关系。当然这一指标也并非绝对。某些情况下,尽管序列的相似性低于这一标准,例如某些球蛋白家族的序列相似性只有15%,也可以从结构和功能相似性推断它们来自共同祖先。 超家族:如果序列相似性较低,但其结构和功能特性表明它们有共同的进化起源,则将其视作超家族。 折叠类型:无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。

38 CATH CATH是另一个著名的蛋白质结构分类数据库,其含 义为类型(Class)、构架(Architecture)、拓扑结构 (Topology)和同源性(Homology),它由英国伦敦 大学UCL开发和维护。既使用计算机程序,也进行 人工检查。 CATH数据库的分类基础是蛋白质结构域。 将蛋白 质分为主类、 主类、 -类、低二级结构类 偏重于结构角度分类 CATH蛋白质结构分类数据库 CATH是另一个著名的蛋白质结构分类数据库,其含义为类型(Class)、构架(Architecture)、拓扑结构(Topology)和同源性(Homology),它由英国伦敦大学UCL开发和维护(Orengo等,1997)。与SCOP数据库一样,CATH数据库的构建既使用计算机程序,也进行人工检查。CATH数据库的分类基础是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即a主类、b主类,a-b类(a/b型和a+b型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。CATH数据库的第二个分类依据为由α螺旋和β折叠形成的超二级结构排列方式,而不考虑它们之间的连接关系。形象地说来,就是蛋白质分子的构架,如同建筑物的立柱、横梁等主要部件,这一层次的分类主要依靠人工方法。第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系。第四个层次为结构的同源性,它是先通过序列比较然后再用结构比较来确定的。CATH数据库的最后一个层次为序列(Sequence)层次,在这一层次上,只要结构域中的序列同源性大于35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。 CATH数据库可以通过UCL的生物分子结构和模拟实验室的网络服务器来查询。通过UCL生物分子结构和模拟实验室的网络服务器还可以查询PDB数据库PDBsum(Laskowski等,1997)数据库包含了重要的结构信息,由UCL维护。PDBsum数据库提供对PDB数据库中所有结构信息的总结和分析。每个总结给出了与PDB库中条目相关的简要信息,如分辨率、R因子,蛋白质主链数目,配体,金属离子,二级结构,折叠图和配体相互作用等。这不但对了解PDB数据库中包含的结构信息,而且提供了获取一维序列,二维序列模体和三维结构信息的统一的用户界面。随着计算机图形技术的发展,这种图文并茂的网络资源会越来越多,新一代的计算机软件可以使用户更方便地利用这些信息资源。

39 MMDB(Molecular Modeling Database )
一个关于三维生物分子结构的数据库,结 构来自于X-ray晶体衍射和NMR色谱分析。 MMDB是来源于PDB三维结构的一部分,排 除了那些理论模型。MMDB重新组织和验证 了这些信息,从而保证在化学和大分子三 维结构之间的交叉参考。 数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。利用将化学,序列,和结构信息整合在一起,MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。

40 生物信息数据库分类 常用的数据库分类类型 序列数据库 结构数据库 以上述数据库和文献资料为基础构建的二次数据库 基因组 核酸和蛋白质 核酸
分生物信息数据库种类繁多----- 基因组数据库 一级结构序列数据库(核酸和蛋白质) 生物大分子三维空间结构数据库(蛋白质) 二次数据库以上述三类数据库和文献资料为基础构建的 “”

41 功能数据库 组织表达谱和亚细胞定位 蛋白翻译后修饰 蛋白质相互作用 代谢网络和信号途径
GEO Profiles UniGene Stanford Microarray Database PSORTdb 蛋白翻译后修饰 dbPTM 蛋白质相互作用 DIP IntAct 代谢网络和信号途径 KEGG

42 其他专业数据库 基因调控转录因子数据库TransFac 真核生物启动子数据库EPD 克隆载体数据库Vector 密码子使用表数据库CUTG
miRNA数据库 mirbase 蛋白质功能位点数据库Prosite 蛋白质功能位点序列片段数据库Prints 同源蛋白家族数据库Pfam 同源蛋白结构域数据库Blocks

43 三、数据库专业组织 生物数据库已成为生物信息学重要的工作平台 由世界上知名的生物信息机构组织维护和开发
The KEGG resource for deciphering the genome . KEGG(京都基因与基因组百科全书)是基因组破译方面的数据库。在后基因时代一个重大挑战是如何使细胞和有机体在计算机上完整的表达和演绎,让计算机利用基因信息对更高层次和更复杂细胞活动和生物体行为作出计算推测。为达到此目的,人们建立了一个在相关知识基础上的网络推测计算工具。在给出染色体中一套完整的基因的情况下,它可以对蛋白质交互(互动)网络在各种细胞活动起的作用作出预测。 KEGG 的PATHWAY 数据库整合当前在分子互动网络(比如通道,联合体)的知识,KEGG 的GENES/SSDB/KO 数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识,KEGG 的COMPOUND/GLYCAN/REACTION数据库提供生化复合物及反应方面的知识。

44 国际著名的生物信息中心 NCBI National Center for Biotechnology Information (US)
EBI European Bioinformatics Institute (EU) ExPASy Expert of Protein Analysis System (Switzerland SIB维护)   HGMP Human Genome Mapping Project Resource Centre (UK ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS National Genome Information Service (Australia)  NIG National Institute of Genetics (Japan) BIC National Bioinformatics Centre (Singapore) ExPasy 是个数据库的集合,主要专注的领域是蛋白质分子和蛋白质组学.Swiss-Prot知识库是一个经过人工验证的蛋白质序列数据库.致力于提供高质量的注释,最少的冗余,以及和其他数据库的高度集成.TrEMBL是对Swiss-Prot的补充,EMBL中没集成进Swiss-Prot数据库的所有序列都经过计算机进行注释并集成进TrEMBL.Swiss-Prot和TrEMBL由SIB(瑞士生物信息学研究所)和EBI(欧洲分子生物学研究所)共同维护.目前,Swiss-Prot,TrEMBL和PIR数据库已经联合起来组成了Universal Protein Knowledgebase(UniProt)联盟

45 国内部分生物信息学服务器 北京大学生物信息中心 http://www.cbi.pku.edu.cn
中国生物信息 天津大学生物信息中心 中科院计算所智能信息处理重点实验室生物信息学研究组 中国科学院基因组信息学中心 (华大基因)

46

47

48 四、全球生物数据库概览 核酸研究(Nucleic Acids Research) 2013年1512个生物数据库

49

50


Download ppt "生物信息学 Bioinformatics 丁乃峥 山东师范大学生命科学学院"

Similar presentations


Ads by Google