生物信息学数据库 核酸序列数据库 蛋白质序列数据库 蛋白质结构数据库 基因组数据库 生物信息学数据库的分类.

Slides:



Advertisements
Similar presentations
第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
Advertisements

联系电话: 联 系 人:李爱玲 中国人文社会科学文献(CASHL)传递 联系电话: 联 系 人:李爱玲
第十七章 基因组学与医学 GENOMICS AND MEDICINE 刘新文 北京大学医学部生化与分子生物学系.
一次数据库的查寻.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
龙星课程—肿瘤生物信息学上机课程 曹莎
6 Copyright © Oracle Corporation, All rights reserved. 维护控制文件.
PubMed 检索教程.
分 子 生 物 学 任课教师:宋方洲 马永平 易发平 刘智敏 卜友泉 基础医学院生物化学与分子生物学教研室.
彻底搞清楚promoter, exon, intron, and UTR
基因的表达 凌通课件.
生物信息学 艾对元: QQ:
Oracle数据库 Oracle 子程序.
在PHP和MYSQL中实现完美的中文显示
實驗動物技術應用(一) 基因改造-技術原理
生物信息学 第三章 基因组学与序列分析 张高川 生物信息学教研室 (Department of Bioinformatics)
Hadoop I/O By ShiChaojie.
5、利用EST数据库发现新基因 EST (expressed sequence tags),是从基因表达的短的序列,携带着完整基因某些片断的信息,称为表达序列标签 获得一个EST的途径有三种:1 大规模测序;2 比较同源性;3 差异显示或基因芯片法获得与某一性状相关的EST 电脑克隆 第一步,找到与待克隆基因相关的EST;第二步.
SVN的基本概念 柳峰
电 子 克 隆.
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
GenBank数据库检索及其应用 ——Entrez检索功能
管理信息结构SMI.
走进编程 程序的顺序结构(二).
GenBank数据库检索及其应用 ——Entrez检索功能
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
数据挖掘工具性能比较.
ScienceDirect高级检索功能及使用视频、说明发现路径
第8章 遗传密码 8.1 遗传密码的基本特性.
第十一章 动物基因组学 (Animal Genomics).
给最伟大的爱 母亲的爱.
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
Unit 11.Operating System 11.1 What’s OS 11.2 Related Courses
程序设计工具实习 Software Program Tool
SOA – Experiment 2: Query Classification Web Service
ScienceDirect高级检索功能及使用视频、说明发现路径
第二节、真核生物基因结构及功能 一、基因的概念 基因的概念随着分子遗传学、分子生物学、生物化学领域的进展而不断完善。 从遗传学角度看:
GenBank数据库检索及其应用 ——Entrez检索功能
C语言程序设计 主讲教师:陆幼利.
新PQDT论文全文库提交平台.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
ASP New and other UIs: Medical Videos Searchasaurus
2019/4/16 关注NE官方微信,获取更多服务.
VB与Access数据库的连接.
第二节 DNA分子的结构.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
超越自然还是带来毁灭 “人造生命”令全世界不安
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
项目二:HTML语言基础.
Web安全基础教程
Interactome data and databases: different types of protein interaction
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
Visual Basic程序设计 第13章 访问数据库
H基因库(重链基因连锁群): --- 第14号染色体 κ基因库(κ链基因连锁群): --- 第2号染色体 λ基因库(λ链基因连锁群):
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
基因组学        第一节 基因组结构特征      第二节    DNA分子标记及其应用 第三节 基因组图谱的构建及应用 第四节   后基因组学.
Python 环境搭建 基于Anaconda和VSCode.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
基于列存储的RDF数据管理 朱敏
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
基因信息的传递.
第三节 转录后修饰.
细胞分裂 有丝分裂.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

生物信息学数据库 核酸序列数据库 蛋白质序列数据库 蛋白质结构数据库 基因组数据库 生物信息学数据库的分类

生物信息学数据库 欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de 美国生物技术信息中心的GenBank http://www.ncbi.nlm.nih.gov/Genbank/  日本国立遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/searches-e.html 核酸序列数据库

GenBank数据库结构 作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。 DDBJ数据库的内容和格式与GenBank相同,此处不作详细介绍。 分别介绍EMBL和GenBank的数据库结构

GenBank数据库数据注释 (www.ncbi.nlm.nih.gov/genbank/ ) 序列文件:注释内容——文章 索引文件:检索目录——文摘

GenBank数据库结构 完整的 GenBank数据库包括序列文件,索引文件以及其它有关文件。 索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。 GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库 数据格式为FastA。

(www.ncbi.nlm.nih.gov/genbank/ GenBank数据库结构 GenBank中最常用的是序列文件。 序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。 生物信息资源中心通过计算机网络提供该数据库文件。 注释条目:文章的格式 (www.ncbi.nlm.nih.gov/genbank/

Genbank

Genbank 查找页面

D31716 描述部分

CD s编码序列,含终止密码子 polyA_signal 多聚A信号 CDs are recurring units in polypeptide chains (sequence and structure motifs), the extents of which can be determined by comparative analysis. Molecular evolution uses such domains as building blocks and these may be recombined in different arrangements to make different proteins with different functions. CD s编码序列,含终止密码子 polyA_signal 多聚A信号

CDs are recurring units in polypeptide chains 特性表 关键字 CDs are recurring units in polypeptide chains 序列本身

D31716 序列本身

序列结束 4859 bp

D31716

GenBank数据记录

GenBank数据记录

GenBank数据库结构 GenBank序列文件由单个的序列条目组成。 序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。 字段分若干次子字段,以次关键字或特性表说明符开始。 每个序列条目以双斜杠“//”作结束标记

GenBank数据库结构 序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。 每个字段可占一行,也可以占若干行。 若一行中写不下时,继续行以空格开始

GenBank数据库 物种:GenBank 库里的数据按来源于大约100,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列) 记录:每条GenBank数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及序列本身

GenBank数据库 序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等 分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被分成若干文件

注释内容 序列条目关键字: 新版的核酸序列数据库将引入新的关键词SV (序列版本号),用“编号.版本号”表示,并取代关键词NID LOCUS (代码), DEFINITION (说明), ACCESSION(编号), NID符(核酸标识), KEYWORDS (关键词), SOURCE (数据来源), REFERENCE (文献), FEATURES (特性表), BASE COUNT (碱基组成) ORIGIN (碱基排列顺序)。 新版的核酸序列数据库将引入新的关键词SV (序列版本号),用“编号.版本号”表示,并取代关键词NID

LOCUS LOCUS (代码):是该序列条目的标记,或者说标识符, 说明字段是有关这一序列的简单描述 蕴涵这个序列的功能:如HUMCYCLOX表示人的环氧化酶。 序列长度 类型 种属来源 录入日期等 说明字段是有关这一序列的简单描述

ACCESSION ACCESSION (编号):具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。

KEYWORDS KEYWORDS (关键词)字段:由该序列的提交者提供,包括 该序列的基因产物 其它相关信息

SOURCE SOURCE (数据来源)字段:说明该序列是从什么生物体、什么组织得到的 次关键字ORGANISM (种属):指出该生物体的分类学地位

REFERENCE REFERENCE(文献)字段:说明该序列中的相关文献,包括 AUTHORS (作者), TITLE (题目)及 JOURNAL(杂志名)等, 以次关键词列出。 MEDLINE的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。 一个序列可有多篇文献,以不同序号表示,并给出该序列中哪一部分与文献有关。

FEATURES FEATURES (特性表):具有特定的格式,用来详细描述序列特性。 特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如分类数据库(taxon 9606), 以及蛋白质序列数据库(PID:g181254)。 序列中各部分的位置都在表中标明,5’非编码区,编码区,3’非编码区,多聚腺苷酸重复区域等。 翻译所得信号肽以及最终蛋白质产物 碱基含量字段,给出序列中的碱组成

ORIGIN ORIGIN行是序列的引导行 下面便是碱基序列 以双斜杠行“//”结束。

GenBank数据库—数据库格式 FASTA格式 >gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT …… (该序列没有完全列出)

GenBank数据库—数据库格式(1) FASTA格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。 大于号(>)表示一个新文件的开始 结束用(//) FASTA格式并没有什么特殊的要求。

FASTA格式序列的提交

GenBank数据库—数据库格式(1) FASTA格式特点: FASTA格式在许多分子生物学软件包中得到广泛应用。 只存储了最少量的信息 它将所存储的信息转化为简单的字符串 人和计算机对其存储的信息都具有极大的可读性 FASTA格式在许多分子生物学软件包中得到广泛应用。

GenBank数据库—数据库格式(2) GenBank纯文本文件格式(GenBank flatfile, GBFF): GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?

GBFF文件格式 GBFF是GenBank数据库的基本信息单位, 是最为广泛使用的生物信息学序列格式之一。

头部 中部 尾部 GENBANK纯文本文件格式 >LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE baker's yeast. ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="AXL2" CDS 687..3158 /note="plasma membrane glycoprotein" /codon_start=1 /function="required for axial budding pattern of S.cerevisiae" /product="Axl2p" /protein_id="AAA98666.1" /db_xref="GI:1293615" /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF …… (有部分序列未列出) VDFSNKSNVNVGQVKDIHGRIPEML" BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc // 头部 中部 尾部 GENBANK纯文本文件格式

GBFF格式 按域(Field)可以划分为三个部分 所有序列数据库记录都在最后一行以“//”结尾。 头部包含整个记录的信息(描述符); 第二部分包含了注释这一记录的特性; 第三部分是核苷酸序列本身。 所有序列数据库记录都在最后一行以“//”结尾。

GBFF格式头部-Locus行 所有的GBFF都起始于LOCUS行: ---------+---------+---------+---------+---------+------- 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999

GBFF格式头部-Locus行 1、LOCUS行: 第一项是LOCUS名称: 最初这一名称是用来表示本记录描述的基因座,以方便检索相似序列: 前三个字母代表特定物种的名称 第四、第五个字母代表如基因产物等特定的类别名称。 如HUMHBB(人-珠蛋白基因区域)。

GBFF格式头部-Locus行 LOCUS这种“十字符”命名方式已经无法满足基因在基因座中所包含的信息。 仅使用检索号码(acession number)以满足对LOCUS名称的要求 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999

GBFF格式头部-Locus行 第二项是序列长度。 GenBank对提交的序列长度没有上限要求。 根据国际序列数据库合作计划的协议,为方便不同的软件处理序列,规定单条数据库记录的长度不能超过350kb。 GenBank已经很少接受长度低于50bp的序列。 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999

GBFF格式头部-Locus行 第三项表明序列的分子类型:其序列必须是一种单一的分子类型。 包括:基因组DNA、RNA、RNA前体、mRNA(cDNA)、tRNA等。 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999

GBFF格式头部-Locus行 第四项是GenBank分类码:由三个字母组成, 分类码将GenBank数据库分为17个分支 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999

GenBank分类码(GenBank Division) 中文名称 符号 primate sequences 灵长类动物序列 PRI rodent sequences 啮齿类动物序列 ROD other mammalian sequences 其它哺乳动物序列 MAM other vertebrate sequencs 其它脊椎动物序列 VRT invertebrate sequences 无脊椎动物序 INV Plants,fungal,and algal sequences 植物、真菌和藻类序列 PLN bacterial sequences 细菌序列 BCT viral sequences 病毒序列 VRL bacteriophage sequences 噬菌体序列 PHG synthetic sequences 人工合成序列 SYN unanntotated sequences 未注释序列 UNA EST sequences 表达序列标签 EST patent sequences 专利序列 PAT STS sequences 序列标记位点 STS genome survey sequences 基因组测定序列 GSS HTGS sequences 高通量基因组序列 HTG unfinished high-throughput cDNA sequencing 未完成测序的高通量cDNA序列 HTC

GBFF格式头部-Locus行 第五项是最后修订日期。 某些时候,它也是数据第一次被公开的日期。 这项简单的信息并无法对此做出判断。 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999

GBFF格式头部-DEFINITION行 主要对GenBank记录中所含的生物学意义做出总结。 它的说明内容包括来源物种、基因/蛋白质名称; ---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.

GBFF格式头部-DEFINITION行 如果序列是非编码区,则包含对序列功能的简单描述;如果序列是一段编码区,则标明该序列是部分序列(partial cds)还是全序列(complete cds)。 ---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.

GBFF格式头部-ACCESSION行 3、检索号(ACCESSION): 是序列记录的唯一指针。 检索号通常由一个字母加5个数字(U12345)或者由两个字母加6个数字(AF123456)组成。 ---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 ACCESSION U49845 Dear GenBank Submitter: Thank you for your direct submission of sequence data to GenBank. We have provided a GenBank accession number for your nucleotide sequence: bankit660463 AY795899 We strongly recommend that this GenBank accession number appears in any publication that reports or discusses these data, as it gives the community a unique label with which they may retrieve your data from our on-line servers.

GBFF格式头部-ACCESSION行 检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。 第一个检索号为主检索号,而其余的统称为二级检索号。

GBFF格式头部-VERSION行 4、版本号行:它的格式是:检索号.版本号。 版本号于99年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。 在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变 如由U12345.1变为U12345.2。 ---------+---------+---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 70 79 VERSION U49845.1 GI:1293613

GBFF格式头部-VERSION行 版本号系统与跟在其后的GI(GenInfo Identifier)号系统是平行运行 ---------+---------+---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 70 79 VERSION U49845.1 GI:1293613

GBFF格式头部-KEYWORDS行 5、关键词行:是用来描述序列的。如果该行中没有任何内容,那么就只包含一个“.”。 由于没有对照词汇表,所以NCBI GenBank拒绝接受关键词,它只存在于旧的记录中。 ---------+---------+---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 70 79 KEYWORDS .

GBFF格式头部- SOURCE行 6、序列来源行:没有做特殊的规定,它通常包含序列来源生物的简称,有些时候也包含分子类型。 Organism:以NCBI的分类数据库为依据,指明物种的正式科学名称。 ---------+---------+---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 70 79 SOURCE baker's yeast. ORGANISM Saccharomyces cerevisiae Eukaryota(真核); Fungi(真菌); Ascomycota(子囊菌门); Hemiascomycetes(半子囊菌纲); Saccharomycetales; Saccharomycetaceae; Saccharomyces.

GBFF格式头部-REFERENCE行 7、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表的文献列于第一位。 如果序列数据没有被文献报道,该行将显示 “in press”或“unpublished” 如所引用文献存在于MEDLINE数据库中,将出现一个MEDLINE单一指针(unique identifier,UID)以便检索。 ---------+---------+---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 70 79 REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709

GBFF格式头部-REFERENCE行 如果序列是直接提交而未经发表的,就将在标题(TITLE)中注明“直接提交(Direct Submission)” 在期刊(JOURNAL)中注明提交日期,提交者姓名以及提交者的工作单位。 ---------+---------+---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 70 79 REFERENCE   1  (bases 1 to 1939)   AUTHORS   Yi,CAO., Dairong,QIAO., Qinghua,HE. and Shunji,HE.   TITLE     Cloning and expression studies of a cDNA encoding UDP- glucose dehydrogenase from Dunaliella salina JOURNAL   Unpublished

GBFF格式中部 特性表(FEATURES): 它描述基因和基因的产物,以及与序列相关的生物学特性。 特性表提供一个参考词汇表以对合法的特性进行注释 这些特性包括该序列是否执行一个生物学功能; 它是否与一个生物学功能的表达相关; 它是否与其它分子相互作用; 它是否影响一条序列的复制; 它是否与其它序列的重组相关; 它是否是一条已识别的重复序列; 它是否有二级或三级结构; 它是否存在变异或者它是否被修订过。

GBFF格式中部 特性表格式:按表单的方式设计的,包含三个部分: 第一,特性关键词(Feature key); 第二,特性位置(Location); 第三,限定词(Qualifiers)。 FEATURES Location/Qualifiers source 1..5028 /organism=“Saccharomyces cerevisiae”酿酒酵母 /mol_type="genomic DNA"基因组DNA /db_xref="taxon:4932"分类学 /chromosome="IX"染色体 /map="9"

GBFF格式中部-FEATURES 第一,特性关键词(Feature key),是一个简要说明功能组的关键词,允许加入新的或未定义的特性; 第二,特性位置(Location),指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符(Operator)和功能性描述符(Descriptor)以指明序列需经过怎样的处理才能得到相应的特性; 第三,限定词(Qualifiers),相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。

GBFF格式中部-FEATURES 例1 Key Location/Qualifiers CDS 23..400 /product="alcohol dehydrogenase" /gene="adhI" 特性表含义: 该编码序列(CDS)起始于第23碱基,终止于第400碱基 产物是乙醇脱氢酶 基因名称是“adhI”。

GBFF格式中部-FEATURES 例2 Key Location/Qualifiers CDS join(544..589,688..1032) /product="T-cell receptor beta-chain" 特性表含义: 它表示记录中所存储的序列为部分编码序列, 表达产物“T-细胞受体beta链”由序列内两个片段结合生成 指明两个片段在序列中所处的位置。

GBFF格式中部-特性表关键词 1、特性表的关键词:以树型结构生成 misc_feature 生物学特性无法用特性表关键词描述的序列 misc_difference 序列特性无法用特性表关键词描述的序列 conflict 同一序列在不同的研究中在位点或区域上有差异 unsure 序列不能确定的区域 old_sequence 该序列对以前的版本做过修订 variation 包含稳定突变的序列 modified_base 修饰过的核苷酸 gene 已识别为基因或已命名的序列区域 misc_signal 无法用信号特性关键词描述的信号序列 promoter 转录起始区 CAAT_signal 真核启动子上游的CAAT盒,与RNA结合相关 TATA_signal 真核启动子的TATA盒 -35_signal 原核启动子中的-35框 -10_signal 原核启动子Pribow盒 GC_signal 真核启动子的GC盒 RBS 核糖体结合位点 polyA_signal RNA转录本的剪切识别位点 enhancer 增强子 attenuator 与转录终止有关的序列 terminator 转录终止序列 rep_origin 双链DNA复制起始区

GBFF格式中部-特性表关键词 misc_RNA 无法用RNA关键词描述的转录物或RNA产物 prim_transcript 初始转录本 precursor_RNA 前体RNA mRNA 信使RNA 5'clip 前体转录本中被剪切掉的5’端序列 3'clip 前体转录本中被剪切掉的3’端序列 5'UTR 5’非翻译区 3'UTR 3’非翻译区 exon 外显子 CDS 蛋白质编码序列 sig_peptide 编码信号肽的序列 transit_peptide 转运蛋白编码序列 mat_peptide 编码成熟肽的序列 intron 内含子 polyA_site RNA转录本的多聚腺苷酸化位点 rRNA 核糖体RNA tRNA 转运RNA scRNA 小细胞质RNA snRNA 小核RNA snoRNA 加工和修饰rRNA的小核RNA

GBFF格式中部-特性表关键词 immunoglobulin_related C_region 免疫相关蛋白上的稳定区 D_segment 码免疫球蛋白重链的可变区基因之一 J_segment 编码免疫球蛋白轻链和重链的可变区基因之一 N_region 插入重排免疫球蛋白片段间的核苷酸 S_region 免疫球蛋白重链的开关区 V_region 免疫球蛋白轻链和重链的可变区,和T-细胞受体α,β和γ链;编码可变的氨基末端部分;可由V_segment, D_segment, N_region和J_segment组成 V_segment 免疫球蛋白轻链和重链的可变区段,和T -细胞受体α,β和γ链;编码大多数可变区(v_region) 和前导肽的最后几个氨基酸 repeat_region 基因组中所包含的重复序列

GBFF格式中部-特性表关键词 repeat_unit 单个的重复元件 LTR 长末端重复序列 Satellite 卫星重复序列 misc_binding 无法描述的核酸序列结合位点 primer_bind 复制、转录的引物结合位点 protein_bind 蛋白质结合区 STS 测序标签位点 misc_recomb 无法用重组特性关键词描述的重组事件 iDNA 通过重组所消除的DNA misc_structure 无法用结构关键词描述的核酸序列高级结构或构型 stem_loop 发夹结构 D-loop 线粒体中DNA中的取代环

GBFF格式中部-Location 2、特性位置(Location):用来描述在序列中的什么区域能够找到相关的特性,位置特性可以包含Complement、Join、Order等三个操作符(Operator)。 467 指明序列中的单个碱基 340..565 指明包括起始和中止碱基在内的一段连续序列 <345..500 指明序列起始于起始碱基号之前的某个位置,但起始碱基号之前的特性边界未知

GBFF格式中部-Location <1..888 指明特性起始于第一个已测序的碱基之前 <1..888 指明特性起始于第一个已测序的碱基之前 (102.110) 指明正确位置未知,但包含在102和110号碱基之间 (23.45)..600 指明序列特性起始碱基在23和45碱基之间,终止于600号碱基 (122.133)..(204.221) 指明序列特性起始于122和133碱基之间,终止于204和221号碱基之间 123^124 指明123和124号碱基之间的位点,如限制性酶切位点 145^177 指明145和177碱基之间的某个位点

GBFF格式中部-Location join(12..78,134..202) 12至78碱基及134至202碱基之间序列相应连以构成一段连续序列 complement(join(2691..4571,4918..5163)) 纪录中的特性处于2691至4571碱基以及4918至5163碱基之间的序列相连构成的连续序列的互补链上 join(complement(4918..5163),complement(2691..4571)) 将4918至5163碱基之间序列的互补链与2691至4571间序列的互补链结合以构成一段连续序列

GBFF格式中部-Location complement(34..(122.126)) 指明序列特性起始于与122至126碱基之间某个互补的碱基,终止于与34号碱基互补的碱基 J00194:100..202 指明起始于100号碱基,终止于202号碱基的序列在数据库中的主检索号为J00194

GBFF格式中部- Qualifiers 3、限定词(Qualifier): 为进一步说明特性表关键词和特性位置提供的信息给出了一个通用机制。 格式:在“/”后跟上限定词名称,加上“=”,其后是限定词的值 Key Location/Qualifiers CDS 86..742 次黄嘌呤磷酸核糖转移酶 /product="hypoxanthine phosphoribosyltransferase" /label=hprt /note="hprt catalyzes vital steps in the reutilization pathway for purine biosynthesis and its deficiency leads to forms of ""gouty"" arthritis" rep_origin 234..243 缺乏 /direction=left CDS 109..564 /usedin=X10009:catalase 重复利用 易患痛风的关节炎 过氧化氢酶

常见的特性表关键词所使用的限定词 限定词 含义 /allele= 给定基因的等位基因 /anticodon= tRNA反义密码子的位置及它所编码的氨基酸 /bound_moiety= 嵌合范围 /cell_line= 获得序列的细胞系 /cell_type= 获得序列的细胞类型 /chromosome= 获得序列的染色体 /citation= 已被引用的参考文献数 /clone= 获得序列的克隆子 /clone_lib= 获得序列的克隆文库 /codon= 指出与参考密码子不同的密码子 /codon_start= 相对于序列第一个碱基,编码序列密码子的偏移量 /cons_splice= 区分内含子剪切位点和“5'-GT .AG-3'” 剪切位点 /country= DNA样本的来源国 /cultivar= 所获序列植物的栽培变种 /db_xref= 其它数据库信息的交叉索引号 /dev_stage= 序列来源于某种生物的特定发育阶段 /direction= DNA复制方向 /EC_number= 序列产物的酶学编号 /environmental_sample= 序列直接从环境材料中获得而没有指明来源物种 /evidence= 序列特性来源于实验还是推理 /exception= 指明DNA序列未按通常的生物学规律翻译,如RNA编辑 /focus 指出在纪录中的来源特性在其它物种中还有不同的来源特性 /frequency= 在种群中发生变异的频率 /function= 序列所代表的功能 /germline 如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA /haplotype= 序列来源于某种物种的单倍体 /insertion_seq= 序列来源于某种插入元件 /isolation_source= 描述序列来源物种的生理、环境和地理信息 /isolate= 序列来源的生物个体 /label= 序列特性的俗名

常见的特性表关键词所使用的限定词(续) /lab_host= 为扩增序列来源物种所用的实验室宿主 /map= 相关特性在基因图谱上的位置 /macronuclear 指明DNA来源于染色体分化的大核期 /mod_base= 被修饰碱基的简写 /note= 评论及附加信息 /number= 从5’→3’注明遗传元件的顺序 /organelle= 获得序列的细胞器 /organism= 提供测序用遗传物质的物种的科学名称 /PCR_conditions= 描述PCR的反应条件 /phenotype= 序列特性所导致的表型 /pop_variant= 获得序列的群体变异种名称 /plasmid= 获得序列的质粒名称 /product= 序列编码产物的名称 /protein_id= 蛋白质的检索号 /proviral 整合在基因组中的前病毒 /pseudo 假基因 /rearranged 如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA /replace= 表明特性间的间隔序列已被替换 /rpt_family= 重复序列 /rpt_type= 重复序列的组织方式 /rpt_unit= 指明重复区域的重复元件构成 /sequenced_mol= 获得序列的分子类型 /serotype= 同一物种的不同血清学特征 /serovar= 同一原核生物的血清学特征 /sex= 获得序列的物种性别 /specific_host= 获得序列的天然宿主 /specimen_voucher= 指明来源物种保存于什么地方 /standard_name= 特性的通用名称 /strain= 获得序列的菌株 /sub_clone= 获得序列的亚克隆 /sub_species= 获得序列的来源物种的亚种 /sub_strain= 获得序列的来源微生物亚种 /tissue_lib= 获得序列组织库 /tissue_type= 获得序列组织类型 /transgenic 指明物种的来源特性是否是转基因受体 /translation= 按通用或指定的密码子表翻译的氨基酸序列 /transl_except= 标明序列中未按指定密码子表翻译的氨基酸的位置 /transl_table= 描述在翻译中与通用密码表不同的密码表 /transposon= 转座子 /usedin= 表明该特性在其它检索中也被使用 /variety= 获得序列的生物变种 /virion 病毒颗粒

GBFF格式尾部-ORIGIN 序列:类似于FASTA格式给出了所记录的序列。 ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga 41 tctcaacaac ggaaccattg ccgacatgag acagttaggt 81 atcgtcgaga gttacaagct aaaacgagca gtagtcagct …… (有部分序列未列出) 4921 ttttcagtgt tagattgctc taattctttg agctgttctc 4961 tcagctcctc atatttttct tgccatgact cagattctaa 5001 ttttaagcta ttcaatttct ctttgatc //

总结 全面了解GBFF文件格式及其所涉及的各个方面 GBFF是核苷酸和蛋白质序列数据库最常用的数据格式。 正确地理解数据库格式成分的含义,知道从中如何提取生物学知识 在数据库中进行检索,使用不同的工具进行生物信息学分析,具有十分重要的意义。

图C2.2人类某一EST克隆的Genbank(dbEST)

EMBL 生化实验技术质谱分析(Mass Spectrometry)等 细胞生物学(Cell Biology),研究细胞膜上蛋白和脂肪的分布,包括膜运输、微管网络、细胞核及细胞周期,焦点是Rab蛋白。 细胞生物物理(Cell Biophysics),重点是理论创新和实际应用的研究,尤其是光学显微镜的完善使用。 分化(Differentiation),集中研究果蝇的早期发育。

EMBL的研究内容 基因表达(Gene Expression),研究基因到蛋白质信息传递的过程,尤其是核糖体合成在整个细胞生命过程中的重要作用。 结构生物学(Structure Biology),在过去9年中建立了cDNA测序技术、生物计算、蛋白工程、晶体学、电子显微镜(EM)及核磁共振(VMR),研究肌肉巨型蛋白分子Titin。 Grenoble研究分部,主要研究蛋白质合成过程,尤其揭示了G-蛋白-鸟苷酸交换因子偶联物的结构 Hamburg研究分部,有关长期的分子生物学国际合作研究历史,着重于结构生物学研究,如光学测量系统、晶体学、X-线吸收光谱及小角散射。

EMBL的研究内容 Hinxton研究分部EBI,重点是与世界上其他分子生物学数据库进行合作研究,主要有EMBL核酸序列数据库,于1980年开始建立,随后参予了与日内瓦大学共同进行的SWISS-PROT的建设。 在SWISS-PROT与EMBL核苷酸序列库之间的数据转移的基础上,产生了新的数据库TREMBL, 即使核苷酸序列库的核苷酸序列自动翻译成SWISS-PROT蛋白序列库中的蛋白序列。 放射性杂交数据库(Radiation Hybrid Database)。 Monterotondo研究中心:EMBL和欧洲其他研究机构一起,加入到哺乳类生物学和生物医学等的研究行列, 该中心位于意大利罗马北部的Monterotondo。EMBL着重于鼠遗传学研究

EMBL数据记录

EMBL数据库结构 EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分。 序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。 有些字段又分若干次子字段,以次标识字或特性表说明符开始,最后以双斜杠“//”作本序列条目结束标记。

EMBL数据库结构 条目的关键字包括: ID(序列名称), DE(序列简单说明), AC(序列编号), SV(序列版本号), KW(与序列相关的关键词), OS(序列来源的物种名), OC(序列来源的物种学名和分类学位置), RN (相关文献编号或递交序列的注册信息), RA (相关文献作者或递交序列的作者),

EMBL数据库结构 RT(相关文献题目) RL (相关文献杂志名或递交序列的作者单位), RX(相关文献Mediline引文代码), RC(相关文献注释), RP (相关文献其他注释), CC(关于序列的注释信息), DR (相关数据库交叉引用号), FH (序列特征表起始), FT (序列特征表子项), SQ(碱基种类统计数)

EMBL数据库记录注释代码和内容说明 代码 (Code) (Full meaning) 全称 说明 (Comments) ID AC DT KW OS OC OG RN RC RP RX RA RT RL DR FH FT CC XX SQ blank // identifier accession number data description keywords organism(species) organism(classification) Organelle reference number reference comment reference positions cross-reference reference authors reference title reference location database cross-reference feature header feature table data comments spacer line sequence header sequence data termination line (身份号) (记录号) (日期) (描述) (关键词) (物种) (分类) (细胞器) (文献编号) (文献说明) (文献大小) (相关文献) (文献作者) (文献题目) (文献出处) (相关文献数据库) (主表头) (主表数据) (说明) (空白行) (序列头) (空白) (终止行) 该行的第一项内容是该数据库记录的名称,该名称是唯一的,是由EMBL数据库给定的。其它内容注明了该记录的一些状况(如是否已经被核实—本例中为已核实,即standard;记录的碱基数等) 每个记录号均是唯一的,并从不更改,是由GenBank给定的。如果两个记录被合并成一个记录,原始上着2个记录号均会被注明 2个日期被注出,一个是该数据第一次被记录时间,另一个是最后一次的时间。 对该基因的文字描述 描述该基因的关键词 物种名称 物种的一个简单分类,该分类并不一定准确,应谨慎从事 该基因是否在某一个特殊的细胞器中 与该记录研究相关的文献信息 见文中说明 该记录主要内容列表表头 对记录的文字说明 有关该序列大小和组成的信息 一个记录的终止符号

http://www.ebi.ac.uk/ena/

相关文献数据库(DR) 的说明 许多二级数据库内容来自初始数据库 DR栏中有该DNA序列翻译成蛋白质序列的SWISS-PROT记录号等。 OMIM数据库是有关人类遗传疾病的数据,如OMIM中的一个记录与EMBL中一个已知序列的基因有关,则该基因将与该记录建立联系,EMBL库中该序列的DR栏中将包括OMIM和OMIM中相关记录的名称。 DR栏中有该DNA序列翻译成蛋白质序列的SWISS-PROT记录号等。

EMBL数据库记录 相关文献数据库

相关文献数据库(DR) 的说明 DR栏内容有助于了解与该原始DNA序列相关信息的状况和存贮站点。 与DR栏有关的数据库:SWISS-PROT、EMBL、OMIM、PROSITE(保守蛋白质模序数据库)、HSSP、PDB 、PIR 、MEDLNE(与RL栏相关的文献摘要数据库) 等。

相关文献数据库(DR)的说明 注释中另一个需要说明的重要内容是主表数据(feature table data, FT)栏。 主表试图将尽可能多的序列信息囊括其中,并以计算机可以阅读的格式编排。 3个主要DNA数据库(EMBL、GenBank和DDBJ)已经对该表的表述格式达成了一致。具体表述在: www.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.html

General Information

Additional Information

Additional Information

Sequence

Primary Accession-头部

Primary Accession-中部

Primary Accession-尾部

序列文件格式 文本格式 二进制格式 (通常都带有注释) 简单文本格式 加入注释的文本格式 MacVector Line, Plain Text Staden FASTA Bionet (生物网膜allows comments) 加入注释的文本格式 GenBank GCG 二进制格式 (通常都带有注释) MacVector

序列文件格式例子(Fasta) 一种最简单的fasta序列形式可以表示为: >gi|995614|dbj|D49653|RATOBESE R at mRNA for obese. CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC 以上这个FASTA文件中包含了gi号码、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。 一种最简单的fasta序列形式可以表示为: >D49653 CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG….

序列文件格式例子(GenBank) LOCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995 DEFINITION Rat mRNA for obese. ACCESSION D49653 KEYWORDS . SOURCE Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiated adipose cDNA to mRNA. ORGANISM Rattus norvegicus Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus. REFERENCE 1 (bases 1 to 539) AUTHORS Murakami,T. and Shima,K. TITLE Cloning of rat obese cDNA and its expression in obese rats JOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995) STANDARD full automatic COMMENT Submitted (10-Mar-1995) to DDBJ by: Takashi Murakami Department of Laboratory Medicine School of Medicine University of Tokushima Kuramotocho 3-chome Tokushima 770 Japan Phone: +81-886-33-7184 Fax: +81-886-31-9495.

序列文件格式例子(GenBank) NCBI gi: 995614 FEATURES Location/Qualifiers source 1..539 /organism="Rattus norvegicus" /strain="OLETF, LETO and Zucker" /dev_stage="differentiated" /sequenced_mol="cDNA to mRNA" /tissue_type="adipose" CDS 30..533 /partial /note="NCBI gi: 995615" /codon_start=1 /product="obese" /translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLE NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQ LDLSPEC" BASE COUNT 121 a 167 c 133 g 118 t ORIGIN 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctga 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc //

序列文件格式例子(GCG) LOCUS RATOBESE.G 539 BP SS-RNA ENTERED 09/23/95 DEFINITION Rat mRNA for obese. ACCESSION - KEYWORDS - SOURCE Rattus norvegicus; Norway rat ORGANISM Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus REFERENCE [1] AUTHORS Murakami, T. & Shima, K. TITLE Cloning of rat obese cDNA and its expression in obese rats. JOURNAL Biochem. Biophys. Res. Commun., 209, 3, 944-952, (1995) COMMENT Database Reference: DDBJ RATOBESE Accession: D49653 ------------ Submitted (10-Mar-1995) to DDBJ by: Takashi Murakami Department of Laboratory Medicine School of Medicine University of Tokushima Kuramotocho 3-chome Tokushima 770 Japan Phone: +81-886-33-7184 Fax: +81-886-31-9495

序列文件格式例子(GCG) FEATURES From To/Span Description pept 30 533 obese ???? 1 539 source; /organism=Rattus norvegicus; /strain=OLETF, LETO and Zucker; /dev_stage=differentiated; /sequenced_mol=cDNA to mRNA; /tissue_type=adipose BASE COUNT 121 A 167 C 133 G 118 T 0 OTHER ORIGIN ? RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 .. 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA 241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC //

序列文件格式例子(ASN.1) ASN.1是NCBI用来存储和维护所有数据的格式 Seq-entry ::= set { level 1 , class nuc-prot , descr { pub { pub { sub { authors { names std { { name name { last "Murakami" , initials "T." } } } , affil str "Takashi Murakami, School of Medicine, University of Tokushima, Department of Laboratory Medicine; Kuramotocho 3-chome, Tokushima, Tokushima 770, Japan (E-mail:mura@clin.med.tokushima-u.ac.jp, Tel:+81-886-33-7184, Fax:+81-886-31-9495)" } , medium email , date std { year 1995 , month 3 , day 10 } } } } , pub { pub { muid 95251725 , article { title { name "Cloning of rat obese cDNA and its expression in obese rats." } , authors { names std { { name name { last "Murakami" , initials "T." } } , { name name { last "Shima" , initials "K." } } } , affil str "Department of Laboratory Medicine, School of Medicine, University of Tokushima, Japan." } , from journal { title { iso-jta "Biochem. Biophys. Res. Commun." , ml-jta "Biochem Biophys Res Commun" , issn "0006-291X" , name "Biochemical and biophysical research communications." } , imp { date std { year 1995 , month 4 , day 26 } , volume "209" , issue "3" , pages "944-952" , language "eng" } } , ids { pubmed 7733988 , medline 95251725 } } , pmid 7733988 } } , update-date std { year 2000 , month 2 , day 1 } , source { org { taxname "Rattus norvegicus" , common "Norway rat" , db { { db "taxon" , tag id 10116 } } , orgname { name binomial { genus "Rattus" , species "norvegicus" } , mod { { subtype strain , subname "OLETF, LETO and Zucker" } } , lineage "Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus" , gcode 1 , mgcode 2 , div "ROD" } } , subtype { { subtype tissue-type , name "adipose" } , { subtype dev-stage , name "differentiated" } } } } , seq-set { seq { id { ddbj { name "RATOBESE" , accession "D49653" , version 1 } , gi 995614 } , descr { title "Rat mRNA for obese(leptin), complete cds." , genbank { source "Rattus norvegicus (strain:OLETF, LETO and Zucker) differentiated adipose cDNA to mRNA." , keywords { "obese(ob)" , "leptin" , "obesity" , "ob product" , "secretory protein" } } , molinfo { biomol mRNA } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol rna , length 539 , seq-data ncbi2na '508208215498A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A38 4500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DC D048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9B 5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4'H } , annot { { data ftable { { data gene { locus "obese(ob)" } , location int { from 0 , to 538 , id gi 995614 } } } } } } , seq { id { ddbj { accession "BAA08529" , version 1 } , gi 995615 } , descr { title "leptin (ob product) [Rattus norvegicus]" , molinfo { biomol peptide } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol aa , length 167 , seq-data ncbieaa "MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTG LDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEA SLYSTEVVALSRLQGSLQDILQQLDLSPEC" } , annot { { data ftable { { data prot { name { "leptin (ob product)" } } , location whole gi 995615 } , { data prot { processed signal-peptide } , comment "secretory protein" , location int { from 0 , to 20 , id gi 995615 } } , { data prot { name { "secreted protein, leptin" } , processed mature } , location int { from 21 , to 166 , id gi 995615 } } } } } } } , annot { { data ftable { { data cdregion { frame one , code { id 1 } } , product whole gi 995615 , location int { from 29 , to 532 , id gi 995614 } } } } } }

基因组数据库的注释

基因组注释工具 迄今还没有一种普遍使用的基因组序列注释工具。 基因组注释咨询小组:在美国成立, 其成员来自Oak Ridge、Lawrence Berkeley、Argonne三个国家实验室以及其他基因组测序实验室 目的:开发研制基因组注释工具。 提出了开发名为“Genome Channel”的基因组注释工具的设想,该软件的模型可从Oak Ridge国家实验室的Web节点(http://compbio.ornl.gov/tools/channel/)获取。

从各测序实验室发送的单个结合点用彩色编码区带在染色体的适当位置上显示出来 基因组注释工具 Genome Channel为所有测序完成和尚未完成的基因组提供了一个染色体图形界面(核型浏览), 每个结合点直接与含有丰富信息的图谱(information-rich map)相连,信息图谱包括各种特征信息,如ORFs、转录因子、预测基因的BLAST结果、建立结合点的凝胶标记和基因克隆及DNA确认序列 从各测序实验室发送的单个结合点用彩色编码区带在染色体的适当位置上显示出来

基因组注释工具 前景:一旦Genome Channel投入使用,科研人员 将可以为现有的基因组序列增加新的生物学特征注释或修改以前的注释。 该注释工具是用Java语言开发的,并不适合于所有的Web浏览器 。

微生物基因组序列合作注释工具 WIT软件是从生物化学/代谢通道透视图的角度来注释微生物基因组 基本原理是所有生物体共享同一的代谢通道即同源基因编码出来的蛋白质具有同一功能 生物体全基因组序列的所有基因的功能注释过程可以被认为是生物体的“代谢重建” 代谢重建( metabolic reconstructoion)的目的在于确定生物体的代谢通道以及确定哪个基因具有这种功能。

What Is There(WIT) “What Is There”(WIT),由Argonne国家实验室的Ross Overbeek和密西根州 大学的Niels Larsen合作研制,Web节点http://wit.mcs.anl.gov/WIT2/ TIGR已经使用WIT注释各种基因组数据。WIT Web节点http://www.cme.msu.edu/WIT/HTML/curate.html

序列提交 GenBank Sequence data Authors Sequin Accession number BankIt Draft record BankIt 2 days GenBank http://www.ncbi.nlm.nih.gov/Genbank/index.html

在线提交序列(BankIt) BankIt是NCBI提供的在线提交序列的工具 由一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。 用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。

在线提交序列(BankIt) 用户还可以在BankIt页面下修改已经发布序列的信息。 BankIt适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用BankIt提交。

在线提交序列步骤 1.登陆BankIt页面 http://www.ncbi.nlm.nih.gov/BankIt 2.填写表单内容。 3.确认表单内容。 4.等待电子邮件返回信息。

填写表单信息(1) 一些注意事项和介绍 填写表单的内容包括四个方面

基本信息:提交的序列数目,联系人的信息,公开序列发布日期等。 填写表单信息(2) 基本信息:提交的序列数目,联系人的信息,公开序列发布日期等。

填写表单信息(3) 参考信息:序列作者,相关文献 等信息

填写表单信息(4) 来源信息:序列来源,物种等描述

填写表单信息(5) 序列信息:序列类型,序列等

填写表单信息(6) 附加信息:评论,致谢等(可以不填写) 填完后点击进入确认界面

确认表单信息 如果发现有不对,返回表单页面修改。 确认无误后提交到genbank

提交的序列

序列提交工具(sequin) 大量的序列提交可以由Sequin程序完成。 用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。 Sequin除了用于编辑和修改序列数据记录,还可用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。 不同操作系统下运行的Sequin程序:ftp://ncbi.nlm.nih.gov/sequin/ Sequin的使用说明:http://www.ncbi.nih.gov/Sequin/index.html

谢谢!