GenBank数据库检索及其应用 ——Entrez检索功能 重庆医科大学图书馆 李 轶
简介 GenBank数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库。 GenBank数据库的数据来源有三种: 1、直接来源于测序工作者提交的序列; 2、与其它数据机构协作交换的数据; 3、美国专利局提供的专利数据。
NCBI网站网址: http://www.ncbi.nlm.nih.gov
GenBank和PubMed(序列数据)检索的比较: 2、GenBank数据更新早于PubMed,GenBank数据库的检全率高于PubMed。 3、 GenBank可对序列数据进行限制检索,而PubMed只能对文献、杂志、作者等进行限制检索,因而GenBank数据库的检准率也高于PubMed。
简介 检索界面
基本检索界面: 基本检索输入框
基本检索界面: 执行检索按钮 ras[GENE] 基本检索输入框
点击进入跨库检索
跨库检索界面: 执行检索按钮 ras[GENE]
跨库检索界面:
点击进入GenBank数据库
GenBank数据库界面:
GenBank数据库界面:
GenBank数据库界面: 点击进入核苷酸序列数据库检索界面
核苷酸序列数据库检索界面: 特征栏提供 辅助检索功能
核苷酸序列数据库检索界面:
简介 检索界面 基本检索功能 (一)名称、作者姓名、截词检索、布尔逻辑运算 (二)特殊标志符检索 (三)序列长度检索 (四)分子重量检索 (五)范围检索
简介 检索界面 基本检索功能 (一)名称、作者姓名、截词检索、布尔逻辑运算
检索限定词: 1、基因名称的检索限定词:[GENE] 2、生物体名称的检索限定词:[ORGN] 3、作者姓名的检索限定词:[AUTH]
简介 检索界面 基本检索功能 (一)名称、作者姓名、截词检索、布尔逻辑运算 (二)特殊标志符检索
特殊标志符的格式(核酸序列) : 1、序列辨认号(GI):一串阿拉伯数字 e.g.:6995995 2、GenBank/EMBL/DDBJ序列接受号: (1)1个字母+5个阿拉伯数字 e.g.:U12345 (2)2个字母+6个阿拉伯数字 e.g.:AY123456,Af123456
特殊标志符的格式(核酸序列): 3、RefSeq(Reference Sequence)序列接受号: (1)mRNA 记录(NM_*): e.g.:NM_000492 (2)基因组DNA重叠群(NT_*): e.g.:NT_000347 (3)完整的基因组或染色体(NC_*): e.g.:NC_000907 (4)基因组的局部区域(NG_*): e.g.:NG_000019 (5)从人类基因组序列注释、加工得到的序列模型记录(XM,XP,or XR_*): e.g.:XM_000483
特殊标志符的格式(核酸序列): 4 、 PDB序列接受号:1个阿拉伯数字+3个字母 e.g.:1TUP 序列接受号的检索限定词为[ ACCN]or[ACCESSION]
AF123456[ACCN]
简介 检索界面 基本检索功能 (一)名称、作者姓名、截词检索、布尔逻辑运算 (二)特殊标志符检索 (三)序列长度检索
序列长度的检索限定词:[SLEN] 1510[SLEN]
简介 检索界面 基本检索功能 (一)名称、作者姓名、截词检索、布尔逻辑运算 (二)特殊标志符检索 (三)序列长度检索 (四)分子重量检索
分子重量的检索限定词:[MOLWT] 2009[MOLWT]
简介 检索界面 基本检索功能 (一)名称、作者姓名、截词检索、布尔逻辑运算 (二)特殊标志符检索 (三)序列长度检索 (四)分子重量检索 (五)范围检索
范围检索:中间用冒号连接 1、序列接受号范围检索: AF114696:AF114714[ACCN] 2、序列长度范围检索: 3000:4000[SLEN] 3、分子重量范围检索: 2002:2009[MOLWT] 4、日期范围检索: 2005/01:2006/09/26[MDAT]or[PDAT]
简介 检索界面 基本检索功能 特征栏辅助检索 限制检索(Limits) 预检索/索引检索(Preview/Index) 检索史管理(History) 剪贴板管理(Clipboard) 详细匹配过程(Details)
详细匹配过程 预检索/索引检索 检索史管理 限制检索 剪贴板管理
简介 检索界面 基本检索功能 特征栏辅助检索 限制检索(Limits)
限制检索界面:
限制检索界面:
核苷酸序列数据库分为三个子数据库: EST :表达序列标记数据库 GSS :基因组测序序列数据库 CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列
核苷酸序列数据库检索界面:
核苷酸序列数据库检索界面:
限制检索界面:
限制检索界面:
检索结果显示界面:
限制检索(Limits): 限制检索范围
ras 限制检索范围
排除某种类型的序列
限制分子类型
限制分子类型
限制基因位点
限制基因位点
限制序列片段的显示
限制序列片段的显示
限制数据来源
限制数据来源
限制数据修订日期
限制数据修订日期
简介 检索入口 基本检索功能 特征栏辅助检索 限制检索(Limits) 预检索/索引检索(Preview/Index)
预检索/索引检索界面: 索引检索按钮 hepatitis b 索引检索输入框
索引检索按钮
序列特性关键词索引
ras[GENE]
序列特性关键词索引
简介 检索界面 基本检索功能 特征栏辅助检索 限制检索(Limits) 预检索/索引检索(Preview/Index) 检索史管理(History) 剪贴板管理(Clipboard) 详细匹配过程(Details)
penicillin-binding
mycobacterium tuberculosis
#8 AND #4
penicillin-binding AND mycobacterium tuberculosis[ORGN]
简介 检索入口 基本检索功能 特征栏辅助检索 检索结果的显示
检索结果显示界面:
选择检索结果的显示格式
选择检索结果的显示格式
选择检索结果的显示格式
摘要格式: 联接
Genbank 格式:
Genbank 格式:
Genbank 格式:
Genbank 格式:
Genbank 格式:
Genbank 格式:
Genbank 格式:
Genbank 格式:
GenBank记录中特性表中的主要关键词: 解 释 misc_feature 生物学特性无法用特性表关键词描述的序列 promoter 转录起始区 misc_difference 序列特性无法用特性表关键词描述的序列 CAAT_signal 真核启动子上游的CAAT盒,与RNA结合相关 conflict 同一序列在不同的研究中在位点或区域上有差异 TATA_signal 真核启动子的TATA盒 unsure 序列不能确定的区域 -35_signal 原核启动子中的-35框 old_sequence 该序列对以前的版本做过修订 -10_signal 原核启动子的Pribow盒 variation 包含稳定突变的序列 GC_signal 真核启动子的GC盒 modified_base 修饰过的核苷酸 RBS 核糖体结合位点 gene 已识别为基因或已命名的序列区域 polyA_signal RNA转录本的剪切识别位点 misc_signal 无法用信号特性关键词描述的信号序列 enhancer 增强子
关键词 解 释 attenuator 与转录终止有关的序列 CDS 蛋白质编码序列 terminator 转录终止序列 解 释 attenuator 与转录终止有关的序列 CDS 蛋白质编码序列 terminator 转录终止序列 sig_peptide 编码信号肽的序列 rep_origin 双链DNA复制起始区 transit_peptide 转运蛋白编码序列 misc_RNA 无法用RNA关键词描述的转录物或RNA产物 mat_peptide 编码成熟肽的序列 prim_transcript 初始转录本 intron 内含子 precursor_RNA 前体RNA polyA_site RNA转录本的多聚腺苷酸化位点 mRNA 信使RNA rRNA 核糖体RNA 5’clip 前体转录本中被剪切掉的5’端序列 tRNA 转运RNA 3’ clip 前体转录本中被剪切掉的3’端序列 scRNA 小细胞质RNA 5’UTR 5’非翻译区 snRNA 小核RNA 3’UTR exon 3’非翻译区 外显子 snoRNA 加工和修饰rRNA的小核RNA
关键词 解 释 immunoglobulin_related repeat_unit 单个的重复元件 C_region 解 释 immunoglobulin_related repeat_unit 单个的重复元件 C_region 免疫相关蛋白上的不变区 LTR 长末端重复序列 D_segment 免疫球蛋白重链的可变区, T细胞受体β链 Satellite 卫星重复序列 J_ segment 免疫球蛋白重链、轻链以及T细胞α、β、γ的结合链 misc_binding 无法描述的核酸序列结合位点 N_ region 插入重排免疫球蛋白片段间的核苷酸 primer_bind 复制、转录的引物结合位点 S_ region 免疫球蛋白重链的开关区 protein_bind 蛋白质结合区 V_ region 编码免疫球蛋白的可变区N末端的序列 STS 测序标签位点 V_ segment 编码免疫球蛋白的可变区的序列 misc_recomb 无法用重组特性关键词描述的重组事件 repeat_region 基因组中所包含的重复序列 iDNA 通过重组所消除的DNA
GenBank记录中特性表中的限定词: 关键词 解 释 限定词 含 义 misc_structure 解 释 misc_structure 无法用结构关键词描述的核酸序列高级结构或构型 stem_loop 发夹结构 D_loop 线粒体中DNA中的取代环 GenBank记录中特性表中的限定词: 限定词 含 义 /allele= 给定基因的等位基因 /codon_start= 相对于序列第一个碱基,编码序列密码子的偏移量 /bound_moiety= 嵌合范围 /country= DNA样本的来源国 /cell_type= 获得序列的细胞类型 /db_xref= 其他数据库信息的交叉索引号 /citation= 已被引用的参考文献数 /direction= DNA复制方向 /clone_lib= 获得序列的克隆文库 /environmental_sample= 序列直接从环境材料中获得而没有指明来源物种
限定词 含 义 /exception= 指明DNA序列未按通常的生物学规律翻译,如RNA编辑 /PCR_conditi-ons= 含 义 /exception= 指明DNA序列未按通常的生物学规律翻译,如RNA编辑 /PCR_conditi-ons= 描述PCR的反应条件 /frequency= 在种群中发生变异的频率 /pop_variant= 获得序列的群体变异种名称 /germline 如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA /product= 序列编码产物的名称 /insertion_seq= 序列来源于某种插入元件 /anticodon= tRNA反义密码子的位置及它所编码的氨基酸 /isolate= 序列来源的生物个体 /cell_line= 获得序列的细胞系 /lab_host= 为扩增序列来源物种所用的实验室宿主 /chromosome= 获得序列的染色体 /macronuclear 指明DNA来源于染色体分化的大核期 /clone= 获得序列的克隆子 /note= 评论及附加信息 /codon= 指出与参考密码子不同的密码子 /organelle= 获得序列的细胞器 /EC_number= 序列产物的酶学编号
限定词 含 义 /cons_splice= 区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点 /map= 相关特性在基因图谱上的位置 含 义 /cons_splice= 区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点 /map= 相关特性在基因图谱上的位置 /cultivar= 所获序列植物的栽培变种 /mod_base= 被修饰碱基的简写 /dev_stage= 序列来源于某种生物的特定发育阶段 /number= 从5’→3’注明遗传元件的顺序 /evidence= 序列特性来源于实验还是推理 /organism= 提供测序用遗传物质的物种的科学名称 /focus 指出在记录中的来源特性在其他物种中还有不同的来源特性 /phenotype= 序列特性所导致的表型 /function= 序列所代表的功能 /plasmid= 获得序列的质粒名称 /haplotype= 序列来源于某种物种的单倍体 /protein_id= 蛋白质的检索号 /isolation_sou-rce= 描述序列来源物种的生理、环境和地理信息 /proviral 整合在基因组中的前病毒 /label= 序列特性的俗名 /rearranged 如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA
限定词 含 义 /rpt_family= 重复序列 /transposon= 转座子 /rpt_unit= 指明重复区域的重复元件构成 含 义 /rpt_family= 重复序列 /transposon= 转座子 /rpt_unit= 指明重复区域的重复元件构成 /variety= 获得序列的生物变种 /serotype= 同一物种的不同血清学特征 /pseudo 假基因 /sex= 获得序列的物种性别 /replace= 表明特性间的间隔序列已被替换 /specimen_vou-cher= 指明来源物种保存于什么地方 /rpt_type= 重复序列的组织方式 /strain= 获得序列的菌珠 /sequenced_m-ol= 获得序列的分子类型 /sub_species= 获得序列的来源物种的亚种 /serovar= 同一原核生物的血清学特征 /tissue_lib= 获得序列组织库 /specific_host= 获得序列的天然宿主 /transgenic 指明物种的来源特性是否是转基因受体 /standard-name= 特性的通用名称 /transl_except= 标明序列中未按指定密码子表翻译的氨基酸的位置 /sub_clone= 获得序列的亚克隆
限定词 含 义 /sub_strain= 获得序列的来源微生物亚种 /tissue_type= 获得序列组织类型 /translation= 含 义 /sub_strain= 获得序列的来源微生物亚种 /tissue_type= 获得序列组织类型 /translation= 按通用或指定的密码子表翻译的氨基酸序列 /transl_table= 描述在翻译中与通用密码表不同的密码表 /usedin= 表明该特性在其他检索中也被使用 /virion 病毒颗粒
FASTA格式:
图解显示:
图解显示: 多态性碱基
序列修订记录:
序列修订记录:
序列修订记录:
序列修订记录:
谢 谢!
SCI收录期刊的论文写作技巧及投稿指南 主讲人:钟 萍 请大家继续关注下周四的读者培训讲座: SCI收录期刊的论文写作技巧及投稿指南 主讲人:钟 萍 获取药学信息的途径与方法 主讲人:肖廷超