GenBank数据库检索及其应用 ——Entrez检索功能

Slides:



Advertisements
Similar presentations
第四章 核苷酸和蛋白质序列为 基础的数据库检索 (I) 生物信息学. 检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene.
Advertisements

狂犬病 狂犬病晚期的犬. 一、狂犬病病原 : 狂犬 病毒属于弹状病毒, 75×180nm 大小,外层为含脂 质的囊膜,内部为含核蛋白的 核心,对脂溶剂敏感,为单链 RNA 病毒。病毒主要存在于感 染动物的唾液和脑组织。 狂犬病病毒结构.
生物化学 Biochemistry 临床生物化学教研室 陈正炎教授. 绪 论 ( Introduction ) 生物化学( biochemistry ) 是研究生物体 内化学分子及其化学反应,从分子水平探讨 生命现象本质的一门科学。 一、什么是生物化学 ? 生物化学 --- 生命的化学.
第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
第九章 核酸序列的其他分析方法 生物信息学. 1. 确定 DNA 序列的分子量和碱基组成  分子量( molecular weight )  单链 DNA ( single strand DNA , ssDNA )  双链 DNA ( double strand DNA , dsDNA ) 
分子生物学部分开发实验 植物遗传亲缘关系研究.
一次数据库的查寻.
龙星课程—肿瘤生物信息学上机课程 曹莎
DNA多态性分析基础.
第三章 核酸的结构与功能 Chapter 3 Structure and Function of nucleic acid
2012年高考说明要求 考纲解读 遗传信息的转录和翻译 Ⅱ 掌握DNA与RNA组成、结构和功能的异同点 理解遗传信息转录、翻译过程的区别和联系以及学会有关图形的识别 学会基因表达过程中有关碱基和氨基酸数量关系的计算、推导.
彻底搞清楚promoter, exon, intron, and UTR
生物信息学数据库.
生命的物质基础.
细胞核是遗传信息库.
C 1.关于生物体内的遗传物质 下列说法正确的是( ) A.细菌的遗传物质主要是DNA B.病毒的遗传物质主要是RNA
问 题 探 讨 1.DNA的中文全名是什么? 2.为什么DNA能够进行亲子鉴定? 3.你还能说出DNA鉴定技术在其他方面的应用吗?
寻找生命的螺旋 深圳市育才中学 黄俊芳.
教学目标 1. 掌握基因的含义,以及基因、DNA、染色体之间的关系 2. 理解基因控制蛋白质合成(转录、翻译的含义、过程)
第4章 基因的表达 第1节 基因指导蛋白质的合成.
基因的表达 凌通课件.
mRNA 转录、翻译和DNA复制的区别 细胞核 细胞核 转录 翻译 DNA复制 场所 模板 原料 信息传递 时间 产物 生长发育过程中
13-14学年度生物学科教研室总结计划 2014年2月.
必修1 分子与细胞 第二章 第三节 细 细胞溶胶 内质网 胞 核糖体 质 高尔基体 线粒体 第一课时 浙江省定海第一中学 黄晓芬.
1、环境中直接影响生物生活的各种因素叫做 。它可以分为 和 两类 。
十三章 基因及基因突变.
第四章 基因的表达 基因指导蛋白质的合成 (第二课时) 高二年级(理) 教师姓名:葛红.
如何使用CiteSpace分析Derwent专利数据
基本概念介紹 生命是什麼? 生命的密碼~DNA 解讀生命的執行者~RNA 生命舞台的主演者~蛋白質 DNA、RNA、蛋白質的三角關係
1 引言--几个重要概念 2 tRNA和rRNA的加工 3 真核生物mRNA的加工、修饰 4 RNA的转运及降解 5 小 结
第 十 三 章 基因表达调控 Regulation of Gene Expression 目 录.
RNA Biosynthesis, Transcription
RNA Biosynthesis, Transcription
GenBank数据库检索及其应用 ——Entrez检索功能
GenBank数据库检索及其应用 ——Entrez检索功能
第五章 转录(transcription)
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第二章 细胞的概念与分子基础 细胞的统一性与多样性 统一性 相似的化学组成、最基本的结构要素 类似的遗传(信息)语言
生物信息学 第六章 基因预测和基因结构分析 (II).
第8章 遗传密码 8.1 遗传密码的基本特性.
病原学- 乙型肝炎病毒(HBV) 双股DNA病毒 三种病毒颗粒 小球型和管型颗粒,直径22nm, 由HBsAg组成
美国数学学会 MathSciNet 电子资源的检索和使用
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
第三章 遗传的分子基础.
第二节、真核生物基因结构及功能 一、基因的概念 基因的概念随着分子遗传学、分子生物学、生物化学领域的进展而不断完善。 从遗传学角度看:
第十三章 RNA生物合成和加工 第一节 DNA指导下RNA的合成(转录) 第二节 RNA转录后加工
第二节 免疫球蛋白的类型 双重特性: 抗体活性 免疫原性(抗原物质).
确定内部启动子的实验.
第四章 基因的表达 第1节 基因指导蛋白质的合成.
医学遗传学.
基因指导蛋白质的合成 淮安市洪泽湖高级中学:王建友. 基因指导蛋白质的合成 淮安市洪泽湖高级中学:王建友.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
第二节 DNA分子的结构.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
超越自然还是带来毁灭 “人造生命”令全世界不安
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
遗传物质--核酸 核酸分子组成 核酸分子结构.
H基因库(重链基因连锁群): --- 第14号染色体 κ基因库(κ链基因连锁群): --- 第2号染色体 λ基因库(λ链基因连锁群):
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
遗传信息的传递与表达.
SpringerLink数据库使用说明 上海师范大学图书馆
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
基因信息的传递.
遗传信息的流动.
习题课 《医学遗传学基础》 (第二版) 王静颖 王懿 主编 科 学 出 版 社.
第三节 转录后修饰.
电影《侏罗纪公园》中恐龙复活的场景 在现实生活中,我们能不能像电影《侏罗纪公园》中描述的那样,利用恐龙的DNA,使恐龙复活呢?
第十一章 RNA的生物合成 (转录).
第二章 基因与基因组 2019/11/8.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

GenBank数据库检索及其应用 ——Entrez检索功能 重庆医科大学图书馆 李 轶

NCBI网站简介 http://www.ncbi.nlm.nih.gov

NCBI的资源与工具 数据库 工具 数据提交 培训

NCBI的资源与工具 数据库

NCBI的资源与工具 文献数据库 分子数据库 基因组数据库

NCBI的资源与工具 工具

NCBI的资源与工具 检索工具 数据分析工具 下载工具 程序软件

NCBI的资源与工具 数据提交

NCBI的资源与工具 培训

GenBank数据库

GenBank数据库 简介 GenBank数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库。 1、直接来源于测序工作者提交的序列; 2、与其它数据机构协作交换的数据; 3、美国专利局提供的专利数据。

GenBank数据库 简介 检索界面 1、基本检索界面

GenBank数据库基本检索界面

GenBank数据库基本检索界面

GenBank数据库基本检索界面

GenBank数据库基本检索界面

Nucleotide 数据库分为三个子数据库: EST :表达序列标记数据库 GSS :基因组测序序列数据库 CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列

GenBank数据库 简介 检索界面 1、基本检索界面 2、跨库检索界面

GenBank数据库跨库检索界面

跨库检索界面 文献数据库 分子数据库

跨库检索界面 其它数据库

GenBank数据库 简介 检索界面 基本检索功能 (一)字段限制检索

检索限定词: 1、基因名称的检索限定词:[GENE] or [GENE NAME] 2、生物体名称的检索限定词:[ORGN] or [ORGANISM] 3、作者姓名的检索限定词:[AUTH] or [AUTHOR]

GenBank数据库基本检索功能 “ras”

GenBank数据库基本检索功能 “ras”

GenBank数据库基本检索功能 “ras”[GENE]

GenBank数据库基本检索功能 “ras”[gene]

GenBank数据库 简介 检索界面 基本检索功能 (一)字段限制检索 (二)特殊标志符检索

特殊标志符的格式(核酸序列) : 1、序列辨认号(GI):一串阿拉伯数字 e.g.:266458390

GenBank数据库基本检索功能 GI:266458390

特殊标志符的格式(核酸序列) : 1、序列辨认号(GI):一串阿拉伯数字 e.g.:266458390 2、GenBank/EMBL/DDBJ序列接受号: (1)1个字母+5个阿拉伯数字 e.g.:U12345 (2)2个字母+6个阿拉伯数字 e.g.:AY123456,Af123456

GenBank数据库基本检索功能 AF:044895

特殊标志符的格式(核酸序列): 3、RefSeq(Reference Sequence)序列接受号: (1)mRNA 记录(NM_*): e.g.:NM_000492 (2)基因组的DNA重叠群(NT_*): e.g.:NT_000347 (3)完整的基因组或染色体(NC_*): e.g.:NC_000907 (4)基因组的局部区域(NG_*): e.g.:NG_000019 (5)从人类基因组注释、加工得到的序列模型(XM,XP,or XR_*): e.g.:XM_000483

GenBank数据库基本检索功能 NM_021284

特殊标志符的格式(核酸序列): 4 、 PDB序列接受号:1个阿拉伯数字+3个字母 e.g.:1TUP 序列接受号的检索限定词为[ACCN]or[ACCESSION]

GenBank数据库 简介 检索界面 基本检索功能 (一)字段限制检索 (二)特殊标志符检索 (三)序列长度检索

GenBank数据库基本检索功能 1510[SLEN]

GenBank数据库基本检索功能

GenBank数据库 简介 检索界面 基本检索功能 (一)字段限制检索 (二)特殊标志符检索 (三)序列长度检索 (四)范围检索

范围检索:中间用冒号连接 1、序列接受号范围检索: AF114696:AF114714[ACCN] 2、序列长度范围检索: 3000:4000[SLEN] 3、日期范围检索: 2005/01:2006/09/26[MDAT]or[PDAT]

GenBank数据库 简介 检索界面 基本检索功能 限制检索功能

GenBank数据库限制检索功能

GenBank数据库限制检索功能

GenBank数据库限制检索功能 数据发布日期

GenBank数据库限制检索功能 数据发布日期

GenBank数据库限制检索功能 数据修改日期

GenBank数据库限制检索功能 数据修改日期

GenBank数据库限制检索功能 检索字段

GenBank数据库限制检索功能 检索字段

GenBank数据库限制检索功能 “ras”

GenBank数据库限制检索功能

GenBank数据库限制检索功能 “ras”

GenBank数据库限制检索功能 序列片段的显示

GenBank数据库限制检索功能 序列片段的显示

GenBank数据库限制检索功能 数据来源

GenBank数据库限制检索功能 数据来源

GenBank数据库限制检索功能 分子类型

GenBank数据库限制检索功能 分子类型

GenBank数据库限制检索功能 基因定位

GenBank数据库限制检索功能 基因定位

GenBank数据库限制检索功能 排除某种类型的序列

GenBank数据库 简介 检索界面 基本检索功能 限制检索功能 高级检索功能

GenBank数据库高级检索功能

GenBank数据库高级检索功能 hepatitis b

GenBank数据库高级检索功能 乙型肝炎索引

GenBank数据库高级检索功能

GenBank数据库高级检索功能

GenBank数据库高级检索功能 序列特性关键词索引

GenBank数据库高级检索功能 “ras”[GENE]

(“ras”[GENE]) AND“sts”[Feature key] GenBank数据库高级检索功能 (“ras”[GENE]) AND“sts”[Feature key]

GenBank数据库 简介 检索界面 基本检索功能 限制检索功能 高级检索功能 检索结果的显示

GenBank数据库检索结果的显示

GenBank数据库检索结果的显示

GenBank数据库检索结果的显示

GenBank数据库检索结果的显示 序列特性表

GenBank记录中特性表中的主要关键词: 解 释 misc_feature 生物学特性无法用特性表关键词描述的序列 promoter 转录起始区 misc_difference 序列特性无法用特性表关键词描述的序列 CAAT_signal 真核启动子上游的CAAT盒,与RNA结合相关 conflict 同一序列在不同的研究中在位点或区域上有差异 TATA_signal 真核启动子的TATA盒 unsure 序列不能确定的区域 -35_signal 原核启动子中的-35框 old_sequence 该序列对以前的版本做过修订 -10_signal 原核启动子的Pribow盒 variation 包含稳定突变的序列 GC_signal 真核启动子的GC盒 modified_base 修饰过的核苷酸 RBS 核糖体结合位点 gene 已识别为基因或已命名的序列区域 polyA_signal RNA转录本的剪切识别位点 misc_signal 无法用信号特性关键词描述的信号序列 enhancer 增强子

关键词 解 释 attenuator 与转录终止有关的序列 CDS 蛋白质编码序列 terminator 转录终止序列 解 释 attenuator 与转录终止有关的序列 CDS 蛋白质编码序列 terminator 转录终止序列 sig_peptide 编码信号肽的序列 rep_origin 双链DNA复制起始区 transit_peptide 转运蛋白编码序列 misc_RNA 无法用RNA关键词描述的转录物或RNA产物 mat_peptide 编码成熟肽的序列 prim_transcript 初始转录本 intron 内含子 precursor_RNA 前体RNA polyA_site RNA转录本的多聚腺苷酸化位点 mRNA 信使RNA rRNA 核糖体RNA 5’clip 前体转录本中被剪切掉的5’端序列 tRNA 转运RNA 3’ clip 前体转录本中被剪切掉的3’端序列 scRNA 小细胞质RNA 5’UTR 5’非翻译区 snRNA 小核RNA 3’UTR exon 3’非翻译区 外显子 snoRNA 加工和修饰rRNA的小核RNA

关键词 解 释 immunoglobulin_related repeat_unit 单个的重复元件 C_region 解 释 immunoglobulin_related repeat_unit 单个的重复元件 C_region 免疫相关蛋白上的不变区 LTR 长末端重复序列 D_segment 免疫球蛋白重链的可变区, T细胞受体β链 Satellite 卫星重复序列 J_ segment 免疫球蛋白重链、轻链以及T细胞α、β、γ的结合链 misc_binding 无法描述的核酸序列结合位点 N_ region 插入重排免疫球蛋白片段间的核苷酸 primer_bind 复制、转录的引物结合位点 S_ region 免疫球蛋白重链的开关区 protein_bind 蛋白质结合区 V_ region 编码免疫球蛋白的可变区N末端的序列 STS 测序标签位点 V_ segment 编码免疫球蛋白的可变区的序列 misc_recomb 无法用重组特性关键词描述的重组事件 repeat_region 基因组中所包含的重复序列 iDNA 通过重组所消除的DNA

GenBank记录中特性表中的限定词: 关键词 解 释 限定词 含 义 misc_structure 解 释 misc_structure 无法用结构关键词描述的核酸序列高级结构或构型 stem_loop 发夹结构 D_loop 线粒体中DNA中的取代环 GenBank记录中特性表中的限定词: 限定词 含 义 /allele= 给定基因的等位基因 /codon_start= 相对于序列第一个碱基,编码序列密码子的偏移量 /bound_moiety= 嵌合范围 /country= DNA样本的来源国 /cell_type= 获得序列的细胞类型 /db_xref= 其他数据库信息的交叉索引号 /citation= 已被引用的参考文献数 /direction= DNA复制方向 /clone_lib= 获得序列的克隆文库 /environmental_sample= 序列直接从环境材料中获得而没有指明来源物种

限定词 含 义 /exception= 指明DNA序列未按通常的生物学规律翻译,如RNA编辑 /PCR_conditi-ons= 含 义 /exception= 指明DNA序列未按通常的生物学规律翻译,如RNA编辑 /PCR_conditi-ons= 描述PCR的反应条件 /frequency= 在种群中发生变异的频率 /pop_variant= 获得序列的群体变异种名称 /germline 如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA /product= 序列编码产物的名称 /insertion_seq= 序列来源于某种插入元件 /anticodon= tRNA反义密码子的位置及它所编码的氨基酸 /isolate= 序列来源的生物个体 /cell_line= 获得序列的细胞系 /lab_host= 为扩增序列来源物种所用的实验室宿主 /chromosome= 获得序列的染色体 /macronuclear 指明DNA来源于染色体分化的大核期 /clone= 获得序列的克隆子 /note= 评论及附加信息 /codon= 指出与参考密码子不同的密码子 /organelle= 获得序列的细胞器 /EC_number= 序列产物的酶学编号

限定词 含 义 /cons_splice= 区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点 /map= 相关特性在基因图谱上的位置 含 义 /cons_splice= 区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点 /map= 相关特性在基因图谱上的位置 /cultivar= 所获序列植物的栽培变种 /mod_base= 被修饰碱基的简写 /dev_stage= 序列来源于某种生物的特定发育阶段 /number= 从5’→3’注明遗传元件的顺序 /evidence= 序列特性来源于实验还是推理 /organism= 提供测序用遗传物质的物种的科学名称 /focus 指出在记录中的来源特性在其他物种中还有不同的来源特性 /phenotype= 序列特性所导致的表型 /function= 序列所代表的功能 /plasmid= 获得序列的质粒名称 /haplotype= 序列来源于某种物种的单倍体 /protein_id= 蛋白质的检索号 /isolation_sou-rce= 描述序列来源物种的生理、环境和地理信息 /proviral 整合在基因组中的前病毒 /label= 序列特性的俗名 /rearranged 如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA

限定词 含 义 /rpt_family= 重复序列 /transposon= 转座子 /rpt_unit= 指明重复区域的重复元件构成 含 义 /rpt_family= 重复序列 /transposon= 转座子 /rpt_unit= 指明重复区域的重复元件构成 /variety= 获得序列的生物变种 /serotype= 同一物种的不同血清学特征 /pseudo 假基因 /sex= 获得序列的物种性别 /replace= 表明特性间的间隔序列已被替换 /specimen_vou-cher= 指明来源物种保存于什么地方 /rpt_type= 重复序列的组织方式 /strain= 获得序列的菌珠 /sequenced_m-ol= 获得序列的分子类型 /sub_species= 获得序列的来源物种的亚种 /serovar= 同一原核生物的血清学特征 /tissue_lib= 获得序列组织库 /specific_host= 获得序列的天然宿主 /transgenic 指明物种的来源特性是否是转基因受体 /standard-name= 特性的通用名称 /transl_except= 标明序列中未按指定密码子表翻译的氨基酸的位置 /sub_clone= 获得序列的亚克隆

限定词 含 义 /sub_strain= 获得序列的来源微生物亚种 /tissue_type= 获得序列组织类型 /translation= 含 义 /sub_strain= 获得序列的来源微生物亚种 /tissue_type= 获得序列组织类型 /translation= 按通用或指定的密码子表翻译的氨基酸序列 /transl_table= 描述在翻译中与通用密码表不同的密码表 /usedin= 表明该特性在其他检索中也被使用 /virion 病毒颗粒

GenBank数据库检索结果的显示 序列

GenBank数据库检索结果的显示

GenBank数据库检索结果的显示 序列

GenBank数据库检索结果的显示

GenBank和PubMed(序列数据)检索的比较: 2. GenBank数据库的数据更新早于PubMed,因而GenBank 数据库的检全率高于PubMed。 3. GenBank数据库可对序列数据本身进行限制检索,而 PubMed数据库只能对文献、杂志、作者等进行限制检索 ,因而GenBank数据库的检准率也高于PubMed数据库。

BLAST

BLAST

BLAST nucleotide blast是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 protein blast是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 blastx是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 tblastn是蛋白序列到核酸库中的一种查询。与blastx相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 tblastx是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

BLAST

谢 谢!