生物信息学 第二章 数 据 库(III).

Slides:



Advertisements
Similar presentations
第四章 核苷酸和蛋白质序列为 基础的数据库检索 (I) 生物信息学. 检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene.
Advertisements

第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
第九章 核酸序列的其他分析方法 生物信息学. 1. 确定 DNA 序列的分子量和碱基组成  分子量( molecular weight )  单链 DNA ( single strand DNA , ssDNA )  双链 DNA ( double strand DNA , dsDNA ) 
牛津期刊- Oxford Journals 國立台北護理健康大學 教育訓練 Oct 邱子翎.
(RNA interference,RNAi)
联系电话: 联 系 人:李爱玲 中国人文社会科学文献(CASHL)传递 联系电话: 联 系 人:李爱玲
第六章 蛋白质工程 PROTEIN ENGINEERING
基础医学之 知识源 知识库、事实库、数据库、权威专著等.
一次数据库的查寻.
龙星课程—肿瘤生物信息学上机课程 曹莎
第九章 科研选题与立项前的文献调研分析 ——网络信息资源获取与管理 授课单位:图书馆 授课人: 刘菊红 电话:
WWW Resources for Biotechnology Research
如何获取 全球各学科高引频著者信息.
PubMed 检索教程.
第10章 生物信息学基础.
一种基于结构序列 藕合模块辨别人类 miRNA前体的新方法
武汉职业技术学院 微生物技术应用 背景知识四:微生物生长测定技术.
生物信息学数据库.
一流的科技信息推动一流的科学研究 SCI数据库在科研中的价值与应用
个人总结及展望 主讲人:胡玲玲.
动 物 生 物 学 李 良 树 巢湖幼儿师范学校.
生物信息学 艾对元: QQ:
第四次大作业 登陆学校图书馆网站的电子数据库
生物信息学 Bioinformatics 丁乃峥 山东师范大学生命科学学院
生物信息学 Bioinformatics.
酵母双杂交系统 Yeast Two-hybrid System(interaction trap)
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
ISI Web of Science 7.0 加速学术信息交流 推动科学研究发展
生物資訊 bioinformatics 林育慶.
生物信息学 第三章 基因组学与序列分析 张高川 生物信息学教研室 (Department of Bioinformatics)
如何使用CiteSpace分析Derwent专利数据
PubMed操作指令教學 嘉基醫圖 陳玉嬋製作.
Basic Local Alignment Search Tool
生物信息学 与 信息技术 张 勤
药物和疾病啥关系 ? 李智恒.
软件工程 Software Engineering
基于基因集富集分析的畜禽复杂性状GWAS分析平台及其应用
数据库内容及检索功能 – 如何利用这些资源帮助科技论文的写作与发表 钟似璇 (Sixuan Zhong s.
iPhone/iPod Touch/Android
生物信息学 第六章 基因预测和基因结构分析 (II).
生物信息学 第六章 基因预测和基因结构分析 (I).
動物的分類與命名.
第十一章 动物基因组学 (Animal Genomics).
Science and technology report service systemUsage method
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
序列分析(一) 一一序列比对.
ScienceDirect高级检索功能及使用视频、说明发现路径
Xreferplus User Guide – Basic Vision Xreferplus中文簡介及基本使用指南
OVID Medline vs. PubMed 邱子恒 臺北醫學大學通識教育中心
第 一章 生物學的概念與方法 生物學: 就是對生命的科學研究 生命是什麼? 生命 是一個早期事件的結果。在這個事件 中,無生命物質聚集到一個活細胞中 ,成為生命體。 生命 是一種能夠捕獲、並使用能量及基礎 物質的方法.
ACS电子期刊平台 使用指南 iGroup 亚太资讯集团公司.
Tutorial: Search and Browse (檢索和瀏覽) Project MUSE.
如何查询论文的收录号?.
CHAPTER 6 Ribosome and Ribozyme.
從 ER 到 Logical Schema ──兼談Schema Integration
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
超越自然还是带来毁灭 “人造生命”令全世界不安
OVID Medline vs. PubMed 邱子恒
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
MyiLibrary® ‘Search & View’ 使用指南
SpringerLink数据库使用说明 上海师范大学图书馆
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
基因组学        第一节 基因组结构特征      第二节    DNA分子标记及其应用 第三节 基因组图谱的构建及应用 第四节   后基因组学.
OVID Medline vs. PubMed 邱子恒
生物数据库.
MyiLibrary® ‘Search & View’ 使用指南
第三节 转录后修饰.
超星电子书 让更多的人读更多的书.
Pattle Pun. Professor of Biology emeritus, Wheaton College, IL
Presentation transcript:

生物信息学 第二章 数 据 库(III)

(10)ENA (European Nucleotide Archive) http://www.ebi.ac.uk/ena/ EBI (European Bioinformatics Institute) 管理 与GenBank收集的数据相同 序列数据展示方式与 GenBank 不同(网页,纯文本) 数据库主页“Text search”输入关键词 EMBL格式: http://www.ebi.ac.uk/ena/about/embl_bank_format 检索到的条目 每一条目详细内容

发表文章要提供 Accession number(在三大核苷酸数据库中通用) (11)DDBJ (DNA Data Bank of Japan) 与GenBank收集的序列数据相同 数据库主页http://www.ddbj.nig.ac.jp/index-e.html 提供基于关键词及序列的搜索服务 打开“ARSA”输入关键词 检索到的条目 每一条目详细内容与GenBank一致 发表文章要提供 Accession number(在三大核苷酸数据库中通用)

EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ (12)启动子数据库 EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ 由Weizmann Institute of Science in Rehovot (Israel) 开创 收集数据的转录起始位点(TSS)通过实验确定 包括部分cis-element信息 同一个基因可以具有多个启动子 原版(EPD)包含4809条真核生物聚合酶II(eukaryotic POL II)启动子序列 新版(EPDnew)主要包含人类、小鼠和果蝇的大量启 动子信息,总数超过20万

(13)miRNA数据库 miRNA gene microRNA (miRNA)的形成 转录RNA 折叠形成 pri-miRNA pre-miRNA miRNA RISC携带 有活性的miRNA miRNA gene microRNA (miRNA)的形成 Science 309:1522 (2005)

(13)miRNA数据库 miRBase http://www.mirbase.org/ 收集了21264条 hairpin precursor miRNA 序列(第19版,2012.8) 来源于>100个物种 可以通过miRNA名称、关键词、染色体位置等信息检索数据库 分析一条DNA序列中是否可能包含miRNA(第四章介绍)

利用miRNA编号或关键词检索(1) 在数据库主页点击“searching” 在“Search miRBase”网页的“By miRNA identifier or keyword”栏目输入miRNA编号,点击“提交查询内容” 检索结果目录 查看详细信息

利用染色体位置检索miRNA(2) 在数据库主页点击“searching” 在“Search miRBase”网页的“By genomic location”栏目选择物种和染色体,输入染色体上的核苷酸位置范围(如1000至1000000),点击“Get sequences” 检索结果目录 查看详细信息

检索miRNA群(cluster)(3) 在数据库主页点击“searching” 在“Search miRBase”网页的“For clusters”栏目选择物种,输入希望查询的miRNA之间的距离(核苷酸数目),点击“Get clusters” 检索结果目录 批量获取mature miRNA序列:在结果目录网页的“Fetch”列选择miRNA,在该网页的底部选择“Mature sequence”,点击“Fetch Sequences”

生物信息学 第二章 数 据 库(IV)

2、蛋白质数据库 (1)UniProt http://www.uniprot.org/ 由PIR、EBI 和SIB于2002年创办,统一了PIR、 TrEMBL和Swiss-Prot三个蛋白质数据库 分为两个部分:来源于实验的有详细注释的序列(SwissProt)和自动注释序列(TrEMBL) 与100多个数据库相互参照(cross-reference) 可用关键词(Text search)和序列比对(BLAST similarity search)进行检索 在2002年, PIR和欧洲生物信息学研究所EBI (European Bioinformatics Institute) 及瑞士的生物信息学研究所SIB(Swiss Institute of Bioinformatics),一起得到美国NIH资助建立UniProt, 这是单一的世界范围的蛋白质序列和功能的数据库, 它统一了PIR, Swiss-Prot, 和TrEMBL三家的数据库。

UniProt蛋白质数据库的结构 UniRef100:非冗余的UniProt蛋白质序列 http://pir.georgetown.edu/pirwww/dbinfo/uniprot.shtml UniRef The UniProt Reference Clusters (UniRef) provide clustered sets of sequences from the UniProt Knowledgebase(including isoforms) and selected UniParc records in order to obtain complete coverage of the sequence space at several resolutions while hiding redundant sequences (but not their descriptions) from view. Unlike in UniParc, sequence fragments are merged in UniRef: The UniRef100 database combines identical sequences and sub-fragments with 11 or more residues from any organism into a single UniRef entry, displaying the sequence of a representative protein, the accession numbers of all the merged entries and links to the corresponding UniProtKB and UniParc records. UniRef90 is built by clustering UniRef100 sequences with 11 or more residuesusing the CD-HIT algorithm (Li W. and Godzik A., Bioinformatics, 22: 1658-1659, 2006) such that each cluster is composed of sequences that have at least 90% sequence identity to and 80% overlap with the longest sequence (a.k.a. seed sequence) of the cluster. Similarly, UniRef50 is built by clustering UniRef90 seed sequences that have at least 50% sequence identity to and 80% overlap with the longest sequence in the cluster. Prior to 2013 there was no overlap threshold, so clusters were more heterogeneous in length. UniRef90 and UniRef50 yield a database size reduction of approximately 58% and 79%, respectively, providing for significantly faster sequence similarity searches. The seed sequences are the longest members of the cluster. However, the longest sequence is not always the most informative. There is often more biologically relevant information (name, function, cross-references) available on other cluster members. All the proteins in a cluster are therefore ranked as follows to facilitate the selection of a biologically relevant representative for the cluster: quality of the entry: manually reviewed entries (from the UniProtKB/Swiss-Prot section) are preferred meaningful name: entries with names that do not contain words such as hypothetical, probable, etc. are preferred organism: entries from model organisms are preferred length of the sequence: longest sequence is preferred UniRef100:非冗余的UniProt蛋白质序列 UniRef90:聚类UniRef100中一致性超过90%且80% 重叠的蛋白质,取最长的一条(序列数压缩58%) UniRef50:聚类UniRef90中一致性超过50%且80% 重叠的蛋白质,取最长的一条(序列数压缩79%)

在数据库主页搜索框选择“Protein Knowledgebase”库,使用关键词检索 (1)UniPROT 在数据库主页搜索框选择“Protein Knowledgebase”库,使用关键词检索 结果页面,reviewed (Swiss-Prot),unreviewed (TrEMBL) Browse by taxonomy, keyword, gene ontology, enzyme class or pathway 条目详细内容

(2)PIR (Protein Information Resource) http://pir.georgetown.edu 由National Biomedical Research Foundation 创办 信息整合的蛋白质序列数据库(iProClass), 内容/编号与UniProtKB相同,但额外提供到 超过170个数据库的链接 蛋白质序列分类数据库(PIRSF),提供不同 层级的蛋白质家族分类(Superfamily、 Homeomorphic Family和Homeomorphic Subfamily)

(2)PIR (Protein Information Resource) 检索某一蛋白质的注释信息 数据库主页“Search/Analysis”菜单  “Text Search”  选择数据库“iProClass”后输入关 键词或注册号 检索结果列表 查看详细内 容 检索某一蛋白质分类的信息 数据库主页“Search/Analysis”菜单  “Text Search”  选择数据库“PIRSF”后输入关键 词或注册号 检索结果列表 查看详细内容

(3)PRF (Protein Research Foundation) http://www.prf.or.jp/ 由日本的 Protein Research Foundation 创办 已发表在杂志上的蛋白质序列 修饰位点、S-S键等 两月更新一次

(4)PDBSTR (Re-Organized Protein Data Bank) http://www.genome.jp/dbget-bin/www_bfind?pdbstr 蛋白质序列和二级结构  碳结构

(5)Prosite http://www.expasy.org/prosite 蛋白质家族 结构域

3、结构数据库 (1)PDB (Protein Data Bank) http://www.rcsb.org 由 Brookhaven National Laboratories 创办 90,206个结构图(2013.4) 蛋白质 核酸 其它 可通过 关键词或BLAST 系统检索(第四章介绍)

PDB Content Growth Total Yearly

(1) PDB (Protein Data Bank) (2013.4) 使用关键词或注册号检索PDB 数据库主页“Search”框  “Everything”  输入关 键词或注册号 检索结果列表 查看详细内容 http://www.rcsb.org/pdb/statistics/holdings.do

(2)NDB (Nucleic Acid Database) http://ndbserver.rutgers.edu 包含6,561个核酸分子的结构(2013.5) (3)PDIdb (Protein-DNA Interface Database) http://melolab.org/pdidb http://floresta.eead.csic.es/3dfootprint/ DNA-蛋白质复合体的 X 射线衍射结构及分类

4、酶和代谢数据库 KEGG (Kyoto Encyclopedia of Genes and Genomes) 各种代谢、遗传等路径图 可检索参于各种路径的基因 检索Metabolism(1) KEGG主页http://www.genome.ad.jp/kegg/点击“KEGG PATHWAY” “PATHWAY”网页点击任一代谢路径(Metabolism),如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis)

KEGG主页点击“KEGG PATHWAY” 检索Genetic Information Processing(2) KEGG主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何遗传信息(Genetic Information Processing)路径,如 Protein export 路径 可以查看参加这一路径蛋白质的信息

KEGG主页点击“KEGG PATHWAY” 检索Environmental Information Processing(3) KEGG主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何Environmental Information Processing 路径,如 MAPK signaling pathway 路径 可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息

KEGG主页点击“KEGG PATHWAY” 检索Cellular Processes(4) KEGG主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何Cellular Processes 路径,如 Cell cycle 路径 可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息

(2)PKR (Protein Kinase Resource) http://pkr.genomics.purdue.edu/pkr/ 多种检索内容 已知蛋白激酶的序列比较 蛋白激酶分类 蛋白激酶的三维结构 与疾病相关的蛋白激酶 其它内容

5、物种分类数据库 物种分类 Mouse:Mus musculus 动物界(Animal) 脊索动物门(Chordata) 脊椎动物亚门(Vertebrata) 哺乳纲(Mammalia) 啮齿目(Rodentia) 鼠科(Muridae) 小家鼠属(Mus) 小家鼠种(musculus) 界(Kingdom) 门(Phylum) 纲(Class) 目(Order) 科(Family) 属(Genus) 种(Species) 每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。 每一分类等级上可加设总级(Super-),如总纲、总目、总科等。

在Taxonomy 主页输入物种学名检索“Homo sapiens” 在Taxonomy 主页输入物种俗名检索“pig” http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html 拟南芥(Arabidopsis thaliana)系谱 检索某一物种的系谱(lineage): 在Taxonomy 主页输入物种学名检索“Homo sapiens” 在Taxonomy 主页输入物种俗名检索“pig” lineage lineage

(1) http://www.ncbi.nlm.nih.gov/PubMed/ 6、文献数据库 (1) http://www.ncbi.nlm.nih.gov/PubMed/ 美国国家医学图书馆的数据库 医学、分子生物学、基础生物学 5400多种刊物,来源于80多个国家 文献年限:1947年至今 提供摘要,全文链接 免费全文收集在PubMed Central

OMIM (Online Mendelian Inheritance in Man) (2)其它类型的文献数据库 OMIM (Online Mendelian Inheritance in Man) http://www.ncbi.nlm.nih.gov/omim NCBI 的数据库,每天更新数据 人类基因、遗传疾病 在NCBI 主页选择OMIM后输入关键词(疾病、基因名称等)进行检索  条目 Agricola http://agricola.nal.usda.gov/ 美国农业部农业图书馆的数据库 农业类刊物

7、更多的数据库 http://www.oxfordjournals.org/nar/database/c/

生物信息学 第二章 数 据 库(V)

8、向数据库提交和修改核苷酸和蛋白质序列 提交:Submission 数据库中的数据由大家无偿提供,共同享用 修改:Update Accuracy??

(1)向 GenBank提交或修改核苷酸序列 GenBank主页菜单“Submit”  BankIt 功能提交序列 BankIt 网上直接提交,简单方便 提交后立刻得到临时编号 二天内得到 Accession number 用 Sequin 方法提交序列 可下载的电子表格 自动确定 CDS、ORF 和查找重复序列 用Update 功能修改 GenBank 中的序列和相关信息 Accession number不变,修改一次,version 的编号就进一位

(2)向 UniProtKB提交或修改蛋白质序列 http://www.uniprot.org/help/submissions 使用SPIN网上直接操作,网页先注册 (Register),然后登陆(Login)填写电子表格 只接收用蛋白质直接测序的序列 质谱数据通过email提交到PRIDE 由核苷酸序列翻译得到的蛋白质序列将进入 TrEMBL

http://www.ncbi.nlm.nih.gov/guide/howto/submit- sequence-data/ More… 递交数据到NCBI http://www.ncbi.nlm.nih.gov/guide/howto/submit- sequence-data/ 递交数据到ENA http://www.ebi.ac.uk/ena/about/submit_and_update 大规模数据往往需要邮件联系 需要提及大规模数据的提交: SRA(Sequence Read Archive, http://www.ncbi.nlm.nih.gov/sra/)/Trace Archive、GEO

9、常用序列格式 FASTA(Pearson) Genbank EMBL 数据库后台存储格式ASN.1 其他格式介绍 格式转换 http://www.ebi.ac.uk/cgi-bin/readseq.cgi http://www-bimas.cit.nih.gov/molbio/readseq/ http://redb.ncpgr.cn/modules/redbtools/readseq.php

生物信息学 第二章 数 据 库(上机操作)

上机操作 熟悉本课件所列的各种数据库的功能和适用范围 浏览核酸研究(Nucleic Acids Research)收录数据库列表,了解数据库分类和内容 了解常用序列格式并学习格式转换 了解如何提交和修改序列

New BankIt

FASTA格式序列(使用“> id”分隔不同序列) Xa26 nucleic acid sequence (DQ426646,6000 bp): > Xa26, mRNA ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCA GGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATG GATGGAGCCGGCAGCCGGCGATCCTATTTAA … Xa26 amino acid sequence (ABD84047,1103 aa): > Xa26, protein MALVRLPVWIFVAALLIASSSTVPCASSLGPIASKSNSSDTDLAALLAFKAQLSDPNNILAGNWTTGTPF CRWVGVSCSSHRRRRQRVTALELPNVPLQGELSS…