生 物 信 息 学 Bioinformatics 0233301510 巩晶 癌症研究中心 山东大学 医学院 2015.9.18
第二章 生物数据库
ataggatctaatctttactagaacgcc 2.1为什么需要生物数据库? 什么 东东? gcattac ttgatctaatca ataggatctaatctttactagaacgcc ttgatctaatca ttgcaa
ataggatctaatctttactagaacgcc 2.1为什么需要生物数据库? 这是HIV1病毒的整个基因组,包含9752个碱基,构成9个基因。 gcattac ttgatctaatca ataggatctaatctttactagaacgcc ttgatctaatca ttgcaa
2.1为什么需要生物数据库? 人基因组 : 3 Gbp = 3,000,000,000 bp 5000bp/页 600页/书 1000 本 3cm厚的书 600,000 页 1000 书 = 30m长的书架 26.6m 超过1000个物种 : 1000 个 30m长的书架 = 200 个 五层的书架 (6m/层) = 2 x 450,000 本书
2.1为什么需要生物数据库? 10cm 所有测序的基因组: 收集 访问 14.6cm x 1000 更 新 26.6m 更 新 26.6m 生物数据库: 被组织起来的大量生物数据,这些数据通过计算机可以被方便的访问、管理及更新。 管理
2.1为什么需要生物数据库? 天文数字单位: 尧 yotta 1000000000000000000000000 泽 zetta 1000000000000000000000 艾 exa 1000000000000000000 拍 peta 1000000000000000 (千万亿) 太 tera 1000000000000 (万亿) 吉 giga 1000000000 (十亿) 兆 mega 1000000 (百万) 千 kilo 1000 百 hecto 100 十 deca 10 个 mono 1
2.2生物数据库的分类 >2000 核酸数据库 蛋白质数据库 一级核酸数据库 一级蛋白质数据库 蛋白质序列数据库 蛋白质结构数据库 INSDC UniProt 二级核酸数据库 二级蛋白质数据库 专用数据库
2.2生物数据库的分类 >2000 核酸数据库 蛋白质数据库 一级核酸数据库 一级蛋白质数据库 蛋白质序列数据库 蛋白质结构数据库 INSDC UniProt 二级核酸数据库 二级蛋白质数据库 专用数据库
2.3 文献数据库 PubMed 基因序列 生物信息学 “专家” 可啥是 dUTPase 啊!? 太棒了!原来是 dUTPase!
2.3 文献数据库 PubMed http://www.ncbi.nlm.nih.gov/pubmed
2.3 文献数据库 PubMed http://www.ncbi.nlm.nih.gov/pubmed PublMed拥有超过两百四十万的生物医学文献。它们来源于MEDLINE(生物医学文献数据库)、生命科学领域学术杂志以及在线的专业书籍。这些文献部分提供全文链接。
2.3 文献数据库 PubMed 找到507条与dUTPase相关的发表文献 这么多!
2.3 文献数据库 PubMed 调整显示内容、个数、排序规则
2.3 文献数据库 PubMed 把找到的结果下载到本地保存
2.3 文献数据库 PubMed 把找到的结果下载到本地保存
2.3 文献数据库 PubMed 这次按照作者的名字搜索一下 作者名字 比刚刚搜dUTPase少了一点儿,但还是多!
2.3 文献数据库 PubMed 这次把作者名字和主题一起搜索一下 作者名字+主题 就剩2条了!
2.3 文献数据库 PubMed 查看文章摘要等信息以及原文链接 53
2.3 文献数据库 PubMed 从原文所在杂志下载全文阅读
2.3 文献数据库 PubMed 改显示摘要为显示MEDLINE 53
2.3 文献数据库 PubMed 数据库中一条文献记录的内部结构 Pubmed ID Publication Date Title Page Abstracts Laboratory address Authors 信息被分割成小节,每个小节都有自己的索引名,如AU代表作者,AB代表摘要等。
2.3 文献数据库 PubMed 按照不同规则搜索Down这个词 按作者名 “Author [AU]” 搜索关键词 按题目 “Title [TI]” 按实验室地址 “Laboratory address [AD]”搜索关键词 在任意地方搜索 关键词
2.3 文献数据库 PubMed 查找那个离你最近的“专家” 1 2 4 3 Beijing Beijing Beijing Tel : 86 - 10 - 6275-5002 Fax : 86 - 10 - 6276-2292 New Life Science Building, Peking University, Summer Palace Road No. 5, Beijing, P. R. China 100871 3
2.3 文献数据库 PubMed 用高级搜索工具更精确的查找
2.3 文献数据库 PubMed 查找2000年至今发表的所有题目里有dUTPase关键词的英文Review
2.3 文献数据库 PubMed 用好高级搜索可以大大提高搜索效率
2.3 文献数据库 PubMed 关于使用PubMed的几个小建议: 使用引号(比如,“down syndrome”) 使用逻辑词 AND, OR, NOT (比如, dUTPase [TI] AND bacteria [TI] NOT Smith [AU]) 使用正确的名字缩写(比如,“Abergel C”) 使用每篇文献唯一的PubMed ID( 比如,PMID: 24933525) 有时PubMed的也帮不了你: 搜索1995年以前的文献中排名十位以后的作者是白费力气。 1976年以前的文献是没有摘要的。 搜索1965年以前的文献就别想了。 PubMed也不是万能滴!
2.4 一级核酸数据库 >2000 核酸数据库 蛋白质数据库 一级核酸数据库 一级蛋白质数据库 蛋白质序列数据库 蛋白质结构数据库 INSDC UniProt 二级核酸数据库 二级蛋白质数据库 专用数据库
2.4 一级核酸数据库 由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI )开发并负责维护。NCBI 隶属于美国国立卫生研究院(National Institutes of Health,NIH )。 http://www.ncbi.nlm.nih.gov/ EMBL核苷酸序列数据集(European Nucleotide Archive,ENA)由欧洲分子生物学研究室(European Molecular Biology Laboratory ,EMBL )开发并负责维护。 http://www.ebi.ac.uk/ena/ 日本DNA数据库(DNA Data Bank of Japan,DDBJ) 由位于日本静冈的日本国立遗传学研究所( National Institute of Genetics,NIG )开发并负责维护。 http://www.ddbj.nig.ac.jp/
2.4 一级核酸数据库 Genbank,EMBL与DDBJ共同构成国际核酸序列数据库合作数据库(International Nucleotide Sequence Database Collaboration,INSDC)。三个数据库的信息每日更新汇总至INSDC。 http://www.insdc.org/
2.4.1 一级核酸数据库 GenBank 原核生物与真核生物基因的不同: Prokaryotes Eukaryotes 基因组大小 0.5-91 million bp 10–670,000 million bp 基因密度 one gene / 1,000 bp One gene / 100,000 bp (人) 编码区含量 70% 5% 基因是否线性分布 是 否 mRNA有无内含子 无 有 Eu.
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 http://www.ncbi.nlm.nih.gov/ 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 2 3 1
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 脱氧尿苷焦磷酸酶
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 基因座名 核酸序列长度 分子的类别 拓扑类型 更新日期
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 DEFINITION:简短的定义,标题。
2.4.1 一级核酸数据库 GenBank 2.4.1 一级核酸数据库 GenBank GI(GenInfo Identifier)号:与前面的版本号系统是平行运行的。 当一条序列改变后,它将被赋予一个新的GI号,同时它的版本号将增加。 当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的GI号。 2.4.1 一级核酸数据库 GenBank 2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 ACCESSION:检索号在数据库中是唯一且不变的,即使数据提交者改变数据内容。ACCESSION不一定和LOCUS相同。 VERSION:版本号的格式是“检索号.版本号。 版本号于99年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变。如由U12345.1变为U12345.2。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 KEYWORDS:能够大致描述该条目的几个关键词,可用于数据库搜索。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 SOURCE:基因序列所属物种的俗名。 ORGANISM:对所属物种更详细的定义,包括他的科学分类。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 REFERENCE:基因序列来源的科学文献(一条基因序列的不同片段可能来源于不同的文献)。文献具体分为作者、题目及刊物。刊物还包括PubMed ID作为其子内容。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 COMMENT:自由撰写内容,比如致谢或者是无法归入前面几项的内容。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 FEATURES:描述核酸序列中各个已确定的片段区域,包含很多子项目,比如来源(source),启动子(promoter)等。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 source:说明了核酸序列的来源,据此可以容易的分辨出该序列是来源于克隆载体还是基因组。当前序列(全长)来源于大肠杆菌(Escherichia coli)的基因组DNA
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 promoter:列出了启动子的位置。复习:细菌有两个启动子区, 一个 -35区(5’-TTGACA-3’)位置在第286个碱基到第291个碱基 ,一个 -10区(5‘-TATAAT-3’)位置在第310个碱基到第316个碱基。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 misc_feature:混合内容,比如,这条说明了从第322个碱基到第324个碱基是一个一般认定的(putative,基本认定,但无实验证实)转录起始位置。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 RBS (Ribosome Binding Site) :核糖体结合位点。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 CDS (Coding Segment) :记录了一个ORF( open reading frame ),从第343个碱基开始的ATG(起始密码子)到第798个碱基结束的TAA(结束密码子)。除了第一行的位置信息,还包括翻译产物(蛋白质)的诸多信息。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 翻译起始位置和 翻译所使用的密码本 计算机使用翻译密码本根据核酸序列翻译出的蛋白质序列(不是实验真实获得的)。
翻译产物蛋白的名字(dUTP-ase,该ORF编码其第1-151个氨基酸),以及该蛋白在各种蛋白质数据库中对应的ID。通过这些ID可以轻松链接到其他数据库,比如蛋白质结构数据库PDB、蛋白质序列数据库Swiss-Prot等。 2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 X01714这条核酸序列还包含第二个“潜在的”基因(potential,计算机预测出来的)。其编码的蛋白目前的数据库里没有详细记录,是个未知的蛋白。GenBank里一条核酸序列包含多个基因的情况是很常见的。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 最后一个索引项ORIGIN记录的是核酸序列,并以双斜线“//”作为整条记录的结束符。每行核酸序列以该行第一个碱基的位置开始,每10个碱基一个空格,每行60个碱基。
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 获得FASTA格式的核酸序列 FASTA格式: 第一行:大于号加名称或其它注释 第二行以后:序列,每行60个字母
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 获得序列的图形概览
2.4.1 一级核酸数据库 GenBank 浏览编码大肠杆菌(原核生物)dUTPase的DNA序列信息:X01714 最后一个索引项ORIGIN记录的是核酸序列,并以双斜线“//”作为整条记录的结束符。每行核酸序列以该行第一个碱基的位置开始,每10个碱基一个空格,每行60个碱基。 2 3 下载纯文本格式(Flat File)的数据库记录
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的成熟mRNA序列信息:U90223 http://www.ncbi.nlm.nih.gov/ 浏览编码人(真核生物)dUTPase的成熟mRNA序列信息:U90223 2 3 U90223 1
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的成熟mRNA序列信息:U90223 50
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的成熟mRNA序列信息:U90223 所有的数据库都有数据不完整的问题。 忠言逆耳:别指望GenBank或任何一个数据库能购百分百做到数据无误且实时更新( up-to-date )。
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的成熟mRNA序列信息:U90223 这个CDS指出了从63到821为一段编码区,在这段编码区里基因是连续的(经过剪切后的成熟mRNA),它将被翻译成线粒体型dUTPase。
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的成熟mRNA序列信息:U90223 sig peptide:指出了编码用于蛋白定位的信号肽的碱基位置。 mat peptide:指出了编码成熟蛋白的碱基位置。
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430 http://www.ncbi.nlm.nih.gov/ 浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430 2 3 1
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430 一个完整的基因是被分成若干片段,分别存储在数据库中的,即,一共需要四个片段(SEGMENT,一个片段对应一条数据库记录)才能拼凑起完整的基因。当前这条记录是所有四个片段里的第二个。一个片段里可能包含不止一个外显子。
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430 指出了该序列属于第15号染色体,更精确的说,是在该染色体的长臂上(q)的q21.1条带内。
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430 指出了拼出完整基因所需的所有四个片段的GenBank ID,以及具体的位置。 请记住这个基因的名字,后面还会用到。 指出了所有外显子在四个片段中的具体位置。串起来是成熟mRNA
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430 多一个将被翻译成定位线粒体的信号肽的外显子
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430
2.4.1 一级核酸数据库 GenBank 浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430 当前这个序列所包含的外显子的位置及编号
2.4.2 NCBI的Entrez检索系统 NCBI数据库检索系统,可以检索NCBI下属的所有36个数据库。
2.4.3 基因组数据库---NCBI Genome http://www.ncbi.nlm.nih.gov/ 查看病毒HIV-1的基因组
2.4.3 基因组数据库---NCBI Genome 查看病毒HIV-1的基因组 http://www.ncbi.nlm.nih.gov/genome/ 查看病毒HIV-1的基因组
2.4.3 基因组数据库---NCBI Genome 查看病毒HIV-1的基因组
2.4.3 基因组数据库---NCBI Genome 查看病毒HIV-1的基因组 HIV1病毒的整个基因组包含9752个碱基,构成9个基因。
2.4.4 基因组数据库---Ensemble 查看人的基因组 看之前,需要先搞清楚几件事: 1. 人的基因组有33亿个碱基分布在23个染色体上。 2. 我们现在已经获得了人的全基因组序列。 3. 起初拿到手的就是序列,33亿个字母,下一步 面临的巨大挑战就是给它们添加注释,也就是 做一个详细的FEATURES表。 4. 全世界每时每刻关于人类基因及其功能都有新的发现。 5. 研究基因的方法五花八门,层出不穷,想全部学会,没门! 用到哪学到哪吧!
2.4.4 基因组数据库---Ensemble 查看人的基因组 http:// www.ensembl.org/ 查看人的基因组 Ensembl由欧洲生物信息学研究所( European Bioinformatics Institute,EBI)和英国桑格研究院( Sanger Institute )合作开发。Ensembl收入了各种动物的基因组,特别是那些离我们人类近的动物(脊椎动物)。这些基因组的注释都是通过配套开发的软件自动添加的。
2.4.4 基因组数据库---Ensemble 查看人的基因组 92
2.4.4 基因组数据库---Ensemble 查看人的基因组 还 记得15 号染色体上有什么吗?
GenBank human dUTPase mRNA: U90223
DUT
2.4.5 基因组数据库---JCVI 查看微生物的基因组 http://www.jcvi.org/ 美国基因组研究所( Institute for Genome Research,TIGR )致力于微生物基因组的研究,也有部分植物基因组项目。它是克莱格·凡特研究所(J. Craig Venter Institute )的一部分,自1995年成立之初的两个基因组,至今已拥有超过700个基因组,而且还将更多。TIGR是NCBI基因组资源的有力补充,因为它不仅拥有已完成测序的基因组,还有那些测序中的基因组信息。
2.4.5 基因组数据库---JCVI 查看微生物的基因组 拟南芥 玉米 苜蓿 柳树
2.4.5 基因组数据库---JCVI 查看微生物的基因组 ……
2.4.5 基因组数据库---JCVI 查看微生物的基因组 ……
2.4.5 基因组数据库---JCVI 查看微生物的基因组
2.4.5 基因组数据库---JCVI 美国国立卫生研究所(NIH)建立了人类微生物组学计划(Human Microbiome Project,HMP)。目前HMP主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。 NIH的HMP由四个测序中心共同完成:the Broad Institute, the Baylor College of Medicine, Washington University School of Medicine, and the J. Craig Venter Institute。
2.4.5 基因组数据库---JCVI 查看微生物的基因组
2.4.5 基因组数据库---JCVI 查看微生物的基因组
2.4.5 基因组数据库---JCVI 查看微生物的基因组 全基因组鸟枪法测序项目数据库记录
2.4.5 基因组数据库---JCVI 查看微生物的基因组 NCBI高通量测序数据库(Sequence Read Archive,SRA)
2.4.5 基因组数据库---JCVI 查看微生物的基因组
2.5 二级核酸数据库 >2000 核酸数据库 蛋白质数据库 一级核酸数据库 一级蛋白质数据库 蛋白质序列数据库 蛋白质结构数据库 INSDC UniProt 二级核酸数据库 二级蛋白质数据库 专用数据库
2.5 二级核酸数据库 RefSeq数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。 dbEST数据库:包含来源于不同物种的表达序列数据库和表达序列标签序列的其他信息。 Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录