第七 章 生物信息学数据库 Bioinformatics database

Slides:



Advertisements
Similar presentations
第四章 核苷酸和蛋白质序列为 基础的数据库检索 (I) 生物信息学. 检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene.
Advertisements

第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
第九章 核酸序列的其他分析方法 生物信息学. 1. 确定 DNA 序列的分子量和碱基组成  分子量( molecular weight )  单链 DNA ( single strand DNA , ssDNA )  双链 DNA ( double strand DNA , dsDNA ) 
第十一章 药物生物信息学基础.
分子生物学部分开发实验 植物遗传亲缘关系研究.
联系电话: 联 系 人:李爱玲 中国人文社会科学文献(CASHL)传递 联系电话: 联 系 人:李爱玲
第六章 蛋白质工程 PROTEIN ENGINEERING
一次数据库的查寻.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
龙星课程—肿瘤生物信息学上机课程 曹莎
初级会计电算化 (用友T3) 制作人:张爱红.
分子生物学软件介绍 刘吉平讲师
生物信息学数据库.
美国冷泉港实验室期刊 Cold Spring Harbor Laboratory Press(CSHL)
生物信息学 艾对元: QQ:
生物信息学 Bioinformatics 丁乃峥 山东师范大学生命科学学院
生物資訊 bioinformatics 林育慶.
有机所文献利用快速指南 平台入口: 图书馆网站 文献、数据检索:
如何使用CiteSpace分析Derwent专利数据
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
ACD/ChemSketch软件在有机化学教学中的简单应用
SVN的基本概念 柳峰
R in Enterprise Environment 企业环境中的R
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
管理信息结构SMI.
蛋白质结构分析及三维可视化 以镰刀型红细胞贫血症为例
生物信息学 与 信息技术 张 勤
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
iPhone/iPod Touch/Android
数据挖掘工具性能比较.
ScienceDirect高级检索功能及使用视频、说明发现路径
第十一章 动物基因组学 (Animal Genomics).
Science and technology report service systemUsage method
搜 刘智 iLife信息素养协会 索.
美国数学学会 MathSciNet 电子资源的检索和使用
Metabolic biomarker signature to differentiate pancreatic ductal adenocarcinoma from chronic pancreatitis Gut, 2017, Jan (IF=14.921) 汇报人:王宁 IMI CONFIDENTIAL.
程序设计工具实习 Software Program Tool
NoteExpress进阶 宋敏 电子资源部
C语言程序设计 主讲教师:陆幼利.
如何查询论文的收录号?.
2019/4/16 关注NE官方微信,获取更多服务.
数据库使用指南 Nature全文数据库.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
第二节 DNA分子的结构.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
超越自然还是带来毁灭 “人造生命”令全世界不安
名以清修 利以义制 绩以勤勉 汇通天下 新晋商理念 李安平
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
iSIGHT 基本培训 使用 Excel的栅栏问题
JoVE实验视频期刊用户指南.
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
LOGIX500软件入门 西安华光信息技术有限公司 2008年7月11日.
SIAM全文电子期刊数据库国际站使用指南
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
SCI收录号查询方法介绍 上海大学情报研究所
竺可桢杰出学者讲座系列(十五)——加州大学伯克利分校蒲慕明教授
深 圳 职 业 技 术 学 院 SHENZHEN POLYTECHNIC
SpringerLink数据库使用说明 上海师范大学图书馆
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
SIAM全文电子期刊数据库国际站使用指南
生物数据库.
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
基因信息的传递.
第三节 转录后修饰.
细胞分裂 有丝分裂.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
超星电子书 让更多的人读更多的书.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

第七 章 生物信息学数据库 Bioinformatics database

一、概述  生物信息学的定义 生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。 (美国人类基因组计划实施五年后的总结报告)   

二、生物信息学数据库种类 《Nucleic Acids Research》杂志每年的第一期中详细介绍最新版本的各种数据库。 在2000年1月1日出版的28卷第一期115种通用和专用数据库。 至2008年,生物信息学数据库总数已达1078个。比2007年增加110个。

Nucleic Acids Research 杂志

相关数据库及其主要分类 1. 核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库

核酸序列数据库 内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释 国际核酸序列委员会协作组: GenBank美国基因数据银行 http://www.ncbi.nlm.nih.gov/ Embl 欧洲分子生物实验室 http://www.ebi.ac.uk/embl.html DDBJ日本核酸数据库 http://www.ddbj.nig.ac.jp 整合平台:Entrez 综合数据库 http://www.ncbi.nlm.nih.gov 序列通过正式递交进入数据库 未正式发表文献以前,数据库予以保密

蛋白质序列数据库 http://pir.georgetown.edu SWISS-PROT (瑞士日内瓦大学)蛋白质序列数据库 http://www.Expasy.ch 内容包括序列及功能信息、蛋白识别、蛋白质结构预测及其他功能 NCBI 蛋白质数据库 包括所有蛋白质序列,及其翻译产物序列 http://www.ncbi.nlm.nih.gov/entrez PIR 蛋白质序列信息资源库(美、德) http://pir.georgetown.edu

Swiss-Prot蛋白疏水特性图

蛋白质结构数据库 PDB Protein DataBank,美国Brookhaven国家实验室管理生物大分子三维空间结构原子坐标数据库 http://www.rcsb.org/pdb/ NCBI STRUCTURE MMDB (Molecular Modelling DataBase),包含了从PDB获取的实验确定的生物高聚物结构分子模型数据库 SCOP (Structural classification of proteins) 英国医学研究会(MRC)剑桥分子生物学实验室开发的蛋白质结构分类数据库。包含描述蛋白质域的家族、超家族、折叠、等级等信息。http://scop.mrc-lmb.cam.ac.uk/scop

基因组数据库图谱和显示器 主要内容:有基因组结构、基因单位、基因组图谱等(遗传图、叠连群图、放射杂交图等) 分布:由各国基因组研究中心组建,分布在世界各地的信息中心、研究机构。代表性的有: 美国人类基因组数据库GDB http://www.gdb.org 美国NCBI基因组数据库Genome http://www.ncbi.nlm.nih.gov 英国人类基因图谱数据库 HGMPGenomeWeb http://www.hgmp.mrc.ac.uk/genomeWeb/ 美国人类基因组资源整合体系http://www.ncbi.nlm.nih.gov/genome/guide/human/

人类疾病与基因数据库 OMIM 孟德尔遗传信息数据库 http://www.ncbi.nlm.nih.gov CGAP The Cancer Genome Anatomy Project 肿瘤基因组图谱知识库 http://www.ncbi.nlm.nih.gov/ncicgap 美国国立癌症研究所为解剖肿瘤细胞分子而建立。

生物信息分析工具 BLAST 序列相似性对比 PRIMER 引物设计 蛋白质结构预测数据库 (EMBL)根据已知蛋白质序列,预测同族二级、三维等结构 蛋白质功能预测数据库 (EMBL )根据已知蛋白质序列,预测蛋白质功能

我国生物信息相关网站 中国生物信息网 http://www.biosino.org 北京大学生物信息中心 http://www.cbi.pku.edu.cn 中国生物技术信息网 http://www.biotech.org.cn/ 中国科学院(上海文献中心) http://www.cshq.ac.cn http://www.lifescience.org.cn/tushug/  

三、 生物信息数据库检索 集成检索系统: Entrez系统(整合库)美国生物技术信息中心研制 http://www.ncbi.nlm.nih.gov SRS系统(Sequence Retrieval System)欧洲分子生物学实验室开发http://srs.ebi.ac.uk/ 可开放式安装100多个数据库,北京大学安装了78个数据库

1.Entrez NCBI综合数据库 是1991年由美国生物信息技术中心(National Center for Biotechnology Information,NCBI)(http://www.ncbi.nlm.nih.gov)

Entrez 用途 检索大分子生物学数据 获取GenBank, EMBL等数据库的核酸序列 获取Swiss-port,PIR,PRF,PDB等蛋白质序列;从核酸序列翻译到蛋白质的序列 获取基因和染色体图谱;蛋白质三维结构数据及大分子模式(MMDB)等其他生物信息数据库检索 PubMed书目文献数据

Entrez生命科学搜索引擎

Entrez 跨库检索

功能栏 核酸序列检索 检索字段限制 序列片段限定 基因位置限定 数据更新 日期限定 分子类型选择

序列存取号 基因定义 数据库标识符

代码 物种来源 参考文献 专业评论 特性

原序列复制后,可到BLAST中进行相似性 对本 碱基数 原序列复制后,可到BLAST中进行相似性 对本

2. BLAST 序列相似性检索 是核酸和蛋白质序列的局部对准相似性检索工具 Basic Local Alignment SearchTool 是核酸和蛋白质序列的局部对准相似性检索工具

序列相似性检索 Blast是为从相同和不同的有机体中,提供对比核酸或蛋白质序列,寻找相似性序列片断的工具。 从通过寻找不同基因的相同序列片段,可以推断最新测定的基因功能、预测基因家族的新成员、探索基因的进化关系。 在基因组测序的工作中,序列相似性检索可以预测蛋白质代码和翻译产物的功能和定位。

基因组对比 选择对比程序 特殊对比

将序列数据库中的复制序列在此粘贴

序列对比报告 对比资源 类似性图谱

对比图谱报告 类似性积分 基因定义 数据库标识符 E值为匹配期望值。说明可以找到与搜索序列相匹配的其它序列的几率。E值越接近零,越不可能找到其它的匹配序列,其背后的含义就是E值越少,匹配度越好

基因表达库链接 点击可得待检序列与库存序列对排 基因信息库 单基因库

人类染色体上的抗肿瘤基因序列对排表

相关文献链接

序列对排报告 对排序列 不一致处

3.NCBI structure 提供为研究蛋白质三维(3D) 结构集成的二个数据库: 分子模型数据库(MMDB),提供关于各种蛋白质的结构信息; 蛋白质域数据库(CDD),提供在proteins(CDs)内保存的功能领域序列和结构对准表达目录。 这两个数据库让科学家检索和观看结构,从结构上查找特定蛋白质的相似蛋白质,并且辨认功能位点。

Structure检索步骤 第一步: 第二步: PDB 代码, 蛋白质名字, 作者, 或期刊名。 在Entrez sturcture检索栏中直接输入的检索词包括: PDB 代码, 蛋白质名字, 作者, 或期刊名。 第二步: 通过Entrez 列阵搜寻,得出检索初步结果 。 也许出现多个指定的蛋白质存在的记录, 它们反映了不同的实验性技术情况, 并且出现或缺乏各种各样的配合基或金属离子。 记录也许并且包含全长分子的不同片段。另外,还有许多突变体蛋白质结构,用户要注意筛选。检索结果同时包含了 PDB记录,包括实验性描述, PDB 代码。

第三步:显示结构概略页 观察次要结构 Secondary Structure按钮对观看3D 分子的结构是有用的前奏 第四步:观看完整蛋白质结构按钮Full Protein Structures(须下载Cn3D软件) Viewing 3D Structures

检索MMDB 例:查找铁氧化还原蛋白的三维结构 蛋白质代码:1doi 铁氧化还原蛋白:ferredoxin fe

进入NCBI STRUCTURE

执行检索 1doi 输入检索提问

蛋白质描述:来自死海古菌的铁氧化还原蛋白 Structure 记录 蛋白质描述:来自死海古菌的铁氧化还原蛋白 蛋白质代码

蛋白质链栏。鼠标放在栏上,显示残基数。点击显示分子各条链、邻族结构。 Structure Summary 参考文献 蛋白质描述 作者 生物体分类名称 下载显示软件 显示3D结构 蛋白质链栏。鼠标放在栏上,显示残基数。点击显示分子各条链、邻族结构。 显示序列报告 显示存储域

蛋白质链栏点击链接 鼠标放在链栏上,界面显示残基号

死海高盐环境下,生物体蛋白的适应结果,外周结构中有许多亲水键,更容易结合钾离子,中间红色部分为铁离子,他们的结合位点清晰可见。 透视图选择 旋转放映

4.NCBI基因组数据库 GENOME 美国国家生物技术信息中心 NCBI整合。 Genome 数据库借助Entrez Map Viewer (图形显示器软件),让用户观看数据库内带有综合遗传和自然图的各种有机体基因组、全部染色体、序列集成数据。

序列显示 基因命名数据库 蛋白质库 同源基因 模型制作 生物学证据 Viewer

`

5. OMIM Online Mendelian Inheritance in Man 孟德尔遗传数据库 由美国Johns Hopkins大学建立。现也属NCBI集成系统中的一个库。它主要报道人类基因和遗传缺陷相关疾病的文字信息、图片和参考文献,被称为人类基因及其相关疾病与遗传特征的百科全书

例: 查找与疾病相关的基因 通过OMIM寻找疾病基因信息,通过染色体定位找到疾病基因。 如:查找角化过度症(营养不良性神经病) Keratoderma,palmoplantar

OMIM检索 Keratoderma palmoplantar 染色体位点

OMIM检出结果

OMIM 基因图谱

Genome Map Viewer 角化过度症 相关疾病基因

另一种亚型疾病基因

6. 引物设计 所谓引物是指在聚合反应中作为底物引发聚合产物的短的序列统称为引物。PCR反应中扩增一个已知序列DNA,对其引物须有一定的满足条件,才能有效地扩增模板序列,这些条件有:(1)引物长度为20个碱基;(2)引物序列与被扩增的序列不具有同源性;(3)引物中G+C碱基的含量以40%~60%为宜等。设计满足PCR扩增条件的引物称为最佳引物设计。 根据引物设计的条件,进行计算机的程序处理,便可以方便地进行自动引物设计。目前国际上有许多设计最佳引物的软件,有网上Web界面,也有单位发行的软件包,它们的功能各有特色,优点各异。

Primer Premier 5.0 primer3 探针和引物设计相关网站 http://www.premierbiosoft.com/primerdesign/primerdesign.html primer3 WHITEHEAD INSTITUTE http://frodo.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi

WHITEHEAD INSTITUTE primer3 输入序列

设定参数

输出结果 引物长度 熔点 引物与寡合苷酸3’端的互补指数 引物起始处与寡合苷酸任意区域的互补指数 引物中碱基+c的比例 起始序列数 引物序列

7.蛋白质结构预测

蛋白质预测的常用途径 1. 从氨基酸组成辨识蛋白质 2. 预测蛋白质的物理性质 3. 蛋白质二级结构预测 4. 其他特殊局部结构 5. 蛋白质的三维结构

蛋白质的三维结构 7.5.1 SWISS-MODEL:http://www.expasy.ch/swissmod/SWISS-MODEL.html 7.5.2 CPHmodels:http://www.cbs.dtu.dk/services/CPHmodels/

蛋白质预测的成功范例 色氨酸笼 trp-cage nlyiqwlkdg gpssgrppps 由20个氨基酸构成,是华盛顿大学的Jonathan Neidigh制造的人造蛋白。 大部分小分子短链结构比较松散,这种蛋白质却像大分子蛋白质一样,具有紧凑、明确的结构。 Simmerling等人利用电脑模拟技术,根据一种蛋白质的基因编码,准确地预测了它是怎样折叠成三维结构的。预测结果,几乎完全符合华盛顿大学研究小组利用核磁共振技术测量出的这种“迷你”蛋白的形状。

色氨酸笼—— 氨基酸序列:nlyiqwlkdg gpssgrppps

蛋白质功能预测 例:对给定的未知功能的序列example预测其功能

IntroPro 在domain的水平上对未知的序列进行注释

未知功能蛋白质序列 MASVSFEQVTKQFDDYVAVNNLNLEIEDGEFLVFVGPSGCGKTTSLRLLAGLETVSQGQICIGDRRVNEL SPKDRDIAMVFQSYALYPHMSVYENMAFSLDLQGKPKEEIRQRVCSAAELLGIEKLLHRKPKELSGGQRQ RVAVGRAIVRKPSVFLMDEPLSNLDAMLRVQARKEISKLHSDLATTFIYVTHDQVEAMTMGDRIAVMKDG ILQQVDSPANLYNQPANLFVAGFIGSPAMNFFQVERLSQEGKEKLSLDGVVLPMPDSVAKNGDRPLTLGI RPENIYHPQYLPLEIEPMELPATVNLVEMMGNELIVYAQTPAGTEFVARIDPRVNIKQKDSVKFVVDTQR FYYFDREMETAIF

在InterProScan的页面上输入未知功能的序列

选择预测

蛋白质特征数据库中数据获取

功能描述