蛋白质和蛋白质组分析 孙明明 sunmingming@biosino.com.cn.

Slides:



Advertisements
Similar presentations
期末考试作文讲解 % 的同学赞成住校 30% 的学生反对住校 1. 有利于培养我们良好的学 习和生活习惯; 1. 学生住校不利于了解外 界信息; 2 可与老师及同学充分交流有 利于共同进步。 2. 和家人交流少。 在寄宿制高中,大部分学生住校,但仍有一部分学生选 择走读。你校就就此开展了一次问卷调查,主题为.
Advertisements

A11 Regulation of gene expression in eukaryotes 2  真核生物基因表达调控的特点 真核生物表达调控与原核生物的不同: ( 1 )染色体结构不同; ( 2 )原核生物具有正调控和负调控并重的特点,真核 生物目前已知的主要是正调控; ( 3 )原核生物的转录和翻译是相偶联的,真核生物的.
13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
一次数据库的查寻.
Presented By: 王信傑 Ricky Wang Date:2010/10/6
龙星课程—肿瘤生物信息学上机课程 曹莎
专题八 书面表达.
武汉职业技术学院 微生物技术应用 背景知识四:微生物生长测定技术.
英国医生 Jenner 在 1796 年首创接种牛痘预防天花。
饮食治疗篇.
1. 理想的路由算法 有关路由选择协议的几个基本概念 算法必须是正确的和完整的。 算法在计算上应简单。
大数据在医疗行业的应用.
酵母双杂交系统 Yeast Two-hybrid System(interaction trap)
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
生物資訊 bioinformatics 林育慶.
Web of Science ——Science Citation Index(SCI)网络版
更加高效利用SciVerse ScienceDirect
5、利用EST数据库发现新基因 EST (expressed sequence tags),是从基因表达的短的序列,携带着完整基因某些片断的信息,称为表达序列标签 获得一个EST的途径有三种:1 大规模测序;2 比较同源性;3 差异显示或基因芯片法获得与某一性状相关的EST 电脑克隆 第一步,找到与待克隆基因相关的EST;第二步.
EndNote X6 Advance your Research and Publish Instantly
Logistics 物流 昭安國際物流園區 總經理 曾玉勤.
旅游景点与度假村管理 中山大学新华学院 (Management of Attractions & Resorts) 总学时:54
Basic Local Alignment Search Tool
國立陽明大學 臨床醫學研究所 簡報 2005 報告人 臨床醫學研究所所長 吳肇卿 教授.
G10 PARENT MEETING COURSE SELECTION 高一选课家长会 PRESENTED BY B
製程能力分析 何正斌 教授 國立屏東科技大學工業管理學系.
The expression and applications of topology on spatial data
生物芯片技术 刘超 李世燕 谢宏林
SpringerLink 新平台介绍.
普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第六章:蛋白质组学.
校園網路架構介紹與資源利用 主講人:趙志宏 圖書資訊館網路通訊組.
基于基因集富集分析的畜禽复杂性状GWAS分析平台及其应用
数据库内容及检索功能 – 如何利用这些资源帮助科技论文的写作与发表 钟似璇 (Sixuan Zhong s.
第4章(1) 空间数据库 —数据库理论基础 北京建筑工程学院 王文宇.
EGF与细胞信号传导 Signal Transduction
PubMed整合显示图书馆电子资源 医科院图书馆电子资源培训讲座.
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
第十五课:在医院看病.
第十一章 动物基因组学 (Animal Genomics).
DevDays ’99 The aim of this mission is knowledge..
Chapter 5 Recursion.
Unit 1 This is me ! Task.
資料結構 Data Structures Fall 2006, 95學年第一學期 Instructor : 陳宗正.
Version Control System Based DSNs
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
EndNote X6 進階 Advance your Research and Publish Instantly
Yeast two-hybrid system
虚 拟 仪 器 virtual instrument
Common Qs Regarding Earnings
OvidSP Introduction Flexible. Innovative. Precise.
從 ER 到 Logical Schema ──兼談Schema Integration
华南师范大学生命科学学院05级技术(2)班 刘俏敏
超越自然还是带来毁灭 “人造生命”令全世界不安
SpringerLink 新平台介绍.
Interactome data and databases: different types of protein interaction
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
Chapter 10 Mobile IP TCP/IP Protocol Suite
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
Create and Use the Authorization Objects in ABAP
钱炘祺 一种面向实体浏览中属性融合的人机交互的设计与实现 Designing Human-Computer Interaction of Property Consolidation for Entity Browsing 钱炘祺
动词不定式(6).
Advanced Basic Key Terms Dependency Generalization Actor Stereotype
蛋白質交互作用資料庫、 網路拓樸分析與藥物標的搜尋 Protein Interactome, Topological Analysis on Complex Network for Identification of Drug Target
基因信息的传递.
自主练悟 ①(2017·桂林市联考)To them, life is a competition — they have to do _______ (good) than their peers to be happy. ②(2017·菏泽市模拟)People who forgive.
MGT 213 System Management Server的昨天,今天和明天
Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷 陳靜儀 謝仁傑 林敬恆.
案例1 某高校打算聘请哈佛大学布莱根妇女医院的Piero Anversa教授为客座教授,但首先需要对Piero Anversa教授的学术水平进行评价,请问可从哪些方面进行评价?
LIU Lei Shanghai Center for Bioinformation Technology 03/05/2013
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

蛋白质和蛋白质组分析 孙明明 sunmingming@biosino.com.cn

主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析

cytoscape Pfam DATABASE TRANSFAC IPI Gene ontology ……………………………. GENEGO BLAST cytoscape HMMER TOOLS Interproscan EMBOSS Pajek BLAST2GO ……………………………. Output

IPI - International Protein Index 常见数据 GI:120407068 NP_000537.3 XP_001604088.1 AAF36358.1 P53_HUMAN P04637 Q9EX73 Uniparc:uniprot archive IPI - International Protein Index IPI00025087.2 ENSP00000269305

主要蛋白质序列检索工具 UNIPROT Ensembl NCBI Entrez KEGG DBGET IPI 软件 网址 简短描述 http://www.ncbi.nlm.nih.gov/Entrez NCBI提供的集成检索工具。整合了很多种序列数据库 DBGET http://www.genome.ad.jp/dbget 日本京都大学化学研究所提供的检索序列数据库的工具 UniProt http://www.expasy.org/sprot/ EBI序列检索网页 SRS http://srs.ebi.ac.uk/ 由EMBnet提供的主要数据库检索工具 NCBI Entrez KEGG DBGET IPI

主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析

蛋白质基本物化性质分析 EMBOSS ExPASy(Expert Protein Analysis System) 分子量 等电点 残基数 氨基酸组成 …… EMBOSS Pepstats Pepinfo Pepwindow …… ExPASy(Expert Protein Analysis System) ProtParam Compute pI/MW ProtScale …… http://emboss.sourceforge.net/ http://www.expasy.ch/

EMBOSS - pepstats 在线工具:http://www.ebi.ac.uk/Tools/emboss/pepinfo/ 本地下载:http://emboss.sourceforge.net/download/#Stable

ExPASy - ProtParam http://us.expasy.org/tools/protparam.html 计算多种理化指标 注意,只是序列

主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析

序列相似性比较 两序列比较 多序列比对 主要工具:BLAST 常用数据库:NCBI NR,SWISSPROT 命令示例: formatdb -i nr.fasta –o T –p T blastall –i input.seq –d nr –p blastp –e 1e-3 –b 10 –o blast.out -b 5 –v 5 –a 2 多序列比对 Clustalw/clustalx (http://www.clustal.org/)等 序列相似性比较是蛋白质功能分析和预测的基础。目前这方面最常用的是用NCBI 的BLAST (Basic Local Alignment Search Tool) [31-35]软件进行序列同源性分析。在BLAST家族中,与蛋白质相关的程序包括:BLASTP,在蛋白质序列数据库中比对蛋白质序列;BLASTX,在蛋白质序列数据库中比对该蛋白质的核酸序列(包括6种读码框);TBLASTX,在核酸序列数据库中比对蛋白质序列(包括6种读码框)。序列相似性比较可以获得许多的蛋白质信息,例如对蛋白质功能进行预测的原理是便是基于序列的同源性,通常认为相似的序列可能具有相似的功能。序列比对的另外一种方式是多序列比对(multiple sequence alignment)。可以用于多序列比对的程序如Clustal W[36-40]。多序列比对可以用来发现特征序列、蛋白质分类、比较序列间的同源性、帮助预测新序列二级结构与三级结构以及在进化分析方面均有很大帮助。

主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析

翻译后修饰分析 翻译后修饰是调节蛋白质功能的重要方式,对蛋白质翻译后修饰的研究可以帮助阐明和了解蛋白质功能及其功能变化,翻译后修饰的预测和分析也日渐成为生物信息学蛋白质序列分析中的重要的研究内容。 磷酸化、糖基化、甲基化、泛素化和羟基化等等 翻译后修饰是调节蛋白质功能的重要方式,对蛋白质翻译后修饰的研究可以帮助阐明和了解蛋白质功能及其功能变化,翻译后修饰的预测和分析也日渐成为生物信息学蛋白质序列分析中的重要的研究内容。

翻译后修饰数据库 名字 网址 描述 Swiss-Prot http://expasy.org/sprot/ 含有蛋白质翻译后修饰信息 Phospho.ELM http://phospho.elm.eu.org/ S/T/Y磷酸化位点的数据库 PROSITE http://www.expasy.ch/prosite/ HPRD http://www.hprd.org/ 人类蛋白质的综合信息数据库,含有很多翻译后修饰的信息 RESID http://www.ebi.ac.uk/RESID/ 翻译后修饰的数据库 O-GlycBase http://www.cbs.dtu.dk/databases/OGLYCBASE/ O-糖基化数据库 dbPTM http://dbptm.mbc.nctu.edu.tw/ 翻译后修饰数据库 Phosphosite http://www.phosphosite.org/Login.jsp 磷酸化位点数据库

翻译后修饰预测软件 名字 网址 描述 Scansite http://scansite.mit.edu/ 扫描翻译后修饰序列模式工具 PREDIKIN http://predikin.biosci.uq.edu.au/pkr/ 预测翻译后修饰激酶工具 NetPhos http://www.cbs.dtu.dk/services/NetPhos/ 预测磷酸化的工具 NetPhosK http://www.cbs.dtu.dk/services/NetPhosK/ 预测磷酸化和磷酸化激酶的工具 GPS http://gps.biocuckoo.org/ Big-PI-prediction http://mendel.imp.ac.at/sat/gpi/gpi_server.html 预测GPI的工具 GlycoMod http://www.expasy.ch/tools/glycomod/ 预测糖基化的工具 NetOGlyc http://www.cbs.dtu.dk/services/NetOGlyc/ 预测O-糖基化的工具 NetNGlyc http://www.cbs.dtu.dk/services/NetNGlyc/ 预测N-糖基化的工具 DictyOGlyc http://www.cbs.dtu.dk/services/DictyOGlyc/ 预测O-糖基化工具 YinOYang http://www.cbs.dtu.dk/services/YinOYang/ 预测YinYang行为的工具 Sulfinator http://www.expasy.org/tools/sulfinator/ 预测硫基化工具 OGlyc http://www.biosino.org/Oglyc/ 预测O-糖基化位点工具

主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析

蛋白质功能域分析 一、蛋白质功能域数据资源 数据库名称 简短描述 网址 PANTHER 用实验和进化相关数据信息对蛋白质家族进行分类 http://www.pantherdb.org/ Pfam 多序列比较和隐马尔科夫模式分析覆盖蛋白质功能域和家族 http://www.sanger.ac.uk/Software/Pfam/ CDD 综合各种功能域数据库 http://www.ncbi.nlm.nih.gov/cdd PIR 蛋白质家族分类 http://pir.georgetown.edu/iproclass/ PRINTS 蛋白质家族分类查询 http://www.bioinf.manchester.ac.uk/dbbrowser/sprint/ ProDom 从Swissprot和Trembl中自动提取的关于蛋白质家族和功能域的数据库 http://prodom.prabi.fr/prodom/current/html/home.php PROSITE 蛋白质家族,功能位点,功能域 http://www.expasy.ch/prosite/ SMART 分子结构研究数据库 http://smart.embl-heidelberg.de/ TIGRFAMs 基于隐马尔科夫的蛋白质家族数据库 http://www.tigr.org/TIGRFAMs/index.shtml GENE3D 家族,结构的数据库 SUPERFAMILY 蛋白质家族数据库 http://supfam.org/SUPERFAMILY/index.html Swiss-Prot 蛋白质注释数据库 http://www.expasy.org/sprot/

二、蛋白质功能域搜索工具 HMMER INTERPROSCAN rpi-blast

HMMER HMMER HMMER 是用 “隐马尔可夫模型”(HMM)进行数据库搜索的一个应用程序包。 http://hmmer.janelia.org/#download 免费下载 HMMER 应用程序包。 Hmmpfam 库文件:ftp://ftp.sanger.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz 命令行:hmmpfam Pfam-A.hmm sequence_file > output_file

InterproScan http://www.ebi.ac.uk/Tools/InterProScan/ 本地下载安装:ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan

rpi-blast 应用方法: rpsblast -i input_seqs.txt -d cdd -p T –o out_result ftp.ncbi.nih.gov/pub/mmdb/cdd/ 详细信息: http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/rpsblast.html

主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析

亚细胞定位分析 大部分蛋白质都是先分布到不同亚细胞位置再行使功能的 蛋白质的功能与其亚细胞定位有很强的关联

亚细胞定位数据资源 名字 网址 描述 Swiss-Prot http://expasy.org/sprot/ 含有蛋白质亚细胞定位信息 Gene Ontology http://www.geneontology.org/ cellular component ontologies含有蛋白质亚细胞定位信息 DBSubLoc http://www.bioinfo.tsinghua.edu.cn/dbsubloc.html 蛋白质亚细胞定位数据库 SUBA http://www.plantenergy.uwa.edu.au/applications/suba2/index.php 拟南芥亚细胞定位数据库 LOCATE http://locate.imb.uq.edu.au/ 人和小鼠亚细胞定位数据库 PSORTdb http://db.psort.org/ 细菌亚细胞定位数据库

亚细胞定位预测工具 SignalP http://www.cbs.dtu.dk/services/SignalP/ 预测信号肽及其剪切位点 软件 网址 简短描述 SignalP http://www.cbs.dtu.dk/services/SignalP/ 预测信号肽及其剪切位点 ChloroP http://www.cbs.dtu.dk/services/ChloroP/ 预测转运到叶绿体的肽段 MitoProt http://ihg.gsf.de/ihg/mitoprot.html 预测转运到线粒体的肽段 Predotar http://urgi.versailles.inra.fr/predotar/predotar.html 预测定位到线粒体和胞浆中的肽段 PSORT http://www.psort.org/ 预测蛋白质分选信号和亚细胞定位的位点 TargetP http://www.cbs.dtu.dk/services/TargetP/ 预测蛋白质亚细胞定位位点 DAS http://www.sbc.su.se/~miklos/DAS/ 预测原核细胞蛋白质中的跨膜区域 HMMTOP http://www.enzim.hu/hmmtop/ 预测蛋白质的跨膜螺旋和拓扑结构 LOCtree http://cubic.bioc.columbia.edu/cgi-bin/var/nair/loctree/query 预测蛋白质亚细胞定位 SubLoc http://www.bioinfo.tsinghua.edu.cn/SubLoc/ 支持向量机预测亚细胞定位 CELLO http://cello.life.nctu.edu.tw/ 运用多种方法进行亚细胞定位预测 PSLpred http://www.imtech.res.in/raghava/pslpred/ 支持向量机预测蛋白质亚细胞定位 pSLIP http://pslip.bii.a-star.edu.sg/ 用氨基酸的多种特性预测亚细胞定位

PSORT http://www.psort.org/ 在线工具: http://psort.hgc.jp/

主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 特征序列分析 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析

GO(Gene Ontology)分类 Gene Ontology介绍 GO ontologies的描述 GO annotation的介绍 GOslim分类统计 BLAST2GO 富集与缺少分析

什么是GO? 随着多种生物genome的相继解码,使得annotation的工作量和复杂度大大增加。大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质的生物学信息,可以用以解释其他物种中对应的基因或蛋白。 Gene Ontology(简称GO)由上述的想法而诞生,用来将所有的蛋白质功能进行分类

Gene OntologyTM (GO) Consortium http://www.geneontology.org/

The structure Hierarchical Directed Acyclic Graph terms have one or more parents is-a and part-of relations GO is hierarchical, and structured as a directed acyclic graph - each term can have more than one is_a parent. directed acyclic graph: 有向非循环图 has both is_a and part_of relationships - the part_of relationship is widely critisised for having different meanings, amongst ontologies but also within ontologies. The meaning we generally use is ‘necessarily is_part’.

Three Ontologies Molecular Function e.g. DNA binding, catalysis of a reaction Biological Process e.g. metabolism Mitosis: 有丝分裂 Cellular Component e.g. nucleus, ribosome

OBO - Open Biological Ontologies http://www.geneontology.org/ontology/gene_ontology.obo http://www.geneontology.org/ontology/gene_ontology.obo As GO has been developed, we’ve come to realise the value of other good, controlled vocabularies to borrow from, and the value of sharing as you build. So one of the developments of GO has been the open biological ontologies - an umbrella repository for collecting and sharing controlled vocabularies in the biological domain. Certain restrictions are put on submitted ontologies - that they be freely available, be in a common syntax, not overlap with existing ontologies. the hope is that this will reduce wasted effort on developing ontologies for the same domain, and also improve compatibility of ontologies with one another.

GO term各字段的说明 unique GO ID id: GO:0006094 name: gluconeogenesis namespace: process def: The formation of glucose from noncarbohydrate precursors, such as pyruvate, amino acids and glycerol. exact_synonym: glucose biosynthesis is_a: GO:0006006 is_a: GO:0006092 term name ontology definition synonym 17800 terms in three ontologies 94% of terms defined Gluconeogenesis:糖质新生 parentage

Ontology Structure Terms 可能有一个以上的父Term,或者一个以上的子Term Terms的连接关系 is-a  part-of 

Ontology Structure cell membrane Mitochondrial nucleus membrane is-a part-of Mitochondrial membrane nucleus nucleus part_of some cell

GO Annotation 电子注释(Electronic annotation) 人工注释(Manual annotation) 量大但质量低并且没有经过校验 人工注释(Manual annotation) 来自文献 花费时间长但质量高

GO Annotation ISS Inferred from Sequence/Structural Similarity IDA Inferred from Direct Assay IPI Inferred from Physical Interaction TAS Traceable Author Statement NAS Non-traceable Author Statement IMP Inferred from Mutant Phenotype IGI Inferred from Genetic Interaction IEP Inferred from Expression Pattern IC Inferred by Curator IEA Inferred from electronic annotation

Accessing annotations to the Gene Ontology 1. Downloads Annotations – gene association file( ftp://ftp.geneontology.org/pub/go/gene-associations/ ) 2. Web-based access AmiGO (http://www.godatabase.org)

Gene Association File DB DB_Object_ID DB_Object_Symbol Qualifier GOid DB:Reference Evidence With Aspect UniProt P06703 S106_HUMAN GO:0008083 GOA:spkw IEA F UniProt P06703 S106_HUMAN NOT GO:0007409 PMID:12152788 NAS P UniProt P06703 S106_HUMAN GO:0005515 PMID:12577318 IPI UniProt:P50995 F DB_Object_Name DB_Object_Synonym DB_Object_Type taxon Date Assigned by Calcyclin IPI00027463 protein taxon:9606 20040426 UniProt Calcyclin IPI00027463 protein taxon:9606 20030721 UniProt Calcyclin IPI00027463 protein taxon:9606 20030721 UniProt

GO 分类统计 什么是GO Slim? 如何做分类统计 GO Slim是GO ontologies的缩减版 Map2slim.pl (Go-perl) gene_ontology.obo Slim文件,如goslim_generic.obo GO Annotation Files

Map2slim.pl 前提条件是安装Perl-activeperl(windows) Go-perl包可从CPAN免费获取 http://www.cpan.org/

gene_ontology.obo http://www.geneontology.org/GO.downloads.ontology.shtml

Slim文件下载 http://www.geneontology.org/GO.slims.shtml

GO Annotation Files

运行方法 根据已有的Accession列表去GO Annotation Files文件中寻找对应的GO ID. Map2slim –t –c goslim_generic.obo gene_ontology.obo gene_associations_file > go_slim.out http://search.cpan.org/~cmungall/go-perl/scripts/map2slim

找不到程序 or不会使用perl

BLAST2GO 首先安装JRE(Java Runtime Enviroment) Blast2Go的Web启动地址:http://www.blast2go.de/

Blast2GO的工作流程

富集分析和缺失分析

主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 特征序列分析 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析

KEGG Pathway(KEGG: Kyoto Encyclopedia of Genes and Genomes) http://www.genome.jp/kegg/pathway/map/map01100.html KEGG的六个大类 Metabolism Genetic Information Processing Environmental Information Processing Cellular Processes Human Diseases Drug Development http://www.genome.jp/kegg/pathway.html

代谢分类(Metabolism) 碳水化合物代谢(Carbohydrate Metabolism) 能量代谢(Energy Metabolism) 脂代谢(Lipid Metabolism) 核酸代谢(Nucleotide Metabolism) 氨基酸代谢(Amino Acid Metabolism) 其它的氨基酸代谢(Metabolism of Other Amino Acids) 多糖合成和代谢(Glycan Biosynthesis and Metabolism) 多酮类和非核糖体多肽类的生物合成(Biosynthesis of Polyketides and Nonribosomal Peptides) 辅助因子和维生素代谢(Metabolism of Cofactors and Vitamins) 次生代谢物的生物合成(Biosynthesis of Secondary Metabolites) 异生素生物降解和代谢(Xenobiotics Biodegradation and Metabolism)

Pathway的各元素的连接 Pathway -> KO [KEGG ontology] Pathway -> ENZYME Pathway -> REACTION Pathway -> Compound Pathway -> GENE [eg. Has:000001]

磷酸化 去磷酸化 泛素化 糖基化 甲基化 激活 抑制 非直接影响 状态改变 绑定/关联 分裂 复合物

基本流程 序列 ID blast convert 标准ID (KO,KEGG GENE) KEGG 工具 画图

KEGG MAPPER http://www.genome.jp/kegg/tool/color_pathway.html

KAAS (KEGG Automatic Annotation Server) Complete or Draft Genome - KAAS job request (BBH method) Partial Genome - KAAS job request (SBH method) ESTs - KAAS job request (BBH method) - KAAS job request (SBH method) http://www.genome.jp/tools/kaas/

(Perl, Java, Ruby, Python) KEGG API 访问KEGG系统应用程序接口 检索和计算生物化学途径 API 调用 用户程序 (Perl, Java, Ruby, Python) 执行 KEGG Web Server 计算返回结果 SOAP: Simple Object Access Protocol 简单对象访问协议是在分散或分布式的环境中交换信息的简单的协议 WDSL:Web 服务描述语言

KEGG API应用准备之Perl篇 必需的Perl模块 确保能访问KEGG网站 SOAP Lite (推荐0.60版) MIME-Base64 LWP URI 确保能访问KEGG网站 http://www.genome.jp/kegg/soap/doc/keggapi_manual.html

Quick Start #!/usr/bin/env perl use SOAP::Lite; # 调用库 $wsdl = ‘http://soap.genome.jp/KEGG.wsdl’; #wsdl文件路径 $serv = SOAP::Lite->service($wsdl); #建立一个服务 $offset = 1; #参数定义 $limit = 5; #参数定义 $top5 = $serv->get_best_neighbors_by_gene('eco:b0002', $offset, $limit); #调用get_best_neighbors_by_gene,获取与基因eco:b0002比对的最好的基因,从第一个开始,取5个 foreach $hit (@{$top5}) { print "$hit->{genes_id1}\t$hit->{genes_id2}\t$hit->{sw_score}\n"; } #-----输出结果

主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 特征序列分析 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析

蛋白质相互作用 相关概念 蛋白质相互作用数据库 蛋白质相互作用的预测方法 蛋白质相互作用的分析 相关软件介绍

生物学背景知识 从DNA到蛋白质: DNA RNA Protein PEPTIDE 转录 翻译 CCTGAGCCAACTATTGATGAA PEPTIDE CCUGAGCCAACUAUUGAUGAA 转录只以某一条单链的某一区段进行,将双链DNA中作为转录模板的那条DNA链称为模板链、转录链、反义链;它没有遗传信息。与转录模板链互补的那条DNA链称为非模板链、有义链、编码链(遗传信息就存在这条链上)。 蛋白质是由多种氨基酸按特定的排列顺序通过肽键连接成有一定结构的高分子化合物。

概念 转录调控作用 直接的物理相互作用 代谢通路中的蛋白质相互作用 基因 蛋白质A 蛋白质B 蛋白质A 蛋白质B 结合,剪切,修饰… 一个蛋白质的表达,间接的同该蛋白质发生相互作用。C) 代谢通路中的蛋白质相互作 用 酶促反应中, 两个酶可通过连续的化学反应发生间接的相互作用。 直接的物理相互作用 反应1 反应2 代谢通路中的蛋白质相互作用

蛋白质组相互作用数据库 数据库名 说明 网址 BIND 生物分子相互作用数据库 http://bind.ca/ DIP 蛋白质相互作用数据库 http://dip.doe-mbi.ucla.edu/ IntAct http://www.ebi.ac.uk/intact/index.html InterDom 结构域相互作用数据库 http://interdom.lit.org.sg/ MINT http://mint.bio.uniroma2.it/mint/ STRING 蛋白质相互作用网络数据库 http://string.embl.de/ HPRD 人类蛋白质参考数据库 http://www.hprd.org/ MPPI 脯乳动物相互作用数据库 http://mips.gsf.de/proj/ppi/ biogrid 蛋白和遗传相互作用数据,主要来自于酵母、线虫、果蝇和人 http://www.thebiogrid.org/ PDZbase 包含PDZ结构域的蛋白质相互作用数据库 http://icb.med.cornell.edu/services/pdz/start Reactome 生物学通路的辅助知识库 http://reactome.org/

数据库比较之数据量 Suresh Mathivanan An evaluation of human protein-protein interaction data in the public domain. BMC Bioinformatics 2006,7

数据标准 PSI-MI Proteomics Standards Initiative(PSI) 定义蛋白质组的数据表示方式 简便数据的比较、交换和检验 XML格式 参考文档:http://psidev.sourceforge.net/mi/xml/doc/user/

HPRD (Human Protein Reference Database) http://www.hprd.org/ 来自于文献而且有实验证据 相关信息 post-translational modifications, subcellular localization protein domain architecture, tissue expression Association with human diseases 除了蛋白质之间的相互作用 蛋白质与核酸的相互作用 蛋白质与小分子的相互作用 数据格式PSI-MI Proteomics Standards Initiative Molecular Interactions HPRD contains annotations pertaining to human proteins based on experimental evidence from the literature [6,7]. This includes PPIs as well as information about post-translational modifications, subcellular localization, protein domain architecture, tissue expression and association with human diseases. In addition to interactions of proteins with other proteins, HPRD also reports interactions of proteins with nucleic acids and small molecules. The PPI data is sub classified as binary or complex interactions based on topology and the number of participants. Binary PPIs are direct interactions between two proteins while complexes represent interactions with more than 2 participants and the topology of interaction is unknown. Relevant publications are cited for each interaction. The type of experiment is also indicated as in vivo (e.g. coimmunoprecipitation), in vitro (e.g. GST pull-down assays) or yeast two-hybrid. Information about post-translational modifications includes the residue of modification, type of experiment and the upstream enzyme. These modifications can be viewed alongside the protein domain architecture. Each protein is linked to a genome browser, GenProt Viewer [8], which allows protein and transcript information to be visualized in the context of the relevant gene. HPRD is also linked to a compendium of signal transduction pathways, NetPath [9], which is freely available in several different formats. This database includes a tool called PhosphoMotif Finder, which reports the presence of any of over 320 phosphorylation-based motifs curated from the literature in a protein of interest. HPRD also incorporates a new feature, Protein Distributed Annotation System (PDAS) which allows researchers to contribute and share their data with the rest of the community. All interaction information can be downloaded from the website either in PSI-MI format or as tab delimited files

DIP http://dip.doe-mbi.ucla.edu/ 人工从文献中获取的 两两相互作用和复杂相互作用 PPI data stored in DIP were obtained through manual curation of the scientific literature and include direct and complex interactions [15,16]. The JDIP is a Java application based visualization tool; it provides a graphical representation of interactions. New high-throughput experimental and predicted PPI data can be evaluated through other services provided by DIP such as Paralogous Verification Method (PVM), Expression Profile Reliability (EPR) [17] and Domain Pair Verification (DPV) [18]. PVM validates interacting pairs by showing the existence of paralogous interactions; EPR validates comparison based on common expression profiles of interactors and DPV validates through domain-domain interaction preferences. Other satellite projects, Live-DIP and DLRP, use the DIP database for accessing the interactions. Live- DIP annotates proteins under different physiological conditions [19] whereas DLRP annotates protein-ligand and protein-receptor pairs known to interact with each other [20].

IntAct 有相互作用的详细说明信息,实验方法,文献来源 提供了初级和高级的数据检索界面 数据格式为PSI-MI (version 1.0 和version2.5) http://www.ebi.ac.uk/intact/main.xhtml The PPI information in the IntAct database includes a brief description of the interaction, experimental method and the literature citation of human proteins as well as proteins derived from several other species [10,11]. Whenever possible, PPI information is isoform specific. The database can be accessed by either a basic or advanced search. The latter provides the user with additional querying options such as experimental method or controlled vocabulary terms listed in PSI-MI. IntAct also has a tool which predicts best baits for pull-down experiments in humans by prioritizing the proteins which have the highest likelihood of being highly connected, or hubs, based on the available data within IntAct for various species – this is termed Pay-As-You-Go algorithm. Additional software developed as part of the IntAct project includes HierarchView, which depicts interaction networks as 2- dimensional graphs and highlights nodes based on a GO category specified by the user (e.g. cellular component).

提纲 相关概念 蛋白质组相互作用数据库 蛋白质相互作用的分析

蛋白质相互作用研究技术及方法 大规模蛋白质相互作用测定技术主要有: 酵母双杂交 串联亲和纯化 质谱分析 蛋白质芯片 噬菌体显示

酵母双杂交系统

To show you how the yeast-two hybrid system works I must first explain very briefly how gene expression is regulated in Yeast. Here is our gene (in red) ; important in regulating our gene is a so-called UAS where a transcription activator c attach. There are two parts or domains to the transcription activator…the DNA binding domain and the so-called activator domain. If the transcription activator has bound to the the UAS then the activator domain is in a position to interact with the transcription machinery for the gene and bring about gene expression. One last piece of information that is required here is that the transcription activator, being a protein, is also coded in the yeast genome. With this background I now return to our original problem or question…do proteins X and Y bind to each other?

In the yeast two-hybrid method we again begin with a yeast gene, this time for a reporter gene, a gene protein the product of which is easy to measure or visualize. This is often the enzyme beta-galactosidase, which if expressed can produces a colored reaction in cells where it comes to expression. His, β-gal

很多真核生物的位点特异转录激活因子通常具有两个可分割开的结构域,即DNA特异结合域(DNA-binding domain,BD)与转录激活域(Transcriptional activation domain ,AD)。这两个结构域各具功能,互不影响。但一个完整的激活特定基因表达的激活因子必须同时含有这两个结构域,否则无法完成激活功能。不同来源激活因子的BD区与AD结合后则特异地激活被BD结合的基因表达。基于这个原理,可将两个待测蛋白分别与这两个结构域建成融合蛋白,并共表达于同一个酵母细胞内。如果两个待测蛋白间能发生相互作用,就会通过待测蛋白的桥梁作用使AD与BD形成一个完整的转录激活因子并激活相应的报告基因表达。通过对报告基因表型的测定可以很容易地知道待测蛋白分子间是否发生了相互作用。 The second gene construct is the activator domain coupled to DNA coding for protein Y. When this gene comes to expression we get another hybrid protein..Y plus the activator domain. Thus the name “two-hybrid”. Now the question: Do we get expression of our reporter. If X can bind to Y the yeast cell can construct an effective transcription activator, which can then bind to the UAS and bring about gene expression. Thus, through the yeast two-hybrid system, and these two hybrid proteins we have answered our question. We have expression of the reporter gene and thus the two proteins do bind.

软件列表 软件名 说明 网址 Osprey 相互作用网络的可视化系统 http://biodata.mshri.on.ca/osprey/servlet/Index PIN 相互作用网络的可视化系统(Yeast) http://www.bioinfo.org.cn/PIN/ Pajek 专业的大型网络分析软件 http://vlado.fmf.uni-lj.si/pub/networks/pajek/ Cytoscape 网络数据分析和显示工具 http://www.cytoscape.org/ VGJ 网络画图软件 http://www.eng.auburn.edu/department/cse/research/graph_drawing/graph_drawing.html PIVOT 蛋白质相互作用显示工具 http://acgt.cs.tau.ac.il/pivot/ ProViz http://cbi.labri.fr/eng/proviz.htm PIMRider® Hybrigenics公司出的功能蛋白质组软件平台 http://pim.hybrigenics.com/pimriderext/common/ Graphlet 用Tcl/Tk写的图形编辑和计算工具 http://www.infosun.fim.uni-passau.de/Graphlet/

Cytoscape简介 Cytoscape Cytoscape是是一种开源式的互作网络分析及 可视化的软件。它主要功能是展示和检索网络,可视化的方式整合指定数据所对应的网络。其中在连接protein-protein, protein-DNA, and genetic interactions等大型数据库方面很强大。 软件拥有插座式结构,可以将所需要的功能以 ”插头”的形式插入软件实现功能。 Graph(网络) Nodes(分子) edges(interactions) Cytoscape

非常感谢!!