蛋白质和蛋白质组分析 孙明明 sunmingming@biosino.com.cn
主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析
cytoscape Pfam DATABASE TRANSFAC IPI Gene ontology ……………………………. GENEGO BLAST cytoscape HMMER TOOLS Interproscan EMBOSS Pajek BLAST2GO ……………………………. Output
IPI - International Protein Index 常见数据 GI:120407068 NP_000537.3 XP_001604088.1 AAF36358.1 P53_HUMAN P04637 Q9EX73 Uniparc:uniprot archive IPI - International Protein Index IPI00025087.2 ENSP00000269305
主要蛋白质序列检索工具 UNIPROT Ensembl NCBI Entrez KEGG DBGET IPI 软件 网址 简短描述 http://www.ncbi.nlm.nih.gov/Entrez NCBI提供的集成检索工具。整合了很多种序列数据库 DBGET http://www.genome.ad.jp/dbget 日本京都大学化学研究所提供的检索序列数据库的工具 UniProt http://www.expasy.org/sprot/ EBI序列检索网页 SRS http://srs.ebi.ac.uk/ 由EMBnet提供的主要数据库检索工具 NCBI Entrez KEGG DBGET IPI
主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析
蛋白质基本物化性质分析 EMBOSS ExPASy(Expert Protein Analysis System) 分子量 等电点 残基数 氨基酸组成 …… EMBOSS Pepstats Pepinfo Pepwindow …… ExPASy(Expert Protein Analysis System) ProtParam Compute pI/MW ProtScale …… http://emboss.sourceforge.net/ http://www.expasy.ch/
EMBOSS - pepstats 在线工具:http://www.ebi.ac.uk/Tools/emboss/pepinfo/ 本地下载:http://emboss.sourceforge.net/download/#Stable
ExPASy - ProtParam http://us.expasy.org/tools/protparam.html 计算多种理化指标 注意,只是序列
主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析
序列相似性比较 两序列比较 多序列比对 主要工具:BLAST 常用数据库:NCBI NR,SWISSPROT 命令示例: formatdb -i nr.fasta –o T –p T blastall –i input.seq –d nr –p blastp –e 1e-3 –b 10 –o blast.out -b 5 –v 5 –a 2 多序列比对 Clustalw/clustalx (http://www.clustal.org/)等 序列相似性比较是蛋白质功能分析和预测的基础。目前这方面最常用的是用NCBI 的BLAST (Basic Local Alignment Search Tool) [31-35]软件进行序列同源性分析。在BLAST家族中,与蛋白质相关的程序包括:BLASTP,在蛋白质序列数据库中比对蛋白质序列;BLASTX,在蛋白质序列数据库中比对该蛋白质的核酸序列(包括6种读码框);TBLASTX,在核酸序列数据库中比对蛋白质序列(包括6种读码框)。序列相似性比较可以获得许多的蛋白质信息,例如对蛋白质功能进行预测的原理是便是基于序列的同源性,通常认为相似的序列可能具有相似的功能。序列比对的另外一种方式是多序列比对(multiple sequence alignment)。可以用于多序列比对的程序如Clustal W[36-40]。多序列比对可以用来发现特征序列、蛋白质分类、比较序列间的同源性、帮助预测新序列二级结构与三级结构以及在进化分析方面均有很大帮助。
主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析
翻译后修饰分析 翻译后修饰是调节蛋白质功能的重要方式,对蛋白质翻译后修饰的研究可以帮助阐明和了解蛋白质功能及其功能变化,翻译后修饰的预测和分析也日渐成为生物信息学蛋白质序列分析中的重要的研究内容。 磷酸化、糖基化、甲基化、泛素化和羟基化等等 翻译后修饰是调节蛋白质功能的重要方式,对蛋白质翻译后修饰的研究可以帮助阐明和了解蛋白质功能及其功能变化,翻译后修饰的预测和分析也日渐成为生物信息学蛋白质序列分析中的重要的研究内容。
翻译后修饰数据库 名字 网址 描述 Swiss-Prot http://expasy.org/sprot/ 含有蛋白质翻译后修饰信息 Phospho.ELM http://phospho.elm.eu.org/ S/T/Y磷酸化位点的数据库 PROSITE http://www.expasy.ch/prosite/ HPRD http://www.hprd.org/ 人类蛋白质的综合信息数据库,含有很多翻译后修饰的信息 RESID http://www.ebi.ac.uk/RESID/ 翻译后修饰的数据库 O-GlycBase http://www.cbs.dtu.dk/databases/OGLYCBASE/ O-糖基化数据库 dbPTM http://dbptm.mbc.nctu.edu.tw/ 翻译后修饰数据库 Phosphosite http://www.phosphosite.org/Login.jsp 磷酸化位点数据库
翻译后修饰预测软件 名字 网址 描述 Scansite http://scansite.mit.edu/ 扫描翻译后修饰序列模式工具 PREDIKIN http://predikin.biosci.uq.edu.au/pkr/ 预测翻译后修饰激酶工具 NetPhos http://www.cbs.dtu.dk/services/NetPhos/ 预测磷酸化的工具 NetPhosK http://www.cbs.dtu.dk/services/NetPhosK/ 预测磷酸化和磷酸化激酶的工具 GPS http://gps.biocuckoo.org/ Big-PI-prediction http://mendel.imp.ac.at/sat/gpi/gpi_server.html 预测GPI的工具 GlycoMod http://www.expasy.ch/tools/glycomod/ 预测糖基化的工具 NetOGlyc http://www.cbs.dtu.dk/services/NetOGlyc/ 预测O-糖基化的工具 NetNGlyc http://www.cbs.dtu.dk/services/NetNGlyc/ 预测N-糖基化的工具 DictyOGlyc http://www.cbs.dtu.dk/services/DictyOGlyc/ 预测O-糖基化工具 YinOYang http://www.cbs.dtu.dk/services/YinOYang/ 预测YinYang行为的工具 Sulfinator http://www.expasy.org/tools/sulfinator/ 预测硫基化工具 OGlyc http://www.biosino.org/Oglyc/ 预测O-糖基化位点工具
主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析
蛋白质功能域分析 一、蛋白质功能域数据资源 数据库名称 简短描述 网址 PANTHER 用实验和进化相关数据信息对蛋白质家族进行分类 http://www.pantherdb.org/ Pfam 多序列比较和隐马尔科夫模式分析覆盖蛋白质功能域和家族 http://www.sanger.ac.uk/Software/Pfam/ CDD 综合各种功能域数据库 http://www.ncbi.nlm.nih.gov/cdd PIR 蛋白质家族分类 http://pir.georgetown.edu/iproclass/ PRINTS 蛋白质家族分类查询 http://www.bioinf.manchester.ac.uk/dbbrowser/sprint/ ProDom 从Swissprot和Trembl中自动提取的关于蛋白质家族和功能域的数据库 http://prodom.prabi.fr/prodom/current/html/home.php PROSITE 蛋白质家族,功能位点,功能域 http://www.expasy.ch/prosite/ SMART 分子结构研究数据库 http://smart.embl-heidelberg.de/ TIGRFAMs 基于隐马尔科夫的蛋白质家族数据库 http://www.tigr.org/TIGRFAMs/index.shtml GENE3D 家族,结构的数据库 SUPERFAMILY 蛋白质家族数据库 http://supfam.org/SUPERFAMILY/index.html Swiss-Prot 蛋白质注释数据库 http://www.expasy.org/sprot/
二、蛋白质功能域搜索工具 HMMER INTERPROSCAN rpi-blast
HMMER HMMER HMMER 是用 “隐马尔可夫模型”(HMM)进行数据库搜索的一个应用程序包。 http://hmmer.janelia.org/#download 免费下载 HMMER 应用程序包。 Hmmpfam 库文件:ftp://ftp.sanger.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz 命令行:hmmpfam Pfam-A.hmm sequence_file > output_file
InterproScan http://www.ebi.ac.uk/Tools/InterProScan/ 本地下载安装:ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan
rpi-blast 应用方法: rpsblast -i input_seqs.txt -d cdd -p T –o out_result ftp.ncbi.nih.gov/pub/mmdb/cdd/ 详细信息: http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/rpsblast.html
主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析
亚细胞定位分析 大部分蛋白质都是先分布到不同亚细胞位置再行使功能的 蛋白质的功能与其亚细胞定位有很强的关联
亚细胞定位数据资源 名字 网址 描述 Swiss-Prot http://expasy.org/sprot/ 含有蛋白质亚细胞定位信息 Gene Ontology http://www.geneontology.org/ cellular component ontologies含有蛋白质亚细胞定位信息 DBSubLoc http://www.bioinfo.tsinghua.edu.cn/dbsubloc.html 蛋白质亚细胞定位数据库 SUBA http://www.plantenergy.uwa.edu.au/applications/suba2/index.php 拟南芥亚细胞定位数据库 LOCATE http://locate.imb.uq.edu.au/ 人和小鼠亚细胞定位数据库 PSORTdb http://db.psort.org/ 细菌亚细胞定位数据库
亚细胞定位预测工具 SignalP http://www.cbs.dtu.dk/services/SignalP/ 预测信号肽及其剪切位点 软件 网址 简短描述 SignalP http://www.cbs.dtu.dk/services/SignalP/ 预测信号肽及其剪切位点 ChloroP http://www.cbs.dtu.dk/services/ChloroP/ 预测转运到叶绿体的肽段 MitoProt http://ihg.gsf.de/ihg/mitoprot.html 预测转运到线粒体的肽段 Predotar http://urgi.versailles.inra.fr/predotar/predotar.html 预测定位到线粒体和胞浆中的肽段 PSORT http://www.psort.org/ 预测蛋白质分选信号和亚细胞定位的位点 TargetP http://www.cbs.dtu.dk/services/TargetP/ 预测蛋白质亚细胞定位位点 DAS http://www.sbc.su.se/~miklos/DAS/ 预测原核细胞蛋白质中的跨膜区域 HMMTOP http://www.enzim.hu/hmmtop/ 预测蛋白质的跨膜螺旋和拓扑结构 LOCtree http://cubic.bioc.columbia.edu/cgi-bin/var/nair/loctree/query 预测蛋白质亚细胞定位 SubLoc http://www.bioinfo.tsinghua.edu.cn/SubLoc/ 支持向量机预测亚细胞定位 CELLO http://cello.life.nctu.edu.tw/ 运用多种方法进行亚细胞定位预测 PSLpred http://www.imtech.res.in/raghava/pslpred/ 支持向量机预测蛋白质亚细胞定位 pSLIP http://pslip.bii.a-star.edu.sg/ 用氨基酸的多种特性预测亚细胞定位
PSORT http://www.psort.org/ 在线工具: http://psort.hgc.jp/
主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 特征序列分析 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析
GO(Gene Ontology)分类 Gene Ontology介绍 GO ontologies的描述 GO annotation的介绍 GOslim分类统计 BLAST2GO 富集与缺少分析
什么是GO? 随着多种生物genome的相继解码,使得annotation的工作量和复杂度大大增加。大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质的生物学信息,可以用以解释其他物种中对应的基因或蛋白。 Gene Ontology(简称GO)由上述的想法而诞生,用来将所有的蛋白质功能进行分类
Gene OntologyTM (GO) Consortium http://www.geneontology.org/
The structure Hierarchical Directed Acyclic Graph terms have one or more parents is-a and part-of relations GO is hierarchical, and structured as a directed acyclic graph - each term can have more than one is_a parent. directed acyclic graph: 有向非循环图 has both is_a and part_of relationships - the part_of relationship is widely critisised for having different meanings, amongst ontologies but also within ontologies. The meaning we generally use is ‘necessarily is_part’.
Three Ontologies Molecular Function e.g. DNA binding, catalysis of a reaction Biological Process e.g. metabolism Mitosis: 有丝分裂 Cellular Component e.g. nucleus, ribosome
OBO - Open Biological Ontologies http://www.geneontology.org/ontology/gene_ontology.obo http://www.geneontology.org/ontology/gene_ontology.obo As GO has been developed, we’ve come to realise the value of other good, controlled vocabularies to borrow from, and the value of sharing as you build. So one of the developments of GO has been the open biological ontologies - an umbrella repository for collecting and sharing controlled vocabularies in the biological domain. Certain restrictions are put on submitted ontologies - that they be freely available, be in a common syntax, not overlap with existing ontologies. the hope is that this will reduce wasted effort on developing ontologies for the same domain, and also improve compatibility of ontologies with one another.
GO term各字段的说明 unique GO ID id: GO:0006094 name: gluconeogenesis namespace: process def: The formation of glucose from noncarbohydrate precursors, such as pyruvate, amino acids and glycerol. exact_synonym: glucose biosynthesis is_a: GO:0006006 is_a: GO:0006092 term name ontology definition synonym 17800 terms in three ontologies 94% of terms defined Gluconeogenesis:糖质新生 parentage
Ontology Structure Terms 可能有一个以上的父Term,或者一个以上的子Term Terms的连接关系 is-a part-of
Ontology Structure cell membrane Mitochondrial nucleus membrane is-a part-of Mitochondrial membrane nucleus nucleus part_of some cell
GO Annotation 电子注释(Electronic annotation) 人工注释(Manual annotation) 量大但质量低并且没有经过校验 人工注释(Manual annotation) 来自文献 花费时间长但质量高
GO Annotation ISS Inferred from Sequence/Structural Similarity IDA Inferred from Direct Assay IPI Inferred from Physical Interaction TAS Traceable Author Statement NAS Non-traceable Author Statement IMP Inferred from Mutant Phenotype IGI Inferred from Genetic Interaction IEP Inferred from Expression Pattern IC Inferred by Curator IEA Inferred from electronic annotation
Accessing annotations to the Gene Ontology 1. Downloads Annotations – gene association file( ftp://ftp.geneontology.org/pub/go/gene-associations/ ) 2. Web-based access AmiGO (http://www.godatabase.org)
Gene Association File DB DB_Object_ID DB_Object_Symbol Qualifier GOid DB:Reference Evidence With Aspect UniProt P06703 S106_HUMAN GO:0008083 GOA:spkw IEA F UniProt P06703 S106_HUMAN NOT GO:0007409 PMID:12152788 NAS P UniProt P06703 S106_HUMAN GO:0005515 PMID:12577318 IPI UniProt:P50995 F DB_Object_Name DB_Object_Synonym DB_Object_Type taxon Date Assigned by Calcyclin IPI00027463 protein taxon:9606 20040426 UniProt Calcyclin IPI00027463 protein taxon:9606 20030721 UniProt Calcyclin IPI00027463 protein taxon:9606 20030721 UniProt
GO 分类统计 什么是GO Slim? 如何做分类统计 GO Slim是GO ontologies的缩减版 Map2slim.pl (Go-perl) gene_ontology.obo Slim文件,如goslim_generic.obo GO Annotation Files
Map2slim.pl 前提条件是安装Perl-activeperl(windows) Go-perl包可从CPAN免费获取 http://www.cpan.org/
gene_ontology.obo http://www.geneontology.org/GO.downloads.ontology.shtml
Slim文件下载 http://www.geneontology.org/GO.slims.shtml
GO Annotation Files
运行方法 根据已有的Accession列表去GO Annotation Files文件中寻找对应的GO ID. Map2slim –t –c goslim_generic.obo gene_ontology.obo gene_associations_file > go_slim.out http://search.cpan.org/~cmungall/go-perl/scripts/map2slim
找不到程序 or不会使用perl
BLAST2GO 首先安装JRE(Java Runtime Enviroment) Blast2Go的Web启动地址:http://www.blast2go.de/
Blast2GO的工作流程
富集分析和缺失分析
主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 特征序列分析 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析
KEGG Pathway(KEGG: Kyoto Encyclopedia of Genes and Genomes) http://www.genome.jp/kegg/pathway/map/map01100.html KEGG的六个大类 Metabolism Genetic Information Processing Environmental Information Processing Cellular Processes Human Diseases Drug Development http://www.genome.jp/kegg/pathway.html
代谢分类(Metabolism) 碳水化合物代谢(Carbohydrate Metabolism) 能量代谢(Energy Metabolism) 脂代谢(Lipid Metabolism) 核酸代谢(Nucleotide Metabolism) 氨基酸代谢(Amino Acid Metabolism) 其它的氨基酸代谢(Metabolism of Other Amino Acids) 多糖合成和代谢(Glycan Biosynthesis and Metabolism) 多酮类和非核糖体多肽类的生物合成(Biosynthesis of Polyketides and Nonribosomal Peptides) 辅助因子和维生素代谢(Metabolism of Cofactors and Vitamins) 次生代谢物的生物合成(Biosynthesis of Secondary Metabolites) 异生素生物降解和代谢(Xenobiotics Biodegradation and Metabolism)
Pathway的各元素的连接 Pathway -> KO [KEGG ontology] Pathway -> ENZYME Pathway -> REACTION Pathway -> Compound Pathway -> GENE [eg. Has:000001]
磷酸化 去磷酸化 泛素化 糖基化 甲基化 激活 抑制 非直接影响 状态改变 绑定/关联 分裂 复合物
基本流程 序列 ID blast convert 标准ID (KO,KEGG GENE) KEGG 工具 画图
KEGG MAPPER http://www.genome.jp/kegg/tool/color_pathway.html
KAAS (KEGG Automatic Annotation Server) Complete or Draft Genome - KAAS job request (BBH method) Partial Genome - KAAS job request (SBH method) ESTs - KAAS job request (BBH method) - KAAS job request (SBH method) http://www.genome.jp/tools/kaas/
(Perl, Java, Ruby, Python) KEGG API 访问KEGG系统应用程序接口 检索和计算生物化学途径 API 调用 用户程序 (Perl, Java, Ruby, Python) 执行 KEGG Web Server 计算返回结果 SOAP: Simple Object Access Protocol 简单对象访问协议是在分散或分布式的环境中交换信息的简单的协议 WDSL:Web 服务描述语言
KEGG API应用准备之Perl篇 必需的Perl模块 确保能访问KEGG网站 SOAP Lite (推荐0.60版) MIME-Base64 LWP URI 确保能访问KEGG网站 http://www.genome.jp/kegg/soap/doc/keggapi_manual.html
Quick Start #!/usr/bin/env perl use SOAP::Lite; # 调用库 $wsdl = ‘http://soap.genome.jp/KEGG.wsdl’; #wsdl文件路径 $serv = SOAP::Lite->service($wsdl); #建立一个服务 $offset = 1; #参数定义 $limit = 5; #参数定义 $top5 = $serv->get_best_neighbors_by_gene('eco:b0002', $offset, $limit); #调用get_best_neighbors_by_gene,获取与基因eco:b0002比对的最好的基因,从第一个开始,取5个 foreach $hit (@{$top5}) { print "$hit->{genes_id1}\t$hit->{genes_id2}\t$hit->{sw_score}\n"; } #-----输出结果
主要内容 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 特征序列分析 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析
蛋白质相互作用 相关概念 蛋白质相互作用数据库 蛋白质相互作用的预测方法 蛋白质相互作用的分析 相关软件介绍
生物学背景知识 从DNA到蛋白质: DNA RNA Protein PEPTIDE 转录 翻译 CCTGAGCCAACTATTGATGAA PEPTIDE CCUGAGCCAACUAUUGAUGAA 转录只以某一条单链的某一区段进行,将双链DNA中作为转录模板的那条DNA链称为模板链、转录链、反义链;它没有遗传信息。与转录模板链互补的那条DNA链称为非模板链、有义链、编码链(遗传信息就存在这条链上)。 蛋白质是由多种氨基酸按特定的排列顺序通过肽键连接成有一定结构的高分子化合物。
概念 转录调控作用 直接的物理相互作用 代谢通路中的蛋白质相互作用 基因 蛋白质A 蛋白质B 蛋白质A 蛋白质B 结合,剪切,修饰… 一个蛋白质的表达,间接的同该蛋白质发生相互作用。C) 代谢通路中的蛋白质相互作 用 酶促反应中, 两个酶可通过连续的化学反应发生间接的相互作用。 直接的物理相互作用 反应1 反应2 代谢通路中的蛋白质相互作用
蛋白质组相互作用数据库 数据库名 说明 网址 BIND 生物分子相互作用数据库 http://bind.ca/ DIP 蛋白质相互作用数据库 http://dip.doe-mbi.ucla.edu/ IntAct http://www.ebi.ac.uk/intact/index.html InterDom 结构域相互作用数据库 http://interdom.lit.org.sg/ MINT http://mint.bio.uniroma2.it/mint/ STRING 蛋白质相互作用网络数据库 http://string.embl.de/ HPRD 人类蛋白质参考数据库 http://www.hprd.org/ MPPI 脯乳动物相互作用数据库 http://mips.gsf.de/proj/ppi/ biogrid 蛋白和遗传相互作用数据,主要来自于酵母、线虫、果蝇和人 http://www.thebiogrid.org/ PDZbase 包含PDZ结构域的蛋白质相互作用数据库 http://icb.med.cornell.edu/services/pdz/start Reactome 生物学通路的辅助知识库 http://reactome.org/
数据库比较之数据量 Suresh Mathivanan An evaluation of human protein-protein interaction data in the public domain. BMC Bioinformatics 2006,7
数据标准 PSI-MI Proteomics Standards Initiative(PSI) 定义蛋白质组的数据表示方式 简便数据的比较、交换和检验 XML格式 参考文档:http://psidev.sourceforge.net/mi/xml/doc/user/
HPRD (Human Protein Reference Database) http://www.hprd.org/ 来自于文献而且有实验证据 相关信息 post-translational modifications, subcellular localization protein domain architecture, tissue expression Association with human diseases 除了蛋白质之间的相互作用 蛋白质与核酸的相互作用 蛋白质与小分子的相互作用 数据格式PSI-MI Proteomics Standards Initiative Molecular Interactions HPRD contains annotations pertaining to human proteins based on experimental evidence from the literature [6,7]. This includes PPIs as well as information about post-translational modifications, subcellular localization, protein domain architecture, tissue expression and association with human diseases. In addition to interactions of proteins with other proteins, HPRD also reports interactions of proteins with nucleic acids and small molecules. The PPI data is sub classified as binary or complex interactions based on topology and the number of participants. Binary PPIs are direct interactions between two proteins while complexes represent interactions with more than 2 participants and the topology of interaction is unknown. Relevant publications are cited for each interaction. The type of experiment is also indicated as in vivo (e.g. coimmunoprecipitation), in vitro (e.g. GST pull-down assays) or yeast two-hybrid. Information about post-translational modifications includes the residue of modification, type of experiment and the upstream enzyme. These modifications can be viewed alongside the protein domain architecture. Each protein is linked to a genome browser, GenProt Viewer [8], which allows protein and transcript information to be visualized in the context of the relevant gene. HPRD is also linked to a compendium of signal transduction pathways, NetPath [9], which is freely available in several different formats. This database includes a tool called PhosphoMotif Finder, which reports the presence of any of over 320 phosphorylation-based motifs curated from the literature in a protein of interest. HPRD also incorporates a new feature, Protein Distributed Annotation System (PDAS) which allows researchers to contribute and share their data with the rest of the community. All interaction information can be downloaded from the website either in PSI-MI format or as tab delimited files
DIP http://dip.doe-mbi.ucla.edu/ 人工从文献中获取的 两两相互作用和复杂相互作用 PPI data stored in DIP were obtained through manual curation of the scientific literature and include direct and complex interactions [15,16]. The JDIP is a Java application based visualization tool; it provides a graphical representation of interactions. New high-throughput experimental and predicted PPI data can be evaluated through other services provided by DIP such as Paralogous Verification Method (PVM), Expression Profile Reliability (EPR) [17] and Domain Pair Verification (DPV) [18]. PVM validates interacting pairs by showing the existence of paralogous interactions; EPR validates comparison based on common expression profiles of interactors and DPV validates through domain-domain interaction preferences. Other satellite projects, Live-DIP and DLRP, use the DIP database for accessing the interactions. Live- DIP annotates proteins under different physiological conditions [19] whereas DLRP annotates protein-ligand and protein-receptor pairs known to interact with each other [20].
IntAct 有相互作用的详细说明信息,实验方法,文献来源 提供了初级和高级的数据检索界面 数据格式为PSI-MI (version 1.0 和version2.5) http://www.ebi.ac.uk/intact/main.xhtml The PPI information in the IntAct database includes a brief description of the interaction, experimental method and the literature citation of human proteins as well as proteins derived from several other species [10,11]. Whenever possible, PPI information is isoform specific. The database can be accessed by either a basic or advanced search. The latter provides the user with additional querying options such as experimental method or controlled vocabulary terms listed in PSI-MI. IntAct also has a tool which predicts best baits for pull-down experiments in humans by prioritizing the proteins which have the highest likelihood of being highly connected, or hubs, based on the available data within IntAct for various species – this is termed Pay-As-You-Go algorithm. Additional software developed as part of the IntAct project includes HierarchView, which depicts interaction networks as 2- dimensional graphs and highlights nodes based on a GO category specified by the user (e.g. cellular component).
提纲 相关概念 蛋白质组相互作用数据库 蛋白质相互作用的分析
蛋白质相互作用研究技术及方法 大规模蛋白质相互作用测定技术主要有: 酵母双杂交 串联亲和纯化 质谱分析 蛋白质芯片 噬菌体显示
酵母双杂交系统
To show you how the yeast-two hybrid system works I must first explain very briefly how gene expression is regulated in Yeast. Here is our gene (in red) ; important in regulating our gene is a so-called UAS where a transcription activator c attach. There are two parts or domains to the transcription activator…the DNA binding domain and the so-called activator domain. If the transcription activator has bound to the the UAS then the activator domain is in a position to interact with the transcription machinery for the gene and bring about gene expression. One last piece of information that is required here is that the transcription activator, being a protein, is also coded in the yeast genome. With this background I now return to our original problem or question…do proteins X and Y bind to each other?
In the yeast two-hybrid method we again begin with a yeast gene, this time for a reporter gene, a gene protein the product of which is easy to measure or visualize. This is often the enzyme beta-galactosidase, which if expressed can produces a colored reaction in cells where it comes to expression. His, β-gal
很多真核生物的位点特异转录激活因子通常具有两个可分割开的结构域,即DNA特异结合域(DNA-binding domain,BD)与转录激活域(Transcriptional activation domain ,AD)。这两个结构域各具功能,互不影响。但一个完整的激活特定基因表达的激活因子必须同时含有这两个结构域,否则无法完成激活功能。不同来源激活因子的BD区与AD结合后则特异地激活被BD结合的基因表达。基于这个原理,可将两个待测蛋白分别与这两个结构域建成融合蛋白,并共表达于同一个酵母细胞内。如果两个待测蛋白间能发生相互作用,就会通过待测蛋白的桥梁作用使AD与BD形成一个完整的转录激活因子并激活相应的报告基因表达。通过对报告基因表型的测定可以很容易地知道待测蛋白分子间是否发生了相互作用。 The second gene construct is the activator domain coupled to DNA coding for protein Y. When this gene comes to expression we get another hybrid protein..Y plus the activator domain. Thus the name “two-hybrid”. Now the question: Do we get expression of our reporter. If X can bind to Y the yeast cell can construct an effective transcription activator, which can then bind to the UAS and bring about gene expression. Thus, through the yeast two-hybrid system, and these two hybrid proteins we have answered our question. We have expression of the reporter gene and thus the two proteins do bind.
软件列表 软件名 说明 网址 Osprey 相互作用网络的可视化系统 http://biodata.mshri.on.ca/osprey/servlet/Index PIN 相互作用网络的可视化系统(Yeast) http://www.bioinfo.org.cn/PIN/ Pajek 专业的大型网络分析软件 http://vlado.fmf.uni-lj.si/pub/networks/pajek/ Cytoscape 网络数据分析和显示工具 http://www.cytoscape.org/ VGJ 网络画图软件 http://www.eng.auburn.edu/department/cse/research/graph_drawing/graph_drawing.html PIVOT 蛋白质相互作用显示工具 http://acgt.cs.tau.ac.il/pivot/ ProViz http://cbi.labri.fr/eng/proviz.htm PIMRider® Hybrigenics公司出的功能蛋白质组软件平台 http://pim.hybrigenics.com/pimriderext/common/ Graphlet 用Tcl/Tk写的图形编辑和计算工具 http://www.infosun.fim.uni-passau.de/Graphlet/
Cytoscape简介 Cytoscape Cytoscape是是一种开源式的互作网络分析及 可视化的软件。它主要功能是展示和检索网络,可视化的方式整合指定数据所对应的网络。其中在连接protein-protein, protein-DNA, and genetic interactions等大型数据库方面很强大。 软件拥有插座式结构,可以将所需要的功能以 ”插头”的形式插入软件实现功能。 Graph(网络) Nodes(分子) edges(interactions) Cytoscape
非常感谢!!